数据可视化
数据可视化笔记
可视化的目标和作用
可视化定义:通过可视表达增强人们完成某些任务的效率
可视化意义:可视化作为某种外部内存,在人脑之外保存待处理信息,可补充人脑有限的记忆内存,有助于解决人脑的记忆内存和注意力的有限性问题。同时,图形化符号可将用户的注意力引导到重要的目标,可有效地传递信息。
传统可视化方法可以大致分为两大类:探索性可视化和解释性可视化。
-
探索性可视化:在数据分析阶段,不清楚数据中包含的信息,希望通过可视化快速的发现特征、趋势和异常,这是一个将数据中的信息传递给可视化设计与分析人员的过程
-
解释性可视化:在视觉呈现阶段,依据已知的信息或知识,以可视的方式将它们传递给公众。
数据分析的任务通常包括:定位、识别、区分、分类、聚类、分布、排列、比较、内外连接比较、关联和关系等
可视化简史
- 16世纪:图表萌芽
- 17世纪:物理测量
- 18世纪:图形符号(折线图饼图)
- 19世纪:可视化应用(多维信息可视编码)
- 1900-1987:信息可视化(编程)
面向非结构化、非几何的抽象数据,例如:社交网络和文本数据的可视化(词云),更关注抽象高维的数据。
挑战:针对大尺度的高维数据尽可能减少视觉混淆,展示用户感兴趣的信息。
分类:
- 时空数据可视化(地理数据与时变数据的可视化)
- 层次与网络结构数据可视化(人与人之间的关系,道路连接,是只有一个根节点的网络结构,是不存在回路的特殊网络例如家谱)
- 文本与跨媒体数据可视化( 例如词云)
- 多变量数据可视化(用于描述现实生活中复杂问题和对象的数据,例如如何将人脸数据高维复杂的数据放在二维)
- 20世纪80年代:科学可视化(交叉学科)
面向科学与工程领域,带有空间信息和几何信息的三维测量数据,计算模拟数据,医学影像数据,呈现实测或仿真的科学数据中的特征、模式和演化规律。
挑战:挖掘数据中几何拓扑的形状特性
分类:
- 标量场可视化(扫描或测量设备例如X光,从计算机或仿真设备)
- 向量场可视化(案例:飓风风场的可视化)
- 张量场可视化(向量的推广,具有更高的维度,案例:大脑神经纤维的走向可视化)
- 2004年至今:可视分析学
可视分析学被定义为一门由可视交互界面为基础地分析推理科学。它通过综合可视化、图形学、数据挖掘和人机交互等方法,以可视化交互界面为通道,将人地感知和认知能力以可视的方式融入数据处理过程,形成人脑智能优势互补和相互提升,辅助用户从大尺度、复杂、甚至不完整的数据中快速挖掘有用的信息,支持用户决策。
以交互式界面为基础的分析推理科学,结合了可视化,人机交互与数据挖掘,解决需要人参与理解和决策的多种实际问题。
练习
1.可视化的分类包含(A.科学可视化B.信息可视化D.可视分析学)。
3.张量场可视化属于可视化的哪个分支学科(科学可视化)。
5.可视分析学涉及到的学科包括(A.计算机图形学B.数据挖掘C.人机交互D.统计分析)。
6.使用以下哪种可视化工具不需要编程基础(Tableau)。
感知与认知
- 感知:指客观事物通过人的感觉器官在人脑中形成的直接反映(视觉嗅觉等)。
- 认知:认知是指人们获得知识或应用知识的过程,或信息加工的过程。
观察物体的变化需要集中注意力,在可视化中突出变化,可以减少认知负担
感知系统基于相对判断,而非绝对判断。使用相同的参照物或者相互对齐,有助于人们做出更加准确的相对判断。
格式塔理论
格式塔Gestalt理论:结构比元素重要,视觉形象首先作为统一的整体被人认知,而不是将事物理解程组成该事物所有部分的集合。
- 贴近原则:空间位置相近
- 相似原则:形状颜色等
- 连续原则:沿物体边界,将不连续的物体视为连续整体
- 闭合原则:在某些视觉映像中,其中的物体可能是不完整的或者不闭合的。只要物体的形状足以表征物体本身,人们会很容易地感知整个物体而忽视未词合的特征。(对二维平面点集用封闭曲线分为三个区域,或IBM公司商标)
- 共势原则:一组物体具有沿着相似的光滑路径运动趋势或具有相似的排列模式时,将被识别为同一类物体。(eg:look at me,follow me,read me!)
- 好图原则:人眼通常会自动将一组物体按照简单、规则、有序的元素排列方式识别,这就是说个体识别世界的时候通常会消除复杂性和不熟悉性来理解被识别的物体。(eg:奥运五环和割裂的圆环)
- 对称原则:人的意识倾向于将物体识别为沿某点或某轴对称的形状。
- 经验原则:某些情形下视觉感和与过去的经验有关。如果两个物体看上去距离相近,或者时间间隔小,那么它们通常被识别为同一类。(ABD和12 13 14)
标记与视觉通道
将数据映射为可视化元素的方法叫可视化编码。
可视化编码由两方面组成:
- 标记:点线面(维度、局部全局)
- 视觉通道:用于控制标记的展现特征,包括标记的位置、大小、形状、方向、色调、饱和度、亮度等
当我们在编码数据的时候, 我可以选用什么视觉通道来进行编码呢?
数据的分类:
- 类别型数据(区分数据):男女
- 有序型数据(表示数据的顺序关系)
- 数值型数据(表示对象的定量数值)
视觉通道分类:
- 定性/分类型(描述感和对象是什么或在哪里适合编码分类型的数据信息):形状,颜色色调,空间位置
- 定量/定序型(描i述感和对象某一属性的具体数值是多少,适合编码有序型的或者数值型的数据信息):直线长度,区域面积,角度,空间体积,颜色饱和度,亮度
- 分组型(描述一个或多种标记的组合适合将存在相互联系的分类的数据属性进行分组,从而而表现数据的内在关联性):位置接近,颜色相似,显式连接,显式包围
视觉通道的选择标准?
- 表现力:视觉通道的表现力要求视觉通道准确编码数据包含的所有信息。也就是说,视觉通道在对数据进行编码的时候,需要尽量忠于原始数据。
- 有效性:表现力更高的视觉通道编码更重要的数据信息
表现力是怎么排出来的?
- 精确性:描述人类感知系统对于可视化的判断结果和原贴数据的吻合程度
- 可辨性:如何在给定的取值范围内选择合适数目的不同取值,使得人类的感和系统可以轻易区分该视觉通道的两种或多种取值状态。
- 可分离性:描述不同视觉通道在被用于表达数据属性的时候,两两之间的干扰现象。如何在给定的取值范围
- 视觉突出:在很短的时间内(200~250毫秒),仅仅依赖感和的低阶视觉即可直接察觉某一对象和其他所有对象的不同的现象
可视化编码的步骤:
- 识别数据类型
- 确定想要传递的信息
- 选用合适的标记与视觉通道
- 迭代
练习
1.有的人在发朋友圈的时候,会把一张图片切成9份,然后再按顺序拼出一个九宫格,如下图所示。虽然图片被分割开来,但是我们仍旧能够感知到图片原来完整的样子,这体现了格式塔理论的(连续)原则。
2.下图所示的图片体现了格式塔理论的(接近)原则。
3.下图所示的图片体现了格式塔理论的(相似)原则。
4.下图所示的可视化中运用了以下哪个视觉通道(高度)。
5.下图所示的可视化中体现了哪种类型的视觉通道(分组型)。
6.下列视觉通道中,哪些是定性/分类视觉通道(B.空间位置C.形状)。
7.下图所示的可视化中运用了哪些视觉通道(C.颜色色调D.角度)。
8.以下关于感知与认知的一些描述,正确的有哪些(A.可视化可以作为外部辅助来增强工作记忆B.认知是信息加工的过程C.在可视化中突出变化,可以减少认知负担)。
9.根据格式塔理论,人们在观看时,眼脑在一开始的时候会先区分一个形象的各个单一的组成部分,然后再将各个部分组合起来,使之成为一个易于理解的统一体(错误)。
10.形状是一种典型的定性视觉通道(正确)。
数据
大数据四个特征:数量大,更新快,多样性,准确性。
数据属性
分为:
- 类别属性:也称为状态,类似于东西的名称。
- 序数属性:属性能提供对象之间的比较信息,不一定能加减。如果一个序数属性中的数据在算术运算下具有意义,那么这种更细分的类型数据成为数值属性。数值属性又可以分为离散和连续两种
统计方法在数据分析中的意义:了解数据总体情况的有力工具,分析数据的基础
方法有:均值,中位数,方差(表示数据的离散程度,方差越小越集中)
了解分布,了解数据对象之间的关系(相异性矩阵),去除冗余数据
数据相似性度量:
- 失配比:两个数的失配比就是它们中值不相等的属性个数占总属性个数的比例。适用于类别型属性
- 杰卡德距离:p表示XY都取1,q表示X1Y0,r表示X0Y1【d=(q+r)/(p+q+r)】适用于类别型属性
- 欧拉距离:两点之间的直线距离公式适用于比值型数值属性
- 曼哈顿距离:适用于比值型数值属性
(A)可以用( )计算类别属性的距离,而用( )计算数值属性的距离。
- A.失配比;欧拉距离
- B.欧拉距离;曼哈顿距离
- C.曼哈顿距离;闵可夫斯基距离
- D.失配比;Jaccard相似系数
数据特征
基本统计特征:
- 集中趋势度量:中位数,均值,众数
- 离中趋势度量:极差,标准差,变异系数,四分位数
- 数据分布形状:偏态和峰态
数据的不确定性分类:
-
存在不确定性:数据是否存在具有一定概率
-
属性不确定性:属性的值不是一个单一值,而是按一定的概率取多种值
不确定性产生的原因:
- 数据本身存在误差
- 从低精度数据集合转换到高精度数据集合的过程引入存在不确定性
- 满足特殊应用的需求:保护个人隐私,应用会对原始数据进行变换、扰动和添加噪声。
- 缺失值处理:用不同的方式去填补会有一定的误差。
- 数据集成:不同的数据源数据信息可能存在不一致。
数据预处理
目的:提高数据质量,使得可视化的效果和质量得以提高。
数据科学:
- 第一范式:几千年前记录和描述自然现象的经验科学;
- 第二范式:数百年前使用模型归纳总结过去记录的现象的理论科学;
- 第三范式:利用科学计算机对复杂现象进行模拟仿真的i计算科学;
- 第四范式:i十算机将模拟仿真,进行分析总结,得到理论,即数据密集型科学。(2007年)
数据质量评判:
- 有效性:数据与予以相对应时,都会带有一定约束条件
- 准确性
- 完整性:两个层面的完整性,从数据集角度讲包含了数据源中所有的数据点,对单个数据样本来说,每个样本的属性是否完整
- 一致性:整个数据集中的数据所适用的衡量标准应该一致
- 时效性
- 可信性
数据预处理步骤:
1、数据清理:修正数据中的错误,识别离群点及更正数据不一致的过程。
数据清理涉及的典型的数据错误类型:
- 缺失值(使用常量代替缺失值,使用属性平均值进行填充,利用回归分类方法进行预测式填充,人工填充)
- 噪声值(回归分析,离群点分析)
2、数据集成:在实际应用中,经常会遇到来自不同数据源的同类数据,且用于分析之前需要进行合并操作,实施这种合并操作的步骤成为数据集成。
数据集成需要解决的问题:
- 属性匹配(确定不同数据源中数据属性之间的对应关系)
- 冗余去除(数据记录的冗余,因数据属性间的推到关系而造成的数据属性冗余)
- 数据冲突检测与处理(来自不同数据源的数据记录在集成时因某种属性或约束上的冲突,导致集成过程无法进行)
数据存储
文件存储
数据库(关系型数据库,非关系型数据库)
数据仓库(特征:面向主题、集成化、非易失和时变)
数据存储和可视化
数据分析
目的:萃取和提炼隐藏在一大批数据中的信息,以找出所研究对象的内在规律
广义的数据分析可分为三个类别:统计分析,在线分析OLAP,和数据挖掘
- 统计分析:针对样本数据,分析过程基于已有的假设,着重于验证假设
- OLAP:将数据实体的多项重要属性定义为多个维度,允许用户比较不同维度上的数据,侧重于查证假设
- 数据挖掘:通常不预设假设,侧重于主动发现数据中隐藏的有用信息。这些信息可能在预料之中,也可能是预料之外。数据挖掘力求解决实际问题,处理的数据通常比较复杂。
探索式数据分析VS传统统计分析
探索式数据分析:指对已有的原始数据在尽量少的先验假定下,将统计方法与作图、制表、方程拟合和特征量计算等手段相结合,探索数据的结构和规律的一种数据分析方法。
探索式数据分析的可视化分为:
- 原始数据可视化
- 统计结果可视化
- 多协同视图
数据挖掘:是从大型数据库、网络上或其他大型储存库中,自动地发现和提取模式、特征或和知识(非常规的或以前未知的信息)。
数据挖掘的任务分类:
- 描述性任务:概念描述,关联分析,聚类,异常分析
- 预测性任务:分类,演化分析
数据挖掘的常见功能:
分类与预测、聚类分析、关联分析、异常分析
数据轨迹:是一种单变量数据呈现方法,通过将自变量与因变量在图中用点呈现出来。数据轨迹可以直观地展现数据分布、走势以及离群异样品。
1、直方图:是对数据集的某个数据属性的频率统i计。
-
每个区间的数据之和为数据集整体
-
不同的数据分布在直方图下有不同的效果
2、等高线图
3、走势图:简单的数据变化趋势,通常是折线图
4、散点图:当数据大于二维,所有维度两两取出,每对维度一个散点图可以形成散点图矩阵
5、热力图:有3个维度的数据,利用颜色属性,将第三个维度的数值映射为颜色值,此时就成了热力图。可以展示三维数据点的分
布情况。
6、盒须图:
7、多协同视图:将多个视图结合起来,每个视图展现数据某个方面的属性,并允许用户进行交互分析。
(C)以下说法正确的是
- A.分类任务属于描述型任务【预测型】
- B.通过搜索引擎获得搜索结果属于数据挖掘【不属于】
- C.可视化是让领域专家参与到数据挖掘过程中的一种方法
- D.异常分析属于预测型任务【描述性】
练习
1.现有两个数据(0, 1, 0, 1, 0)与(0, 0, 1, 1, 1),其中每个属性为二元属性类型,则它们的Jaccard相似系数为(0.75)。
2.以下哪种类型科学称为第四范式(数据密集型科学)。
3.以下哪种可视化方法能够反应每个数据项所占的比例(饼状图)。
4.以下哪种方法能够可视化统计的结果(盒须图)。
5.以下的哪种相似性度量方法能够用于计算类别属性的相似性(Jaccard相似系数)。
6.以下的哪些选项满足大数据的特征(A.多样性B.数量大D.更新快)。
7.以下的哪些类型的任务属于描述型任务(B.关联分析C.异常分析D.概念描述)。
8.数据挖掘算法主要可分为以下哪几类(A.统计方法C.机器学习D.传统算法)。
9.闵可夫斯基距离不能表达曼哈顿距离的形式(错误)。
10.数据轨迹不能展现自变量与因变量的关系(错误)。
数据可视化基础(上)
数据可视化流程
数据可视化流程:
- 数据采集
- 数据处理和交换:包括去噪,数据清洗,提取特征等
- 可视化映射:是整个可视化流程的核心,将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素,如标记、位置、形状、大小和颜色等。
- 用户感知:从数据可视化结果中提取信息,知识和灵感
数据处理和变换
1、数据归一化:数据的归一化是将数据按比例缩放,使之落入一个小的特定范围。其中最典型的是数据统一映射到[0,1]区间上。数据变换方法有:线性变换,反正切变换,标准化及其他用户自定义变换
2、数据平滑化(曲线拟合):发现数据的趋势,分析变量之间的关系
3、数据采样:从总体中选出个体样本来估计总体特征(统计),将连续信息简化为离散信号(信号)
【一维】分箱:将一组连续值分组装进一些“小箱子”的方法(选择合适的区间大小)
【多维】数据降维:常见方法有线性PCA,多维尺度分析,非线性等距特征映射等。
数据聚类:例如kmeans
4、数据滤波:去噪,从数据信号中去除不需要的部分。
5、数据降维:线性由MDS,PCA ,NMF,非线性有ISOMAP,SOM,LLE
6、数据采样:将离散数据转换为连续信号进行处理或将数据的维度和粒度进行变换时,需要对数据进行重新采样,常见的例子包括:放大缩小视角,填补缺失信息,计算某精度位置的数据,针对离散数据集,往往通过插值法得到给定位置处的采样数据。
7、数据聚类和部分
练习
1.可视化可以将难以理解的原始数据变换成用户可以理解的模式和特征,并显示出来。依据可视化流程概念图,在原始数据和可视化中间这一步骤是(数据处理和变换)。
2.常见的归一化方式中的反正切变换的值域是([-1, 1])。
3.在Tamara Munzner提出的可视分析模型中,可视设计的what why how三个维度中的what指代的是什么(对于要被可视化的数据的抽象)。
4.可视化和其他数据分析处理方法最大的不同是用户起到了关键作用,可视化映射后的结果只有通过(用户感知)才能转换成知识和灵感。
5.属性类型中包括了类别型和(有序型)。
6.在设计一个可视化解决方案的过程中,了解数据采集这一步骤中的(A.数据的属性B.数据的来源D.数据的采集方法),才能有的放矢地解决问题。
7.在Tamara Munzner的可视分析模型中的what这个维度中,数据集类型包括(A.网络数据B.表格型数据C.场数据D.地理数据)。
8.数据降维方法一般分为哪些种类(A.非线性方法C.线性方法)。
9.在可视化流程概念图中,各个模块的联系仅仅是顺序的线性联系(错误)。
10.数据离散化/分箱时,需要根据分析需求和可视化效果来选择合适的离散化区间大小(正确)。
数据可视化基础(下)
不同视觉通道在点线面上的表示:
可视化编码有关视觉通道的内容可参考第二章感知与认知章节中的视觉通道
可视化图表
- 原始数据绘图:折线图,堆叠柱状图(分解整体用于比较局部),走势图,饼图,柱状图,散点图
- 简单统计值标绘:例如盒须图
- 多视图协调关联
可视化三部曲
- 可展示数据筛选:适当数据量
- 可视化编码映射:选择合适的标记和视觉通道(考虑数据语义和用户个性特征)
- 视图与交互设计(单视图or多视图,确定视图的交互)交互方式有滚动缩放 颜色映射 数据映射方式转换 细节层次控制
可视化设计进阶
- 考虑因素:添加标注和说明,确保标注的有效性和合理性,提高可视化的表现力(聚焦均衡简单)
- 隐喻技术:是用人门熟悉的某样事物去表达信息,人而使得可视化内容更加直观、易懂。
练习
5.颜色的视觉通道包括(A.色相/色调C.饱和度D.透明度)。
8.视觉通道就是图像中的基本几何元素(错误)。
9.盒须图的IQR中包含上四分位数、下四分位数和平均数(错误)。
10.在对可展示的数据进行筛选时,要确保不能展示过多数据,同时也不能展示过少数据(正确)。
空间数据可视化
场数据是对连续的空间进行度量(现实世界/软件模拟),大多与空间时间,地理位置有关
空间数据场
命名:根据空间的维度,与属性值的特征共同命名 ,多元结构取决于属性值,多维结构取决于空间维度
例如:降水数据是二维标量场,湿度数据是三维标量场,风场数据是三维矢量场,核磁共振扫描是三维张量场
空间数据来源:实际测量的值和软件模拟的结果
进行采样时,单元格的栅格往往有三种形式
对数据进行采样的时候要考虑采样频率所带来的相关数学问题,一定程度上可以采样插值。
栅格VS表格:表格型数据存储离散的对象,仅代表空间中特定的点的值不会充满整个空间。
空间场数据的可视化:根据数据类型和分析任务确定
标量场
一维
通常指沿空间某一路径采集的数据。一维时间标量数据记载一个标量随时间推移而变化的取值。
通常用二维坐标图或折线图来可视化。
二维
例子:医学诊断的X光片,实测的地球表面温度,遥感观测的卫星影像,
从几何的角度,二维数据的定义域分为:
- 平面型
- 曲面型
平面型二维数据可视化方法:
- 颜色映射法
- 等值线提取法
- 高度映射法
- 标记法(离散,不需插值)
三维
科学研究和社会活动通过模拟计算或实验观测产生三维数据,记录了三维空间场的物理化学等属性及演化规律。
获取数据方式:
- 采集设备获取
- 计算机模拟
三维数据可视化方法:
- 等值面绘制(等值面、等值线、特征值等)
- 直接体绘制(直接对三维数据场变换、着色,在屏幕上生成二维图像)
等值面绘制
移动立方体结构分为256种,最后通过旋转对称等变换将256种情形归结为15种情形。
歧义性问题:
- 某些情形可以用多种不同的等值面结构解释
- 在一个立方体中使用结构不同的等值面可能导致在最终结果中出现缝隙
解决方法:
- 移动四面体法:将立方体分割为多个四面体,在四面体上构造等值面
- 直接修复缝隙
不适用场景:形状较小,结构复杂,存在噪声等无法利用几何表明准确描述的特征,容易产生大量散乱的三角形或存在漏洞的网格
直接体绘制
直接体绘制不提取几何表示,直接呈现三维空间标量数据中的有用信息,像X光一样穿透整个空间,以模拟光学原理的方式将物质分布、内部结构和信息分布以半透明的方式表达
根据数据处理的流程分为:
- 图像空间
- 数据空间
图像空间
常见绘制方式:
- X光绘制:对每一个像素,简单叠加光线上采样点的数值作为该像素的灰度
- 最大值投影:主要用于显示血管,它将光线上最大的采样数值赋予像素
- 等值面绘制:效果等价于等值面抽取,可用于显示数据中的边界结构。
- 半透明绘制:核心是模拟光线通过数据空间时的各种光学效应,包括发射,吸收,衰减,散射等。光线生成这些效果分别对应于不同的体光学模型,其核心时如何将光线上的采样点的数值通过传输函数转换为颜色和透明度,最后合成为像素的颜色。这种映射关系统称为传输函数,可表达为定义数据值及其相关属性与颜色、不透明度等视觉元素之间映射关系的列表。
数据空间
数据空间的直接体绘制方法以三维空间数据场为处理对象,从数据空间出发向图像平面传递数据信息,累积光亮度贡献。代表方法为雪球法:将三维空间中的数据点想象成一个个雪球,将数据向投影平面投影的过程相当于将雪球投掷到投影平面而形成二维的雪片。当所有网格上的雪球都被投掷到投影平面上,将雪片的密度叠加得到最终雪片的密度。
掷雪球法优点:简单有效,适合结构较为稀疏的三维标量场。但随着数据量增大,绘制效率会有所下降,且绘制质量低于光线投射法。
传输函数设计
传输函数将数据值映射为有意义的光学属性(发射光的颜色和不透明度),实现对数据的分类,揭示空间数据场内部的结构。这个从数据到颜色和不透明度的映射被称为传输函数。
常规多变量数据可视化
由于每个点上有多个数值,一种直接的做法是将每个数值分别用标量可视化方法显示。尽管可以完整表示所有变量,却难以表达变量之间的关联。
挑战:将多个变量统一在一个显示空间。
已有方法:
- 多可视化元素:采用多可视化元素表达不同的变量。eg:涡旋流向流速用箭头方向,大小,颜色,椭圆形状等不同可视化元素表示。
- 标记:设计灵活,一个标记可表达多变量值。局限性在于一个视觉空间只能排放一定数目的标记,限制了可视化的分辨率。此外准确性有一定限制,而且用户往往要花一定精力去解读标记。eg:盒须图,星型图
- 降维:将多变量数据从高维变换到低维空间,降维后的数据可采用常规的可视化方法显示。
矢量场
矢量场数据(流场数据):每一个点的天量的方向都代表流体在这个位置的流向,天量的大小代表流速。在动态流场中还要考虑时间变量
举例:流体力学中对水流的模拟,气象站对大气风向的观测,赛车设计时对风阻及压力的计算。
可视化方法:
- 标记法:最基础的表示方向的办法就是用三角形或箭头表示方向的标记。用方向的标记编码不同位置上的天量的方向和大小。局限性:可显示空间的尺寸会限制标记的数量,限制了可视化的精度。离散排布的标记缺乏对场数据连续性的直观表达。解决:积分曲线法。
- 积分曲线法:跟踪粒子在流场中的轨迹由于积分曲线可以跨越很长的距离,如果用每个数据点作为种子点,产生的曲线数目大,且曲线相互遮挡不能看到全貌。分类:流线(静态场生成的积分曲线),迹线(动态场生成的积分曲线),脉线(从一个点不停发射新的粒子)
- 纹理法:标记难以传递全局信息,积分曲线表达全局但摆放密度有局限,纹理法则解决二者。比如点噪声法,线积分卷积(可视化效果逼真,信息密度大)
- 拓扑法:流场中的积分曲线在大部分时间里和临近的积分曲线向大致相同的方向延展,但不相交。只有当向量为0时积分曲线相交。在流场中向量为零的点为称为临界点或奇异点。临界点和分界线等时流场拓扑学的研究范畴,这种简化可视化方法也称为流场拓扑方法。
张量场
张量场数据:常用于表示物理性质的各向异性。如固体力学和士木工程中,张量用来表示应力、惯性、渗透性和扩散。医学图像领域,张量场是弥散张量成像的理论基础。
张量表示标量、向量或其他张量之间的线性关系。由于代表的时两个向量(或张量)之间的关系,所以张量是一个与坐标系无关的值,可以用矩阵表示。一个张量在不同坐标系中有不同的矩阵形式,可以通过变换法则互相转换。
举例:弥散张量成像数据
由于张量过于复杂,无法直接可视化出所有分量,我们可以采用指数法或标记法。
标量指数法:将每一个张量转换为一个标量,运用标量的可视化方法进行展示。但是会丢失很多信息。标量指数设计的目的是在于找到能反映样本物理性质的值,这些值不应随坐标系的改变而变化。eg:两次扫描图像时样本和扫描仪之间的角度变了会得到不同的值,因此张量矩阵中任何一个元素都不是好的标量指数。相反,张量的最大特征根反映了水分子在所有方向上最快的扩散速度,而不随坐标系变化,时一个有意义的标量指数。
张量标记法:大多数张量标记有六个自由度并可以完全表示在一点上的张量。最常用的张量标记是扩散椭球。其他三维标记如立方体和圆柱体也可以用来表示扩散张量的特征根和特征向量。
纤维追踪法:扩散张量场中最重要的向量是与最大特征根对应的特征向量,它指向生物组织中水分子扩散最快的方向。由于生物组织结构对水分子扩散的夏至,这个方向在纤维大组织如脑白质或肌肉中往往与纤维组织的方向重合,可以重现生物组织的结构。
混合绘制:难点:正确显示不同类型会制对象间的层次关系和透明颜色的叠加
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-SA5LJ9nN-1655478550425)(https://s2.loli.net/2022/05/17/czeKX9qxyrT3Q65.png)]
练习
1.天气预报中的地表温度地图属于哪一种空间场(二维标量场)。
5.积分曲线法生成的各种曲线中,展现静态场特征的是(流线)。
6.以下哪些是空间场数据(B.X光片C.天气预报中的温度分布数据D.气象卫星遥感数据)。
7.以下哪些是标量场数据(C.三维云图(湿度)数据D.天气预报中的地表气温地图)。
8.以下哪些数据适合使用积分曲线法进行绘制(A.天气预报中的地表风向地图B.三维风向数据)。
9.只有分布在三维空间中的数据才是空间场数据(错误)
10.绘制二维标量数据时,颜色映射和高度映射的方法可以同时使用(正确)。
11.由于张量场数据通常较为复杂,无法直接可视化出张量的所有分量(正确)。
时间序列数据可视化
时间序列数据指任何随时间而变化的数据。
时间属性:
- 有序
- 连续性
- 周期性:如季节
- 独立于空间
- 结构性:如年月日小时分钟秒等
可视化方法:
- 周期时间可视化:例标准的单轴序列图,或径向布局
- 日历可视化
- 时间线可视化
- 动画显示法:将数据中的时间变量映射到显示时间上,即动画或用户控制的时间条。
- 时空坐标法:若将时间和空间维度同等对待,可以将时序数据作为空间维度加一维显示。
- 邮票图表法:只需熟悉一个小图的地理区域和数据显示方法,便可以类推到其他小图上。
分类:时间序列数据(股票走势图),顺序型数据(生物DNA测序)
特点:量大、维数多、变量多、类型丰富、分布范围广泛
可视化设计的三个维度
表达维度:线性、径向、网格(日历)、螺旋、随机(排版/时间曲线)
比例维度:按时间顺序,相对,对数,次序,次序+ 中间时长
布局维度:单一时间线,多时间线,分段时间线
多变量时变型数据可视化
数据本身的属性+数据集的顺序型+数据分析的方法=展现挖掘数据中的规律
步骤:
- 数据抽象,包括数据降维、特征选取和数据简化
- 数据聚类,核心在于定义恰当的距离或相似性度量
- 特征分析,包括特征抽取、语义分析等操作
可视化形式:
基于线表示:主要针对高维、抽象、时变非空间数据的可视化
基于图结构:基于事件的时变型数据可视化,核心是事件演化的组织
交互
从时变型数据中查询特定的时间序列,以便交互地发现特征和趋势
流数据可视化
流数据的输入数据并不存储在可随机访问的磁盘或内存中,而是以—个或多个“连续续数据流”的形式到达。
例如:移动通讯日志,网络数据,传感器网络记录
特点:
- 数据流的潜在大小也许是无限的;
- 数据元素在线到达,需要实时处理;
- 无法控制数据元素的到达顺序和数量;
- 某个元素被处理后,要么被丢弃,要么被归档存储;
- 对于流数据的查询异常情况和相似类型比较耗时,人工检测日志相当乏味且容易出错
交互
- 对输出内容地可视检索
- 对可视布局地基本交互
- 自定义的数据定制
(多数据库的设计既保护了原始数据又提高了数据存储的效率)
数据可视化:
监控型:用滑动窗口固定一个时间区间,把流数据转化为静态数据,数据更新方式可以是刷新,属于局部分析。
叠加型或历史型:把新产生的数据可视映射到原来的历史数据可视化结果上,更新方式是渐进式更新,属于全局分析。
系统日志监控流数据可视化
系统日志数据反映了一台机器、一个计算集群的系统性能,是商业智能中最重要的数据。
文本流数据可视化
文本数据从事件角度对文本进行可视分析,挖掘事件的发生、发展及变化。
地理信息可视化
描述的是对象在空间中的位置和属性。
地理空间数据:真实的人类生活空间,由移动设备和传感器产生。
地理空间数据可视化:计算机自动生成视图支持用户的交互。
地图制图学:设计用于印刷的静态地图,手动设计。
地理空间数据可视化:数据展示与分析。
地理信息系统科学:地理信息的存储与管理。
表示地图投影的三种方法:等角度投影(航海),等距离投影(联合国国徽),等面积投影。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lnly4a6T-1655478550426)(https://s2.loli.net/2022/05/22/X62fa5CUlDPsVum.png)]
地图上的点与线
点:经纬度坐标和对象的名称,类别组成,是地理数据可视化中最基础的数据类型。
点数据的可视化:点标记,图标标记。
可视化原则:符号必须直观且符合常识,且符号的种类和数量不宜过多
点数据的可视化:聚合方法,采样方法(模拟原数据分布的低密度数据;减轻视图的员担和数据的交叠)
线:连接两个或多地点的线段或路径
线数据可视化方法:直接绘制。
【ABCD】当数据量过大时可以采用哪些方法高效的进行点数据和线数据的可视化
- A.聚合
- B.采样
- C.采用布局算法,避免遮挡
- D.根据用户需求,提供过滤接口,只展示用户所需要的数据。
区域数据可视化
简单理解为地图的一个区域,有长度和宽度,是由一系列的点围成的一个封闭的二维空间。
可视化方法:等值线图
分级统计地图
①假设数据平均分布,不能很好的展示区域内数值分布。
②视觉误导,解决方法:比较统计图(适当变形)
不同位置的区域可能有关联关系,所以可以采用连线或集合的形式展现区域属性之间的多元关系,例如气泡集合,线集合地图。
地理信息可视化
自然数据
更注重展现数据的地理位置,维度和数值。
最常见的是和气象相关(对三维数据进行体绘制),由于会有遮挡所以三维绘制伴随交互操作,允许旋转缩放等
城市数据
挑战:数据量大,多源异构。需满足多样的分析任务。需表达让用户更容易发现数据特征的数据。
案例:交通管理,选址问题(购房)
练习
1.以下哪种几何体不是典型的地图投影技术应用的投影目标(正方体)正确答案。
2.以下那幅图是线数据可视化中的边绑定技术(D)正确答案。
3.假设我们想要用颜色展示城市中各个路口的拥堵程度。请问下列颜色编码中最符合要求的一组颜色是(B)。
4.一般所指的地理信息数据,不包括下面哪种数据(人的社交网络数据)。
5.下列选项中,不是地理信息数据可视分析应用的是(自动计算异常的轨迹)。
6.在区域数据的可视化中,在关注对象在空间中实际位置的前提下,设计展示区域的交通状况时,以下那种可视化方法是合理的(B.使用斜线标注每一个区域,斜线越密表示区域中车辆越多。同时采用交互的方法,当用户选择某一区域时,展示区域的详细信息。C.使用区域的颜色编码拥堵程度,仅使用红单色,越红表示越拥堵)。
7.常见的地图可编码的元素中,包含下面哪些项(A.元素的间距B.元素的排列C.元素的方向D.元素的亮度)。
8.为了展示某地区的人流量,下列可视化方法可以采用的有(B.对该地区的人流量做线图,横坐标是时间,纵坐标是人流量C.对地区进行颜色编码。颜色越深表示人越多D.对地区设计图标,表示该地区人流量的大小和方向)。
9.为了展示城市中700万人群轨迹的真实情况,应该把所有收集到的人的轨迹按照他们的经纬度绘制在地图上(错误)。
10.在用户更加关注区域的某个数值属性时,可以对区域的形状或大小进行更改,展示这个数值的属性值(正确)。
高维非空间数据可视化
数据降维的方法分为两种:
线性:MDS,PCA,NMF
非线性:ISOMAP(等距映射),LLE(局部线性嵌入 )
PCA主成分分析
参考链接:http://www.moontang.xyz/2022/04/06/%E4%BB%A3%E7%A0%81%E5%9D%97/%E6%9D%82/%E4%B8%BB%E6%88%90%E5%88%86%E5%88%86%E6%9E%90%E6%B3%95PCA/
MDS多维尺度分析
参考链接:http://www.moontang.xyz/2022/06/11/%E4%BB%A3%E7%A0%81%E5%9D%97/%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96/%E5%A4%9A%E7%BB%B4%E5%B0%BA%E5%BA%A6%E5%88%86%E6%9E%90MDS/
层次和网络数据可视化
数据的三类基本类型:数值型、有序型和类别型。
而本章关注另外两类更加特殊却广泛存在的泛序型数据,这种泛序并不是前面章节中提到的时间顺序或空间顺序,而是更加抽象却又广泛存在的关系顺序,即数据之间的关系层次或是关系网络。
层次数据可视化
表达事物之间的从属和包含关系,这种关系可以是事物本身固有的整体和局部的关系,也可以是人们在认识世界时赋予的类别与子类别的关系或逻辑上的承接关系。
可视化方法有:
- 结点链接法
- 空间填充法
- 混合型
结点链接法
树型结构的直观表达。包括正交布局、径向布局的树以及在三维空间中布局的树等方法。
优点:直观展现数据的层次结构
缺点:当树的结点分布不均或树的广度深度相差较大时,部分结点占位稀疏而另一部分结点密集分布,可能造成空间浪费和视觉混淆。
分类:正交布局,径向布局,三维布局
空间填充法
空间填充法采用嵌套的方式表达树型结构,代表性方法有圆填充、树图等。
优点:有效利用屏幕空间
缺点:在数据层次信息表达上,空间填充法不如结点链接法结构清晰,不易表现非兄弟结点之间的层次关系
分类:圆填充图,树图,Voronoi树图
混合型
结点链接法和空间填充法具有明显的互补性,因此可以针对数据特性混合应用两种布局方法,在空间填充图中嵌入结点链接图,或是对结点链接的某些分支使用空间填充图。
弹性层次图是混合布局的代表。
例如:旭日图,冰柱图
网络数据可视化
层次数据反映个体之间或语义上的从属关系,网络数据则表现更加自由、更加复杂的关系网络。例如:计算机网络中的路由关系,社交网络中的朋友关系,协作网络中的合作关系。
网络的结点中心性是网络的重要属性。
- 度中心性:以度为衡量标准
- 中介中心性:以结点在最短路径上出现次数为衡量标准
- 接近中心性:以结点到所有其他结点距离和的倒数为衡量标准
- 特征向量中心性:衡量结点在图中影响力
分析网络数据的核心:挖掘关系网络中的重要结构性质,如结点相似性,关系的传递性,社区,网络的中心性。
可视化方法:
- 结点链接法
- 相邻矩阵
- 混合型
结点链接法(边少)
网络结点链接法采用结点表达数据个体,链接表达个体间的关系。
优点:呈现网络拓扑结构,表达网络中心性和关系的传递性
缺点:太多边会造成多边交叉,造成视觉混乱
核心问题:由于关系数据的结点不存在位置信息,如何通过结点的布局表达个体的相似性
可视化方法:
- 力引导布局:采用弹簧模型模拟动态布局的过程,使得最终布局中结点之间不相互遮挡,比较美观,同时能够反映数据点之间的亲疏关系和网络的重要拓扑属性。优点:在局部区域内点与点之间的距离能够较忠实的表达内部关系。缺点:但却难以保持局部与局部之间的关系。
- 多维尺度布局:将结点数据看成高维空间的点,采用降维方法嵌入低维空间,力求保持数据之间的相对位置不变。优点:追求全局最优,即保持整体的偏离最小,使得输出结果更符合原始数据的特性。
- 其他结点链接布局
相邻矩阵布局(边多)
优点:如实记录任意两结点之间的相互关系,不会引起可视元素的交叉重叠
缺点:网络拓扑结构欠清晰
核心问题:如何揭示网络的拓扑性质
目标:将关系紧密的结点聚集
混合布局
nodetrix
图的交互和简化
图可视化领域最新技术:
- 图的拓扑简化(边简化,结点简化):会造成信息的丢失
- 图的边绑定:主要针对结点连接图中关系过多造成的边互相交错、重叠、难以看清等问题。边绑定不减少边和结点总数,将图上相互靠近的边捆绑成束,从而达到去繁就简的效果
图可视化交互:
- 基于视点的交互:平移旋转缩放
- 基于图元的交互:结点选择高亮删除移动等
- 基于图结构的交互:例如鱼眼
跨媒体数据可视化
媒体有多种形式,包括文本、图像、视频、音频等。综合多种传播媒体获取和理解信息已经成为信息传播的发展潮流,因此“多媒体”与“跨媒体”的概念应运而生。
多媒体指组合两种或两种以上媒体的一种人际交互式信息交流和传播媒体
跨媒体则强调信息在不同媒体之间的分布和关联
文本可视化
基本流程
文本处理
主要任务是根据用户需求对原始文本资源中的特征信息锦绣分析
三个基本步骤:
- 文本数据预处理:排除原始数据中一些无用或冗余的信息(技术:分词技术、词干提取)
- 特征抽取
- 特征度量
可视化映射
以合适的视觉编码和视觉布局方式呈现文本特征。
交互
对同一个可视化结果,不同用户感兴趣的部分可能各不相同,而交互操作提供了在可视化视图中浏览和探索感兴趣部分的手段。
向量空间模型VSM
主要思路:将一个文档转换为一组高维空间的特征向量,由该组特征向量构成文档的特征向量空间。
在此基础上,可对文本进行计算和度量,如文档相似性计算、文档的分类和聚类等。
特征项
文本中可抽取的最小的度量单元,如字、词、词组或短语等,每篇文档都可以由若干个特征项所形成的一组特征向量表示。一般通过分词和词干提取来获取。
特征项权重
指某特征项在文档中所占比重。同一个特征项对不同文档的重要性不尽相同。因此,特征项对于文档的权重可以有效刻画文档的主体结构。
一种最简单直观的方法是将每个特征项在文档中的出现的频数作为该特征项在文档中的权重:频数越大,该特征项对于该文档的重要性越高,因此越能代表该篇文档。这样得到的由一组特征项以及特征项在文本中出现的频数所组成的向量成为该文本的词频向量。
词频向量是最简单也是最常用的刻画文档的特征向量。
注意事项:
- 为排除文本长度对于文本主题表达的影响,可根据文本的长度对单词出现的频数进行归一化,即用单词出现的频数除以文本的总单词数得到该单词在文本中的频率。
- 在计算特征词的权重时,应将该特征词对文本的区分能力考虑在内,即如果一个词在整个文本几何或语料库中出现的频率较高,那么该词对于单个文本的区分能力则不高,其权值较低,反之亦然。
以上可得到信息检索领域最重要发明之一即TF-IDF权重度量。TF为单文本词频,IDF为逆文本词频。一个词在越少的文档中出现,而在单个文档中出现的越多,则表明这个词的相对重要性较高,可区分文本能力越强。
单文本内容可视化
- 标签云
- 单词树
- NovelViews
多文档可视化
- 星系视图:单个文档是宇宙星系中的星星,其在视图中的位置按照某种相似性计算规则投影到二维平面中,主题越相似的文本距离越相近。
- 主题山地:点在视图中的距离与其所嗲表的文档主题之间的相似性成正比,主题越相似距离越近。点分布越密集表明该类属性的文档数目越多,其高度越高。
- 新闻地图:使用了树图的布局方式将新闻文本进行归类与可视化。
时序型文本可视化
时序型文本通常指具有内在顺序的文档集合,例如一段时间内的新闻报道。由于时间轴是时序型文本的重要属性,需重点考虑时间轴的表示与可视化。
- 主题河流:将主题随着时间不断发生变化隐喻为河流的不断流动。某个时间点上河流的宽度表示与该主题相关的文本数量,数量越多,宽度越大。缺点:并不能展示主题的内容如何随时间演化。
- TIARA:每条色带代表一个主题,但其采用标签云技术展示每个时间点的关键词,字体越大,表明该时间点上与该关键词出现的频率越高。
- 文本流:前两种都是针对单个主题随时间的演化进行的可视化,然而,实际应用中,文本的主题往往不是独立演化,而是多个事件主题互相影响。所以文本流可视化使用了支流来隐喻主题之间的相互融合或分离。
社交网络可视化
社交网络服务指基于互联网的人与人之间的相互关系、信息沟通和互动娱乐的运作平台。
社交网络是一个网络型结构,由结点和结点之间的连接组成。单纯的探究网络中结点或边或计算物理中的统计信息并不能揭示网络的全部内容和潜在信息。
社交网络可视化最直观的呈现方式是网络结构。
研究重点:
- 社区
- 聚类系数:同一个体的朋友彼此之间可能仍是朋友,这种性质被定义为聚类特性
- 小世界网络:六度分隔理论(两个陌生人之间要建立联系,中间平均最多经过5个朋友)
- 点度中心性:当一个结点的度数较高时,可影响周围更多的结点,具有较高的点度中心性
- 接近中心性:衡量个体与其他所有个体之间的接近程度。可以用结点与其他所有结点之间最短路径之和的倒数衡量。
- 中间中心性:某个体处在多个个体往外连接的必经通道时,则该个体对应的结点具有较强的控制其他个体之间信息交往的能力,其地位相对重要,中间中心性较高。
- 特征向量中心性:衡量该结点的影响力,与该结点相连的其他结点的中心性可用于度量该结点的特征向量中心性。
可视化方法
结构型
着重展示社交网络的结构,即体现社交网络中参与者和他们之间关系的拓扑结构。常用可视化方法是结点链接图。
统计型
社交网络某些特性的统计变量的分布可用柱状图、折线图、饼图等基本统计图表进行可视化。
语义型
对复杂社交网络中的语义信息进行可视化,可以有效地发现社交网络中的舆情和突发事件等。
时序型
社交网络中用户的行为具有时间戳,将时间信息作为属性融入社交网络的可视化可反映社交网络的动态变化情况。
日志数据可视化
一种记录所观察对象的行为信息的数据。
日志数据类型的特点:
- 大尺度
- 非结构化、异构
- 流数据
- 数据陷阱
可视化交互与评估
可视化显示:数据经过处理和可视化映射转换成可视化元素并呈现。
可视化交互:将用户探索数据的意图传达到可视化系统中以改变可视化显示。
可视化交互方法分类
选择
-
直接方式:鼠标直接点击、鼠标画方框等形式
-
间接方式:用户输入一些约束条件选择数据
-
普通模式
-
只能模式:由算法确定最终选取的数据,选取方式简单而且效果好。
探索
由于数据维度、大小、可视化角度和用户感知能力等限制,任何用户在任何一个时间段只能看到有限的数据。
探索操作则让用户主动寻找并调动可视化程序区寻找感兴趣的数据。在探索过程中通常需要在可视化中加入新数据或者去除不相关的数据。可以用户手工操作,也可以自动完成。
布局
优化布局的目的是避免绘制元素的过度重叠,显示数据中的某种隐藏图案,或者展示数据之间的某种关系等
可视化编码
可视化编码不仅仅是可视化的一个必要过程,而且是探索过程中常用的操作。衡量一个可视化编码是否适用取决于能否绘制出数据的特征。
抽象/具体
面向大规模数据的可视化通常需要先简化数据再进行显示。抽象或具体的程度可以划分为不同等级。简化数据不可避免地回丢失一部分低层细节或掩盖一些高层结构。通过用户交互改变数据的简化程度并且显示不同层次上的结构是一个可视化中广泛应用的方法。
过滤
过滤和选择的区别:过滤删除数据,选择只显示指定数据。
链接
由于空间有限,难以在同一空间显示所有链接,因而需要根据用户需求即时展示重要的链接。
可视化交互空间
- 屏幕空间:移动、放大缩小、旋转
- 数据值空间:调整可视化显示中数据值范围
- 数据结构空间:用户选择可视化中数据的细节层次
- 可视化参数空间:为了达到不同的绘制效果或突出部分数据区域,用户可交互调整可视化参数。
- 数据/物体空间:指数据的直接绘制空间。用户通常在这个空间内直接观察和选择数据。
- 可视化结构空间:当可视化系统包含多个视角时,视窗的位置和大小构成了可视化结构空间。调整可视化结构空间可以更有效地利用有限地屏幕资源,展现相关数据更多地细节
可视化交互模型
概括+细节模型
先概括概貌,进而用户与视图进行交互,例如探索或过滤,最后可视化用户所关注内容的细节。
聚焦+上下文模型
聚焦指为用户感兴趣的内容展示更多细节,上下文指适度展示用户关注点之外的其他数据,使用户理解聚焦数据和周围数据的关系。
对偶界面模型
对偶界面指对于同一数据同时采用两种不同方式的可视化,并且允许用户同时在两个视窗内进行可视化交互操作和交互结果的关联。
可视化软件与工具
科学可视化
Paraview
Visualization Toolkit(VTK)
信息可视化
D3
R
更多推荐
所有评论(0)