行业新闻

技术人最不该忽视可视化数据分析!毫不犹豫反义词

每日掏心话

来自公众号 阿里技术 | 责编:乐乐

图片来自网络

正文

01 前言

通过文章你可以获得的建议:

加工正确的数据

一个实例

在这里首先我想说下数据可视化追求的三个目标:准确、清晰、优雅。符合这三项的凯发娱乐赌场在线图表被称为高效的数据可视化:

除此之外,这三项的重要性也有相对次序:准确 清晰 优雅,原则上我们该尽量往这三个方面靠拢。

其实应当分情况来看,高效的数据可视化根据目的差异,大致分为两种类型:

已知目标数据的特征信息或者价值;

追求极致的细腻表达。

未知目标数据的特征信息或者价值;

追求快速高效的数据交互。

原则上工具没有孰优孰劣,只是相对而言。笔者对常见种类的典型代表工具做了一个定性评估:

这里我将Excel与Tableau高亮了出来,Tableau作为业界最著名的BI软件,容易上手,可视化效果也非常棒,有助于你分析探索数据。而Excel是一款被大多数人严重低估的产品,它可以很方便实现各类图表微调,画出漂亮的数据图。

03 选择有效的图表

抛开一些专业理论,简单来讲,我们制作图表的步骤分为3步:

对于步骤1,主要考虑数据本身的信息与作者自身的洞察信息,列清楚这些信息,有助于你选择合适的可视化方法。下文我会讲述一些常用的方法论知识,但不是简单给出你要选择柱形图or饼图。至于具体的图表选用指南可以Google一下。

首先看两张图:


由于使用了视觉编码传达信息,人们更容易理解原数据的特征了。


我们要来熟悉两个重要概念: 视觉编码 视觉通道 。如果把人类大脑看做是一个信息解码系统,那么可视化就是对信息的编码过程,信息通过视觉编码后,将内容通过眼睛传达至大脑,大脑解码信息并获取知识。

那么图形的视觉通道有这么多,该如何选择合适的视觉通道映射数据呢?这里需要通过数据的类型以及视觉通道的表现力进行综合判断,基础的学术理论有详细说明,这里我做一下简单介绍。

一般我们数据分为 类别型 、 有序型 和 数值型 三类,苹果、香蕉属于类别,几月几号属于有序,利润5000属于数值。在很多可视化商用工具的概念中,将 有序、类别型 的数据称为维度, 数值型 的数据称之为度量。

★ 数据通道的表现力

精确性

可分离性

深度理解这些标准,有助于我们明白一些可视化图表修改建议背后的深层次原因。


这组测量数据采用科学的方法反映了一些制作经验的合理性,比如:


使用长度映射数据的柱形图通常是最佳可视化选择 长度与感知是线性变化。


我们结合柱形图做一个举例,下图的柱图使用了宽度映射了一个度量字段数据,宽度影响了长度的有效力,这两个通道的同时使用,使得感知上有趋近面积这一通道,从而影响了整体图表的效果。

有一次一位业务的同学问我为什么不给柱图的柱子加 圆角 功能,其实也是这个原因,过度的圆角会使长度损耗精确性,对于图表的整体表现力是破坏。


数据的视觉编码在学术上有一个冗长的表现力优先级列表,我在这里简化这些概念,只给出一份推荐使用的视觉通道,理论上这些通道之间都可以组合使用,请根据实际情况挑选最佳方案。



设计图表,好的视觉编码是最重要的点,除此之外,对数据的筛选也是一项挑战,过大的信息量会使图表显得混乱,造成认知负荷。对于JavaScript构建的可视化内容,我们还需要关注数据交互。

一般的可视化文章会用墨水比这一项指标来衡量负荷的轻重。设计的不合理,会给受众过度、冗余或者毫无意义的信息传达。


完整的原理一共有8项内容,这里我主要介绍最为重要的临近原则、相似原则 闭合原则。

人们倾向物理上相近的元素为一个整体。

... ........ .......



人们倾向将颜色、大小或者形状等属性类似的对象看作一个整体。

我们可以更进一步使用这一效应来帮助用户解读图表


★闭合原则



当我们看到一副图表,凭借自己朴素的美学经验指出图表缺陷时,不妨深入思考下,这个缺陷是违反了哪一条心理学原理,还是水墨比不平衡。

可视化的实践经验太多太多,我想再着重强调一下位置和颜色的巨大影响。

位置是一个丰富的概念,图表一切的元素都处于 位置 之中,你不得不谨慎对待元素的位置属性。无论是轴标记位置、文本说明位置、标题位置、图例位置还是图形本身的相对位置。摆正它们,可以使图表不显得信息杂乱,可以帮助用户更容易理解你想传达的信息。

排序:任何时候,我们都需要对数据排序。柱图的柱子从来都不该是被随意摆放的,排序是对元素的位置属性最重要的应用。没有规律的数据表达会给用户带来额外的解读负担。

★颜色

1. 尽量避免同时使用红色 绿色,色盲的同学无法分辨他们,这也是为什么大多数图表库和软件的默认颜色的第一序列是蓝色;2. 维度数据使用色调,度量数据使用饱和度和明度;3. 在保证信息完整传达的前提下,使用的颜色越少越好;4. 颜色在上下文需要保持统一步调,例如之前的图用 绿色 代表香港,下面的图就不应该使用 黄色 或者 红色 , 预测数据 使用绿色, 实际数据 使用蓝色,保持秩序,减轻用户认知负荷;5. 颜色能比其他视觉通道更能引起注意,也就意味着更容易使人疲劳。确保你使用的颜色是 有序 的,五彩斑斓、明暗跳跃的色彩序列并不可取;6. 设计之前,可以参照一些品牌设计手册,一般被叫做visual manual。阿里几乎每个BU都会有类似的材料,可以找你们的UED同学要。使用品牌色更容易获得目标人群的青睐。但是也不是所有的品牌色都适用,使用前应当思考下效果。7. 注意你使用颜色的场合,事实上由于各国文化和宗教信仰的不同,相同色彩在不同人群中的情感性质很不一样。比如中国人喜欢红色,但是不见得西方国家喜欢。还有医院和金融业,也是典型的颜色敏感行业,给炒股的老板看图表不要用绿色作为主色调......
8. 放弃酷炫,我们看数据不是为了酷炫。


这个网上资料一抓一大把,选择图表前,其实更多的是要想清楚你的数据想传达的目的。数据分析纷纷咋咋,总结起来,不外乎4个目的:对比、聚焦、归纳、演绎。基于这些初始目的出发,我们再选择实例化它。


上面这张图实在太大啦,关注 程序员小乐 官方公众号,并在对话框内回复 分析 ,即可获得原图下载链接啦~

4.1 为可视化调整数据结构


★ 1.行列转换


原表数据中,很可能只有 ID 、 XXX编码 、英文内容等特征数据,为了我们最后的可视化加工效果,为了图表易于解读,我们需要更多的额外数据进行关联处理,比如:

将英文翻译成对应中文,比如将male与female转换成 男 跟 女 ;

从时间数据字段中转换出 季度 、 财年 、 周 、 交易日 等契合业务场景的时间类型字段。

此类转换需要结合一定的具体场景,一般来讲,原始表只提供原始数据,具体场景提供数据转换规则,典型的例如:

新顾客、老顾客。 新 与 老 都是随着时间推移的相对概念,不太会存储在数仓的原始数据表中,用户需要根据当前分析的时间窗口,自助加工出新老顾客的定义字段。

原始数据中,不免混入异常数据,我们把错误数据和不合理数据统称为异常数据。这些数据不剔除,会直接影响可视化最终的展现效果,从而影响分析效果和决策效能。我们在制作图表前,一定要做这一环的处理。

4.3 对特殊值做精细化处理

★空、null、0

0:小明参加了语文考试,得了0分;

null:小明没有语文这门考试。

★极端数据


在使用BI工具进行可视化展示的时候,需要注意原始数据的数据量大小。通常软件服务所在的服务器性能不是无限的,合适大小的数据量有助于取得交互展示的最佳表现。

另外,大部分工具都支持 派生字段 ,尽量在 物化 或者 实体表 阶段固化这些派生数据,也有助于性能表现。对于BI软件需要计算的派生数据而言,计算发生的环节决定其性能表现:

05 一个实践案例

在这里介绍一个可视化图表优化的优秀案例,原始材料来自Cole Nussbaumer的英文blog,有兴趣的同学可以翻翻她的博客,会获益良多。同样D3作者Mike Bostock也产出了大量高质量的可视化内容,非常值得借鉴。

★1. 原始图表


咋一看这图也没啥错,但是博客作者看到了一些改进点:


X轴未区分过去与未来的区别

上文讲述过视觉通道会相互影响有效性,这里图例中的小正方形尺寸过小,影响了颜色的解读,这就使得蓝色的major projects和浅蓝色的proposed allowance难以区分。;

缺少度量数据说明。


此刻作者遇到了困境,不知该如何进一步改进。不过能够显而易见的是,改进版本一的水墨比过重,用了较多鲜艳的色调,并且同时使用了色调、图案两项视觉通道。着墨过多,但又没有明显传达更多数据信息。

★3. 改进版本二




作者在改进版本二中分析出了一些数据特征,显然这些特征还没有在可视化中表达出来,图表还有改进空间。


并且将用户的视角引导到了建议配合与现有配额上来。


很明显,我们看到了两组数据的规律,那么如何通过可视化将这个规律更加简明易懂的传达给用户呢,作者改进了图表的标记形式。



★6. 改进版本五


接下来是最后加工:将自己的见解和洞察以合适的方式放入图表中。


★7. 最终版本