《数据之美》读书笔记

《数据之美:一本书学会可视化设计(Data Points: Visualization That Means Something)》

数据之美:一本书学会可视化设计

笔记摘要

引言 可视化是一种媒介

由于数据代表了一定的人物、地点和事物,所以除了真实的数字之外,还有重要的背景信息。数据是关于谁的?它从哪里来以及是什么时候收集的?虽然是计算机生成并输出数据,但我们也需要对这些由人处理的部分负责。

花一些时间去了解数据以及它们所代表的东西,能加倍提升可视化的效果。

无论哪一种可视化类型都有其规则可循。这些规则并不取决于设计或统计数字,而受人类感知的支配。它们确保读者能准确解读编码数据。

规则是应该时时遵循的,而建议则要具体分析,视情况而决定是否采纳。

数据表达了什么

数据是对现实世界的简化和抽象表达。

数据所依存的背景信息

背景信息可以完全改变你对某一个数据集的看法,它能帮助你确定数据代表着什么以及如何解释。在确切了解了数据的含义之后,你的理解会帮你找出有趣的信息,从而带来有价值的可视化效果。

使用数据而不了解数值本身之外的任何信息,就好比拿断章取义的片段作为文章的主要论点引用一样。

或许应该有一条针对数据的黄金准则:你希望别人怎样对待自己的数据,你就要怎样对待别人的数据。(注:指数据收集的原因,是否适合对外分享,比如隐私数据、安全数据等)

新数据研究需要新工具

我们今天使用的许多传统图表,如折线图、条形图和饼图等都是威廉姆・普莱菲尔(William Playfair)发明的。

信息图形和展示

通俗地说,可视化设计的目的是「让数据说话」。这意味着将数据或信息可视化,然后放弃那些处理熟悉且模式明显的数据时很好用的方法。

可视化的娱乐性

在研究和学术领域中,可视化通常是数据研究工具,注重精确和视觉效率。你要管查数据,弄明白能做什么,然后快速转移到数据的另一部分。

另一方面,从业者倾向于针对每个案例进行设计和创作。他们肯定会从过去的工作和经验中学习,但目标通常是为一组数据设计定制的工具、交互方式和图形。

各种可视化组件

有将近 8% 的男性和 0.5% 的女性是红绿色盲。

William Cleveland 与 Robert McGill 发表的视觉暗示(不包括图形)精确度排序

Graphical Perception Order

视觉暗示排序清单(不包括形状),从精确到不精确:位置、长度、角度、方向、面积、体积、饱和度、色相。

盲目相信这份清单(指上面视觉暗示排序清单图)就是把可视化想得太简单了。效率和准确度往往不是最终目标。也就是说,不管数据是什么,最好的方法是知道人们能否很好地理解视觉暗示,领会图表所传达的信息。

坐标系指定了可视化的纬度,而标尺则指定了在每一个纬度里数据映射到哪里。

(标尺)和坐标系一起决定了图形的位置及投影的方式。

这些标尺分为三种,包括数字标尺、分类标尺和时间标尺。

整合可视化组件

热区图用来表现二位数据,而等值域图基本上就是地理图。

用不同的标尺和度量把(美国)各个州绘成了不同的颜色,这就是等值域图。

对于可视化来说,视觉暗示、坐标系、标尺和背景信息都是你拥有的原材料。视觉暗示是人们看到的主要部分,坐标系和标尺可使其结构化,创造出空间感,背景信息则赋予了数据以生命,使其更贴切,更容易被理解,从而更有价值。

数据可视化的过程

在探索数据可视化时,总体而言应考虑以下四点:

  • 拥有什么数据?
  • 关于数据你想了解什么?
  • 应该使用哪种可视化方式?
  • 你看见了什么,友谊已吗?

《眼见为实》(The Eyes Have It)中这句话经常被引用:「先总览,再缩放并筛选,然后按需寻找细节」。

时序数据的可视化

如果你更关心整体趋势,而不是具体的月度变化,那么就可以对这些点使用 LOESS 曲线法,而不是连接每个点。

LOESS(或 LOWESS)是局部加权散点图平滑法(Locally weighted Scatterplot Smotthing)的缩写,这是威廉・克利夫发明的统计方法,适合数据子集不同点的多项式函数。拟合后形成了平滑的线。

空间数据的可视化

等值区域图是在某个空间背景信息中可视化区域数据时最常用的方法。这种方法使用颜色作为视觉暗示,不同区域根据数据填色。数值大的区域通常使用饱和度高的颜色,数值小的区域则使用饱和度低的颜色。

绘制地图,尤其是绘制等值地图时所面临的一个挑战是大面积的区域总是得到更多的注意,无论起数据如何。它们在现实世界及电脑屏幕上占据了更多的空间。统计图可以弥补这个缺陷。在某种程度上保留地点,但地理学的面积和边界则不符存在。

统计图的优点是面积和数据大小相当,缺点是地理精度不够。

多元变量

探索变量关系的时候,不要混淆了因果关系和相关性。

更多的视觉暗示可以帮助加强只有一个视觉暗示时可能难以看清的内容。

数据的分布

上四分位数与下四分位数间的范围被称为四分位间距。下限和上限边界分别由下四分位数和上四分位数减去和加上 1.5 个四分位间距来确定(上下限不是直接用最大值最小值来刻画,而是根据上下四分位数来计算确定)。

无论用哪种可视化工具探索数据分布,你都要寻找峰值、谷值、数据范围以及数据的分布情况。比起平均数和中位数,这些东西能告诉你的内容更多。

建立视觉层次

有视觉层次的图表容易读懂,能把读者引向关注焦点。相反,扁平图则缺少流动感,读者难以理解,更难进行细致研究。

增强图表的可读性

基于数据的背景信息选择几何图形和颜色。

留白和主要元素间的差异越小,可视化图形就越不清楚。要试着找到合适的平衡。

高亮显示重点内容

然而,把可视化图形从报告中抽出来,或者断开它和提供背景信息的文本间的联系(人们在互联网上分享图片时经常会这样做),数据可能就会失去它的含义。更糟糕的是,其他人可能会曲解你想表达的内容。

要把读者的视觉注意力吸引到数据点上来,只需要像日常生活中所做的那样,突出重点。

无论高亮显示适合哪个层次,都要确保新的视觉暗示不会和已有的视觉暗示相冲突(即同一个图形属性/视觉通道只对应一个数据属性)。

注解可视化表达了什么

例如,“上升的油价”比“油价”的信息量大。前者快速地给出了一个结论,读者可以查看图表加以确认,并了解更多的细节。后者则把数据的解读交给给了读者,把读者放到了研究者的位置上,不过也许这就是你的目的。总之,要根据需要来进行描述。

好注解的关键在于对图表的解释和高亮要与数据(以及读者)联系起来。

你必须考虑读者可能会理解什么、不理解什么,基于此来做注解。

可视化时常见的错误

实验新的可视化方法很好,但也得确保其他人可以看得懂。通常传统的方法是最好的,传统的方法之所以被一直使用是因为它们有效。

可视化要从数据开始,探索数据,然后展示结果,而不是从可视化开始,然后尽力把数据集放进去。

实时更新、用来快速查看系统状态的仪表板需要立刻读懂。

有时要展示的数据很多,需要花一些时间才能看完。

细节让图表变得更加有趣,没有这些细节的话,可视化探索对于目标读者来说可能不会这么有吸引力。

需要注意的事项

有时,研究某个数据集一段时间后,你很容易忘记其他人不会像你那样熟悉数据。

有了故事之后,不要只顾图表好看,要以适合报告背景的方式来讨论数据。例如,你可以引领读者走进你的分析过程,从大图直到细节和值得注意的数据点,或者反过来,从案例研究开始到最后的总结。

可视化步骤的整合

无论读者是谁,你都必须跳出数据集,考虑一下数据在现实世界中代表什么。不要掉进陷阱,认为数据只是孤独存在于硬盘或电子表格中的数字输出。

可视化工具

可视化工具

  • Microsoft Excel
  • Google Spreadsheets
  • Tableau 是一款非常受欢迎的桌面软件,可以用来直观分析数据。
  • Gephi 是一款网络及系统可视化的专业开源软件,它就像是图标软件中的 Photoshop。
  • ImagePlot 专门用于同时处理数百万张图片,并把它们放在二维空间中,分析数据的不同方面,如颜色和体积。
  • Treemap 可以用树图研究分层数据。
  • TileMill 使用 shapefiles 文件格式来描述诸如多边形、线和点这种地理空间数据。
  • indiemapper 是由 Axis Maps 提供的在线制作地图的服务,依赖于 Adobe Flash。
  • GeoCommons 和 indiemapper,但更专注于数据的探索和分析。
  • ArcGIS是特性丰富的做地图相关的平台。
  • R 是统计学编程语言的首选,各种扩展包使统计学绘图(和分析)更加简单。
    • ggplot2:基于利兰・威尔金森图形预发的绘图系统,是一种统计学可视化框架
    • network:可创建带有节点和边的网络
    • ggmaps:基于 Google 地图、OpenStreetMap 及其它地图的空间数据可视化工具,使用了 ggplot2
    • animation:可制作一系列的图像并将它们串联起来做成动画
    • portfolio:通过树图来可视化层次型数据
  • Adobe Illustrator 是很多设计师使用的软件。
  • Inkscape Illustrator 的开源替代
  • D3(Data-Driven Documents)
  • Raphaël  [‘ræfeɪəl]基于 SVG 来创建矢量化的图形
  • Javascript InfoVis Toolkit
  • Processing,各种 port
  • Matplotlib 是 Python 2D 图形库

可视化分享

数据之美大纲

参考

  • Cleveland, W. S., & McGill, R. (1985). Graphical Perception and Graphical Methods for Analyzing Scientific Data. Science, 229(4716), 828–833. http://doi.org/10.1126/science.229.4716.828