可视化技术将数据编码为可视化形状和颜色。我们假设可视化的用户所做的是解码这些值,但事情并不那么简单。[阅读更多…]关于编码与解码
基本
这些文章涵盖了基本面:数据,技术,统计等
行级思维与立方体思维
我们的数据集的心理模型更改了我们提出问题的方式。那个方面是数据的形状(长或宽);同样重要的问题是我们是否将数据视为我们可以聚合自下而上的数量的集合,或者作为我们可以切片的完整数据集以询问问题。[阅读更多…]关于行级思维与立方体思维
电子表格思维与数据库思维
数据集的形状对于它可以由不同的软件处理的方式非常重要。该形状定义了它的布局:宽像电子表格中,或者在数据库表中。每个都有它的使用,但是了解他们的差异很重要,当每个是正确的选择时。[阅读更多…]关于电子表格思维与数据库思维
可视化研究,第一部分:工程
可视化的约定似乎是任意的,并且相当多。但也有一个巨大的研究,每天都在增长。只有可视化研究如何工作?我们如何学习关于可视化的新事物以及如何使用它?[阅读更多…]关于可视化研究,第一部分:工程
将数据放入上下文中
原始数字易于报告和分析,但没有正确的上下文,它们可能会误导。你看到真实的效果,还是简单的潜在结果,明显分配?太多的分析和新闻故事最终会报告我们已经知道的事情。[阅读更多…]关于将数据放入上下文中
什么意思是意思
[生的]
百分点乐队
对于380美国地铁地区的失业数据
地铁区:
[/生的]
以上可视化显示美国2003年1月至2013年6月的380个地铁地区的失业率(来自劳工统计局)。这些本身都是平均值的,但总体平均值也显示为较重的线。鼠标缩短以查看突出显示的单个地铁区域。
当您探索时,您188金宝慱App将看到许多小而大的模式,平均或平均,完全错过。你可以看到一些失业率非常高的异常值那卡特里娜飓风那看似随机飙升等(单击这些链接以在上面的可视化中突出显示它们,再次单击以关闭突出显示)。这是典型函数的一部分:平均差别很小。这可能是一个理想的效果,但是当报告失业率等数字时,它通常会掩盖。平均的平均水平是否超过2亿人真的意味着太多了?更糟糕的是,没有变化意味着什么都没发生?
但是,您如何考虑到此数据的大变量?一种方法是基于百分位的范围。最明显的是将最小到最大价值的范围报告。然而,这对异常值倾向于非常敏感,但这可能是也可能是不可取的。相反,应该报告涉及大多数数据的较窄范围,极端值分别处理。但哪一个?
百分位数是统计信息中最简单的想法之一:对数据值进行排序,然后根据该列表中的位置选择所需的数据值(作为列表长度的一小部分)。中间的价值是第50百分位数,也称为中位数。进入列表中的一季度的值是第25百分位等。从第25升到第75百分位的值范围选择一半的数据(掉落底部和顶部和顶部);这也被称为四分位数范围。
观察数据的常见方式是丢弃顶部和底部5%,从而留下范围5%至95%(单击这些链接将更改上面可视化的设置)。但是,删除了相当多的范围。是1%至99%更好?怎么样狭窄的范围?谈论抽象中的百分比是一回事,但看到数据量有多少,以及忽略的价值范围是多少。
计算百分比需要其他数据。通过失业数据,有一些地铁区域,部门和一些人口统计值。在其他情况下,数据通常不容易找到或根本无法使用。但是,只要有可能,我们需要需要更多的上下文而不是单个数字。没有这种情况的简单卑鄙毫无意义。
彩虹色彩图如何误导
颜色也许是人们最常在可视化中滥用的视觉属性而不知道它。彩虹Colormap的变化非常受欢迎,同时也是最有问题和误导的同时。[阅读更多…]关于彩虹颜色如何误导
宽高比和银行到45度
根据其纵横比,相同的数据在线图表中看起来非常不同。但图表的完美形状是什么?一个正方形?一个矩形?哪个矩形?这取决于数据。[阅读更多…]关于宽高比和银行到45度
连续值和基线
创建图表时,人们在创建图表时做出最常见的错误之一是切断垂直轴。但为什么这是一个问题?当您需要显示与绝对值相比,更改量较小的数据时,您能做什么?[阅读更多…]关于连续值和基线
数据:连续与分类
数据有多种不同类型,这决定了可用于它们的映射。最基本的区别是在连续(或定量)和分类数据之间,对可以使用的可视化类型产生深远的影响。[阅读更多…]关于数据:连续与分类