线条图是其中最常见和有用的图表之一。但为什么在数据点之间绘制直线?无论数据是单个观察还是随着时间的推移,他们几乎都不会代表数据实际实际做的事情。如何进行线条图实际上工作,它们对数据有何意义?
I’m going to look at two cases here: single observations where each value is a separate, original data point (row-level data, if you will) from a single point in time, and aggregated data where the values are totaled up or counted or similar, to yield a value that applies to a span of time.
观察结果:温度随着时间的推移
让我们看一下它应该使用的方式:随着时间的推移观察。此示例显示随时间的温度,一个值每分钟。这里重要的是,每个都是从特定时间点的个人阅读,因此没有平均或类似的进展。这些点在这里同样地间隔开,但无关紧要。

这条线是什么意思?我们实际拥有的只是观察结果,即个别价值观。

我们可以像这样向他们展示,但我们通常不会。相反,我们画一行。通常,我们甚至没有绘制圆点。相反,我们通常依靠有足够的扭结的线来让我们了解点的位置。这经常有效,但并非总是如此。它强调了线而不是点。
相反,我们可能会像这样绘制类似的图表。

您可能会争辩说这是一个合理的代表,因为当然,即使我们不衡量它们,温度也存在,并且它们在点之间不断变化。我说:是的,但不是直线!温度以连续的方式变化,但不像一个测量到下一个测量的恒定速度,然后突然改变他们的方向和速度以瞄准下一个。
这是平滑过渡的样子:

这将是此数据的最合理图表(除纯点之外)。对此有什么令人惊讶的是,没有人绘制这样的线条图表。为什么不?典型的论点是,这种平滑线刚刚弥补了数据!但是直线也是如此。直线可能看起来更加直接,但它们基本上总是错。温度不会以这种方式改变。任何合理平滑的近似都将是实际发生的更现实的画面。
但,你对象,没有人被行欺骗!!人们肯定明白线条只是连接点,而不是表示数据。也许,但那么为什么要坚持直线?
这些点之间的线条或它们没有。如果他们重要,为什么要坚持他们是直的?没有自然过程的行为。如果他们没关系,那么就没有理由不绘制更现实的平滑线。
如果您熟悉采样理论,这是平滑线的另一个论点:如果我们选择我们的采样间隔足够快要拿起最快的变化,那么平滑的过渡将完全重建实际行为。如果我们没有,它仍然是我们在不构成不存在的数据(或带来其他一些知识)以强制直线的最佳近似。
汇总值:每月销售
现在让我们看看汇总数据的其他场景。假设我们在这里有销售数据每月(或者您可以计算或每月占总上涨的其他东西,无关紧要),每月一个数字。看,这是一个线图!

如前所述,我们所拥有的只是每个月的价值,介于两者之间。这看起来很熟悉。

现在,如果我们要绘制线条,那么这些意思是什么?从之前的差异是这些聚合,如一个月内的销售总和,在点之间没有意义。从5月份销售到6月的销售,线性或其他方式没有过渡。这些数字在每个月的末尾完全起来,然后适用于整个月。这些点之间的直线没有意义。
更准确的表示是这样,尽管您甚至可能争辩说垂直线在此处没有意义。但是,我只是想保持连续的线路。阶梯式线条图表在可视化工具中也是合理的常见且易于制造的,而不是虚线。

如果这看起来像不同类型的图表,你可能会想到这一点:

是的,条形图。现在我不轻易争论条形图(我对此非常强烈厌恶一切都应该是条形图思维学院),但这是一个更有意义的图表(除了上面的点之外)。连接点的行如何在这里做出任何意义,而不是制作更好的,更联系的图表?
重要的线条或者他们没有。如果他们重要的话,他们需要有意义。聚合值之间的线条不有意义。如果他们无所谓,为什么不脱离它们,支持与数据的实际语义相匹配的图表?
怎么办?
那么你现在应该做什么?我在说界图是邪恶的,应该避免吗?不,但我认为我们需要开始思考我们如何代表数据,以及我们如何劝告人们关于最佳实践,更仔细。
首先,它可能没关系。如果您有足够的数据点,您甚至没有看到它们之间的行,那么这就是一个Moot Point。如果您对划线图感到满意,并且永远不会被行之间的点混淆,请不要担心它们。我不希望阻止任何人使用界图。
我在这里的内容只是为了更好地了解这些普通和基本的图表所做的事情。并询问为什么我们做一些事情而不是别人。为什么我们绘制直线,而不是Bezier曲线?为什么要坚持某些图表类型,他们可能常用,但真的不是很有意义?
为什么厌恶平滑线?抛开的常见误解是以某种方式比直线更多的方式,一个常见的论点是他们可以过度过冲,这通常被认为是一个问题。但是,我不明白这个位置;如果Bezier曲线过度,这可能表明该值真的在观察到的范围内。这可能意味着需要更多的观察结果。在这个问题上,而不是强迫一个毫无意义的直线,为什么不弄清楚真正发生的事情?无论哪种方式,数据和图表都没有完全捕获所谓的现象。
也许是时候我们开始考虑可视化和图表更像统计学家对其模型的看法。归因于乔治盒的流行主义说明所有模型都是错误的,但有些是有用的。在同样的徒劳的情况下,我提出了这一点所有图表都是错误的,但有些是有用的。
谢谢你对另一个有趣的透视罗伯特。我被你的整体论点和数据类型,采样和视觉插值之间的关系说服。
尽管如此,将这些图表的框架作为“正确的”或“错误”来发出问题(承认您正在呼应乔治盒以获取叙述目的)。我认为将任何图表视为可能“正确”的图表可能是危险的。图表不是数据,而是视觉转换,我们选择要引起我们注意的某些数据特征。或者,随着Magritte更加简洁地把它放在图像的背叛中,“Ceci N'est Pas Une管道”。
我认为这不仅仅是一种抽象的哲学区别,因为它提醒我们,作为设计师,我们可以选择要强调哪个房产。这些不是客观的决定,而是由设计者上下图表和图表的目的的决定。如果我们希望创建离散时间采样的可视化提醒,则线性插值是一个合理的决定。如果我们希望强调潜在过程的连续性,也许一个贝塞尔曲线是一个合理的决定。也许不同形式的样条曲线将强调更紧密的过程。也许底层过程的保真对设计不太重要,而不是其他属性。这些都是潜在的有效设计选择,我认为超出了“正确”或“错误”的概念。
我喜欢你延伸罗伯特的想法。我正试图阐明线条形状的角色,但你确切地钉了。线路的设计可能会影响观众如何考虑基础数据。
是的,完全同意。我毫不奇怪地选择了我们的直线,我们认为明显的“正确”。一旦你接受所有选择就是这样,选择,你就可以想到你更自由的东西。但是你也必须承认你正在做出选择,而不是遵循某种可视化的法律。
尝试从不同的角度思考它。数据不感兴趣。数据之间的关系是有趣的。行不代表数据,但数据关系。他们没有回答这个问题“多少?”,但对问题“它有何变化?”:向上的线意味着增加,向下的线意味着减少。“隐喻”我们已经说过?;)
我是关于隐喻!你是对关系的正确性,也许这就是你想要那些直线的地方。但情况并非总是如此。重要的是要意识到它是一个原因所制作的选择。这不仅仅是数据,这就是你想要离开图表的东西。
当然并不总是如此。只有当我们及时谈论UPS和倒闭时才。如果我们谈论更高/更低时间的比喻 - 我们将使用列。
感谢显式布置罗伯特线震动的微妙之处。现在你已经给了我另一个,而Dimension我可以在下一张图表时痴迷!
关于解释速度以及曲线的速度和可能不会影响认知偏差,我很好奇。Visual Cortex可以快速处理斜率和斜率的变化。这是否适用于曲线?如果没有,对图表的更认知的解释是否阻碍了理解其数据是否与我们的信仰矛盾?
你知道是否存在沿着这些线路的研究,罗伯特?
有趣的问题。我没有,如果有人在可视化中研究过,我会感到惊讶。但我确信有一些心理学的文学。
我同意了大部分内容,但我认为你的文章正在跳过一个主要目的之一:分组特定系列的点,以便多个组可以共享一个绘图。(也许这是在未来的帖子中?)
如果您的温度示例有,例如,西雅图,芝加哥和纽约有多个比较,使用酒吧的比较将更加困难 - 标准的直线选择似乎是一个很好的直线。平滑线对该标准也很好。
对于温度,它不会是条形但是平滑的线路;)但是当然是正确的,将多个时间序列与栏或甚至阶梯线相比比较更加困难。这里有权衡,并通过使用直线来制作决定,并使图表更可读是完全有效的。这与刚刚将线条图表视为明显且正确的默认值不同,只是因为它是一个时间序列。
我对图表中平滑线的基本反对意见并不是说他们是一个坏主意,而是最常见的曲目工具(我正在看你的excel)让他们很容易做得非常糟糕。这意味着我所看到的所有示例中的大多数都最终比简单的直线更严重的数据更严重。如果你要使用线条而不是点或酒吧,这可能非常讨厌。
如果每个工具自动绘制原始点并使始终通过的光滑曲线,这将是一个小问题。但大多数工具都没有这样工作。
在所有这些咆哮的邪恶中,无论是通过所有要点的直线还是曲线加入点的邪恶,我都感到惊讶,你没有提到具有很好的契合与平滑度的统计的smoothers(黄土)
图表可以被认为是(视觉表示)模型。
一个现实的模型
伟大的文章,谢谢分享。One perspective (ahem) that I think is worth mentioning is the simply pragmatic: Connecting the dots can make them easier to see, and straight lines can be simpler to draw, so sometimes that’s all it is: A visual aid – particularly in the case where the consumer of the visualization understands the limitations in question. Having managed visualization tools for traders, I think this sort of consideration (I need to glance at that screen and quickly get the gist) often overrides more technical concerns. That said, I have definitely seen the effects you describe when less well-versed people viewed the same visualizations, so certainly not arguing against the points you make, just suggesting that the underlying cause of their popularity might be social, not statistical.