人们很容易信任数据。 也许太容易了。 A2018年斯坦福大学研究被证明的人信任有数字的陈述的可能性要比没有数字的人高70%。
更令人震惊的是,近60%的参与者认为包含统计数据的假标题,而只有40%的人认为没有统计数据的标题相同。
这是真正的踢球者:除了前两句外,最后两段都不是真的。 没有斯坦福的研究,我知道,我编了这些数字。 该超链接实际上是臭名昭着的1982年"场上乐队"Cal/Stanford游戏的链接。
当我在的时候不是那样的很抱歉欺骗你,它说明了这一点:数字(和人)肯定会歪曲事实。 在内容营销领域,我们看到很多误导性的数字试图与受众建立信任。 更可怕的是,很多内容制作人 甚至没有意识到他们正在这样做。
不知道我的意思? 我将向您展示我最喜欢的例子:Google趋势。
(诚实)数据分析的三个基本规则
如果你不熟悉,谷歌趋势是一个令人难以置信的工具,可以让你查找任何东西的相对搜索量。 例如,我想知道"老城路"什么时候开始破坏我的生活,所以我拉了一张去年的兴趣图。
很直观,对吧? 根据这张图表,这次袭击在2019年4月中旬左右达到了发烧期。 对于上下文,比利*雷*赛勒斯混音于2019年4月5日发布,所以趋势检查。
现在,您可能可以开始了解为什么这对内容营销人员来说是一个巨大的工具。 它提供免费,高度可定制和权威的数据,人们相信它,因为它来自谷歌。
但让我们更仔细地看看我们得到的信息。 您可能会注意到Y轴的一些独特之处,这将我们带到第一条规则。
#1. 不要把苹果比作橘子
在每个趋势图中,100代表图表上的最大搜索量;在这种情况下,它是搜索"旧城区路"最多的一天。
在这个图表和每个趋势图表中都是如此,因为每个图表在某个时候都会有它的最高点。 图表上的每个其他值都相对于该100值。
换句话说,沿着线的每个数字都是术语在其峰值时的百分比。 因此,当数字在图表末尾徘徊在50附近时,我们可以假设在该范围的最后一天,它的搜索量大约是其峰值时的一半。
然而,我们看到的主要问题是,一些内容创建者试图在单独的图表中比较术语,而没有意识到它们是完全独立的。
如果我搜索"婴儿鲨鱼",我同样会在某个地方看到100点(就像我对任何术语一样)。 将该100与"Old Town Road"的100进行比较是不公平的,因为我们不知道实际的搜索量是多少。
要正确地做到这一点,您需要使用Trends'handy"Compare"功能,在那里您可以看到"Old Town Road"的峰值搜索量几乎是峰值搜索量的两倍,尽管"Baby Shark"已经存在了更长时间。
因为搜索兴趣是相对的,所以我们不能从技术上说,"它的搜索量为78",因为实际上,78值代表了最大搜索量的78%。
再看看"老城路"/"小鲨鱼"之战,你可能已经注意到一些事情:虽然"老城路"是最高的,并且自发布以来一直保持在"小鲨鱼"之上,但最左边的"平均"条形图显示"小鲨鱼"的条形图显着更高;确切地说是26到15(正如第1点所讨论的,这只意味着图表上最高交易量的26%和15%,即2019年4月的"老城路")。
这会让你相信"小鲨鱼"平均比"老城路"多80%。"当然,这是误导,因为我们选择的时间范围,其中"老城路"不存在。 如果你要比较的东西,他们总是需要有相同的机会,在选定的时间段内实现搜索量。
如何应用规则
内容创作者需要对他们呈现的数字和信息负责和负责。 这意味着他们需要做("do do do do do do do do")尽职调查,以了解他们的数据,它代表什么,以及他们提出的主张是公平的。
我喜欢使用的一个测试是:如果我是一个不想报道这个故事的出版商,我会说什么? 这种方法允许您对数据进行关键处理,并允许您在问题出现之前先发制人地解决问题。
#2. 保持透明
很容易被你发现的第一个洞察力冲昏头脑,而忘记其余的。 但这可能意味着其他与整体故事相关的外卖正在等待被揭示。
让我们来看看Lil Nas X搜索在全国各地的受欢迎程度:
所以格鲁吉亚搜索最多,对吧? 不一定。 正如Google所解释的那样,"每个数据点除以它所代表的地理和时间范围的总搜索量,以比较相对受欢迎程度。 否则,搜索量最多的地方将始终排名最高。”
在简单的英语中,Lil Nas X在佐治亚州的搜索比例高于加利福尼亚州的搜索比例。 如果仅仅是在数量上,加利福尼亚将永远是第一,因为它的人口最多。 现在,这可能是你正在寻找的外卖(这将是一个公平和有趣的制作),但它并不完全是乍看起来的样子。
如何应用规则
正如内容创作者需要批判性地思考他们所呈现的数据的质量一样,他们也需要批判性地思考他们没有显示的内容以及相关的含义。 为您的数据提供完整的上下文,并说明为什么包含某些内容而不包含其他内容。
简单的方法来做到这一点? 包括一个方法学部分在您的作品,源图形和数据的结尾适当,并随时添加信息在与您的内容相关的副本。 您对数据的透明度越高,您与受众建立的信任就越多。
#3. 了解您正在使用的示例
也许趋势数据最可怕和最被滥用的警告是它呈现的所有内容—每个数据点,图表,比较,状态排名等等—都基于样本。 和趋势无可否认地处理和解释为了使它更有趣(通常,相关),以搜索。
谷歌并没有查询它在进行这些搜索时收到的数亿次搜索;相反,它正在使用他们搜索的一个非常小的样本。 我不怪他们—它会为这个免费工具使用大量资源来正确地进行这种分析,特别是对于不断变化的数据。 到谷歌自己的承认"趋势数据"是一个随机的谷歌搜索数据样本,可以从2004年开始,在搜索前36小时提取。”
何謂也? 每次搜索时,你的结果都会大相径庭。
大约一年前,我想在每个州找到最常见的家常菜。 我认为在过去一年中在每个州找到最受欢迎的"_____食谱"将创建一个有趣的信息图表。
我输入了"食谱"作为我想看到的趋势,我使用了每个州的"相关搜索"工具来查看出现了什么。 这是我的阿拉斯加结果:
你可以想象一个逐州地图与食谱的图像作为一个有趣的内容。 但是看看当我刷新我的页面时会发生什么:
检查这些时间戳:这些截图是相隔1分钟拍摄的,并且具有相当不同的数据。 重要的是要知道我搜索中的每个变量都保持相同并且包含日期,所以理论上它们根本不应该不同。
您可以看到使用这些发现创建糟糕的数据科学是多么诱人。
如何应用规则
测试,测试和测试您的数据;这适用于所有类型的内容,特别是任何可能是实时更新,更改或不一定是常绿的内容。 在构建交互式内容时,我花费了大量时间试图打破最终版本,然后才能将其放在互联网上。 如果有人要找到虫子,我宁愿是我。
关于你的数据集,问问自己是有帮助的:如果使用相同的工具,另一个人能够重建我的工作并得出相同的结果吗? 如果不是,请透明地说明为什么会这样,以及你做了什么来得出你得出的结论。 如果连接大厦是你的目标,出版商会欣赏,甚至经常引用透明度。
为什么这一切都很重要
为了让内容能够在互联网上取得成功,我们需要能够信任它。作为内容营销人员或任何关心数据的人,我们有责任明智和诚实地使用像趋势这样的工具。 以下是如何执行此操作的示例:
-
详细说明如何以及何时提取数据的方法。
-
解释研究的局限性。
-
清楚地表明潜在的偏见。
-
正确地归因于您的信息。
-
列出样本大小和误差范围。
在某些内容中,这些内容会比其他内容更存在,甚至我会承认担心破坏自己的内容。 但在一天结束时,我更愿意给人们一个诚实的观点,他们正在看什么,并让他们自己决定外卖。 出版商,新闻媒体和历史可能会有同样的感觉。