为什么所有数据都应为原始数据

数据都应为原始数据 您的公司会产生大量数据,因此有必要精简数据并仅存储最相关的统计数据,对吗?

错了。1975 年,数据仓库被开发出来,当时 1 GB 的存储空间要花费 20 万美元。而如今,1 GB 的存储空间只需花费 2 美分左右。存储成本低廉,公司就无需再担心压缩问题,而只需专注于确保能够充分理解数据。

 

这对品牌来说意味着什么?

几十年前,大量“烹饪”(处理)数 泰国数据 据可能是必要的,但现在,保持数据原始状态的好处远远超过了其好处。

 

请继续阅读,了解为什么所有数据都应该是原始数据,以及它如何使您的品牌受益。

什么是“熟数据”?
“加工数据”本质上是指经过处理的数据。这意味着数据已从其原始格式中取出并经过处理、重组或压缩。传统上,公司会大量加工数据以优化存储空间和查询时间。加工数据的三种主要方式是:

 

为数据仓库配备压缩模式

一种常见的模式是 数据都应为原始 利用浏览器缓存还可以帮助提高网站速度 数据 星型模式,它通过从事件中获取信息并将其存储在不同的维度表中来压缩数据。当发生事件(例如点击)时,会收集时间戳和用户 ID 等信息。在星型模式中,这些信息被分成几部分并存储在维度表中。

用索引拟合表: 模式通常与索引配对,例如位图和B 树,因此可以快速再次找到信息。

仅存储数据的聚合或子集:公司可以选择存储预先计算的聚合,例如平均值,或者仅选择数据的几个维度存储在OLAP 多维数据集中,而不是保留原始数据。

然而使用任何一种方法来

处理数据都不再是最佳选择。这些方法最初被创建是因为它们允许数据适应机器并允许人们快速回答查询 – 而不是因为它们实际上有意义。当数据以这种方式处理时,诸如电子邮件自动化从错误的表中提取信息之类的细微错误极难发现。而且,随着存储价格下降,处理数据背后的动机不再存在。

通过保持原始数据来更好地理解数据
“寿司原则”认为原始数据比加工数据更好,因为它 邮寄线索 可以让数据分析快速、安全且易于理解。您需要采取三个步骤来保持数据原始状态。

1. 使用简单且经过充分测试的管道。

当您的数据管道必须读取每一行数据时,您很容易让它执行一些复杂的转换。但是,品牌应避开这些附加组件,以避免:

 

计算有缺陷:如果品牌在其管道中实时运行数千台机器,当然,收集数据很容易 – 但判断这些机器是否执行了正确的计算却不那么容易。

将自己限制在过去决定的聚合中: 如果您在数据流过时执行操作,则只有一次机会。如果您改变了想要计算的内容的想法,则只能获得那些新的统计数据 — 您的旧数据已经固定不变。

破坏管道: 如果你开始在管道上做一些花哨的事 数据都应为原始数据 情,你最终会破坏它。所以你可能对一种新的计算有一个很好的想法,但如果你实施它,你就会危及同事使用的数百种其他计算。当管道发生故障时,你可能永远无法获得这些数据——这会对你的公司造成损害。

当然,在某些情况下

您需要在管道中加入业务逻辑。法规可能要求您清除旧用户帐户并删除 IP 地址。但每次您考虑将一段业务逻辑推入管道时,您都需要考虑风险。我们在编写软件方面仍然相对较差——您添加的每一个复杂位都会增加出错的可能性。而且由于存储现在便宜得多,您完全有动力稍后再执行这些计算。

2. 保留所有原始数据。
费尽心思收集了所有数据后,就不应该丢弃其中的一部分。数据存储成本如此低廉,没有理由不保留所有数据,但这样做有很多理由:

 

您可以轻松追踪任何统计数据的来源: 想象一下,尝试弄清楚您的 DAU 是如何计算出来的。如果您存储的数据与生成数据的格式相同,您可以直接询问您用于生成数据的任何服务的开发人员他们的意思。如果您有大量经过处理的数据,那么很难回溯所有经过的转换来找到原始数据。

您可以执行任何您想要的查询

数据的美妙之处在于它可以引导您提出进一步的问题。如果通过电子邮件订阅的用户数量非常少,您将需要查看实际通过该渠道注册的用户的属性。当您手头有所有数据时,您不会丢失任何细节,这意味着您可以随时迭代您的问题。如果您将数据缩减为 OLAP 多维数据集,则只能测量已定义的维度 – 其他一切都会丢失。

您不必浪费时间决定您想要的统计数据:如果您决定预先计算统计数据,那么您将需要花费大量时间来规划这些数据 – 而且即使这样也不能保证您拥有所需的一切。

保留原始数据可以减少不必要的工作,这样您就可以找到真正有价值的部分。它消除了事先进行大量规划和花时间弄清楚统计数据来源的需要,因此您可以花更多时间充分探索数据。

3.查询时进行汇总和抽样。
您可能倾向于在管道早期汇总和采样数据。他 数据都应为原始数据 们的想法是,“不管怎样我都必须做这些事情,为什么不缩小我的数据并使其更容易处理呢?”但是早期采样和汇总可能会损害数据的准确性。在查询时这样做的风险要小得多:

 

你可以确保你的汇总统计数据没有

偏差:如果你计算维基百科用户每周进行的平均编辑次数,除非你排除机器人,否则这个数字会高得离谱。虽然这看起来像是一个你永远不会犯的错误,但小事情总是会漏掉。

一旦知道谁值得关注,就可以进行抽样:您不能简单地保留记录的每 100 个事件——这无法让您了解用户、帐户和设备的行为方式。您需要按参与者而不是事件进行抽样。但在开始提出查询之前,您不会知道哪些参与者值得关注。而且您想要查看的用户类型会在查询之间发生变化。

您将获得具有统计意义的结果:很多时候,您会希望研究一小部分用户的行为。但如果您在查询时间之前进行抽样,您可能没有足够的数据来获得具有统计意义的查询答案。

滚动至顶部