数据护城河的空洞承诺

编者按：a16z 合伙人 Martin 和 Peter 认为我们通常对「数据护城河」的理解实际上只是「数据规模效应」，并不是真正的「数据网络效应」，后者才是值得企业数字化转型真正追求的目标，并提出更有效构建企业数据护城河的策略。

长期以来，数据一直被誉为公司的竞争护城河，而随着最近一波人工智能初创公司的兴起，这种说法被进一步炒作。「网络效应」同样被提升为构建软件业务的防御力量。所以当然，我们经常听到关于两者的结合：「数据网络效应」（我们之前已详细讨论过这个概念）。

但对于企业初创公司——这是我们关注的领域——我们现在想知道是否有数据网络效应的实际证据。此外，我们怀疑即使拿更直接的数据规模效应作为许多公司的防御策略，其价值也有限。这不仅仅是一个学术问题：它对创始人在哪里投入时间和资源具有重要意义。如果你是一家初创公司，假设你收集的数据等于一条持久的护城河，那么这个策略可能导致你在其它确实能提高企业长期防御能力的领域投资不足（例如：垂直化、获取市场主导地位、增强销后管理、品牌建设等）。

将数据视为神奇的护城河可能会误导创始人去忽略真正能获胜的其它事情

换句话说，将数据视为神奇的护城河可能会误导创始人专注于企业发展所真正需要的东西。那么，「数据网络效应」存在吗？规模效应与传统网络效应有何不同？一旦我们摆脱了必须拥有它们的炒作……初创公司如何建立更持久的数据护城河——或者至少找出数据在他们的战略中最能发挥作用的地方？

数据+网络效应≠数据网络效应

从广义上讲，「网络」在用户/客户/端点/等系统中发挥作用。在结构上排列成一个网络。在我们的上下文中，此类网络通常围绕支持网络结构的技术、产品或服务构建，无论是围绕用户营销功能（例如社交网络）和/或协议（例如以太网、电子邮件、加密货币）来构建。

当更多节点加入网络或现有节点之间的参与度增加时，当参与者参与网络的价值上升时，就会出现网络效应。想象一下，试图进行单向电话交谈，或者只给世界上五个人打电话，而没有其他人；随着越来越多的用户加入网络，电话系统变得更有价值。其它常见的、更现代的网络效应案例可能包括社交网络、在线市场和区块链网络。

具有网络效应的系统通常具有节点之间通过定义的接口或协议进行直接交互的特性。加入网络需要符合一些标准，这增加了所有节点的直接交互，并使这些交互变得越来越有用户粘性。但是，当谈到围绕数据网络效应的流行叙述时，我们通常不会看到相同的粘性、直接交互作用（更不用说节点之间由于协议或接口而产生的机械性依赖关系了）。

仅仅拥有更多数据通常不会产生内在（固有）的网络效应。

大多数「数据网络效应」实际上只是「规模效应」

大多数围绕数据可防御性的讨论实际上都归结为「规模效应」，这是一种符合网络效应更宽松定义的形态，其中节点之间没有直接交互。例如，如果您最喜欢的电影 X 的大多数观众也倾向于观看节目 Y，Netflix 推荐引擎可以预测您可能会喜欢节目 Y，即使这些用户之间没有直接互动。更多的数据意味着更好的推荐，这意味着更多的客户，甚至更多的数据……也就是著名的「增长飞轮」。

然而，即使有规模效应，我们的观察是：数据本身很难成为足够强大的护城河。与传统的规模经济不同，固定的前期投资会随着时间的推移而变得越来越有利；而恰恰相反的是：数据规模效应中，不断新增独特数据的成本实际上可能会上升，而增量数据的价值反而下降了！

以一家公司使用聊天机器人来回复客户支持查询为例。从下图中可以看出，从客户服务记录创建初始语料库可能会为简单的查询（「我的包裹在哪里？」）提供答案。但是绝大多数询问要复杂得多，其中许多只被问过一次（「我一直在等待到达我前门台阶的那个东西在哪里？」）。因此，在这种限制情况下，随着时间的推移，收集有用的查询变得更加困难。而且，在这种情况下已经收集了 40% 的查询之后，收集更多数据实际上根本没有任何优势！

上图来自 Eloquent Labs 的 Arun Chaganty 的一项研究（经许可共享）：用于提交给客服聊天机器人的问题。在其中，他发现 20% 的数据分发工作往往只能让您获得大约 20% 的用例覆盖率。超过这一点，数据曲线不仅边际价值递减，而且捕获和清理的成本也越来越高。另请注意，该分布接近 40% 意图覆盖率的渐近线，这表明根据上下文自动化所有对话的困难程度。

当然，数据规模效应减弱的临界点因业务领域而异。但无论这种情况发生在什么时候，最终的结果通常都是一样的：保持领先地位的能力往往会随着数据规模的扩大而放缓，而不是加快。随着数据资料库的增长和竞争对手的追赶，可防御的护城河不会变得更强大，而是会逐渐消失。

随着数据池的增长，数据护城河并没有变得更强大

这样做的目的不是对数据作为防御护城河的效用做出明确的陈述——我们的观点是，防御性并不是数据本身固有的。除非您了解目标业务领域的数据旅程（生命周期），否则无法保证可防御性；以下框架可能会对您的思考有所帮助。

理解数据旅程的实用框架

最小可行数据库

当大多数人谈论网络效应时，他们专注于克服引导或冷启动问题（俗称「先有鸡还是先有蛋」问题），即获得足够的早期节点以使网络对所有节点都有用（并使网络内的经济生态具备竞争力）。在大多数网络效应业务中，「零起点启动」问题很难解决，特别是当您需要网络已经启动并运行以吸引流量时。

但对于许多具有数据规模效应的企业来说，这并不一定是正确的。启动我们认为的「最小可行数据库」足以开始训练你的系统，并且是创业公司数据之旅的第一个转折点。这个初始数据库可以来自多种来源：从可用来源自动捕获数据，例如网络爬虫；让早期用户用他们的数据换取一些东西；通过迁移学习重新利用其它领域的数据；甚至综合生成数据，您可以在其中以编程方式创建要训练的数据。

在数据之旅的早期，获得最小的可行数据库需要相对较低的投资，而且显然不会是持久的护城河。

数据采集成本

在给定的数据库中，随着时间的推移，获取下一条数据往往会变得更加昂贵。为您的数据库带来新信号的独特数据可能更难在噪音中找到，更难以保护，并且随着时间的推移需要更长的时间来清晰地标记它们。在许多依赖所谓「数据网络效应」的领域中都是如此。

另一方面，在传统的网络效应下，用户获取成本会随着时间的推移而下降，因为加入网络的价值会增加。此外，随着传统的网络效应，也往往伴随着更固有的病毒式传播，其中节点被激励自己发展网络并因此传播以增加网络的更多价值。这些属性都不适用于数据效应：数据成本上升。

增量数据价值

当您收集数据时，添加到数据库中的数据也往往变得不那么有价值。为什么？即使新的任意一批数据的收集成本与获取的最后一批数据的成本相同，但鉴于您获取的一些新数据已经与现有的数据重叠，它产生的价值也较小。随着时间的推移，这种情况只会变得更糟：新数据带来的好处会下降。

在我们见过的大多数初创公司中，早期的新数据适用于整个客户群。但超出某个点（例如上面示例图中的渐近线）后，收集的新数据将仅适用于特殊用例「长尾」中的小子集。因此，随着数据集的扩展，任何数据规模效应护城河也变得不那么有价值。

数据新鲜度

这一点似乎很明显，但怎么强调都不为过：在许多现实世界的用例中，数据会随着时间的推移而变得陈旧……它不再相关。街道变化，温度变化，态度变化等等。

不仅如此，许多数据初创公司的任何专有洞察力最初都会随着时间的推移而减弱，因为随着越来越多的人收集数据，数据的价值会降低：随着竞争对手在同一领域追逐你，你的预测优势会逐渐消失。并且随着时间的推移保持现有数据库的新鲜所需的工作量——更不用说领先了——随着规模的增加而增加。

从这个意义上说，数据就像一种商品。

什么时候数据才具备（竞争）防御能力，你能做些什么来管理它？

这并不是说数据毫无意义！但这确实需要比从「我们有大量数据」跳到「因此我们有长期防御能力」更深思熟虑的考虑。

由于数据护城河显然不会仅通过数据收集持续（或自动发生），因此仔细考虑映射到数据旅程的策略可以帮助您与数据优势竞争——并且更刻意和主动地跟上——数据优势。当渐近线或收益递减点突然袭击您的公司时，最好为此做好计划。

数据效应需要更多深思熟虑的考虑，而不是从“我们拥有大量数据”到“因此我们有长期的防御能力”

启动初始数据库与现有者竞争者对垒

如前所述，在某些领域中引导数据并不是那么困难。然而，创始人实际上可以利用这一优势与拥有数据但未能正确应用数据的现有竞争企业展开正面交锋。在启动自己的「最小可行数据库」之后，在构建正确数据集方面处于领先地位的初创公司，可在现有竞争者弄清楚如何理解数据之前，利用该洞察和技术加速和领先于现有竞争者。

生成「合成数据」是赶上拥有大量数据的现有企业的另一种方法。我们知道有一家初创公司生产合成数据来在企业自动化领域训练他们的系统；结果，一个只有少数工程师的团队能够冷启动他们的最小可行数据库。该团队最终击败了两家大型现有企业，依靠他们数十年来在全球范围内收集的现有数据集，因为这两家老企业的数据洞察力都不适合解决同一个行业问题。

了解数据分布

对数据的分布有一个深刻的了解，这将为您的数据策略提供信息，以及您实际上可以创建多少防御性，具体取决于产品的业务应用领域。

数据的分布及其相应的值因业务领域而异。因此，深入了解分布的形态，并制定正确的策略来捕捉它至关重要。是否存在难以获取的关键数据的「肥尾巴」？如果是这样，将数据库扩展到长尾的计划是什么？您的业务域中数据准确性有多重要？什么错误率是可以接受的——如果机器学习在发给同事的电子邮件中预测错误的自动完成，这不是世界末日，但自动驾驶汽车世界中不准确的对象分类可以，从字面上看，是一个生和死的问题。如果不仔细观察，甚至可能很难发现对数据分布的误解，例如，如果权重没有正确应用于时间序列数据（例如，参见「灾难性遗忘」）。

我们之前分享的挑战——许多领域的大量学习都在特殊用例的长尾中——如果你是先行者，也可能是一个优势。对于将这些知识嵌入产品和销售流程的企业来说尤其如此。虽然一些投资者不喜欢涉足复杂市场，因为他们只看到了规模和利润方面的困难，但我们认为，进入复杂市场会产生本身可以带来竞争防御能力的「填坑经验」。

了解数据在多大程度上改进了您的产品

在某些领域，拥有更多数据会产生更好的产品。如此之多，以至于它将克服随着时间的推移不断增加的开销和数据价值的下降。例如，如果您有一个准确率为 85% 的癌症筛查，那么它比准确率为 80% 的筛查更有可能被使用。这种使用将提供额外的数据，从而提高准确性。

虽然我们还没有在实践中看到很多这类案例，但在少数情况下，数据优势可以在产品中创造「赢家通吃」的优势，这显然是强大护城河的基础。

当然，了解数据对产品的贡献程度并不总是那么简单。通常，选择算法或调整产品功能比单独拥有更多数据的影响要大得多。

权衡质量和数量之间的权衡

培育数据库中最棘手的权衡之一是如何平衡质量与数量。为什么会有取舍？解决太多的规模问题可能会导致在广泛的用例中得到好的预测能力，但对其中任何一个用例都不是很好的预测。解决的规模太少，则可能导致数据库能够很好地解决一个狭窄的问题，但在客户期望的整个用例集上则显得交付成果单薄。

在实践中，这可能意味着将更多的精力集中在为狭窄的用例标记丰富的数据上，或者更广泛地为在更多用例中有用的数据广开阀门。显然，深度和广度都是任何数据库的关键属性，但是在任何一个方向上弄错平衡都会严重影响性能。在竞争中保持优势时，始终为您的特定产品提供质量/数量的权衡将使您能够最大化你的「数据护城河」增量数据的价值。

保护专有数据源

我们在这篇文章中提出的问题——也是我们希望创始人问自己的问题——数据规模效应真正存在于哪里，它会持续多久？这并不意味着公司无法从专有数据中获得实际（竞争）防御性；显然，有很长的行业列表（例如制药）和几十年来一直主导其市场的反例，特别是当他们出于行业结构原因（例如，Equifax、LexisNexis、Experian 等）访问专有数据集时。

积累专有数据是一种防御策略，当来源稀少或不愿向多个供应商（例如政府买家）提供数据时，这种策略最有效。随着安全要求和合规标准的门槛上升到历史最高水平，通过供应商审查以访问敏感数据本身可能成为对抗竞争对手的护城河。

即使承担组装、清理和标准化大型公共数据集池的所有前期成本，也会产生规模效应，新兴竞争对手将不得不从头开始重新创建。尤其是在专业知识对于首先查找、理解和清理数据至关重要的情况下。被证明是负责任的数据保管人的初创公司可以赢得客户的信任，然后他们将只与他们共享越来越敏感的数据，从而形成护城河。

枯萎的数据护城河……

数据是许多软件公司产品战略的基础，它可以通过多种方式提高防御能力——但不要把它当作魔杖。大多数关于数据网络效应的叙事实际上都是围绕「数据规模效应」，正如我们在这篇文章中所概述的那样，如果计划不正确，有时会产生相反的效果。但不要假设你有数据网络效应（你可能没有），或者数据规模效应会永远持续下去（几乎肯定不会）。

相反，我们鼓励初创公司更全面地思考可防御性。更大的长期防御性更有可能来自品牌包装差异化；当您跨行业垂直化时，了解该领域并将其反映在您的产品中；主导市场营销竞赛；打赢人才大战，打造世界一流团队。这些努力将在捍卫和赢得市场方面获得回报，而不仅仅是数据。

数据护城河的空洞承诺

将数据视为神奇的护城河可能会误导创始人去忽略真正能获胜的其它事情

数据+网络效应≠数据网络效应

大多数「数据网络效应」实际上只是「规模效应」

随着数据池的增长，数据护城河并没有变得更强大