a16z:企业云计算基础设施的垂直化趋势
编者按:硅谷风投 a16z 普通合伙人 Martin Casado 总结了云计算的垂直化趋势:对比「垂直云」厂商,传统云厂商的服务显得太通用、太不灵活以及服务深度不足。Martin 的角度佐证了爱范儿「知晓云」在小程序生态的独特定位。
垂直云正在兴起,因为传统云正在让位于(云计算)专业化。
过去 15 年的基础设施叙事一直围绕云计算展开。它的增长推动了从硬件、软件到运营等方方面面的创新浪潮,并导致行业历史上最大的工作负载迁移。少数超大规模企业推动了这种增长,他们的影响怎么夸大都不为过。他们主导着全球人才库。他们主导着市值增长。他们主导着全球 IT 支出。其中,前几位在 2019 年的支出超过 50 亿美元(至少会超过 100 亿美元)。因此,他们还对从芯片到软件的整个供应链产生巨大影响,他们现在用这些来推动着行业的进程话题,这些仅限于应该如何看待它们(相对)狭隘的基础设施。
从这个来之不易的主导地位看,他们已经说服了大部分行业,他们是唯一能够构建可扩展且具有成本效益的云基础架构的公司,行业的其它部分应该在此基础上构建其它应用程序。(当然,直到他们决定理所当然地推出有竞争力的服务。)
然而,与不同历史时期的计算架构一样,大型集中式云只是 IT 基础设施进化道路上的另一个中间站。他们的巨大成功现在正导致另一个转变,自然而然地将工作负载推回更专业的基础设施。这种趋势是这篇文章的重点。
顺便说一句,这种转变绝不意味着传统云正在失败或下滑。事实上,传统云服务服务传统企业 IT 的旅程中仍处于相对早期的阶段,并将继续数十年——这个趋势越来越明显。他们正在做他们应该做的,构建一个非常通用的产品来支持 IT 应用程序的长尾品类。
然而,在大多数情况下,为了提供更高级别的资源,传统云最终只是以新的方式捆绑了通常的低级别资源——并针对平均工作负载进行了优化。因此,传统云往往过于笼统、过于僵化,其服务深度不足。因此,目前正在兴起一批新的基础设施公司,以满足围绕丰富的垂直整合服务日益增长的需求。或者叫「垂直云」,我们喜欢这样称呼它们。
完全专注于特定类型工作负载或云服务的垂直云往往更复杂、更具成本效益且性能更高。虽然它们可能一开始就建立在传统的集中式云之上,但我们也越来越多地看到它们使用特殊用途的物理基础设施。
这些公司现在能够做到这一点,因为 (a) 云应用程序的架构越来越采用「松散耦合」架构,允许开发人员选择不同的云基础设施服务,也许最重要的是,因为 (b) 传统云的规模已经大到可以在它们之上构建大型、独立运营的垂直云服务(公司)。
因此,在许多方面,我们正在进入一个新的、令人难以置信的基础设施时代。在这个时代,任何基础设施服务(以及应用程序的任何常见子组件)都是围绕垂直云构建服务和公司。这是个公平的游戏。您在构建基础设施方面做得越好,服务就会越好。而且,由于有足够大的市场维持这一点。大型中心化云平台在结构上处于不利竞争地位。具有讽刺意味的是,基础设施初创公司的主要问题已经从「如果 AWS/GCP/Azure 决定与你竞争怎么办?」转变为「为什么不直接与 AWS/GCP/Azure 竞争?」
为了摆脱抽象说教,让我们看一下这正在具体改变基础设施公司组建方式的几个领域。我们选择了三个,但还有很多其它的(如果有时间,我们也很想把它们写出来):
前端开发人员正在使用后端服务,配套的计算服务也随之跟进:传统上,用于构建网页的计算逻辑位于服务器端,由后端团队实现。但是,前端开发人员的数量要多一个数量级,因此我们看到许多新框架的兴起,这些框架使前端开发人员能够直接使用云服务作为后端来构建复杂的应用程序。最流行的新兴技术架构是 JAMstack。
交互式网络应用显然受益于更接近用户的计算。而且,由于后端现在被抽象为一组服务,实现它们的团队可以通过利用 CDN 层将它们推向用户。这正是我们现在所看到的。许多新服务,从数据库到渲染引擎,再到协作工具,都被实现为工作负载,并在 Fly.io 和 CloudFlare 等下一代 CDN 上运行;这既为前端提供了动力,又为最终用户带来更高的性能体验。当然,Fly.io 和 CloudFlare 会构建自己的基础架构,因为最终这是提供低成本和良好性能的最佳方式,如果您有能力这样做的话。
人工智能正在推动新的硬件构建:不同的工作负载受益于不同的硬件和软件配置。如此之多,以至于在未经调优的云平台上运行工作负载可能会导致成本和性能损失几个数量级。虽然有许多类型的工作负载都属于这一类并且在云用户群中很受欢迎,但其中最值得注意的是人工智能工作负载。众所周知,Facebook、谷歌、微软和许多其他公司已经为人工智能训练构建了定制集群。
AI 工作负载与围绕 Web 服务器和数据库构建的传统云应用程序有很大不同。专门的云不仅具有为 AI/ML 计算构建的不同芯片,而且还具有不同的调度程序、联网方式、管理故障的模式以及为此目标优化的许多其它设计领域。鉴于这一切,难怪在过去几年中,我们看到诸如 MosaicML 之类的以 AI 为中心的云越来越受欢迎。
这并不是说传统云不能提供以人工智能为中心的服务。所有流行的都有。但它是另一项服务,与数百个其它服务并列。因此,对于那些将 AI 工作负载成本和性能放在首位的用户来说,他们越来越多地探索其它(更优化得)选择是可以理解的。
应用程序平台走向全栈:前两个案例是位于应用程序层之下的水平基础架构组件。然而,我们也开始看到趋势转向更高级别的应用平台。我们最喜欢的例子之一就是 Mighty 团队所做的工作。 Mighty 在云中将浏览器作为服务运行,以使 Web 应用程序更快(加载、交互、技术栈叠加等)。该团队选择了特定的硬件并将其与自己的 Chromium 浏览器集成,以提供比远程桌面软件的传统公共云产品好几个数量级的体验,同时可以和本机笔记本电脑的浏览器体验相媲美。
在我们总结之前,值得注意的是,过去十年中的许多技术和业务创新都有助于实现这一趋势。从技术上讲,建立裸机硬件产品比以往任何时候都容易。硬件供应商已经调整了他们的商业模式,以便把云计算成本变为完全的「运营支出」而不是「资本支出」。
我们还想指出,这篇文章的重点是由基础设施团队建立的基础设施公司,他们的专长是基础设施。有许多这样的团队完全有能力从硬件上构建可扩展的系统。过去,市场根本不足以维持这种专业化水平,但现在足以支持了。一个新的基础设施时代即将到来。我们都会因此变得更好。