给手机终端侧 AI 多点耐心

关于手机终端侧 AI，有两个重要的时间节点，一是去年高通骁龙峰会，出现了一大批手机终端侧生成式 AI 的演示，文生图，文生文，情景感知智能提示都不在话下，这些运算全都基于本地，主要依靠 7B 左右的端侧大模型，或者手机上运行的 Stable Diffusion 实现，无需任何云端的算力。

比如今年年初，高通发布了新的 AI Hub，这个 AI Hub 包含预优化 AI 模型库，支持在搭载骁龙和高通平台的终端上进行无缝部署。该模型库为开发者提供超过 75 个主流的 AI 和生成式 AI 模型，比如 Whisper、ControlNet、Stable Diffusion 和 Baichuan-7B，可在不同执行环境 (runtime) 中打包，能够在不同形态终端中实现终端侧 AI 性能、降低内存占用并提升能效。

我们现在使用的 ChatGPT 或者 Kimi 这样的 AI 应用，结果的生成都是在云端，背后可能是数千亿乃至万亿级别的参数模型。

第二个节点是今年苹果 WWDC 上，苹果发布了 Apple Intelligence，这是 iOS 上的混合智能，即有两个端侧模型，分别负责图形和文字，也有云端服务来连接大模型。

当然，站在现在的时间点，我们在智能手机上还不太能体验得到端侧大模型提供的 AI 体验，技术演示和技术落地之间，还有一段路要走。

在 ChinaJoy 期间，我们采访了高通技术公司手机、计算和 XR 事业群总经理 Alex Katouzian，聊了一下关于 AI 设备的话题。

第一个问题就是，去年骁龙峰会的时候，我们看到非常多终端侧生成式 AI 的演示，大概过去了三个季度的时间，到现在，手机上的生成式 AI 其实主要还是在云端完成的，为什么终端侧 AI 会比我们预想的进展要慢？

Alex Katouzian 说：

我认为随着生成式 AI 市场不断发展，企业也越来越意识到真正重要的用例是什么、什么是能够在智能手机当中部署的实用特性。在过去，大家习惯于在云端处理 AI 功能，然而，如今云端计算的成本正在大幅增加。因此，包括大型操作系统公司、互联网公司在内的所有企业都在力推终端侧 AI，以尽可能将需求分流到终端侧。

高通公司的优势正是在于我们可以与这些企业合作实现这一目标。我们已经看到诸多公司都在推动终端侧 AI，他们只希望在必要时利用云端处理。

例如，你可以拿起手机识别你将用于烹饪的食材，成功识别后，你可以让手机帮你生成对应的菜谱，你还可以让手机给你一些低卡路里菜单组合；烹饪完成后，你可以通过摄像头，向手机询问这份食物所包含的卡路里。凭借智能手机如今对多模态 AI 能力的支持，这个用例可以完全在终端侧实现。

与此同时再来看智能眼镜，戴上智能眼镜，它就像你的眼睛和耳朵一样，可以看到和听到你周围的环境。但是为保证电池续航，智能眼镜的处理能力就相对有限，它只能支持大概 10 亿参数体量的小模型运行，得到的信息也较少。

但手机是我们随身携带的拥有最强处理能力的终端之一，我们可以将手机与智能眼镜相结，通过眼镜来获取信息，然后把信息放到手机上来处理，再将处理结果传回到眼镜端，这是一个面向终端侧 AI 的非常理想的解决方案。

言下之意，端侧 AI 自然有巨大意义，不管是降低成本还是提升用户体验上，都值得推广，但就是要等等。

那么，我们为什么要再等等呢？Alex Katouzian 提到了一个硬件上的掣肘：

目前一个 7B 参数的大模型需要占用 4GB 左右的内存，所以说如果你的手机总的内存只有 12GB 的话，再除去操作系统需要占用的内存，那么这对大模型的运行就是一个挑战了。同样都是占用 4GB 的内存，如果有 16GB 总内存的话肯定效果会比 12GB 总内存的更好。

另外一点就是，过往我们认为 10B 参数的大模型比 4B 参数的大模型要好，但这可能并不一定是百分之百成立的。因为现在的很多小语言模型已经做的越来越出色，它们基于云端的大模型进行训练，并可以针对非常具体的某一个或某几个用例来进行压缩，从而提升准确度同时减小规模。我觉得这就是未来的趋势，小模型通过不断训练变得更加准确。我们与众多模型厂商合作，挑选最准确、最轻量化的小语言模型来实现在手机终端侧的部署。

随着这些模型变得越来越准确，我们得以将一个 10B 参数的模型部署到手机端，所以我们的另一个挑战是，如何确保在端侧能够处理尽可能多的请求，只在必要时才返回云端进行处理。所以我们的目标是找到准确度最高的、占用内存最小的且能处理最多用例的模型。

正如我前面提到的，目前 4B 参数的模型已经做的相当出色了。以微软举例，他们在 PC 后台跑的小语言模型 Phi 大概的参数量在 3.8B 到 7B 之间。

这段话有 2 个核心信息，一是一个 7B 的模型就需要占用大量的内存，这对于非旗舰机来说挑战巨大，意味着 8GB 内存手机运行大模型之后将会变得不可用，12GB 内存手机也干不了太多事情，16GB 内存才是理想的内存大小，但是目前市面上内存容量达到 16GB 的手机占比很小，这意味着现阶段端侧大模型大规模落地还不具备成熟条件。

另一个核心信息和当下的 AI 大模型的发展趋势有关，不少大模型研发商发现，大模型的水平和参数量不一定成正比关系，一方面有边际效益递减的现象存在，100B 的模型很可能只比 10B 的模型好上 20% 而已；另外就是随着训练水平的提高，更小参数的模型也可能比更大参数的模型表现更好，以及针对特定领域的垂直模型虽然参数量不一定很大，但是有所专长，在特定领域表现比通用大模型要好。

这两个信息放在一起，意味着其实也不必执着于当下端侧大模型能不能落地，这其实是循序渐进的软硬件共同进步的过程，未来 16GB 内存手机普及，而端侧大模型不一定要上到 7B 乃至 10B 和 13B 的参数量，只需要 4B 左右就能提供不错体验的时候，就是硬件和软件的双向奔赴，也是端侧 AI 成熟落地的时候。毕竟只能在旗舰手机运行的 AI 不是大家希望的 AI，Alex Katouzian 就描述了这种「双向奔赴」的愿景：