Arm 年度技术大会收官,下一代 AI 计算平台在路上了
今天下午,一年一度的 Arm Tech Symposia 年度技术大会在深圳圆满结束。
过去的年度技术大会通常会专注于特定应用市场,而今年的技术大会则重点关注 AI 如何为各个应用市场带来全面变革。
比如本次大会上就深入探讨了 AI 对计算的需求,并分享了如何通过硬件、软件、生态系统三大核心更好地把握 AI 的发展机遇,在场与会者也共同探讨了基于 Arm 的技术创新和 AI 发展趋势。
Arm 终端事业部产品管理副总裁 James McNiven 强调,Armv9 作为 Arm 最新的技术架构,推出伊始便是为支撑 AI 计算而设计,并持续迭代更新,通过 SVE、SVE2、SME 等关键技术,Arm 以架构创新和强大的软硬件协同能力不断优化移动端 AI 体验,赋能开发者实现卓越的 AI 性能。
Arm 聚焦于整体的技术栈,从底层硬件到整个技术栈中的软件和应用程序,软件始终是 Arm 计算平台不可或缺的一部分。据悉,目前已有 2000 万名开发者在 Arm 平台上为 Arm 开发软件。
基于此,KleidiAI 软件是本次大会值得关注的亮点之一。
它实现了与主流 AI 框架的深度集成,能够为开发者提供丝滑的开发体验;当与 Arm CSS 搭配使用时,KleidiAI 通过整合 Neon™、SVE2 和 SME2 等一系列 Arm 加速技术,从而显著提升计算应用的性能表现。
据悉,KleidiAI 是一套专门面向 AI 框架开发者的高性能计算内核。
它能够帮助开发者在各种设备上轻松发挥 Arm CPU 上的最佳性能,并充分利用 Neon、SVE2 和 SME2 等关键 Arm 架构的核心特性。
此外,KleidiAI 还集成了 PyTorch、Tensorflow、MediaPipe 等热门 AI 框架,对 Meta Llama 3、Phi-3 等模型进行了性能优化,并且还采用了可前后兼容的设计。
这样做的好处是,确保 Arm 未来在引入更多技术时依然能适用未来市场的需求。
据介绍,KleidiAI 的集成显著提升了生成式 AI 的工作效率。
数据显示,与参考实现方案(基于 llama.cpp,但不含 Kleidi 软件优化)相比,在新的 Arm Cortex-X925 CPU 上,使用(集成了 KleidiAI 的)llama.cpp 的 Meta Llama 3 和微软 Phi-3 大语言模型 (LLM) 的词元 (Token) 首次响应时间加快了 190%。
KleidiAI 的另一大优势在于易于集成。
在与腾讯的合作中,Arm 对腾讯混元大模型进行了优化。通过集成 Kleidi,混元大模型的预填充部分加速了 100%,而解码器的速度提高了 10%。这些性能改善有助于实现更快、更高效的 AI 操作。
此外,Arm 的工程团队只用不到 24 小时就完成了 Llama 3 的性能优化测试。
此外,KleidiAI 还通过 XNNPACK 与 MediaPipe 集成,为在移动设备上运行的开源 Gemma LLM 提供支持。得益于此,Google Pixel 8 Pro 智能手机上 Gemma 2B 的词元首次响应时间缩短了 25%。
与此同时,Arm 还与 Unity 合作开发端侧 AI 推理引擎——Sentis,可让游戏开发者在所有支持 Unity 游戏引擎的设备上打造全新的 AI 游戏体验。
另外,作为迄今速度最快的 Arm 计算平台,Arm 终端 CSS 在计算和图形性能方面实现了超过 30% 的提升,足以应对各类严苛的 Android 工作负载。
与此同时,Arm 终端 CSS 也提高了 59% 的 AI 推理速度,适用于更广泛的 AI/机器学习 (ML) 和计算视觉工作负载。
Arm 终端 CSS 的核心优势在于其搭载了 Arm 迄今性能最强、效率最高、功能最全面的 CPU 集群,致力于实现性能与能效的最佳平衡。
而凭借新一代 Arm Cortex®-X CPU,AI 优化的 Arm 终端 CSS 带来最高的 IPC 同比提升,性能提高 36%;新的 Arm Immortalis™ GPU 的图形性能提高 37%。
Arm Immortalis-G925 GPU 是 Arm 性能最强、效率最高的 GPU,在多款手游应用中实现了 37% 的性能提升,并在多个 AI 和 ML 网络上提升了 34% 的性能。
Immortalis-G925 主要面向旗舰智能手机市场。
而包括 Arm Mali™-G725 和 Mali-G625 GPU 在内的全新高可扩展性 GPU 系列,则面向从高端手机到智能手表和 XR 可穿戴设备等广泛的消费电子设备市场。
在最后的媒体问答环节,当被问及端侧人工智能 (AI) 对软硬件跨平台融合能力提出了新的挑战,而 Arm 目前在其中重点提供哪些价值与服务?James McNiven 向我们表示:
端侧领域的确面临因使用不同的 API 和平台而导致的碎片化挑战。这也是为什么 Arm Kleidi 是一个绝佳的例子。
从 Arm 的角度来看,我们需要思考如何打造一个软件库,通过将其集成到合作伙伴的软件中,让这些应用能够在包括移动终端在内的端侧领域,充分发挥 Arm CPU 的性能优势。
同时,我们也持续投入软件,例如,在企业场景中提供支持,通过与 Linaro 的合作,持续强化对 Linux 的支持,在固件标准(如 UEFI)上的贡献,以及对一些开源工具的支持等。
这些都是我们持续进行的工作任务,目标是尽可能减少产业的碎片化。我个人认为,在终端领域,Arm 现在进展非常不错。
Arm 预计到 2025 年底,全球将有超过 1000 亿台具备 AI 能力的 Arm 设备。不过,这里指的是累计数据,涵盖从 Cortex-M 到 Cortex-A 驱动的 AI 推理任务的设备,包括从物联网到基础设施,再到汽车和终端等各个领域。
显然,万事都很难一蹴而就,McNiven 也坦率地透露:
从我们的出货量规模来看,这确实是我们期望与生态伙伴共同达成的目标。我们无法在现阶段揭露未来几年的的计划。但,我们也许会关注能以多快速度达成下一个千亿的目标。
从传感器、智能手机,到工业物联网、汽车和数据中心,就像建造摩天大楼需要坚实的地基,AI 技术的蓬勃发展也离不开强大而高效的计算平台作为支撑。
凭借在芯片架构与技术创新上的不懈努力,Arm 正在为这座「AI 摩天大楼」打造最可靠的基石,也将在这场技术变革中扮演愈发关键的角色。