大模型「瘦身」进手机,面壁智能发布性能小钢炮 MiniCPM
大模型开启全新时代,一定要做 AI 原生。
面壁智能联合创始人、CEO 李大海曾如上说道。在他看来,大模型时代呼喊 AI native,端侧运行的大模型硬件就是原生硬件。
今天下午,面壁智能正式发布了 2B 旗舰端侧大模型面壁 MiniCPM,端侧大模型战场又将迎来一位新选手。
以小博大,2B 性能小钢炮「上机」
我们此前曾报道过「欧洲版 OpenAI」Mistral AI 发布了一款短小精悍的 Mistral-7B 小模型,虽然它的规模只有 7B,但在性能和能耗方面的表现都备受赞誉。
而只有 2B 规模大小的 MiniCPM,在多项主流评测主流榜单中,中英文平均成绩均超越 Mistral-7B。MiniCPM 能力更全面,在 CEval、CMMLU、MMLU 等基准测试中,得分也都超越了微软的明星模型 Phi-2。
在英语榜单的平均分方面,MiniCPM 更是大幅度超越了同等规模甚至规模更大的模型,甚至可以与 13B、30B、40B 规模的模型相媲美。在最接近人评价的评测集 MT-Bench 中, MiniCPM 甚至能和 Claude 2「掰手腕」,堪称 2B 性能小钢炮。
那么,面壁智能是如何做到以小博大?
- 算力:全流程高效 infra 10 倍推理加速,90% 成本降低;
- 算法:面壁模型风洞以小见大,寻找高效模型训练配置实现模型能力快速形成;
- 数据:方面现代化数据工厂形成从数据治理到多维评测的闭环牵引模型版本快速迭代;
在大模型生成等基础能力上,MiniCPM 同样也是个中好手。面壁智能联合创始人、CEO 李大海在发布上介绍,MiniCPM 不仅准确知道黄山、泰山的海拔,计算差值,甚至还能编写代码,进行自我开发和优化。
随着 2024 年大模型竞争的日益激烈,多模态能力的加入正推动人工智能进入「通感」时代,号称当下同量级最强多模态能力的 MiniCPM 也实现了多模态上手机,能够精准识别野外的毒蘑菇以及毒蛇等危险生物。
李大海在现场演示了 MiniCPM 在实际应用中的效果。当开启飞行模式并询问有关误食毒蘑菇或野外迷路时的自救措施时,MiniCPM 的回答显得更为实用而非空泛的「套话」。如果在野外遇到信号不佳的情况,MiniCPM 离线给出的这些建议可能会对你大有帮助。
在规模飙升的技术竞赛中,成本是大模型隐形竞争力,除了强大的性能之外,MiniCPM 的推理成本仅为 Mistral-Medium 的 1%。
作为一款端侧大模型,MiniCPM 成功跑通了国际主流手机品牌与终端 CPU 芯片,即使是老手机也能正常运行,只不过从吞吐量来看,运行归运行,实际表现或许有待提升。
基于面壁智能在大模型领域的积累,李大海在发布会现场也正式宣布将进一步开源,「让大模型飞入千家万户」。开源地址(内含技术报告)如下:
MiniCPM GitHub:https://github.com/OpenBMB/MiniCPM
OmniLMM GitHub:https://github.com/OpenBMB/OmniLMM
临至发布会末场,李大海还演示了 mniLMM-12B 模型身上的多模态实时交互能力。类似于此前 Google Gemini 大模型演示多模态能力的思路,他们也让 MiniCPM 来了一场石头剪刀布的「猜谜游戏」,结果显示,其回复的流畅度、准确度,延迟都在可接受的范围。
逻辑推理能力也是一个重要亮点。在上传没有文字说明的图片之后,它能根据服装,亦或者墨镜和导盲杖等小细节精准推断出图片表达的含义,充分展现了其「会看会思考」的综合能力。
Internet of Agents
「Agent 能力如果用到端侧模型上,能够更好地服务于具体场景,创造出更多的价值,我认为在这两个方向上是能够互相支撑,产生一些奇妙的化学反应。」
面壁智能 CTO 曾国洋谈到了端侧大模型跟 Agent 的关系。在这次发布会上,李大海也再次重申了大模型+Agent 的双引擎战略,在他看来, MiniCPM 的发布依然还是为双引擎战略服务。
事实上,当大模型寻求融入落地场景时,AI Agent 就成为了一条关键途径。面壁智能是最早提出 Agent 概念的企业之一。面壁智能官方甚至曾断言:未来的世界将会是 Agent 的世界,万物都是 Agent。
设想一下,当你准备熬粥,只需将食材放入电饭煲后,稍等片刻,一锅热气腾腾的粥就出炉了,在这一过程中,电饭煲利用内置的 Agent 技术,自动调整温度和火候,无需人工干预即可完成烹饪。
在去年的云栖大会上,李大海曾表示「大模型+Agent 将会带来新一轮的伟大技术变革。」
彼时,他把大型模型比作汽车的引擎,为汽车提供动力。然而,要制造一辆完整的汽车,还需要转向系统、底盘以及其他所有部件。
同样地,他认为在大模型这个引擎的基础上,还需叠加一系列上层技术,如记忆能力和使用工具的能力,以拓展更广阔的应用前景和想象力。而 AI Agent 正是承载这些技术能力的实体。
自创立之初,面壁智能便开始规划「大模型+Agent」的技术路线和落地方向,并相继推出了 AI Agent 的「三驾马车」——XAgent、AgentVerse、ChatDev。
这三款产品均由大模型驱动,代表了 AI Agent 的前沿创新与应用成果,旨在将大模型和实际环境相结合,其中,XAgent 是一个大模型驱动的 AI 智能体应用框架,AgentVerse 是一个智能体通用平台,而 ChatDev 则是一个多智能体协作开发框架。
具体到 ToB 的落地方向 ,AI Agent 有望在企业内部扮演多重角色,重塑企业的运营流程和组织架构。这些 AI Agent 可执行各种任务,类似传统企业员工,从而降本增效。
对于消费级应用(ToC)而言,AI Agent 可能会以智能助手的形式出现,为用户提供个性化和便捷的服务。这些智能助手能理解并预测用户需求,实时提供帮助和建议,从而改善用户体验和提高生活质量。
那么 AI Agent 的未来应该是什么样的?
面壁智能的愿景和理念是「智周万物」(Internet of Agents),即让 AI Agents 连接世间万物,实现从「万物互联」到「万物智联」的转变。
这一概念是由清华大学计算机系长聘副教授、面壁智能创始人刘知远提出来的,他也曾在公开演讲中笃信地说道:
面向未来,通过大模型驱动的智能体平台可以把更多的人、设备和物品连接起来,推动万物互联进阶万物智联,进入人机交互的「Internet of Agents」(loA)智联网新时代,我们将迎来人工智能的第二次涌现。
在这位计算机领域耕耘数十年的顶尖专家的畅想中,人工智能的第二次涌现即将各有所长的单个智能体关联起来,形成复杂的群体智能,从而展现出更为强大的涌现行为。
不久前李大海在与《失控》作者凯文·凯利的连线采访中,凯文·凯利也表达了类似的看法。他认为,AI 间的协作具有巨大潜力,未来将形成由数百乃至数千种不同 AI 构成的生态圈,释放出令人惊叹的力量。
事实上,群体智能作为一种普遍存在于自然界和社会的现象,是指由众多简单个体组成的群体能够展现出高水平的智能行为。在自然界中,这种智能行为以各种形式呈现,如蚁群、蜂群和鱼群的集体行动。
蚁群在寻找食物源或返回巢穴时,能通过释放信息素引导同伴,从而找到最短路径。鱼群在迁徙时,通过紧密协调彼此间的位置和行动,形成一种保护性游动模式,让整个群体有效规避捕食者并节约能量。
李大海也借用《三体》的名言立下了新年 Flag——让 AGI 来得更「快」一点,与面壁智能公司的愿景「智周万物」遥相呼应。
人生的美妙之处在于迷上一样东西。人生苦短,少做些虚无缥缈的事。