AI爆火两年，技术飞快跑，大模型突破商业化困局了吗？

自从 ChatGPT 横空出世，AI 的热潮已经席卷了两年。这两年，普通人对大语言模型的能力兴奋，随便一条指令就能生成流畅自然的文本，科幻电影里的场景，如今早已经成为现实。

大模型这个赛道也开始进入到一个十字路口，新技术如何转化为新产品，满足真需求，发展成新的商业生态。

如同移动支付、智能手机、 LTE 共同点燃了移动互联网时代的繁盛，AI 行业这一年也在寻找这样的 PMF（Product Market Fit）而焦虑。

新技术的大航海时代已经开启，到底能不能发现新大陆，这将决定大模型是不是又一个烧钱的资本游戏，是 .com 泡沫的加速重演，还是如黄仁勋所言的新工业革命开端，这个答案会比 AGI 更快让我们看到。

大模型的大问题

今天，基座模型的竞争基本已经形成稳定的格局。由 OpenAI 领衔，旗下的 ChatGPT 也是稳居市场龙头。Anthropic，DeepMind，Llama，Grok，也各有各的长处。

于是，今年最热闹的，不是谁又多扩充了多少参数、响应速度提高了多少秒，而是大模型技术怎么化身为一个能用的产品。

大语言模型的技术怎么落地，从一开始就是个抓肝挠心的问题。哈佛商业评论曾经做过一个调查，发现生成式 AI 的应用——种类之繁杂，多达 100 类。

不过，在大类上就是五种：技术问题解决、内容生产及编辑、客户支持、学习和教育、艺术创作和调查研究。

知名的投资公司 a16z，给出了他们团队心中优秀的生成式 AI 产品，其中有不少眼熟的，比如通用类的 Perplexity，Claude，ChatGPT。也有更为垂直的，比如笔记类产品 Granola, Wispr Flow，Every Inc.，Cubby 等。还有教育赛道今年最大赢家 NotebookLM，或者是聊天机器人 Character.ai，Replika 等。

繁花锦绣是对于普通用户来说的：上面这些产品，绝大多数只是免费就足够用了，订阅版或 pro 版的费用，不是必须花的钱。强如ChatGPT，今年的订阅收入大概在每月 2.83 亿美元，与去年相比增长了两倍。但在巨大的成本面前，这点收入显得杯水车薪。

享受科技发展属于普通用户的开心事，烈火烹油是留给从业者的：再怎么激动人心的技术进化，也不能停留在实验室里，而是要进入商业社会接受检验。订阅模式没有被广泛接受，植入广告的时机还没有到来。留给大模型空烧钱的时间，已经很少了。

相比之下，toB 业务的走势让人有信心的多。

自 2018 年以来，财富 500 强财报电话会议中提及 AI 的次数几乎翻了一番。在所有财报电话会议中，19.7% 的记录提到最多的主题，就是生成式人工智能。

这也是整个行业的共识。根据中国信通院发布的《人工智能发展报告（2024 年）》蓝皮书，2026 年，超过 80%的企业将使用生成式人工智能 API，或者部署生成式的应用。

面向企业侧和消费侧的应用展现出不同的发展态势：面向消费侧，大模型应用讲究低门槛、创意性。而面向企业侧，大模型应用更注重专业定制和效益反馈。

换句话说，提升效益当然是每个企业都在追求、都想实现的，但只有这四个字太模糊了。大模型需要证明自己能实实在在地解决使用场景中的问题，真真切切地提升效益。

精准找到切角，让技术降落

无论是资源的投入，还是对开拓市场的力度，国内的大模型竞争，在整个 2024 年称得上激烈。

根据工信部数据，2023 年中国大语言模型市场规模增长率突破 100%，市场规模达到 147 亿元。各家厂商在商业化进程上积极尝试，首先打响的是价格战：以 tokens 计费、API 调用等方式的成本，正在被不断拉低。许多主流热门通用类大模型的价格，离白用已经没多远。

把价格打下、降低成本是更好实现的。而理解业务、分析切入场景，是一条更崎岖的路线。

不过，也不是每一家都在参与价格战，靠低价硬卷。

「在这种情况下，更重要的是找到我们的特点，发挥我们的优势。腾讯内部本身有很多场景，这些场景给了我们更多洞察，也进一步打磨了我们的能力」腾讯云智能 AI 产品专家、腾讯混元 ToB 产品负责人赵新宇这样认为，「往外看，聚焦一个行业，聚焦在这个行业内一些特定的场景，再慢慢拓展出去。」

在众多基座模型中，混元可能不是热度最高的一个，可在技术实力上却不容忽视。

九月时，混元发布的通用文生文模型混元 Turbo，采用全新的混合专家模型（MoE）结构。从语言理解和生成、逻辑推理、意图识别，到编码、长上下文和聚合任务中，都有相当强大的表现。在 11 月的动态更新版本中，已经升级为全系列效果最好的模型。目前，腾讯混元的能力正在通过腾讯云全面输出，通过提供多尺寸、多类型的模型，结合腾讯云智能其他的AI产品和能力，帮助模型应用落地到场景中。

纵观目前模型应用落地形态，大致分为两种：严肃场景和娱乐场景。后者类似于聊天机器人、陪伴类应用等等。

而「严肃场景」，则指向企业核心业务运营中，对准确性和可靠性要求较高的应用场景。在这些场景中，大模型要承担结构化的信息处理，往往需要遵循预设的业务流程和质量标准，其应用效果，会直接关系到企业的运营效率和业务成果。

腾讯云曾经帮助一家外呼服务商构建客服体系，这是一个典型的严肃类场景。同时，外呼涉及到自然语言对话能力、内容理解和分析能力，看上去天然和大语言模型有极高的适配。

实际上，挑战都在细节之处。当时团队面临核心挑战有两个。一是性能问题，由于模型参数量巨大，达到 70B 或 300B 规模，如何在500毫秒内完成响应，并传递给下游 TTS 系统成为一个重要的技术难题。

二则是对话逻辑的准确程度。模型会在在一些对话中出现不合逻辑的回复，影响整体对话效果。为了克服这些挑战，项目团队采取了密集迭代的策略，在 1-2 个月的开发周期内，保持每周一个版本的快速迭代节奏。

企业客户对大语言模型技术展现出兴趣，并愿意进行创新尝试，但在技术与业务的深度融合方面，始终存在认知鸿沟。这并非源于企业对自身业务理解的不足，而是需要一个专业的技术团队，通过深入理解行业痛点和业务场景，找到最恰切的场景，为企业量身打造 AI 落地的方案，实现技术与业务的最优契合。

「传统的做法可能需要运营人员一个场景一个场景地搭建（语料库），」新宇介绍到，「而大模型，你只需要给一个 prompt，就可以实现需求了。」在摸清楚需求后，混元的团队几乎每周一个版本更新，「卷」起了迭代速度，一两个月下来，准确度已经达到了 95%。

对于这家外呼服务商，生成式技术完全是新鲜事物。而混元直接让他们看到了大模型所带来的效益，在人力方面的开支减少了四分之三。

「最好的做法就是把效果拿出来，」新宇说，当客户对生成式技术的了解有一点，但不多的时候，把效果摆出来是最有效的。通过客户的业务经历，找到可以切入的场景，直接去做测试验证，展示出可以提升的效果。

类似的经历，在体现和小米的合作中，这是一次被称为「双向奔赴」的合作。

对方希望在问答互动中引入大模型，把AI搜索的能力应用到端侧。这踩中了混元的两个长处：一是由腾讯丰富的内容生态所提供的支持；二是混元在 AI 搜索方面的能力。对于问答来说，准确率非常关键。

「一开始还是有很多困难的，」新宇回顾道，「从他们的角度来看，业务形态涵盖了多个场景，包括闲聊、知识问答等不同类型，其中知识问答场景，对准确率有比较高要求。」

通过前期的测试，混元团队明确了自己在搜索场景中的优势，双方一起将广泛意义上的问答互动，按照不同的话题层级逐步细化。这样的细分，能够让模型更清晰地了解各个场景的具体需求和效果要求，从而进行更有针对性的优化。

知识问答场景，成了那个降落点。在后续的实现上，混元需要攻克的挑战仍不少：时延问题不必多说，响应时间一定要快；其次是对搜索内容的整合。

「在整个链路当中，我们做了自建搜索引擎，还有一个意图分类模型，来判断是不是一个高时效性的提问。比如是不是跟新闻、时事相关的话题，然后再判断是该给到主模型还是 AI 搜索。」

只调用最需要的部分，这样一来响应速度能够大大提升。而一个重要的发现是， 70% 的问询都会引到 AI 搜索上，这意味着必须要有足够丰富的内容，作为最基础的调用支撑。

而混元背后，站着的是整个腾讯的内容生态。从新闻、音乐、金融，甚至医疗等更具体的领域，都能在腾讯的生态里找到海量的优质内容。这些都是混元模型在搜索时，可以触达和引用的数据，也是独一无二的壁垒。

经过历时两个多月的高强度迭代，最终无论是回答的质量、响应和性能等方面，都完全实现了需求，上线到了小米的实际业务中。

toB 业务的要义便在于此，能够实现营收、能够赢得信任，需要实实在在给客户的业务带来价值。

「卷」泛化，才能走向更多场景

大模型在不同行业和产品的落地中，实际上也在促进技术自身的成长。

对于一部分大模型产品而言，选择 toC 的路径有一个核心考量：用 C 端的反馈来优化模型。大模型对调优的需求没有尽头，而 C 端消费群的数量和活跃度，为模型的迭代提供了养料。这样一来，迭代的飞轮就能跑起来。

实际上，这在 toB 业务中也会实现，甚至要求更高。

「少年得到」的 K12 语文作文批改功能，应用了混元的多模态能力。结合腾讯云智能的 OCR 技术，识别学生的作文内容，并根据设置好的评分标准，由大模型为作文打分。

通常，大模型和真人教师判分，差值在五分内就很好了——可这并不容易实现。一开始混元的评分和真人教师的评分，差值小于五分的情况，只有 80%。

「模型有一定方法和能力，能够解决一些场景里的问题。但是聚焦到一个具体客户的业务上，对这个效果有更高的要求。」新宇说，「可能 90%的准确度可以达成业务目标，但只有 70% 和 80% 的时候，就有一定距离。」

这意味着还要继续「卷」下去。随着服务企业客户群体的不断扩大，对技术本身也提出了新要求：首先是迭代速度的大幅提升——面向 C 端用户时，迭代可能需要一到两个月。而现在，每周都能出现一个版本，这种高频迭代节奏极大促进了模型的成长和进步。

其次，通过持续服务不同企业场景，也显著增强了模型的泛化能力。这表明，深入服务多元化的企业需求不仅加快了模型开发迭代的节奏，也提高了模型的实用性和适应性，可以从严肃场景，拓展到偏娱乐向的场景中。

刚刚获得千万级 A 轮融资的角色扮演内容平台「造梦次元」，应用到了混元大模型的角色扮演专属模型Hunyuan-role，定位于服务年轻用户，结合生成式 AI 技术，提供交互式、剧情化的虚拟角色互动体验。

Hunyuan-role 开创了一种全新的人机交互方式。通过塑造丰富多样的虚拟角色形象，并基于预设的剧情背景和人物设定，与用户展开自然流畅的互动对话。

在技术层面，这样的场景应用到了 Hunyuan-role 在长短文本对话处理、意图识别和响应等方面都展现出领先优势，能够胜任多样化的应用场景，并且展现出了出色的内容拟人化能力——不仅能够进行有温度的对话互动，还可以推进故事情节发展，营造沉浸式的用户体验。

这些特性使得 Hunyuan-role 成为产品获客和用户运营的有力工具，在提升用户留存率和使用粘性方面发挥着重要作用。同样也反映出，在严肃场景得到锻炼和提升的混元，从而形成的泛化能力，可以覆盖到更广阔的场景，乃至在端侧的应用。

从严肃场景，逐步扩展到娱乐、创意，乃至更多的场景，是大模型应用必须走上的征程。

随着技术的成熟和成本的降低，大模型势必要向更广泛的应用场景扩展。原先聚焦于严肃的商业场景，如企业办公、数据分析、科研等行业，因为这些场景具有明确的需求和较高的支付意愿。

进一步拓展到娱乐、创意、内容生产等行当中，需要在思路上有一个锚点：始终以解决具体场景中的需求点为核心目标，锚定融合大模型能力的切入点。

除了与应用软件的合作，也需要有和硬件厂商的合作，让模型在最靠近消费者的端侧有所施展与发挥，提供更贴近用户的日常生活，提供更便捷、即时的服务体验。

这个过程中，市场对生成式 AI 技术的认知和接受度在不断提高，用户基数也在持续扩大。面对这种快速变化的市场环境，模型的迭代能力变得尤为重要。这不仅体现在技术性能上，还包括对用户需求的理解、对不同场景的适应性等多个维度。只有那些能够快速学习、持续优化、不断适应新需求的模型和团队，才能在竞争中保持优势。

在不断覆盖更多场景的时候，也是在走向更多的终端消费者。随着市场整体对生成式技术的接受，潜在用户量会持续增加，一个能够快速迭代和自我提升的模型，才可以敏锐地适应变化，走得更稳、更远。