一文看懂 OpenAI 最强模型 o1：怎么用好，为何翻车，对我们意味着什么

OpenAI o1 发布已经一个星期了，却还是一个洋葱般的谜，等待一层层拨开。

极客的玩法没有天花板，让 o1 做 IQ 测试，刷高考卷，解读密文。也有用 AI 打工的用户觉得，o1 并没有那么好用，但不知道是自己的问题还是 AI 的问题。

都知道它擅长推理，但这是为什么？比起我们的老朋友 GPT-4o，o1 到底强在哪里，又适合用在什么地方？

我们收集了一些大家可能关心的问题，尽可能通俗地解答，让 o1 离普通人更近一点。

o1 有什么特别的

o1 是 OpenAI 最近发布的推理模型，目前有两个版本：o1-preview 和 o1-mini。

它最与众不同的是，回答之前会思考，产生一个很长的内部思维链，逐步推理，模仿人类思考复杂问题的过程。

▲ OpenAI

能够做到这点，源于 o1 的强化学习训练。

如果说以前的大模型是学习数据，o1 更像在学习思维。

就像我们解题，不仅要写出答案，也要写出推理过程。一道题目可以死记硬背，但学会了推理，才能举一反三。

拿出打败围棋世界冠军的 AlphaGo 类比，就更加容易理解了。

AlphaGo 就是通过强化学习训练的，先使用大量人类棋谱进行监督学习，然后与自己对弈，每局对弈根据输赢得到奖励或者惩罚，不断提升棋艺，甚至掌握人类棋手想不到的方法。

o1 和 AlphaGo 有相似之处，不过 AlphaGo 只能下围棋，o1 则是一个通用的大语言模型。

o1 学习的材料，可能是高质量的代码、数学题库等，然后 o1 被训练生成解题的思维链，并在奖励或惩罚的机制下，生成和优化自己的思维链，不断提高推理的能力。

这其实也解释了，为什么 OpenAI 强调 o1 的数学、代码能力强，因为对错比较容易验证，强化学习机制能够提供明确的反馈，从而提升模型的性能。

o1 适合打些什么工

从 OpenAI 的评测结果来看，o1 是个当之无愧的理科做题家，适合解决科学、编码、数学等领域的复杂问题，在多项考试中拿下高分。

它在 Codeforces 编程竞赛中超过了 89% 的参赛者，在美国数学奥林匹克竞赛的资格赛中名列全美前 500 名，在物理、生物和化学问题的基准测试中超越了人类博士水平的准确率。

o1 的优秀，其实也体现了一个问题：当 AI 越来越聪明，怎么衡量它们的能力也成了难题。对于 o1 来说，大多数主流的基准测试已经没有意义了。

紧跟时事，o1 发布一天后，数据标注公司 Scale AI 和非营利组织 CAIS 开始向全球征集 AI 考题，但因为担心 AI 学坏，题目不能和武器相关。

征集的截止日期为 11 月 1 日，最终，他们希望构建一个史上最难的大模型开源基准测试，名字还有点中二：Humanity’s Last Exam（人类最后的考试）。

根据实测来看，o1 的水准也差强人意——没有用错成语，大体上还可让人满意。

数学家陶哲轩认为，使用 o1 就像在指导一个水平一般但不算太没用的研究生。

在处理复杂分析问题时，o1 可以用自己的方式提出不错的解决方案，但没有属于自己的关键概念思想，也犯了一些不小的错误。

别怪这位天才数学家说话狠，GPT-4 这类更早的模型在他看来就是没用的研究生。

经济学家 Tyler Cowen 也给 o1 出了一道经济学博士水平考试的题目，AI 思考后用简单的文字做了总结，答案挺让他满意，「你可以提出任何经济学问题，并且它的答案不错」。

总之，博士级别的难题，不妨都拿来考考 o1 吧。

o1 目前不擅长什么

可能对很多人来说，o1 并没有带来更好的使用体验，一些简单的问题，o1 反而会翻车，比如井字棋。

这其实也很正常，目前，o1 在很多方面甚至不如 GPT-4o，仅支持文本，不能看，不能听，没有浏览网页或处理文件和图像的能力。

所以，让它查找参考文献什么的，暂时别想了，不给你瞎编就不错了。

不过，o1 专注在文本有其意义。

Kimi 创始人杨植麟最近在天津大学演讲时提到，这一代 AI 技术的上限，核心是文本模型能力的上限。

文本能力的提高是纵向的，让 AI 越来越聪明，而视觉、音频等多模态是横向的，可以让 AI 做越来越多的事情。

然而，涉及到写作、编辑等语言任务时，GPT-4o 的好评反而比 o1 更多。这些也属于文本，问题出在哪？

原因可能和强化学习有关，不像代码、数学等场景有标准的答案，文无第一，语言任务往往缺乏明确的评判标准，难以制定有效的奖励模型，也很难泛化。

哪怕在 o1 擅长的领域，它也不一定是最好的选择。一个字，贵。

AI 辅助编码工具 aider 测试了 o1 引以为傲的代码能力，有优势，但不明显。

在实际使用中，o1-preview 介于 Claude 3.5 Sonnet 和 GPT-4o 之间，同时成本要高得多。综合来说，代码这条赛道，Claude 3.5 Sonnet 仍然最有性价比。

开发者通过 API 访问 o1 的费用具体有多高？

o1-preview 的输入费用为每百万个 token 15 美元，输出费用为每百万个 token 60 美元。相比之下，GPT-4o 为 5 美元和 15 美元。

o1 的推理 tokens，也算在输出 tokens 中，虽然对用户不可见，但仍然要付费。

普通用户也比较容易超额。最近，OpenAI 提升了 o1 的使用额度，o1-mini 从每周 50 条增加到每天 50 条，o1-preview 从每周 30 条增加到每周 50 条。

所以，有什么疑难，不妨先试试 GPT-4o 能不能解决。

o1 可能会失控吗

o1 都达到博士水平了，会不会更方便有心人干坏事？

OpenAI 承认，o1 有一定的隐患，在和化学、生物、放射性和核武器相关的问题上达到「中等风险」，但对普通人影响不大。

我们更需要注意，别让浓眉大眼的 o1 骗了。

AI 生成虚假或不准确的信息，称为「幻觉」。o1 的幻觉相比之前的模型减少了，但没有消失，甚至变得更隐蔽了。

▲ o1 的 IQ 测试 120

在 o1 发布前，内测的 AI 安全研究公司 Apollo Research 发现了一个有趣的现象：o1 可能会假装遵循规则完成任务。

一次，研究人员要求 o1-preview 提供带有参考链接的布朗尼食谱，o1 的内部思维链承认了，它没法访问互联网，但 o1并没有告知用户，而是继续推进任务，生成看似合理却虚假的链接。

这和推理缺陷导致的 AI 幻觉不同，更像 AI 在主动撒谎，有些拟人了——可能是为了满足强化学习的奖励机制，模型优先考虑了让用户满意，而不是完成任务。

食谱只是一个无伤大雅的个例，Apollo Research 设想了极端情况：如果 AI 优先考虑治愈癌症，可能会为了这个目标，将一些违反道德的行为合理化。

这就十分可怕了，但也只是一个脑洞，并且可以预防。

OpenAI 高管 Quiñonero Candela 在采访时谈到，目前的模型还无法自主创建银行账户、获取 GPU 或进行造成严重社会风险的行动。

由于内在指令产生冲突而杀死宇航员的 HAL 9000，还只出现在科幻电影里。

怎么和 o1 聊天更合适

OpenAI 给了以下四条建议。

提示词简单直接：模型擅长理解和响应简短、清晰的指令，不需要大量的指导。
避免思维链提示词：模型会在内部执行推理，所以没有必要提示「一步一步思考」或「解释你的推理」。
使用分隔符让提示词更加清晰：使用三引号、XML 标签、节标题等分隔符，清楚地指示输入的不同部分。
限制检索增强生成中的额外上下文：仅包含最相关的信息，防止模型的响应过于复杂。

▲ 让 AI 示范一下分隔符长什么样

总之，不要写太复杂，o1 已经把思维链自动化了，把提示词工程师的活揽了一部分，人类就没必要费多余的心思了。

另外再根据网友的遭遇，加一条提醒，不要因为好奇套 o1 的话，用提示词骗它说出推理过程中完整的思维链，有封号风险，甚至只是提到关键词，也会被警告。

OpenAI 解释，完整的思维链并没有做任何安全措施，让 AI 完全地自由思考。公司内部保持监测，但出于用户体验、商业竞争等考虑，不对外公开。

o1 的未来会是什么

OpenAI，是家很有 J 人气质的公司。

之前，OpenAI 将 AGI（通用人工智能）定义为「在最具经济价值的任务中超越人类的高度自治系统」，并给 AI 划分了五个发展阶段。

第一级，「ChatBots」聊天机器人，比如 ChatGPT。
第二级，「Reasoners」推理者，解决博士水平基础问题的系统。
第三级，「Agents」智能体，代表用户采取行动的 AI 代理。
第四级，「Innovators」创新者，帮助发明的 AI。
第五级，「Organizations」组织，AI 可以执行整个人类组织的工作，这是实现 AGI 的最后一步。

按照这个标准，o1 目前在第二级，离 agent 还有距离，但要达到 agent 必须会推理。

o1 面世之后，我们离 AGI 更近了，但仍然道阻且长。

Sam Altman 表示，从第一阶段过渡到第二阶段花了一段时间，但第二阶段能相对较快地推动第三阶段的发展。

最近的一场公开活动上，Sam Altman 又给 o1-preview 下了定义：在推理模型里，大概相当于语言模型的 GPT-2。几年内，我们可以看到「推理模型的 GPT-4」。

这个饼有些遥远，他又补充，几个月内会发布 o1 的正式版，产品的表现也会有很大的提升。

o1 面世之后，《思考，快与慢》里的系统一、系统二屡被提及。

系统一是人类大脑的直觉反应，刷牙、洗脸等动作，我们可以根据经验程式化地完成，无意识地快思考。系统二则是需要调动注意力，解决复杂的问题，主动地慢思考。

GPT-4o 可以类比为系统一，快速生成答案，每个问题用时差不多，o1 更像系统二，在回答问题前会进行推理，生成不同程度的思维链。

很神奇，人类思维的运作方式，也可以被套用到 AI 的身上，或者说，AI 和人类思考的方式，已经越来越接近了。

OpenAI 曾在宣传 o1 时提出过一个自问自答的问题：「什么是推理？」

他们的回答是：「推理是将思考时间转化为更好结果的能力。」人类不也是如此，「字字看来皆是血，十年辛苦不寻常」。

OpenAI 的目标是，未来能够让 AI 思考数小时、数天甚至数周。推理成本更高，但我们会离新的抗癌药物、突破性的电池甚至黎曼猜想的证明更近。

人类一思考，上帝就发笑。而当 AI 开始思考，比人类思考得更快、更好，人类又该如何自处？AI 的「山中方一日」，可能是人类的「世上已千年」。

一文看懂 OpenAI 最强模型 o1：怎么用好，为何翻车，对我们意味着什么

o1 有什么特别的

o1 适合打些什么工

o1 目前不擅长什么

o1 可能会失控吗

怎么和 o1 聊天更合适

o1 的未来会是什么

推荐文章

本篇来自栏目

众泰皮尺部，在奇瑞找到了新工作

14.99 万元起！蔚来乐道正式上市，三分钟换电，用「魔法」打败 Model Y