GPT 对产品界面的影响
1. 背景信息
1.1 大模型为什么重要
作为大语言模型(large language model, LLM)的一种,OpenAI 的 GPT (Generative Pre-Trained Transformer) 模型展现了今天最接近人类的机器智能,GPT 最重要的特征是通过使用万亿级的参数和全互联网的文本数据,使计算机模型产生了智能涌现(Emergence)。物理学的涌现一般指混沌现象里,反复出现某些稳定的模式,涌现是理解复杂的自然现象中最具挑战的一类。从最近 OpenAI 的掌门人 Sam Altman 和首席科学家 Ilya 的访谈中可以了解,如何驯服涌现出智能的大语言模型,以及如何让它稳定安全地服务人(Alignment,对齐),OpenAI 也没有完全掌握有效的调试方法,GPT 从某种程度上还是个黑盒。
我们有必要问,为什么一个语言模型会改变世界,ChatGPT 确实更会听话,也更会说话了,但一个智能文本交互工具有什么了不起?原因有两个:1. 人工智能有多种模态(Modal),不同模态间的研究,相互渗透也相互竞争,性能最出色的模态会最先定义未来 AI 应用的轨迹,ChatGPT 展现的文本模态智能,会在近期 AI 的发展中占主导地位。 2. 文本作为人类社会的入口非常重要。
第 1 点,多模态。以图像作为模态的人工智能,已发展了多年,在图像识别和自动驾驶上屡建奇功的计算机视觉(Computer Vision)是人工智能的另一个入口。过去十几年三大会 CVPR/ICCV/ECCV 的论文大爆发,即使去掉水货也是图像智能大爆炸的缩影。而 OpenAI 的出现扭转了图形智能在 AI 应用中的瞩目地位,甚至发展轨迹——当 Meta 发布 Segment-Anything(分割图片中不同物体的图形算法),因模型表现出类似 GPT 在文本模态上强大的零成本迁移能力,有人也惊呼传统 CV 已死(夸张了)。
ChatGPT 在文本模态上的影响力无需赘述,它超越了简单的科研价值,重新定义文本模态的智能和商业潜力。OpenAI 的产品 DALL·E,也提供了文本模态外的图像智能。开源的 Stable Diffusion 和闭源的 Midjourney 作为文生图领域的霸主,更贡献了无数个创造力行业的「死亡」预警。总而言之,AI 在文本和图像两个模态上相互渗透,并在相互竞争中推动智能的边界。
– OpenAI 的文本+图像模态:ChatGPT + DALL·E
– Stable Diffusion Web UI(图像模态):stable-diffusion
– Midjourney(图形模态):Midjourney
第 2 点,文本模态是人类社会的入口。可以参考尤瓦尔·赫拉利(《人类简史》作者)在 The Economist 专访中的观点:他认为,语言作为人类社会的操作系统,人工智能已经黑入(Hacked)这个系统,AI 会通过改变语言这个操作系统本身,彻底改变人类历史。大模型对人类行为和社会反馈的调度,会因为语言系统的入侵而产生巨大影响。
更多请参考: yuval-noah-harari-argues-that-ai-has-hacked-the-operating-system-of-human-civilisation
1.2 LLM 的成本
训练一个真正称得上大的大模型到底需要多少钱?
首先,不考虑图像和视频,大模型至少需要整个互联网的文本数据;需要上万张 A100 起步;所需电力的计算能耗将成为不容忽视的成本;试错的代价不可控:以数月计的训练时间和人力成本;模型训练和精确微调的方法未知或不公开,大模型还是个黑盒。这些原因叠加起来,导致这个地球上能拥有大模型的公司屈指可数,因为它需要极为雄厚的财力和极高的风险承受能力,不仅初级玩家无法参与,缺乏冒险精神的大公司也不配拥有。
伊隆·马斯克在最近一次访谈中估算,训练一个 GPT-5 等级的模型,可能用到 30000-50000 块 H100 芯片,使用最新的技术架构,最顶级的 AI 研究人员(参考 OpenAI,约 200 多人)。最后马斯克给出了大模型的起步成本。对比最近大模型 Startup 的估值,这个数字很有参考价值:2.5 亿美元
1.3 机会
腾讯 2023 年股东大会上,腾讯 CEO 马化腾回应有关 ChatGPT 和 AI 相关提问时表示,「我们最开始以为(人工智能)是互联网十年不遇的机会,但是越想越觉得,这是几百年不遇的、类似发明电的工业革命一样的机遇。」马化腾表示,互联网企业在 AI 领域都有很多的积累,腾讯也一样在埋头研发,但是并不急于早早做完,把半成品拿出来展示。「对于工业革命来讲,早一个月把电灯泡拿出来,在长的时间跨度上来看是不那么重要的。关键还是要把底层的算法、算力和数据扎扎实实做好,而且更关键的是场景落地,目前(我们)还在做一些思考。我感觉现在有很多公司太急了,感觉是为了提振股价,我们一贯不是这种风格。」
综合说,股价可以不急提振,前路漫漫不急创新,大模型不是新应用,它是革命本身。
我也有一些观点。晚一个月把电灯泡拿出来和早一个月的区别很大,区别在于你会成为爱迪生还是某个无人知晓的第二个发明灯泡的人。但是,大模型虽然能力惊人,但驯化改良的挑战依然艰巨。我们正处于刚造出飞机时的挑战期,想安全稳定地飞行,还需要许多失败的血汗教训理解红线在哪里。OpenAI 推出了 Plugin 插件,是潜在的一种产品方式,但 Plugin 目前的商业表现并不清晰,Plugin 预期引发的 App Store 时刻也不明朗,如何把 GPT 变成有商业价值的产品仍是未知数。这么多年,鹅厂作为后发优势(second mover advantage)的弄潮儿,拥有微创新的杀手锏,发挥自己长处也未必不合理。
2. GPT 引起人机交互层(HCI/UI)的变化
User Interface,用户交互界面,简称 UI。今天所有人都生活在 UI 的海洋里,不少互联网人认为 UI ≈ 网页 Web + App 设计,这种理解极大限制了 UI 的内涵。UI 更专业的定义应该叫做 HCI,Human-Computer Interface,人机交互界面。在过去将近一个世纪的发展中,人们根据当时机器的计算能力与智能水平,设计了几代特征明显的 UI。我们正处在 GUI 向 NLI 的过渡阶段。
- PCI: Punched Card Interface,打孔卡交互界面
- CLI: Comand Line Interface,命令行交互界面
- GUI: Graphic User Interface,图形交互界面
- NLI: Natural Language Interface,自然语言交互界面
- BCI: Brain Computer Interface,脑机交互界面
2.1 PCI, Punched Card Interface 打孔卡界面
上图:一叠打孔卡,上面存放着一段程序。
下图:1950 年美国职员正在制作打孔卡片,卡片上存储着一段美国人口调查数据。
2.2 CLI, Command Line Interface 命令行界面
编程语言进一步封装和显示设备出现,命令行工具成为电脑最重要的交互界面。CLI 操作高效,功能强大。
2.3 GUI, Graphic User Interface 用户图形界面
乔布斯从施乐公司(Xerox)「偷来」的用户图形化界面 GUI,掀起了个人电脑革命。
这层界面的影响力极大,在 GUI 上诞生了世界上第一款杀手级应用,Macintosh 的电子表格 VisiCalc,也是 Excel 的前身。
直到今天,Mac 优美流畅的 UI 界面依旧是最吸引用户的产品特性之一。
2.4 NLI, Natural Language Interface 自然语言界面
1. Text to Text 文生文 https://openai.com/chatgpt
2. Text to Image 文生图 https://openai.com/dall-e-2
3. Text to Video 文生视频
Runway:Advancing creativity with artificial intelligence.
说一句话:「A beautiful living room concept render.」「生成一个漂亮的起居室概念渲染。」
4. Text to Action 文生行为
Adept:
Adept 的目标,是通过软件自动化构建一个全能的智能助手。自然语言,将是 Adept 用户未来唯一需要使用的交互内容。
2.5 BCI, Brain Computer Interface 脑机界面
Thought to Action,从人类思维到机器行为。去年疯狂宣传的 NeuroLink,可以让猴子用意念玩游戏 Pong,人也可以用脑机接口操纵简单的游戏和机械假肢。现阶段,更有意义的脑机产品主要帮助残疾人控制义肢,恢复生活能力。今天的脑机技术对于我们讨论革命性的人机交互界面,还为时略早。
2.6 小结
-UI 的内涵需要被扩展
机器与人的沟通需要一层交互介质,这层介质控制着人机交互中输入输出的边界。交互介质会过滤转换人类的输入,让这些千奇百怪的人类输入,对机器而言是安全可识别的;同时,机器返回的结果经过交互介质的过滤转换,对人类也是安全可用、有价值的。
这层连接人与机器的交互介质,才是 UI 的定义。
过去二十年的互联网革命中,GUI 以按钮、拖拽、滑轮、手指缩放、多指操作、晃动、翻转、硬件按钮…等有限的操作形式,规范了人想对机器做的一切输入方式,这个经过标准化的 input 被机器理解,然后返回成标准化的 output。PC 和移动互联网革命让 UI 和 GUI 画了等号,但事实上 UI 远比 GUI 现有的交互方式丰富得多。
GPT 的出现直接破坏了这个平衡,机器变聪明对产品最重要的影响,就是计算机对自然语言的容错性大大提升,它不再需要一个只能接收极有限输入的过滤器,就能听懂人们日常会说的,甚至夹杂着各种逻辑、暗示、讽刺、错误的自然语言。AI 对自然语言的容错性提高,一定会破坏当下以 GUI 作为 UI 的交互层:
1. 用户体验(UX)大转换。用户从过去以手指、鼠标的「点击、滑动、拖拽」为主要方式的交互,转变为自然语言为接口的交互。
2. 现在的 GUI 会消失吗?不会,两个原因。第一,当模型不够准确,或 AI 产品化不成熟时,GUI 优雅的外观和体验依然对用户有吸引力,以及用手指、鼠标做交互的成本,远比自然语言低。第二,参考 UI 发展的不同阶段,黑乎乎的命令行落伍了吗?没有,GUI 不会立刻消失。如果使用上个时代的交互界面更高效,即使使用门槛较高,这种交互依然会存在。
3. 命令行工具(CLI)依然是对计算机进行深度操作最高效的方式。在智能未来,如果你需要深度操作一项应用,可能会有人说:把你的 GUI 打开,就像今天程序员说:把你的 terminal 打开。
4. 人机交互界面,会朝着对计算机操作深度变浅,换取使用门槛降低的方向发展。大模型将要引发的这次变化也一样。你可以看到这个趋势:命令行 CLI – 图形界面 GUI – 自然语言 NLI – 脑机接口 BCI,这个走向对计算机深度操作的能力越来越低,也让用户使用的门槛越来越低。
5. 最优秀的计算机工程师,对机器的深度理解和深度操作能力无法被替代,但也只有最优秀的那群工程师能生存下来。
从下面这个图能更清楚地看到,为什么 GPT 会引发产品 UI 的巨大变动?因为过去的机器语言一直非常苛刻,容错性极低。编程语言中一个标点错误都能导致整个程序无法运行。而大模型带来的最重要的魔力就是显著提高机器对人类自然语言(Natural Language, NL)的容错性。总结下来,未来的自然语言交互界面以文字输入框为起点,以多模态的高动态交互为目标。
使用门槛:离人类越近,使用门槛越低。命令行 CLI > 图形界面 GUI > 自然语言 NLI > 脑机接口 BCI
操作效率:离机器越远,控制效率越低。命令行 CLI > 图形界面 GUI > 自然语言 NLI > 脑机接口 BCI
-NLI 的演化
·开端:文字输入框
·发展:多模态输入框,语音、图像、视频
·目标:输入 – 多模态的文字、声音、图像、视频 => 返回 – 有用的 Text、Voice、Image、Video + 有用的软件行为。
Vision pro 能提供什么模态:三维的交互,手势、重力、旋转、语音文字、静态图像、实时视频。
·未来:与人类对话只是大模型理解世界的起点,用 LLM 作为大脑,摄像机做眼睛,机械臂做四肢,是 AI 与物理世界交互的新界面。
-Timberter——一款已存在多年、基于视觉算法的「清点木材」应用。如果我们给它加上大模型的推理能力,可执行搬运的机械臂,会发生什么?
-通过语音控制的机器人?OpenAI GPT-4 Whisper 语音接口
3. AI 生态
3.1 福布斯 AI 50
Forbes 近年来会评选年度最有潜力的 50 家 AI 公司。与往年不同,今年的 AI 公司名单不仅来自北美地区,而是从来自全球 800 多个公司中选出最具潜力和估值的 50 个,来自美国、加拿大、以色列、英国和日本。
下面是我整理的完整名单,OpenAI,Jasper,Hugging Face,Adept……你耳熟能详的 AI 创业公司里面都有。感兴趣的同学自己去 Forbes 网站看吧,不展开讨论了。Forbe AI 50
3.2 More AI Startups
使用场景主要集中在 C 端:生成式 Text、Audio、Image、Video + 搜索 Search + 自动化 Copilt。B 端应用多以整合为主,可以是具体的行业垂类:法律、医药健康、学术研究(生物、物理、数学)、智能分析。此外,还有 AI 基础设施:向量数据库、大模型 AI Model、AI 安全、开发运维 DevOps、自动化 Copilt。
下图包含了更多 AI 生成类的公司名单(2023 年 3 月,美国 VC 的视角),感兴趣的同学自行体验吧。
4. 大模型与产品的整合
4.1 整合成本
这里的整合成本不只是讨论把 AI 整合进产品的开发成本,这个整合成本更在于:用户通过使用 AI 智能应用,在完成和过去同等质量的工作所需要的学习和时间成本。当整合成本显著小于原有成本(开发运营成本+用户使用成本),AI 应用才有价值。
整合成本 =AI 产品开发成本 + 用户在 AI 应用完成过去同等质量工作的使用成本
举两个例子说明整合成本的意义。
正面:AIGC 生成游戏设计的填充素材/物料。
游戏设计开发中存在劳动密集型工作,准备填充素材,NPC 角色对话,风格切换,边缘场景……这类工作对原创性的要求不高,但需要的时间成本并不能显著降低。
如果使用 AI 工具生成此类非重要的素材,最后由原本就经验丰富设计师调整,想达到过去同等质量的结果,是完全可行的。
AI 生成非关键素材的整合成本 < < < 传统物料的准备成本
AIGC 在游戏物料场景下值得被推动。
反面:使用一站式 AI 生成高级广告的解决方案。
虽然 AI 广告解决方案看似降低了过去广告创作过程中文字、图像、视频的生成成本,但一个真正有魅力的高级广告往往需要极其大量的定制创作和二次修改。
所以,当真正的用户(使用 AI 创作的广告服务商,或想淘汰广告商的广告需求方),对 AI 生成的广告内容进行二次调整时,要达到同过去广告同等质量的水准,需要付出的调整成本比传统方式高得多,甚至多数时候完全不可能做到同等质量。
高端广告的 AI 整合成本 > > > 传统广告的原有成本。
AI 一站式服务解决高级定制的广告创作,在当下不现实。
当然,随着模型表现的进步,甚至市场手段和市场偏好发生变化(精准营销,定制偏好)。现在的反面案例会变成正面案例,正面也可能成反面。
4.2 整合方式
大模型会推动两类产品的发生。一种围绕 AI 能力打造全新的产品,可以称之为 AI Naive/AI 原生。另一种是在传统软件上增加 AI 功能,进行智能化改造,可以叫 AI 升级/AI Upgrade。这两种方式会形成不同的产品 UI。
整合 AI 产品中最重要的因素:
1. AI 模型的性能表现
2. 开发运维 AI 产品的成本 + 用户使用 AI 应用的使用成本(整合成本)。
5. AI 工具资料
AI 应用的构成:基础设施 Infra + 中间件 Middleware + 应用 Application(这些定义可以相互重叠)
5.1 AI 应用 | Application
-搜索引擎:New Bing、Google Bard
-聊天问答:ChatGPT、Jasper、各类智能聊天应用
-文生图片:Midjourney、Stable Diffusion
-文生视频:Runway
-自动化:Adept
……
更多工具参考(国内):AI 工具箱|AI 工具集合|AI 网站导航
5.2 中间件 | Middleware
大模型是一个基础模型(Foundation Model),拥有最广泛的知识,展现出强大的泛化能力(Generalization),但在精确场景下的准确率不足。这也是如何应用大模型的主要挑战。中间件的意义就在于整理专业场景的知识,拓展模型的知识库,提高 AI 精度,最后提供方便可用的接口连接上层应用。因为自然语言界面成本很低,很多中间件直接提供了应用界面,一个聊天窗口,比如第一个 AgentGPT。
-AgentGPT
https://github.com/reworkd/AgentGPT
https://agentgpt.reworkd.ai/
更多中间件工具:
-Langchain: https://github.com/hwchase17/langchain
-AutoGPT: https://github.com/Significant-Gravitas/Auto-GPT
-BabyAGI:https://github.com/yoheinakajima/babyagi
-HuggingGPT: https://github.com/huggingface/transformers
……
类似的中间件还有很多,不一一列举。
5.3 基础设施 | Infra
-模型 Model
大模型:OpenAI GPT、Google Bard、Anthropic、文言一心、百川智能……
开源模型:
LLama: https://github.com/facebookresearch/llama
Alpaca: https://github.com/tatsu-lab/stanford_alpaca
Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/
GPT4ALL: https://github.com/nomic-ai/gpt4all
ChatGLM: https://github.com/THUDM/ChatGLM-6B
Baichuan-7B: https://github.com/baichuan-inc/baichuan-7B
……
Stable Diffusion(图像模态): https://github.com/AUTOMATIC1111/stable-diffusion-webui
-数据库 Database
参考 OpenAI 推荐的向量数据库: https://platform.openai.com/docs/guides/embeddings/how-can-i-retrieve-k-nearest-embedding-vectors-quickly
Zilliz 有开源产品 Milvus: https://github.com/milvus-io/milvus
-编译运行 Compilation & DevOps
如何在本地设备和低端设备上运行大模型,是分发 AI 能力的一个障碍。
MLC-LLM(Machine Learning Compilation-LLM)是一个面向 ML 的编译工具。它能让大模型在本地运行。 https://mlc.ai/mlc-llm/
使用体验如下。在本地环境中通过 conda 安装 mlc-chat-cli-nightly 工具,从 Hugging Face 下载 Model,在本地 Mac 上运行大模型进行问答:
在本地移动设备上运行大模型:
6. 结语
大模型:闭源大模型如 GPT,挑战在于模型场景化、数据安全、准确率、调试效率、Prompt Engineering、工程接口的对接。自部署开源模型,不属于严格意义的大模型,挑战在于速度,性能,基准表现。
中间件:连接模型层与应用层,提供特定领域的知识外挂;拓展应用场景,快速提供应用接口;降低开发和运维成本。
应用层:使用场景对模型表现的容忍度,收益 = 使用价值 – 整合成本;危害应对:AI 幻觉、AI 安全。
用户界面,User Interface,是连接人与计算机的强力粘合剂,产品设计就发生在这个界面上。GPT 引发的革命会对产品 UI 产生巨大影响,文章内容是我过去几个月对 AI 相关信息的研究整理。这条进化路线需要考虑模型表现是不完美的,从文本交互出发,扩展出丰富多样的多模态,用新的交互体验满足古老的和全新的需要。
AI 革命最核心的商业问题永远是,What’s That Interface?
再用列侬的这句话做结尾:Everything will be OK in the end. If it’s not OK, it’s not the end.