不止步于「显卡一哥」，NVIDIA 发布 Perfusion「文生图」模型学习新技术

NVIDIA 显卡卖多了，差点让人忽略其本身也是生成式 AI 巨头。

近日，NVIDIA 最新发表的论文披露了一种名为 Perfusion 的「文生图」模型的个性化学习技术。

官网显示，Perfusion 技术是由 NVIDIA 和以色列的特拉维夫大学合作研发的。Perfusion 技术可以帮助自由创造生成更加个性化的物体，实现更生动的结果，具有更好的提示匹配性，并且不易受原始图像背景特征的影响。

NVIDIA 图形研究副总裁 Aaron Lefohn 曾经将 Perfusion 技术描述为「高度紧凑的技术……允许用户将多个个性化元素（例如特定的泰迪熊和茶壶）组合到人工智能生成的单一视觉效果。」

在这当中，NVIDIA 用到了一种名为「密钥锁定」的新颖机制。

通俗一点的解释就是，它将图像生成模型内的注意力机制分成两部分：位置部分和内容部分。位置部分决定画什么物体，内容部分决定物体的外观样式。

「密钥机制」固定住位置部分，不让物体随意变化，比如特定泰迪熊的位置与所有修改后的泰迪熊一致。同时，内容部分允许物体的外观自由变化，比如给泰迪熊凭空换一套装扮。

此外，Perfusion 技术在文生图的过程中，可以选择控制物体的变化程度，可以更像原物也可以更符合用户的描述语。历史记录生成的几个物体还可以组合放在同一张图像里。

得益于「密钥锁定」机制的先进性，官方宣称由 Perfusion 技术生成的图片质量与 Stability Diffusion v1.5 版本不分伯仲。

不过 Perfusion 技术更加个性化，具备快速学习处理新概念的能力，而无需重新训练整个模型，这是 Stability Diffusion 所不具备的。

此外，Perfusion 技术的控制能力更强，可以方便在视觉质量和语义控制之间取得平衡，还可以组合多个新概念（比如让模型同时生成特定泰迪熊和特定茶壶）。

总的来说，Perfusion 技术主要就是在个性化学习和控制方面做了创新，使文生图的系统生成更容易自定义。

可能很多人不知道的是，低调的 NVIDIA 其实在生成式 AI 领域颇有建树，在图像超分辨、深度估计等多个生成任务上都有着开创性的贡献。

今年 5 月份的时候，NVIDIA 创始人黄仁勋曾大胆预测：「计算机行业正在同时经历两个转型——加速计算和生成式人工智能。」其补充道：「随着公司竞相将生成式 AI 应用到每一个产品、服务和业务流程中，价值一万亿美元的数字中心基础设施将被升级到加速计算。」

生成式 AI 训练大规模神经网络，需要高度复杂的计算能力。GPU 通用性较强，更适合大规模并行计算，且设计及制造工艺较为成熟，这恰恰正是 NVIDIA 掌握 AI 大模型「命门」的舒适圈。

从市场占有率上看，NVIDIA 占据了 GPU 市场 84% 的市场份额。市场调查机构 TrendForce 集邦咨询公布的数据显示，如果以 NVIDIA A100 显卡的处理能力计算，运行 ChatGPT 将需要用到 30000 块 NVIDIA GPU，这意味 NVIDIA 将可以赚取超过 3 亿美元。

但得天独厚的 NVIDIA 并不仅仅满足于「淘金卖水人」，而是将自身资源的「天赋异禀」在生成模型技术发展领域释放得淋漓尽致。

2018 年，NVIDIA 研究人员就率先提出了生成式对抗网络 StyleGAN，这是第一个可以高质量生成人脸图像的 GAN 模型，时隔一年后，NVIDIA 正式发布第一个从语义布局就可以直接生成逼真图像的模型。

类似的「第一」还有很多，现如今，Perfusion 技术便是 NVIDIA 最新发布的生成式 AI 的成果之一。

发布 Perfusion 技术，一方面可以继续展示 NVIDIA 在生成式 AI 领域的技术能力，充分建立 NVIDIA 在生成式 AI 领域的领导力和影响力，另一方面也可以回应业界和学术界的热点需求，进而在未来集成到 NVIDIA 的产品和服务中。

值得注意的是，目前 NVIDIA 只在官网发表了相关论文，具体的代码演示将很快推出，届时用户文生图的功能需求也会有更加多元化的选择。