一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

媒体品牌

爱范儿

关注明日产品的数字潮牌

APPSO

先进工具，先知先行，AIGC 的灵感指南

董车会

造车新时代，明日出行家

玩物志

探索城市新生活方式，做你的明日生活指南
知晓云
制糖工厂

扫描小程序码，了解更多

热门搜索

为您查询到篇文章

9月19日，星期四

2024-09-19 12:11

一张美食图就能给菜谱、能给植物看病……阿里国际发布最新多模态大模型 Ovis

想象一下，看到一张美食照片就能轻松掌握做法；拍张叶子的照片就能知道植物出了什么问题；随手写的英文便条，转眼间变成标准的中文翻译；就连复杂的财务报表都能变得简单易懂……这一切都归功于多模态技术的又一次飞跃。

今天，阿里巴巴国际 AI 团队带来了一位新成员——Ovis 多模态大模型，它在图像识别上屡破记录，在多个具体任务中都达到了顶尖水平。

相比于那些只擅长处理文字的大型语言模型，Ovis不仅能搞定文字任务，还特别拿手处理图片之类的信息，展示出更为全面的数据理解和应用能力。

根据业界公认的多模态评估平台 OpenCompass 的数据，Ovis1.6-Gemma2-9B 在参数小于 30B 的小型模型中取得了综合排名第一，赶超 MiniCPM-V-2.6 等行业强劲对手，证明了自己的强大实力和广阔的应用前景。

图：Ovis在OpenCompass上的测评数据情况

据介绍，Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如，Ovis可以准确回答数学问题，识别花的品种，支持多种语言的文本提取，甚至可以识别手写字体和复杂的数学公式。

案例1:Ovis对手写文案的识别及翻译能力

案例2：Ovis对复杂数学公式的处理能力

案例3:Ovis 通过对图片的识别处理能够给出菜谱

具体来说，Ovis 模型有五大特点：

1、创新架构设计：可学习的视觉嵌入词表：首次引入，将连续的视觉特征转换为概率化的视觉token，再经由视觉嵌入词表加权生成结构化的视觉嵌入，克服了大部分MLLM中MLP连接器架构的局限性，大幅提升多模态任务表现。

2、高分图像处理：动态子图方案：支持处理极端长宽比的图像，兼容高分辨率图像，展现出色的图像理解能力。

3、全面数据优化：多方向数据集覆盖：全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向，显著提升多模态问答、指令跟随等任务表现。

4、卓越模型性能：Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上，Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一，超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型；在幻觉等任务中，Ovis-1.6的幻觉现象和错误率显著低于同级别的模型，展现了更高的生成文本质量和准确性。

5、全部开源可商用：Ovis 系列模型 License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源，可复现。Ovis1.6 系列中的Ovis1.6-Gemma2-9B 也已开源权重。

在AI领域，多模态大模型的应用场景非常广泛，包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如，在自动驾驶领域，多模态大模型可以整合来自摄像头、雷达和激光雷达的数据，以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息，也被视为朝向通用人工智能的下一个步骤。

据悉阿里国际在去年成立了一支 AI 团队，目前已经在 40多个电商场景里测试了AI能力，覆盖跨境电商全链路，包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等，其中多个应用场景均基于 Ovis 模型进行开发，已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍，商家的AI需求不断增长，近半年的数据显示，平均每两个月，商家对于 AI 的调用量就翻 1 倍。

附相关链接：

论文arXiv: https://arxiv.org/abs/2405.20797

Github: https://github.com/AIDC-AI/Ovis

Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

[展开]

加载更多

粤ICP备18066688号-2 粤公网安备44010602006618号

All content is made available under the CC BY-NC 4.0 for non-commercial use. Commercial use of this content is prohibited without explicit permission.

if Design Studio.