为您查询到 篇文章
想象一下,看到一张美食照片就能轻松掌握做法;拍张叶子的照片就能知道植物出了什么问题;随手写的英文便条,转眼间变成标准的中文翻译;就连复杂的财务报表都能变得简单易懂……这一切都归功于多模态技术的又一次飞跃。
今天,阿里巴巴国际 AI 团队带来了一位新成员——Ovis 多模态大模型,它在图像识别上屡破记录,在多个具体任务中都达到了顶尖水平。
相比于那些只擅长处理文字的大型语言模型,Ovis不仅能搞定文字任务,还特别拿手处理图片之类的信息,展示出更为全面的数据理解和应用能力。
根据业界公认的多模态评估平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在参数小于 30B 的小型模型中取得了综合排名第一,赶超 MiniCPM-V-2.6 等行业强劲对手,证明了自己的强大实力和广阔的应用前景。
图:Ovis在OpenCompass上的测评数据情况
据介绍,Ovis能够在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。例如,Ovis可以准确回答数学问题,识别花的品种,支持多种语言的文本提取,甚至可以识别手写字体和复杂的数学公式。
案例1:Ovis对手写文案的识别及翻译能力
案例2:Ovis对复杂数学公式的处理能力
案例3:Ovis 通过对图片的识别处理能够给出菜谱
具体来说,Ovis 模型有五大特点:
1、创新架构设计:可学习的视觉嵌入词表:首次引入,将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入,克服了大部分MLLM中MLP连接器架构的局限性,大幅提升多模态任务表现。
2、高分图像处理:动态子图方案:支持处理极端长宽比的图像,兼容高分辨率图像,展现出色的图像理解能力。
3、全面数据优化:多方向数据集覆盖:全面覆盖Caption、VQA、OCR、Table、Chart等各个多模态数据方向,显著提升多模态问答、指令跟随等任务表现。
4、卓越模型性能:Ovis展现出了优异的榜单表现。在多模态权威综合评测Opencompass上,Ovis1.6-Gemma2-9B在30B参数以下的模型中取得了综合排名第一,超过了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在数学问答等方向表现媲美70B参数模型;在幻觉等任务中,Ovis-1.6的幻觉现象和错误率显著低于同级别的模型,展现了更高的生成文本质量和准确性。
5、全部开源可商用:Ovis 系列模型 License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6 系列中的Ovis1.6-Gemma2-9B 也已开源权重。
在AI领域,多模态大模型的应用场景非常广泛,包括但不限于自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等。例如,在自动驾驶领域,多模态大模型可以整合来自摄像头、雷达和激光雷达的数据,以实现更精准的环境感知和决策。由于多模态大模型能够学习如何联合理解和生成跨多种模式的信息,也被视为朝向通用人工智能的下一个步骤。
据悉阿里国际在去年成立了一支 AI 团队,目前已经在 40多个电商场景里测试了AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索、广告投放、SEO、客服、退款、店铺装修等,其中多个应用场景均基于 Ovis 模型进行开发,已帮助 50 万中小商家、对 1 亿款商品进行了信息优化。据介绍,商家的AI需求不断增长,近半年的数据显示,平均每两个月,商家对于 AI 的调用量就翻 1 倍。
附相关链接:
论文arXiv: https://arxiv.org/abs/2405.20797
Github: https://github.com/AIDC-AI/Ovis
Huggingface: https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
Demo: https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B
[展开]