为您查询到 篇文章
BBA 们之所以能被称为豪华品牌,是以 78S 为用户带来尊享体验,为行业树立技术与工艺的标杆。
行政级旗舰称号之下,即是豪华的潜台词。
D 级不只是代表修长的车身尺寸,以及宽敞舒适的座舱空间,更对应的是「D for Deluxe」的行政豪华气质。
筚路蓝缕 ……
[展开]#北京车展# 去年年初,吉利银河推出了首款概念车「银河之光」,接着今年 1 月,银河 E8 就继承了「银河之光」的设计元素量产上市。本次北京车展上,吉利则推出了新的 SUV 概念车,也可以说是原型车「银河星舰」,用来展现吉利银河在智 ……
[展开]4 月 25 日晚,#神十八点火发射升空#。航天员们将进驻中国空间站,开启为期数月的太空出差。#神十七神十八航天员太空会师#
事实上,每时每刻,中国空间站都以时速 27600 公里在我们头顶的宇宙盘旋。
我们在地球上能够拍到它吗?这是我们挑战的全过 ……
[展开]如果是六七年前,路特斯和蔚来是两个毫不相干的品牌,但是因为吉利控股路特斯,以及蔚来资本投资路特斯,还有蔚来和吉利达成换电合作协议等等错综复杂的关系,这两个品牌的关系在电动时代变得更加紧密。
在#北京车展#上,路特斯官宣和蔚来合作, ……
[展开]今日,小鹏汽车携手#小鹏 x9# 、G6、G9、P7i 车型亮相 #2024 北京车展# ,并举办了以「小鹏 X9 九冠王 AI 定义再进化」的主题发布会,宣布 AI 天玑系统全球首发,并将在 5 月 20 日全量推送。#ai 智驾小鹏来了#
这次发布会上,小鹏汽车还宣布, 800kW 液冷 S5 超快充计划将 ……
[展开]昨天下午,岚图汽车在北京·中国电影导演中心举行了「2024 岚图汽车春季技术沟通会」。
虽然没有新车发布,不过纵观整场技术沟通会,岚图似乎已经从里到外做好了「打硬仗」的准备。岚图汽车董事长尤峥也在沟通会上表示:2024 年奋力 ……
[展开]相较于美国浓厚的皮卡汽车文化,皮卡在中国的汽车市场里仍然是小众车型。这主要归因于皮卡超大的车身尺寸和货斗设计,所以皮卡一直被划分为轻型货车类别进行管理,在路权上面临较大的限制。
随着多地开始放宽皮卡车进城限制,特斯拉 CyberTruck 也 ……
[展开]米哈游宣布,专项维权行动取得突破性进展。针对非法入侵窃取并传播米哈游商业秘密的行为,米哈游已经向警方报案。
在警方的通过缜密侦查摸排,已于 2024 年 4 月对头部涉案团伙的相关人员采取了刑事强制措施,目前该案仍在进一步侦办中。
米哈游称,以后对 ……
[展开]4 月 24 日,百胜中国与华为在上海共同举行鸿蒙原生应用 Beta 版本发布仪式,正式宣布百胜中国旗下肯德基超级 App 完成鸿蒙原生应用 Beta 版本开发。此举也意味着肯德基成为首个完成 Beta 版本开发的快餐品牌。
鸿蒙星河版肯德基超级 App 充分利用 ……
[展开]近日,由颜水成教授带队,昆仑万维2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布并开源了Vitron 通用像素级视觉多模态大语言模型。
这是一款重磅的通用视觉多模态大模型,支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,解决了困扰大语言模型产业已久的图像/视频模型割裂问题,提供了一个全面统一静态图像与动态视频内容的理解、生成、分割、编辑等任务的像素级通用视觉多模态大模型,为下一代通用视觉大模型的终极形态奠定了基础,也标志着大模型迈向通用人工智能(AGI)的又一大步。
Vitron 作为一个统一的像素级视觉多模态大语言模型,实现了从低层次到高层次的视觉任务的全面支持,能够处理复杂的视觉任务,并理解和生成图像和视频内容,提供了强大的视觉理解和任务执行能力。同时,Vitron 支持与用户的连续操作,实现了灵活的人机互动,展示了通向更统一的视觉多模态通用模型的巨大潜力。
Vitron 相关的论文、代码和 Demo已全部公开,其在综合性、技术创新、人机交互和应用潜力等方面展现出的独特优势和潜力,不仅推动了多模态大模型的发展,还为未来的视觉大模型研究提供了一个新的方向。
一直以来,昆仑万维2050全球研究院都致力于打造一家面向未来世界的卓越科学研究机构,与科学社区共同跨越“奇点”,探索未知世界,创造美好未来。此前,昆仑万维2050全球研究院已经发布并开源了数字智能体研发工具包AgentStudio,未来,研究院还将不断推动人工智能技术突破,为中国人工智能生态建设贡献力量。
当前视觉大语言模型(LLMs)的发展取得了喜人进展。社区越来越相信,构建更通用、更强大的多模态大模型(MLLMs)将会是通向通用人工智能(AGI)的必经之路。但在向多模态通用大模型(Generalist)的迈进过程中,目前仍存在一些关键挑战。比如很大一部分工作都没有实现细粒度像素级别的视觉理解,或者缺乏对图像和视频的统一支持。抑或对于各种视觉任务的支持不充分,离通用大模型相差甚远。
为了填补这个空白,近日,昆仑万维 2050 全球研究院、新加坡国立大学、新加坡南洋理工大学团队联合发布开源了 Vitron 通用像素级视觉多模态大语言模型。Vitron 支持从视觉理解到视觉生成、从低层次到高层次的一系列视觉任务,包括静态图像和动态视频内容进行全面的理解、生成、分割和编辑等任务。
上图综合描绘了 Vitron 在四大视觉相关任务的功能支持,以及其关键优势。Vitron 还支持与用户的连续操作,实现灵活的人机互动。该项目展示了面向更统一的视觉多模态通用模型的巨大潜力,为下一代通用视觉大模型的终极形态奠定了基础。
Vitron 相关论文、代码、Demo 目前已全部公开。
近年来,大语言模型(LLMs)展现出了前所未有的强大能力,其被逐渐验证为乃是通向 AGI 的技术路线。而多模态大语言模型(MLLMs)在多个社区火爆发展且迅速出圈,通过引入能进行视觉感知的模块,扩展纯语言基础 LLMs 至 MLLMs,众多在图像理解方面强大卓越的 MLLMs 被研发问世,例如 BLIP-2、LLaVA、MiniGPT-4 等等。与此同时,专注于视频理解的 MLLMs 也陆续面世,如 VideoChat、Video-LLaMA 和 Video-LLaVA 等等。
随后,研究人员主要从两个维度试图进一步扩展 MLLMs 的能力。一方面,研究人员尝试深化 MLLMs 对视觉的理解,从粗略的实例级理解过渡到对图像的像素级细粒度理解,从而实现视觉区域定位(Regional Grounding)能力,如 GLaMM、PixelLM、NExT-Chat 和 MiniGPT-v2 等。另一方面,研究人员尝试扩展 MLLMs 可以支持的视觉功能。部分研究已经开始研究让 MLLMs 不仅理解输入视觉信号,还能支持生成输出视觉内容。比如,GILL、Emu 等 MLLMs 能够灵活生成图像内容,以及 GPT4Video 和 NExT-GPT 实现视频生成。
目前人工智能社区已逐渐达成一致,认为视觉 MLLMs 的未来趋势必然会朝着高度统一、能力更强的方向发展。然而,尽管社区开发了众多的 MLLMs,但仍然存在明显的鸿沟。
上表简单地归纳了现有的视觉 MLLM 的能力(只代表性地囊括了部分模型,覆盖不完整)。为了弥补这些差距,该团队提出一种通用的像素级视觉 MLLM——Vitron。
Vitron 整体框架如下图所示。Vitron 采用了与现有相关 MLLMs 相似的架构,包括三个关键部分:1) 前端视觉&语言编码模块,2) 中心 LLM 理解和文本生成模块,以及 3) 后端用户响应和模块调用以进行视觉操控模块。
基于上述架构,再对 Vitron 进行训练微调,以赋予其强大的视觉理解和任务执行能力。模型训练主要囊括三个不同的阶段。
研究人员基于 Vitron 在 22 个常见的基准数据集、12 个图像/视频视觉任务上进行了广泛的实验评估。Vitron 展现出在四大主要视觉任务群组(分割、理解、内容生成和编辑)中的强大能力,与此同时其具备灵活的人机交互能力。以下代表性地展示了一些定性比较结果:
Results of image referring image segmentation
Results of image referring expression comprehension.
Results on video QA.
Text-to-Image Generation Text-to-Video generation Image-to-Video generation
Image editing results
具体更多详细实验内容和细节请移步论文。
总体上,这项工作展示了研发大一统的视觉多模态通用大模型的巨大潜力,为下一代视觉大模型的研究奠定了一个新的形态,迈出了这个方向的第一步。尽管团队所提出的 Vitron 系统表现出强大的通用能力,但依然存在自身的局限性。以下研究人员列出一些未来可进一步探索的方向。
Vitron 系统仍采用半联合、半代理的方式来调用外部工具。虽然这种基于调用的方法便于扩展和替换潜在模块,但这也意味着这种流水线结构的后端模块不参与到前端与 LLM 核心模块的联合学习。这一限制不利于系统的整体学习,这意味着不同视觉任务的性能上限将受到后端模块的限制。未来的工作应将各种视觉任务模块整合成一个统一的单元。实现对图像和视频的统一理解和输出,同时通过单一生成范式支持生成和编辑能力,仍然是一个挑战。目前一种有希望的方式是结合 modality-persistent 的 tokenization, 提升系统在不同输入和输出以及各种任务上的统一化。
与之前专注于单一视觉任务的模型(例如,Stable Diffusion 和 SEEM)不同,Vitron 旨在促进 LLM 和用户之间的深度交互,类似于行业内的 OpenAI 的 DALL-E 系列,Midjourney 等。实现最佳的用户交互性是本项工作的核心目标之一。Vitron 利用现有的基于语言的 LLM,结合适当的指令调整,以实现一定程度的交互。例如,系统可以灵活地响应用户输入的任何预期消息,产生相应的视觉操作结果,而不要求用户输入精确匹配后端模块条件。然而,该工作在增强交互性方面仍有很大的提升空间。例如,从闭源的 Midjourney 系统汲取灵感,不论 LLM 在每一步做出何种决定,系统都应积极向用户提供反馈,以确保其行动和决策与用户意图一致。
当前,Vitron 集成了一个 7B 的 Vicuna 模型,其可能对其理解语言、图像和视频的能力会产生某些限制。未来的探索方向可以发展一个全面的端到端系统,比如扩大模型的规模,以实现对视觉的更彻底和全面的理解。此外,应该努力使 LLM 能够完全统一图像和视频模态的理解。
[展开]
高通宣布,与毫末智行推出毫末 HP370。这是基于高通最新一代 Snapdragon Ride 平台(SA8620P)打造的面向先进驾驶辅助系统和自动驾驶功能的智驾解决方案。
高通表示,凭借毫末智行与高通领先的 ADAS 和自动驾驶技术,HP370 是全球首批基于 Snapdragon R ……
[展开]4 月 24 日,华为智能汽车解决方案发布会隆重召开,现场发布了智能驾驶为核心的全新智能汽车解决方案品牌华为乾崑,带来了全新升级的「乾崑 ADS」、「乾崑车控」、「乾崑车云」等解决方案。
– 乾崑 ADS 3.0:基于 GOD(通用障碍物识别)大网,实现了从简单识别障 ……
[展开]出门问问在港挂牌上市,成为了港股市场「AIGC 第一股」。据悉,出门问问 IPO 定价为 3.8 港元/股,公开发售获近 118 倍认购。
出门问问是一家以生成式 AI 与语音交互技术为核心业务的人工智能公司,致力于为包括全球内容创作者、企业和消费者等用户提供 AICopilot 解决方案, ……
[展开]据 36 氪报道,小米第二款新车定位纯电 SUV ,预计将于 2025 年上半年推出。此前也有媒体爆料,第二款新车将延续首款车设计水准。
有相关人士称,虽然 SU7 的市场反馈不错,但毕竟是第一款车,难免留下一些遗憾,不过都将在后续的 SUV 产品上弥补回来。
同时,小 ……
[展开]特斯拉公布了 2024 年第一季度财报,第一季度总收入为 213.01 亿美元,收入比去年同期下降 9 %;其中汽车业务收入为 173 亿美元,比去年同期的 199.63 亿美元下降 13%。
同时,特斯拉 2024 年第一季度净利润为 11.44 亿美元,与去年同期的净利润相比下降 55%。
……
[展开]据知情人士称,Perplexity 正进行至少 2.5 亿美元的新一轮融资,估值可能达到 25 亿至 30 亿美元。
早前,该公司已经进行过两轮融资。今年 1 月,Perplexity 以 5.4 亿美元的估值筹集近 7400 万美元。随后在 3 月初,又以 10 亿美元的估值融资约 630 ……
[展开]近期,有多名应届生在社交平台发文,表示拿到特斯拉入职 offer 后,遭到了特斯拉单方面解约。
发文的应届生表示,临近春招结束之际,他们接到了特斯拉撤回录用的通知。特斯拉方面表示,将会赔偿一个月的违约金。此前,特斯拉已启动全球裁员,马斯克也在内部信中表示,裁 ……
[展开]今天凌晨,比特斯拉 2024 Q1 财报先到的,是新款 Model 3 Performance。 http://t.cn/A6Tu0eTi ……
[展开]理想 MEGA 在 3 月 初上市时便遭到恶意水军攻击,而在 3 月 11 日,理想汽车 CEO 李想发文表示,公司已在使用法律手段应对有组织的违法犯罪行为。
而根据财新网报道,河北衡水警方正在对涉事水军和公关公司进行调查。据了解,在 MEGA 上市期间,有三至四家 ……
[展开]此前据界面新闻报道,上一轮融资完成后,月之暗面创始人杨植麟通过售出个人持股已套现数千万美金,随后月之暗面回应,该消息不实,月之暗面此前已公布员工激励计划。
早在今年 2 月,月之暗面就已经完成了新一轮的 10 亿美金。此轮融资由阿里巴巴领投,红杉中 ……
[展开]