这个首创来自中国 AI 公司,能分钟级精准控制人物的视频大模型来了 | WAIC 2024
商汤科技又整大活了,只需一张照片就能生成一分钟视频。
7 月 4 日,由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会(WAIC)展览展示最高荣誉「镇馆之宝」,成为本届大会最具创新展品。
基于商汤日日新大模型,Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频,并支持多种驱动方式,可通过已有人物视频、动画、声音、文字等多种元素进行驱动。
随着大模型和生成式 AI 技术的迅猛发展,让静止的照片「活」起来已不再是难事。
然而,市面上现有产品在实际应用中仍存在诸多问题,如动作和表情控制不精准、效果稳定性差、视频时长受限等,这些限制了视频创作者的创作空间。
为了突破这些瓶颈,商汤科技推出了可控人物视频生成大模型——Vimi。
与图片表情控制类技术只能控制头部表情动作不同,Vimi 不但可以实现精准的人物表情控制,还可实现在半身区域内控制照片中人物的自然肢体变化,并自动生成与人物相符的头发、服饰及背景变化。
同时,Vimi 还能合理生成光影变化,使得人物动作和视觉效果流畅自然,画面和谐唯美。
更重要的是,Vimi 能够稳定生成长达 1 分钟的单镜头人物视频,画面效果不会随时间推移而劣化或失真,充分满足娱乐互动等场景对长时间稳定视频的需求。
日日新官方表示,Vimi 将完全面向 C 端用户开放使用,尤其能够满足广大女性用户的娱乐创作需求。
用户只需上传不同角度的高清人物图片,即可自动生成数字分身和不同风格的写真视频。
由 Vimi 生成的视频人物不再只是呆板的五官运动,而是搭配手势、肢体、头发等,形成更完整、统一的人物动作,让创作者可基于生成的视频素材进行剪辑和再创作。
对于喜爱自拍的用户,Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景;对于热衷表情包的用户,Vimi 通过单张照片即可生成各种趣味的人物表情包,玩法多样,实现创作自由。
此外,Vimi 还提供唯美写真风、奇幻风等多种生成风格,让用户仿佛穿越不同次元,享受大片质感的沉浸式视觉效果。
目前,行业里 80% 的视频都是以人物为主要内容,同时伴随短视频、直播平台的爆发,以人物为主体的视频需求量成指数级增长。
然而,市面上缺少可控人物视频生成的 AIGC 产品,这导致内容创作者的效率亟待提升。
可以说,Vimi 的问世正好填补了这一空白,能够为广大 C 端的视频创作者提供了简单、好用的创作工具,方便广泛应用于人物类短视频的创作。
在 7 月 5 日商汤科技举办的「大爱无疆·向新力」人工智能论坛上,还将揭开 Vimi 的更多细节。APPSO 届时也将跟进报道。
目前,Vimi 已在商汤科技官网开放预约,欢迎体验。
附上预约地址传送门:https://vme-int.softsugar.com/questionnaire/