这个首创来自中国 AI 公司，能分钟级精准控制人物的视频大模型来了 | WAIC 2024

商汤科技又整大活了，只需一张照片就能生成一分钟视频。

7 月 4 日，由商汤科技打造的首个面向 C 端用户的可控人物视频生成大模型——Vimi 入选世界人工智能大会（WAIC）展览展示最高荣誉「镇馆之宝」，成为本届大会最具创新展品。

基于商汤日日新大模型，Vimi 仅通过一张任意风格的照片就能生成和目标动作一致的人物类视频，并支持多种驱动方式，可通过已有人物视频、动画、声音、文字等多种元素进行驱动。

随着大模型和生成式 AI 技术的迅猛发展，让静止的照片「活」起来已不再是难事。

然而，市面上现有产品在实际应用中仍存在诸多问题，如动作和表情控制不精准、效果稳定性差、视频时长受限等，这些限制了视频创作者的创作空间。

为了突破这些瓶颈，商汤科技推出了可控人物视频生成大模型——Vimi。

与图片表情控制类技术只能控制头部表情动作不同，Vimi 不但可以实现精准的人物表情控制，还可实现在半身区域内控制照片中人物的自然肢体变化，并自动生成与人物相符的头发、服饰及背景变化。

同时，Vimi 还能合理生成光影变化，使得人物动作和视觉效果流畅自然，画面和谐唯美。

更重要的是，Vimi 能够稳定生成长达 1 分钟的单镜头人物视频，画面效果不会随时间推移而劣化或失真，充分满足娱乐互动等场景对长时间稳定视频的需求。

日日新官方表示，Vimi 将完全面向 C 端用户开放使用，尤其能够满足广大女性用户的娱乐创作需求。

用户只需上传不同角度的高清人物图片，即可自动生成数字分身和不同风格的写真视频。

由 Vimi 生成的视频人物不再只是呆板的五官运动，而是搭配手势、肢体、头发等，形成更完整、统一的人物动作，让创作者可基于生成的视频素材进行剪辑和再创作。

对于喜爱自拍的用户，Vimi 支持聊天、唱歌、舞动等多种娱乐互动场景；对于热衷表情包的用户，Vimi 通过单张照片即可生成各种趣味的人物表情包，玩法多样，实现创作自由。

此外，Vimi 还提供唯美写真风、奇幻风等多种生成风格，让用户仿佛穿越不同次元，享受大片质感的沉浸式视觉效果。

目前，行业里 80% 的视频都是以人物为主要内容，同时伴随短视频、直播平台的爆发，以人物为主体的视频需求量成指数级增长。

然而，市面上缺少可控人物视频生成的 AIGC 产品，这导致内容创作者的效率亟待提升。

可以说，Vimi 的问世正好填补了这一空白，能够为广大 C 端的视频创作者提供了简单、好用的创作工具，方便广泛应用于人物类短视频的创作。

在 7 月 5 日商汤科技举办的「大爱无疆·向新力」人工智能论坛上，还将揭开 Vimi 的更多细节。APPSO 届时也将跟进报道。

目前，Vimi 已在商汤科技官网开放预约，欢迎体验。

附上预约地址传送门：https://vme-int.softsugar.com/questionnaire/