• 媒体品牌
    爱范儿
    关注明日产品的数字潮牌
    APPSO
    先进工具,先知先行,AIGC 的灵感指南
    董车会
    造车新时代,明日出行家
    玩物志
    探索城市新生活方式,做你的明日生活指南
  • 知晓云
  • 制糖工厂
    扫描小程序码,了解更多

让「现实」消失的不是 Sora,而是明日的「Vision Pro」

产品

02-23 11:10

OpenAI Sora 模型的诞生,让不少人大呼「现实已经不存在了」,因为它能让文字描述快速变成乍一看可以假乱真的视频。

然而,真正可以让现实「崩塌」的,却可能是以 Vision Pro 等设备开启的新一代混合现实体验 —— 我们可能身处同一时空,但却毫无共同体验。

最近,斯坦福大学的「虚拟人类交互实验室(Virtual Human Interaction Lab)」进行了一轮实验,更多地关注混合现实对心理和认知的改变。

如果说 Vision Pro 让我们看到「未来已来」,那这个未来看起来好像让人更孤独了。

我把你当朋友,你却把我当 NPC

想象一下,当你头戴突兀的 Vision Pro 上街,上面还显示着拙劣地模仿着你眼睛的图像,然后和遇到的人聊天,别人会怎么看你?

大家是不是就会因此觉得你更难接近?

结果可能和我们想象的不一样。

在斯坦福「虚拟人类交互实验室」的研究中,11 位作者戴着 Meta Quest 3,采用「穿透模式(passthrough)」在生活中与人交流沟通。

研究最终发现,戴着头显的人感觉自己和他人连接变得更弱了,社交的负面影响更大。作为对比,那些不戴头显,在公共场合和戴头显的人交流的人,反倒感受的负面影响却没有那么大。

说到这里,我们可能要先讲一下「穿透模式」。

在这个模式下,用户可在佩戴头显的情况下看到外界环境。需要强调的是,这里看到的「现实」不是真正的「现实」,而是摄像头捕捉后然后呈现于内在屏幕的影像。

因此,用户通过头显看到的「现实」,会受到摄像头拍摄质量,内置屏幕视角广度,显示延迟等多种因素影响。

以视角广度来说,我们肉眼一般横向可看到 200° 的内容,但 Meta Quest 3 呈现的广度只有 110°。

也就是说,如果有人并排站在你身旁,用「余光」我们就能瞄到,但用头显的话就会完全看不到这人存在。这也会影响头设使用者对空间的理解以及降低用户的「在场感」。

▲图片来自论文

同时,图像扭曲、延迟和清晰度有限,同样也会让使用者有「不真实」感。

譬如,当实验室的研究员在和他人聊天时,感觉自己身处一个让人困惑的巨型视频会议中,身边的人看起来就像是某种虚拟形象。在对话过程中,微妙的表情或其他社交信息也很容易丢失。

而离使用者比较远的人,看起来直接就像是背景的一部分。

「虚拟人类交互实验室」负责人 Jeremy Bailenson 将这种感觉描述为「社交缺席(social absence)」—— 真实的人没那么真实了。

Business Insider 记者 Adam Rogers 认为,这种情况需引起警惕:

长期使用穿透模式,可能会让人更容易将其他人视作非人类 —— 游戏化恐怖谷里的 NPC。

虽然 Vision Pro 比研究人员使用的 Quest 3 头显具有更高清晰度,但它毕竟还是比不上人类自己的眼睛。单从色彩来看,Vision Pro 能显示的颜色也只占人类肉眼可见色彩的 49%。

「影视飓风」Tim 在戴着 Vision Pro 在海边行走时,也将穿透的体验形容为「现实会有一点糊,但你不会怀疑它不是现实……有点像是梦里的感觉」。

当其同伴李四维在尝试测试 Vision Pro 延迟情况而进行重复动作时,Tim 也脱口说出了一句:「你在 GTA(游戏《侠盗猎车手》)卡住了大哥。」

▲ GTA 6 中的沙滩场景,图自 Pixground

我们难以道明具体是什么因素构成或区分了我们认知中的「真实」,因为我们对人类视觉以及大脑的认识还相对有限。

感官生物学家发现,人类视觉处理细节的能力比绝大部分动物都好。

(我们的社会也是一个以视觉为主导的文明,语言中有很多基于视觉的表述,如「前途一片光明/黑暗」。我们粤语就更夸张了,人可以「靓」,心情可以「靓」,连肠粉也可以「靓」。)

一个通过头显摄像头和屏幕「转述」的「真实」,丢失的不仅是像素,还有我们暂时未能理解的重要信息。

真真假假,我们的大脑分不清

▲ 图片来自 《纽约时报》

除了透过屏幕去看「现实」,穿透模式另一个重要特点在于我们从此可以在屏幕中的「现实」上叠加虚拟内容。

在体验过程中,研究人员对 Quest 3 上混合现实游戏 《初次相遇(First Encounters)》印象特别深刻。

在这游戏中,玩家可以看到自己身边环境的模拟,然后要自己用枪一下一下地把真实世界中的模式环境击破,逐渐看到虚拟世界。

从某个角度来看,这也是一种「编辑现实」的能力 —— 将你房间里的墙壁一点一点地换成虚拟世界。Bailenson 感叹:

头设不仅能在现实世界上叠加信息,还能删除信息。

我研究 VR 和 AR 也有一段时间了,我从来没见过(像《初次相遇》那样)「删除」可以做得那么好。

▲《初次相遇》游戏截图,来自 Meta Store

从前像 Google Glass 或 Hololens 2 那种可以让用户直接透过半透明镜片看到现实世界的头显,虽然也支持混合现实,可以在「现实」上叠加信息,但因为这里的现实是真实世界,因此和虚拟信息结合时效果没那么融合。

现在像 Quest 3 和 Vision Pro 这样的设备,因为用户眼前所看全为「模拟」,因此「虚实结合」效果更佳,连「删除」也变得更逼真。

想象一下,如果未来所有人都跟带手机一样随身使用 Vision Pro 或其他支持穿透模式的头显,去到景区,我们也许可以很便捷地「删除」拥挤的人群,拍下安静美好的景色。

▲Google Pixel 8 的 Magic Editor 功能

一切简单得可能就跟今天在拥挤的地铁上打开降噪耳机,马上就能从听觉上「编辑现实」一样。

Adam Rogers 觉得,科幻作家 William Gibson 的一个概念也许能延伸帮我们理解这种未来。

Gibson 在描述「赛博空间」时,称它为「一致同意的幻觉(consensual hallucination)」。而头显中的现实,则是它的完全对立面 ——「无数个分离的,不被共享的幻觉,每一个都如雪花一般独特」。

在 Bailenson 看来,这是「公共消逝」的开始:

人们将处于同一个物理空间,同时体验着视觉上截然不同的世界。

我们将失去认知的共同基础。

你也许会觉得,我们既然可以主导选择「编辑」什么,那我们肯定也可以知道什么是真什么是假的。

但我们的大脑可能不太同意。

早在 2014 年,研究人机交互的 Frank Steinicke 试着让参与者在 24 小时里体验 VR 世界,每一轮使用 2 小时,每轮之间休息 10 分钟。即便在当时的技术下,Steinicke 过着过着就已经开始分不清现实和虚拟了。

在实验过程中,参与者有好几次开始对于自己是处于虚拟世界还是真实世界开始产生困惑,并且混淆了两个世界中的特定物件和发生过的事件。

一个 2009 年的研究也发现,小朋友在体验 VR 后,甚至会产生虚假的回忆,即便当时的 VR 成像质量相当有限。

不用说 VR 和 AR 这类沉浸体验了,就算看电影都能混淆我们的大脑。

心理学教授 Daniel Schacter 在《追寻记忆》里分享了前美国总统里根的一个「翻车事件」:

在宣传选举活动中,里根多次动容地讲述一位「二战」飞行员的感人故事。然而,台下听的媒体都能意识到,这个故事几乎跟 1944 年电影《飞行之翼》的内容完全一样。

「显然,里根保留了事实,却忘了它们的出处。」

脑神经学家 Oliver Sacks 也曾指出,幻觉之所以会被「误认」为是事实,部分原因是因为它们和真正发生过的感知都会涉及同样的知觉路径。

在我们的大脑里,真假并不是黑白分明(又用上了基于视觉的形容),更高清沉浸的虚构只会让它更困惑。

你是我最好的朋友

读到这里,我们先暂停一下,从这高科技畅想中回到现实生活。

你觉得你身边,懂你,了解你的人有多少?

如果一下子想不到答案也不要紧,毕竟有调研显示,超过一半的美国人认为,生活里没有一个人是真正了解他们的。和 1990 年相比,说自己没有亲密朋友的人翻了四倍。

播客「The Gray Area with Sean Illing」曾分享,一位研究人们如何讲述自己个人历史的心理学家曾「付费」请志愿者来分享自己的故事。

在这大约四小时的访谈中,心理学家会通过一些问题去切入了解志愿者的人生。访谈结束,心理学家在支付费用时,很多人居然想把钱还给心理学家:

我不想收钱,这是我人生里最棒的一个下午。从来没有人询问过我的人生故事。

显然,愈加繁荣的社交媒体没有让人与人之间的关系变得更紧密,反倒让人们觉得更孤独,不被了解和看见。

当未来人人都戴着头显来与人交流,这个情况似乎很难获得改善。

尤其当生成式 AI 现在正指向一个更「定制化」的未来。

我们在上一部分讨论到,未来我们眼中的现实,很有可能都可以人为「降噪」,做到字面上的「千人千面」。

那至少我们还有文化娱乐能成为共同点?

如今现实再分裂,不少人仍能从对特定书影音文化产物中找到同好,形成联结或展开讨论。

科技文化作者 Ryan Broderick 认为,未来这可能也会消逝。

在 Broderick 看来,在过去 25 年以来,互联网就是在将过往一切分解成更小的单元:把专辑分成单曲,电台分解成了播客和歌单,电视和电影在各自产生新变体后,最终还是被切成一刷而过的 90 秒短视频。

在「旧世界」被分解后,互联网本身在已经开始分解。

每一个 app 或者信息流都是自己独有的社区、平台、信息系统、电影院、书报亭,但都又没有之前这类东西运行得那么好。

然而,就如流媒体大战后,流媒体正变得越来越像传统电视一般(接广告,爱做综合内容,想俘虏所有人),被分解的互联网也终将重新被汇集起来。

如果 AI 早就已能「猜你喜欢」,为你筛选新闻、资讯、短视频,那明天生成式 AI 就能帮你直接整合好所有信息,甚至生成出为你而设计的,最合你心意的短视频故事。

那些精彩的短视频或影视作品,独一无二,只有你才懂,因为只有你才看过。

它最好的观看载体?

当然就是明日的「Vision Pro」。

到时候,我们最好的朋友可能真的只能是我们的 AI 伴侣了。

只有它知道在那密闭的头显世界里,我们爱看什么,看过什么,未来会看什么。

所幸在于,那个未来尚未来临,一切还来得及。

「虚拟人类交互实验室」的呼吁朴素却真切:

我们建议游说将头显使用每日化的公司保持谨慎和克制,敦促学者对这一现象进行严格和纵向的研究。

登录,参与讨论前请先登录

评论在审核通过后将对所有人可见

正在加载中