本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究,原文标题:《当AGI界忙着发论文时,苹果掏出了一个Vision Pro》,题图来自:视觉中国
增强现实、虚拟现实、现实之间的丝滑切换。屏幕浮在眼前的现实空间。
(资料图片)
不是与现实隔绝的沉浸,而是各种现实融为一体的沉浸。居家、社交、自然,场景之间可以随时调整。
苹果历史上,如果缺乏在用户界面上的创新,很难称为“革命性产品”。从1980年代起在个人电脑上的图形界面(鼠标),到2000年代起的智能手机的多点触控(手指),到2020年代的隔空(声音、手势、眼神)。接下来需要意念和预测了。
库克称之为空间计算(spatial computing)时代。空间计算的下一步,应该是硅谷早期技术先驱们所预言的普适计算(ubiquitous computing)。
明年初,美国消费者们率先入手Vision Pro时,应用将有迪斯尼,也有word 和excel,这样人们在工作和娱乐时,可以切换自己所在到场景,尤其是在工作时,实现真正愿意沉浸其中的办公空间。
设计充满科幻感,但是反反乌托邦式的。显示出个人对设备的控制,人对机器的主导。
面对AI的造假挑战,苹果推出了更安全的光学身份识别技术 。在Deep Fake时代,生物物征的要求也越来越深,靠脸不行了,要靠扫描人眼虹膜。
苹果推出了一个visionOS和一个新开张的应用商店。iPhone和iPad的应用,在Vision Pro上都能原生使用。未来会有更多专门针对Vision Pro开发的应用,例如3D解剖图等。
产品导向,研究幕后
当人们兴奋地谈论着各种AI技术概念、科技界争先恐后地发各种论文时,苹果已经不动声色地把产品和体验都做出来了。好的技术是无感的。
苹果不谈AI,而是把它们统统变成了有用户体验的产品。例如Journal,可能会让许多果粉转用苹果的智能笔记——它已经带有本地化的机器学习功能。
作为苹果生态的新成员,visionOS自然也可以与其他设备联动。Vision Pro的屏幕可以变成Mac的显示屏,在虚拟世界拥有多块大屏高效地工作。进行长文编辑之类的复杂输入操作时,也可以用回键盘、鼠标等蓝牙设备。
只有润物细无声,才能万物皆备于我。
这给许多人上了一课,包括一直盼望苹果“XR”产品的英伟达AI科学家Jim Fan。
Apple Vision Pro 终于成功地让 AR 成为了主流。
我对用户体验印象深刻:没有控制器,只需用手指操作。苹果训练了最佳手势识别模型——可能比我看过的任何最先进的研究论文都要好。它需要对手指进行超精细跟踪,能够在各种室内光照、手部姿势和遮挡情况下稳定工作。
调节旋钮可以控制真实世界和完全沉浸式虚拟现实之间的插值,从而阻挡视线。这是一种很酷的物理方式来调节线性混合系数。
EyeSight是一个很好的社交功能:它能够识别周围的人类,并在必要时打断沉浸感。
在计算方面:双芯片设计,M2 + R1。R1 从 12 个摄像头、5 个传感器和 6 个麦克风接收输入。它消除了延迟,并快速传输显示内容,以避免晕动病。
人物形象:扫描你的脸部并重建出神经化身。
我认为 Apple 有一个非常强大的视觉基础模型团队(“VisionOS”),他们保持低调。
脑机接口技术?
在苹果担任过神经技术原型研究员的Sterling Crispin,2021年前参与了 Vision Pro相关技术的开发三年多,他称Vision Pro 为AR/VR“整个行业发展的巅峰之作”。他还在推特上透露了一些技术细节:
我在苹果所做的工作涵盖了 Vision Pro 的基础开发、正念体验、▇▇▇▇▇▇产品以及与神经技术相关的更有雄心的前沿研究,例如预测你在点击某个内容之前的行为,基本上是心灵读取。
具体来说,我为 Vision Pro 的▇▇▇▇▇▇项目的初步愿景、战略和方向做出了贡献。我在一个小团队中的工作帮助推动了该产品类别的启动,我认为它可能在未来对全球产生重大影响。
Crispin在苹果的大部分工作都受到保密协议的约束,涉及了广泛的主题和方法。但是,通过专利,一些工作已经公开。以下是他可以引用和改述的专利内容。
总体而言,我所做的工作很大一部分涉及通过用户在沉浸式体验中的身体和脑部数据来检测用户的心理状态。
用户处于混合现实或虚拟现实体验中,AI模型尝试预测你是否感到好奇、思维漫游、害怕、注意力集中、记起过去的经历或其他认知状态。这些可以通过眼动追踪、脑部电活动、心脏跳动和节奏、肌肉活动、大脑中的血液密度、血压、皮肤电导等测量数据来推断。
为了实现具体的预测,我们使用了很多技巧。其中最酷的结果之一是在用户实际点击之前预测用户将要点击某个内容。你的瞳孔在你点击之前就会有反应,因为你期望在点击之后会发生某些事情。因此,通过监测用户的眼动行为并实时重新设计用户界面,你可以通过检测用户的眼睛行为,创造用户大脑的生物反馈,从而产生更多的预期性瞳孔反应。这是通过眼睛实现的初级的大脑-计算机接口,非常酷。我宁愿选择这种方式,而不是侵入性的脑部手术。
其他推断认知状态的技巧包括以用户可能无法察觉的方式快速闪烁视觉或声音,并测量用户对其的反应。
另一项专利详细介绍了如何使用机器学习和来自身体和脑部的信号来预测你的专注度、放松程度或学习效果。然后通过更新虚拟环境来增强这些状态。因此,想象一下一个适应性的沉浸式环境,通过改变你在背景中看到和听到的内容来帮助你学习、工作或放松。
他认为,Vision Pro 只是虚拟现实之路上的一小步。“要让整个行业完全实现这项技术的宏伟愿景,需要到2030年前。”
One More Thing
留下一个问题。我们在《看DAO2023》报告中预言,“元宇宙”能否再往前走一步,最关键的是苹果等公司在今年推出的AR/VR设备:《苹果一个AR/VR硬件支点,今年能撬动元宇宙吗》。
留意了没有,苹果的MR头显产品,没有像大家事先预料的那样叫Reality Pro(Meta有个Reality Labs),而且一如既往地没有用元宇宙(Metaverse)这个说法。
在品牌上,苹果没有用Reality,而是用了Vision;没有用Metaverse,而是用了“New Worlds”。
最后,让库克领大家跳个广场舞蹈吧。
本文来自微信公众号:未尽研究 (ID:Weijin_Research),作者:未尽研究
关键词: