Brief discussion on human-computer interaction

#post #xr #hci

💡 为什么都 2022 年了，我们还在用键盘和鼠标进行人机交互？

人机交互（Human Computer Interaction） 在历史上有两次伟大的革命。第一次是在 1983 年，由键盘和鼠标所定义 GUI 交互，这带来了消费级计算机的普及，很大程度上实现了比尔盖茨曾经的愿景：每个人都有一台 PC。第二次是在 2007 年，乔布斯带来了支持多点触控的 iPhone，由触摸和手势组成的屏幕直接交互引领了席卷全球的移动互联网浪潮，如今每个人已经远不止拥有一台智能设备，无处不在的计算设备重新定义了我们的生活。

Untitled

从键盘鼠标到触摸手势，让人与计算机之间的距离不断缩短，更好的易用性带来更大范围的普及。但是环顾四周，我们的生活仍然离不开键盘和鼠标，特别是在与工作相关的生产力场景。即使是触摸屏时代的领跑产品 iPad，也在 2020 年的更新中配齐了键盘和触摸板。

当然，诚如 iPad Pro 在发布时的广告词所述“你的下一台电脑何必是电脑”，不禁让我们思考未来的人机交互形态。如今，人工智能、虚拟现实、增强现实等新技术纷至沓来，各种新形态的计算设备也出现在我们的日常生活中，那么什么又算是人机交互的第三次革命呢？

Untitled

一、人机交互简史

在 ENIAC 时代，计算机是笨重且复杂的，世界上没有多少人能与这样的设备交互，直到上世纪 70 年代消费级计算机的兴起，键盘作为主要的输入设备与计算机交互才改善了这一局面。那个时代是命令行的天下，人类通过键盘输入指令，计算机响应指令。

Untitled

然而这仍然太过复杂，记忆一连串的命令就让人头皮发麻。后来施乐公司发明了鼠标，乔布斯认为这是可以改变人机交互的技术，也借由苹果和微软公司的推介让 图形用户界面（GUI）走上历史舞台，一举将人机交互从一维世界带到二维世界。

Untitled

在图形用户界面的背后是 桌面比喻（Desktop metaphor）和 纸本范式（paper paradigm）的设计思想。它将电脑比喻成一个桌面，电脑里的各个应用就是桌面上的工具，而文件是一张张纸，可以放入文件夹里。这一设计思想非常符合人类的心智模型，时至今日仍然在影响交互界面的设计。

对于熟练计算机操作的人，从命令行到图形用户界面并不意味着效率的增加，甚至是下降，但是图形用户界面以其友好性赢得了更广泛的用户群体，符合直觉的简单成为了人机交互的核心准则，这也为后来智能手机的普及埋下了伏笔。

时间来到 2007 年，乔布斯带来了支持多点触控的 iPhone，用手指直接操控手机这一更符合人类直觉的人机交互方案改变了世界，点击、拖动、捏合这些操作现在看起来习以为常，但在当时却是惊为天人。

系统的复杂性的总量是一个恒量，把系统的一部分变得简单，那么剩下的部分就会变得更加复杂 ——特斯勒的复杂守恒定律

触摸与手势这样简单的交互方式背后是复杂工程设计，不仅仅是硬件的支持，还需要软件的协同。举个简单的例子，最初的 iPhone 屏幕尺寸远不如现在，在小小的触摸屏上使用虚拟键盘进行输入的时候免不了误触，为了解决这个问题，苹果创新性地根据用户输入的内容预测后续的字符，从而改变响应字符触摸热区的大小，极大改善了用户体验。

回顾人机交互史上的两次革命，我们不难发现新的革命性的人机交互方案的出现总是为了解决一些人机交互的问题，键盘鼠标的出现解决了计算设备的易用性问题，而触摸手势的出现解决了计算设备的便携性问题。沿着这一思路，我们可以从当下的人机交互问题出发，约莫窥见未来的人机交互演进。

二、新的交互方式

苹果公司一直是世界范围内的人机交互引领者，从苹果各产品的更新中，我们可以看到近些年人机交互的演进。在 iPhone4s 上我们看到了 Siri 与其背后的 语音交互，在 iPhone5s 上我们看到了 TouchID 与其背后的 生物识别，在 iPhone6s 上我们看到了 3D Touch 将屏幕触控从二维扩展到三维（虽然这项技术在 iPhone 上后来被 Haptic Touch 所取代，但仍然应用于 Mac 的触摸板），在 iPhoneX 上我们看到了全面屏、FaceID、ARKit，在 iPhone、Mac、Homepod 之间我们看到了接力（Handoff）和隔空播放（AirPlay）这样的 设备互联。

Untitled

除了渐进式的演进，我们也可以看到像 Meta 这样的公司在虚拟现实技术上的探索，如今以 Quest、Pico 为代表 VR 一体机以其低廉的价格策略一举打入消费级市场，全新的技术需要与之匹配的人机交互方案，VR 手柄 和 手势识别 成为当前的通用方案

Untitled

放眼未来，还有一些更激进的探索，比如马斯克的 Neuralink，试图通过 脑机接口 技术实现人脑与计算设备的无缝连接。

Untitled

但这些，都尚不足以构成第三次人机交互革命。

2.1 语音交互

随着语音识别技术的发展，语音交互成为了可能。在某些场景下语音交互的效率要高于触摸交互，比如通过 Siri 的设定闹铃，但对人类意图理解的局限往往让 Siri 显得智障。除了语音交互可用性问题外，语音交互还受到社会文化的制约，比如你在私密聊天的时候并不想周围的人听到你在输入什么，整天对着电脑说话好像也比较奇怪（参见老罗的TNT产品发布）。这也解释了为什么当前以语音交互为主的设备主要集中在了家庭环境的智能音箱，如 Homepod，Alexa，小爱同学等。

即使如此语音交互在当前仍然是一种重要的人机交互方式，特别是在某些场景无法使用屏幕交互的场景下。所有人在某些时候都是残障人士，比如你在驾驶时、在厨房做菜时，手握方向盘或菜刀的你在某种程度上是肢体残障的，无法通过手来交互设备，只能通过语音进行。

这也引入了当前人机交互的一个重要趋势：多模态交互（Multimodal Interaction），即用户可以在不同的输入和设备输出中任意切换。

同样的输入既可以用触碰进行，也可以用语音进行，输入法就是一个很好的例子（尤其是 iOS16 更新了语音和触碰同时输入的功能）。

同理，内容的输入也可以在视觉、听觉中任意切换，比如微信读书既可以读书，也可以听书。

Untitled

2.2 环境感知

随着各种感知技术的进步，机器可以理解环境并主动提供服务。比如输入手机密码这个环节，通过 FaceID 或 TouchID 这样的生物识别技术就可以主动帮助用户解锁设备，省去了用户的操作步骤。

最好的用户界面就是无界面 ——Golden Krishna

环境感知的一个重要应用是在自动驾驶/辅助驾驶，通过雷达传感器或摄像头图像识别，汽车可以自己行驶并根据环境的变化主动做出调节，这个时候人类事无巨细的执行者变成了机器的监督者，从原来的高注意力状态解放出来，从中心注意力转至边缘注意力，但同时允许人类从边缘注意力随时切换到中心注意力接管汽车的操控。

Untitled

这也引发了人机交互的重要思潮：人机交互并不是用海量的内容去不断消费人类的注意力，而是让人类从中解放出来，但当前诸多移动互联网产品出于商业化考量而做出的产品设计与这一理念背道而驰。

在环境感知上一个成功的商业案例是 AirPods，一个剪掉线的耳机就可以卖出上千元的高价，还卖得这么好，离不开其无微不至的细节设计，离不开其借助环境感知帮助用户做出了很多选择。用户只要戴上耳机就可以连接上设备，摘下耳机设备的音乐就会停止播放，无需用户的操作，一切恰到好处。

【何同学】听～妙不可言不被看好的AirPods为什么成功了？_哔哩哔哩_bilibili

2.3 设备互联

Untitled

我们这个时代并不缺少计算设备，而问题恰恰是由太多计算设备了。手机、平板、电脑、手表、汽车、智能家居，在不同场景下我们需要使用不同的设备，但倘若这些设备之间都是一座孤岛，那将是一场灾难：你不得不在不同的设备间重复相同的操作（如输入账号，存储文件等）。

好在这些设备都可以联网，为设备互联提供了可能，让用户可以在这些设备间无缝切换。甚至可以让设备发挥出 1+1>2 的能力，比如华为在今年演示的利用手机和电脑的互联，使用电脑为手机提供计算能力。

【发布会回放】HarmonyOS 3及华为全场景发布会（完整版）_哔哩哔哩_bilibili

如果你看近些年的科技发布会，很多时候都是在强调设备间的连通，无论是苹果的接力或是隔空播放，还是华为的 1+8+N 布局。厂商们总想在全场景获取用户，当然这样做也无可厚非，无论是用户体验考量，还是商业利益都是成功的。

这也是为什么大的科技公司都在强调生态，也出现了手机厂商诸如小米去造汽车，汽车厂商诸如吉利/蔚来宣称要造手机。如今的用户早已不再是和单一的计算机交互，而是跟周围的一堆设备进行交互，甚至有人建议要把人机交互（HCI）研究领域切换至 人与环境的交互（HEI）。

2.4 VR 和 AR

虚拟现实将人机交互从 2D 屏幕带到了 3D 世界，所采用的交互方案也截然不同。普遍来看采用的是手柄控制器，在手柄控制器可以追踪手的运动，也有丰富的按键模拟抓握等手指交互，通过手柄震动提供足够的反馈。

但通过手柄交互并不自然，用户需要始终握持手柄，为此厂商也出了很多实验性的方案。其中有代表性的就是手势识别，通过 VR 头显上的摄像头捕捉手部的动作，实现隔空操作。其技术远未成熟，其一，通过摄像头追踪手部动作捕获范围有限，当手超出摄像头可见区变无法跟踪，其二，隔空手势交互无法提供足够的反馈，虽然可以通过声音来弥补，但仍然触觉的缺憾，其三，人的手在没有支撑下悬空交互非常累人（这也是 Macbook 至今没有支持触摸屏的原因之一）。

【手势追踪】加量不加价！Hand Tracking on Oculus Quest _ Oculus Connect 6_哔哩哔哩_bilibili

当然，考虑到手势识别是最自然的交互方式，厂家也在这一领域不断探索，从 21 年 Meta Connect 发布的实验性腕带技术可见一斑。

2022年Meta Connect直播回放_哔哩哔哩bilibili

人们对虚拟现实的应用场景绝不仅限在游戏场景，新冠大流行后远程办公有了巨大的需求，虚拟现实也想在生产力场景下有一番作为。提到生产力，免不了文字输入，VR 下隔空操作虚拟键盘实在效率低下，语音输入又有诸多限制，在这一背景下 VR 厂商也做了一些有趣的尝试，在较新的 Quest 版本中，支持头显蓝牙连接键盘，并且在虚拟世界中将实体键盘复刻出来，让用户在虚拟世界也能看到所操作的键盘，这种探索进一步模糊了虚拟与现实的边界。

【VR】你们一定都想过用VR替代显示器，今天我们试试，oculus quest 2尝试轻办公,在VR中看B站，在VR中打字回复消息.V29系统版本支持蓝牙键盘，_哔哩哔哩_bilibili

打破虚拟和现实边界的当然还有增强现实技术（AR），传统的设备和现实环境之间仍然是分隔的，比如使用导航时，需要一边看手机屏幕，一边看路面，而增强现实可以融合这二者让一切变得更加自然。当前的增强现实还是局限在通过手机屏幕为载体，通过摄像头感知周围的环境，但从 Google Glass 到 Microsoft HoloLens，人们一直没有放弃对更强大的增强现实技术的探索。

2.5 脑机接口

如果说人机交互有终极目标，那么脑机接口可能是很多人想象中的答案。这一领域其实已经很久了，但破译大脑的秘密确实是世界级难题，虽然在 2014 年巴西世界杯上就有通过脑机技术让残疾人士控制机甲完成世界杯开球的壮举，但这一技术举例大众的生活仍然很远。

让这一领域再次进入人们视线可能要归功于顶流马斯克的助力，其下的 Neuralink 致力于让脑机互连成为可能，但诚如马斯克自己所说，这是一个非常有雄心的目标，需要很多年时间，其阶段性目标也仅仅是帮助残障人士。

马斯克的Neuralink脑机接口新实验，猕猴通过植入芯片玩《Pong》游戏 @柚子木字幕组_哔哩哔哩_bilibili

脑机接口总的来说从功能上分为大脑读取和写入两种，前者寄希望翻译神经信号，已经困难重重，后者更是暂无头绪。从形态上看，脑机接口分为侵入式和非侵入式两种形态，前者需要将传感线植入大脑，这一点对大范围应用就有很大的阻碍，而后者又会收到各种噪音的影响，精准程度大不如前者。

就消费级应用来看，脑机接口还很远，但不妨碍他作为如人机交互圣杯这样的存在，因为有梦想总是好的，万一哪天实现了呢。

三、未来交互思考

很多时候我们会被一些很酷的人机交互吸引，比如 Google Glass 刚出来那会儿，又比如科幻电影里面的各种全息影像，但好的人机交互不应该看起来酷就够了，更重要的是要思考其解决了什么问题，以及可能带来什么问题。

真正对人机交互产生革命性影响的绝不仅仅是一种具体的交互形式，而是这背后所蕴藏的设计理念和思考。

正如桌面比喻和纸本范式这一设计理念对当今人机交互的深远影响，未来革命性的人机交互模式也需要有其核心的设计理念，因为人机交互本身不是问题，只是解决问题的方式。

在当前的人机交互演进中，我们可以看到多模态交互，环境感知，万物互联这些趋势对人机交互形态重要影响，可看到 VR/AR 的各种前沿探索，虽然新的变革性人机交互模式尚未出现，但我们有理由相信，第三次人机交互革命正在发生。

什么是真正好的人机交互？回到 Mark Weiser 在 平静技术（Clam Technology）中的思想可能会给我们一些启示，虽然他并没有亲历移动互联网浪潮，甚至没有见过智能手机，但他早已预见海量计算设备充斥在人们的生活中，而好的人机交互应该如「文字」一样进入我们的生活中，并消失在我们的生活中。

最深刻的科技是那些能够消失的。它们把自身编织进日常生活的千丝万缕之中，直到它们再也无从辨别。

参考资料

人机交互的三次革命（一） - 少数派

知乎问题

Calm Technology