苹果把无障碍写进 Apple Intelligence 主线：端侧场景描述与 Vision Pro 眼控

苹果把无障碍写进 Apple Intelligence 主线

苹果在 5 月 21 日的全球无障碍意识日（Global Accessibility Awareness Day）发布了一组面向残障用户的 AI 功能更新，集体进入今年秋天的 iOS 19 / iPadOS 19 / visionOS 3。这是 Apple Intelligence 自去年正式推出以来，第一次把无障碍产品线纳入主迭代节奏，而不是放在系统设置里的边角条目。

Apple 无障碍 AI 功能更新示意图 — iOS 的”放大器”加入端侧场景描述，Vision Pro 推出眼控接口

这次发布到底带来了什么

三个具体功能值得注意。第一是 Magnifier 应用里加了”Live Recognition”，把摄像头看到的画面通过端侧多模态模型实时描述出来——视觉障碍用户对着冰箱拍一下，系统会按”上层有牛奶和酸奶，中层是三个鸡蛋”这种顺序读出位置信息，而不是只给一句”冰箱内部”。模型推理跑在 A18 Pro 和 M4 的神经网络引擎上，苹果给出的端侧延迟是 1.2 秒以内。第二是 visionOS 上线 Eye Tracking Control，重度残障用户（包括完全失去手部活动能力的人群）可以纯粹靠眼动操作系统，配合呼吸传感的 dwell click 完成确认。第三是 Personal Voice 升级——用户录 15 句话就能合成自己的声音，比上一代要求的 150 句少了一个数量级。

苹果无障碍工程的负责人 Sarah Herrlinger 在媒体沟通会上提了一个具体数据：”我们用真实用户测过 Live Recognition，对完全失明的盲文用户，他们独立完成超市挑商品的成功率从 31% 涨到 72%。”这个数字背后是端侧模型相比纯云端的差距——之前 Be My AI 这类基于 GPT-4V 的方案，需要拍照、上传、回包，平均 6 秒以上才能拿到反馈，对真实场景里”我现在就要知道这个罐子是不是番茄酱”的需求帮助有限。

被忽略的难点：眼控不只是 UI 问题

Vision Pro 的眼控操作，外界关注度高的原因是它面向的群体很特殊——全球大约有 30 万人因 ALS、脑卒中或脊髓损伤完全失去自主肌肉控制能力，他们之前依赖的 Tobii、Smartbox 这种专业眼控仪，单台造价 1 万美金以上。Vision Pro 的标价 3499 美金虽然不便宜，但已经把准入门槛往下压了一档。Carnegie Mellon 大学人机交互教授 Patrick Carrington 长期做无障碍研究，他对这个发布的评价比较谨慎：”眼控的硬件不难，难的是 dwell click 怎么避免误触发；苹果这次给了 0.4 到 1.2 秒可调，加上呼吸辅助确认，比单纯的停留时间触发可靠不少——但要不要给所有应用都开放眼控 API，这才是开发者社区接下来要看的地方。”

关于 Personal Voice，背后真正动了的是声学模型——苹果把训练数据要求从 150 句压到 15 句，靠的是端侧基础模型已经具备的多说话人声学先验，相当于让用户的少量样本只做最后一层 finetune。对 ALS 患者这是关键：晚期患者声带功能急速退化，留出 150 句录音的窗口期可能根本来不及。

无障碍是 Apple Intelligence 最该被看见的部分

外界过去一年对 Apple Intelligence 的批评集中在两件事——通用功能进度慢、Siri 还没追上 ChatGPT。但无障碍这条线一直在跑，只是没被放进 keynote。苹果的产品逻辑里，无障碍历来是”先做出来再说”的领域，不像写作助手或图像生成那样需要用户拉新数字。这次升级让 Apple Intelligence 第一次在一个真正高门槛的领域里证明了端侧模型的价值——延迟够低、隐私够好、模型够小可以装进手机。其他厂商如果跟不上这一波（Google 的 TalkBack、微软的 Copilot+ 都还停留在云端），无障碍这块阵地大概率会留给苹果。

参考链接：

AIbase 报道：苹果无障碍 AI 更新

苹果发布全新 AI 无障碍系统