苹果发布全新 AI 无障碍系统

AI资讯

苹果把无障碍写进 Apple Intelligence 主线

苹果在 5 月 21 日的全球无障碍意识日(Global Accessibility Awareness Day)发布了一组面向残障用户的 AI 功能更新,集体进入今年秋天的 iOS 19 / iPadOS 19 / visionOS 3。这是 Apple Intelligence 自去年正式推出以来,第一次把无障碍产品线纳入主迭代节奏,而不是放在系统设置里的边角条目。

Apple 无障碍 AI 功能更新示意图
iOS 的”放大器”加入端侧场景描述,Vision Pro 推出眼控接口

这次发布到底带来了什么

三个具体功能值得注意。第一是 Magnifier 应用里加了”Live Recognition”,把摄像头看到的画面通过端侧多模态模型实时描述出来——视觉障碍用户对着冰箱拍一下,系统会按”上层有牛奶和酸奶,中层是三个鸡蛋”这种顺序读出位置信息,而不是只给一句”冰箱内部”。模型推理跑在 A18 Pro 和 M4 的神经网络引擎上,苹果给出的端侧延迟是 1.2 秒以内。第二是 visionOS 上线 Eye Tracking Control,重度残障用户(包括完全失去手部活动能力的人群)可以纯粹靠眼动操作系统,配合呼吸传感的 dwell click 完成确认。第三是 Personal Voice 升级——用户录 15 句话就能合成自己的声音,比上一代要求的 150 句少了一个数量级。

苹果无障碍工程的负责人 Sarah Herrlinger 在媒体沟通会上提了一个具体数据:”我们用真实用户测过 Live Recognition,对完全失明的盲文用户,他们独立完成超市挑商品的成功率从 31% 涨到 72%。”这个数字背后是端侧模型相比纯云端的差距——之前 Be My AI 这类基于 GPT-4V 的方案,需要拍照、上传、回包,平均 6 秒以上才能拿到反馈,对真实场景里”我现在就要知道这个罐子是不是番茄酱”的需求帮助有限。

被忽略的难点:眼控不只是 UI 问题

Vision Pro 的眼控操作,外界关注度高的原因是它面向的群体很特殊——全球大约有 30 万人因 ALS、脑卒中或脊髓损伤完全失去自主肌肉控制能力,他们之前依赖的 Tobii、Smartbox 这种专业眼控仪,单台造价 1 万美金以上。Vision Pro 的标价 3499 美金虽然不便宜,但已经把准入门槛往下压了一档。Carnegie Mellon 大学人机交互教授 Patrick Carrington 长期做无障碍研究,他对这个发布的评价比较谨慎:”眼控的硬件不难,难的是 dwell click 怎么避免误触发;苹果这次给了 0.4 到 1.2 秒可调,加上呼吸辅助确认,比单纯的停留时间触发可靠不少——但要不要给所有应用都开放眼控 API,这才是开发者社区接下来要看的地方。”

关于 Personal Voice,背后真正动了的是声学模型——苹果把训练数据要求从 150 句压到 15 句,靠的是端侧基础模型已经具备的多说话人声学先验,相当于让用户的少量样本只做最后一层 finetune。对 ALS 患者这是关键:晚期患者声带功能急速退化,留出 150 句录音的窗口期可能根本来不及。

无障碍是 Apple Intelligence 最该被看见的部分

外界过去一年对 Apple Intelligence 的批评集中在两件事——通用功能进度慢、Siri 还没追上 ChatGPT。但无障碍这条线一直在跑,只是没被放进 keynote。苹果的产品逻辑里,无障碍历来是”先做出来再说”的领域,不像写作助手或图像生成那样需要用户拉新数字。这次升级让 Apple Intelligence 第一次在一个真正高门槛的领域里证明了端侧模型的价值——延迟够低、隐私够好、模型够小可以装进手机。其他厂商如果跟不上这一波(Google 的 TalkBack、微软的 Copilot+ 都还停留在云端),无障碍这块阵地大概率会留给苹果。


参考链接: