
X 用户 @ponyodong 这两天发了一条短帖,把目前 AI 助手的方向重新拉回到一件很朴素的事上——与其讨论 AGI 何时到来,不如先让模型学会替用户点鼠标。该帖在 24 小时内收获过万点赞,评论区里 Anthropic Computer Use、OpenAI Operator 这些产品名被反复提到。
看屏代理在过去一年密集落地
Anthropic 在 2024 年 10 月率先把 Computer Use 能力开放给开发者,模型直接读取桌面截图、识别图标位置、下发鼠标和键盘指令。约三个月后,2025 年 1 月 OpenAI 跟进推出了同类产品 Operator,谷歌则在 Gemini 2.0 中加入了浏览器代理 Project Mariner。这条路线吸引人的核心原因,是绕开”对方有没有开放 API”这种扯皮,屏幕能显示,模型就能操作。
但这一年看屏代理的真实战绩并不漂亮。Operator 早期公测里被反复曝光的翻车场景包括:填表时把姓和名颠倒、在多步购物流程里漏选规格、识别动态加载的图标时反应明显变慢、遇到滚动条嵌套的页面经常点空。Anthropic 在 Computer Use 官方博客里也直接承认了”在长流程任务中容易丢失中间状态”这一类问题。换句话说,能跑通的演示和能稳定上生产之间,还隔着不少工程缺口。
放弃宏大叙事才是当下最值得押注的方向
前特斯拉 AI 总监、OpenAI 创始团队成员 Andrej Karpathy 在 2024 年 10 月一条 X 推文(原文链接)里给出过明确表态:让 AI 学会用电脑这件事,比让它通过博士资格考更有商业价值。这条线之所以在过去一年突然走红,是因为它把成本压到普通用户能承受的水平——按 Anthropic 官方定价表,Computer Use 走的是按图像调用计费的口径,单次成本与同等智能体 API 接近,远低于”为每个软件单独接十几个工具”的工程投入。当然,截图分辨率、坐标精度、长流程状态丢失,每项都能让模型当场翻车,但起码这条路容易验证、容易商用。