AI 看屏代理走红让模型替你点鼠标比 AGI 更值钱

X 用户 @ponyodong 这两天发了一条短帖，把目前 AI 助手的方向重新拉回到一件很朴素的事上——与其讨论 AGI 何时到来，不如先让模型学会替用户点鼠标。该帖在 24 小时内收获过万点赞，评论区里 Anthropic Computer Use、OpenAI Operator 这些产品名被反复提到。

看屏代理在过去一年密集落地

Anthropic 在 2024 年 10 月率先把 Computer Use 能力开放给开发者，模型直接读取桌面截图、识别图标位置、下发鼠标和键盘指令。约三个月后，2025 年 1 月 OpenAI 跟进推出了同类产品 Operator，谷歌则在 Gemini 2.0 中加入了浏览器代理 Project Mariner。这条路线吸引人的核心原因，是绕开”对方有没有开放 API”这种扯皮，屏幕能显示，模型就能操作。

但这一年看屏代理的真实战绩并不漂亮。Operator 早期公测里被反复曝光的翻车场景包括：填表时把姓和名颠倒、在多步购物流程里漏选规格、识别动态加载的图标时反应明显变慢、遇到滚动条嵌套的页面经常点空。Anthropic 在 Computer Use 官方博客里也直接承认了”在长流程任务中容易丢失中间状态”这一类问题。换句话说，能跑通的演示和能稳定上生产之间，还隔着不少工程缺口。

放弃宏大叙事才是当下最值得押注的方向

前特斯拉 AI 总监、OpenAI 创始团队成员 Andrej Karpathy 在 2024 年 10 月一条 X 推文（原文链接）里给出过明确表态：让 AI 学会用电脑这件事，比让它通过博士资格考更有商业价值。这条线之所以在过去一年突然走红，是因为它把成本压到普通用户能承受的水平——按 Anthropic 官方定价表，Computer Use 走的是按图像调用计费的口径，单次成本与同等智能体 API 接近，远低于”为每个软件单独接十几个工具”的工程投入。当然，截图分辨率、坐标精度、长流程状态丢失，每项都能让模型当场翻车，但起码这条路容易验证、容易商用。

参考链接

@ponyodong 在 X 的原帖

AI 操作屏幕成为个人助理新趋势

看屏代理在过去一年密集落地

放弃宏大叙事才是当下最值得押注的方向

参考链接

相关推荐