
airi 是 moeru-ai 团队的开源项目,仓库 github.com/moeru-ai/airi 在 GitHub 累计 3.97 万 star。它做的是一件听起来非主流但用户基础很大的事——用本地大模型加实时语音加游戏外设接入,搭一个能聊天也能”陪打”的虚拟角色。
这类项目过去基本是闭源的(character.ai、Replika),airi 把整套链路开源后,第一次让玩家可以完全离线运行一个属于自己的虚拟伙伴。
它把哪些东西串了起来
airi 不是单一模型,而是一个 orchestrator。从 README 列的依赖可以看出技术栈:
- 对话层:默认接 Llama 3 8B 或 Qwen 2.5 7B,也支持 OpenAI 兼容的远程 endpoint;
- 语音层:whisper.cpp 做识别,VITS 或 GPT-SoVITS 做合成;
- 感知层:屏幕捕获加视觉模型读游戏画面,把当前血量、技能 CD 等信息回写到对话上下文;
- 表现层:Live2D 或 VRM 模型在桌面悬浮窗显示。
这套架构的工程含量比想象中高。让一个 7B 模型在跟你打《艾尔登法环》时知道”你死了第三次”并且懂得说”换个 build 试试”,要解决的不是模型能力,而是延迟、上下文窗口管理和打断(barge-in)逻辑。
开源版本能跑出多大差距
跑过两个晚上后我的感受:
- 纯聊天体验和 character.ai 在同一档位,差距主要在角色卡的精修程度;
- 语音延迟在 RTX 4070 加 Qwen 2.5 7B 上端到端约 800ms,比商业版的 300ms 慢一截,但已经过了”能用”的门槛;
- 游戏感知功能目前对 MOBA、ARPG 类支持最好,FPS 由于画面变化太快,模型常常跟不上节奏。
moeru-ai 在中文社区做了相当多的本地化适配,包括默认中文语音模型、B 站直播弹幕接入、QQ 机器人桥接。这些细节决定了它在国内用户里的口碑——3.97 万 star 里超过一半 issue 是中文写的。
这类项目的真正价值不是”陪你打游戏”
很多人把 airi 看作宅向玩具,我觉得不止。它在工程上把”本地多模态 Agent”完整跑通:实时语音、屏幕感知、低延迟对话、可控人设。这套 stack 拿去掉皮做企业内部助理、做客服训练 sandbox、做无障碍辅助工具,几乎是现成的。
真正稀缺的是”让本地模型在弱算力机器上还能维持 sub-second 体验”的工程经验。airi 的 PR 里有一半都在调度优化——KV cache 复用、TTS 并行流式、感知模型按需触发——这些是任何严肃做端侧 Agent 的团队都会撞到的问题。
所以下次你看到 airi,不要只把它当一个二次元 demo。它更像一份开源版的”端侧 Agent 工程参考实现”,3.97 万 star 不是粉丝投票,而是一线开发者在用脚投票。
参考来源: