Wan Streamer：一个能跟你实时视频通话的真人 AI

本文经原作者授权转载，版权归原作者所有。原作者：小互（@xiaohu）。

阿里通义实验室 Wan 团队放出 Wan Streamer 模型，一个能跟你实时视频通话的真人 AI。

我们已经习惯了跟 AI 打字、语音聊天。Wan Streamer 往前走了一步，它能跟你视频通话：你这边有摄像头和麦克风，它那边实时生成一张会说话的脸，看着你、回应你。

效果展示：

📹 视频① · 中文日常通话 —— 在此插入视频。中文 · 暖色室内视频通话：聊刮胡子、在家办公、想看一部特效不错的新动作片。清晰自然男声。

1 · 这是什么：一个模型跑通实时音视频对话

Wan Streamer v0.1 是一个实时音视频交互模型。能实时对话的 AI 现在不少，但能一边看你的脸、一边听你说话、一边开口回应、自己还自带一张会动的脸的，几乎没有。Wan Streamer 把这件事压进了一个模型里。

它在同一个 Transformer 里同时处理语言、音频、视频的输入和输出，做到亚秒级的全双工音视频对话：模型自己算出一段回应大约只要 200 毫秒，加上网络往返后总延迟约 550 毫秒。

为什么值得看：现在能实时对话的系统分两类，一类响应快但只出声音、没有可见的脸（GPT-4o Realtime、豆包、Gemini Live），另一类有脸但靠外部 ASR、语言模型、TTS、动画一串模块拼出来。官方称 Wan Streamer 是唯一用单个端到端 Transformer 同时吐出同步音视频、且总延迟压在 1 秒内的模型。

几个关键数字：

～200 ms — 模型侧响应延迟
～550 ms — 总交互延迟（200ms 模型侧 + 350ms 网络往返）
160 ms — 25fps 下最短的流式处理单元
192p — v0.1 分辨率，端到端设计的概念验证

把总延迟 550ms 拆开看：模型本身只占 200ms，剩下 350ms 是网络往返。也就是说，纯模型的反应速度，比你读到的总延迟更快。

2 · 旧办法为什么慢：一道道接力，每步都在等

旧办法慢，是因为它们是一串独立模型拼起来的流水线：语音先转成文字（ASR），文字喂给语言模型想答案（LLM），答案再合成语音（TTS），最后驱动一张脸动起来（动画渲染）。

音视频输入 → ⏳ASR 识别 → ⏳LLM 想答案 → ⏳TTS 合成语音 → ⏳动画渲染 → 输出

每过一道工序都要等上一道交货，等待时间一段段累加，识别和口型对不齐的误差也一路累积。每个箭头都是一次等待 + 一次误差累积；模块之间靠文字当中转桥；多数系统只出语音，或者把一张脸勉强拼出来，且不报告端到端时延。

Wan Streamer 是端到端单模型：音视频输入 →「一个 Transformer」（感知 · 推理 · 规划 · 生成一起做）→ 同步音视频输出。没有接缝，等待时间坍缩；轮次管理、被打断、长程一致性，作为一个连贯行为一起学出来。

打个比方：端到端像一个人自己听完直接开口；级联像传话游戏，每过一手都慢一拍，还可能把话传错。中间那层把语音／视频先转成文字、再用文字驱动下游——文字就是各模块之间隐藏的中转桥，桥越多越慢、越容易错。Wan Streamer 不要这个中间桥，模态之间直接耦合。

原文给这件事下了一个判断：实时音视频交互不是「多模态理解」加「多模态生成」的简单相加，它本质上是全双工的，所以可流式性是一种建模约束，而不只是上线后的工程优化。建在离线编码器、双向解码器、回合制对话之上的系统，光靠工程调优也补不出真正的低延迟全双工。

【📹 视频② · 即兴模仿 —— 在此插入视频。中文 · 明亮白色室内。聊 CP、娱乐圈八卦、周星驰《功夫》，最后模仿经典笑容，轻松愉快女声】

3 · 核心创新：一个模型从听到说全包了

Wan Streamer 的内核只有一句话：把视觉、音频、文本的输入 token 和输出 token，交错排成同一条序列，交给一个 Transformer 处理；用 block-causal attention 协调，让它边来边算地往外吐。

单个端到端 Transformer 取消了外部的 VAD、ASR、语言模型、TTS、动画、视频生成等模块，把感知、推理、回应规划、语音与视觉生成、响应时机、轮次管理全放进同一个持久状态里联合优化。低延迟、全双工、同步音视频这三件事，根都在这里。

模型把交互看成一条连续的因果流：你的观测和它的回应，一起更新当前上下文。语言回应是一串离散 token，用 next-token 预测训练；音频和视频回应活在连续的 latent 空间里，用条件 flow matching 联合生成，让语音、动作、外观、场景演化作为一个耦合整体一起去噪，而不是各生成各的再拼。

为了撑住这条流，整栈从设计之初就是因果的：严格因果音视频 VAE、因果音视频编码器、因果音视频解码器，以及由 block-causal attention 协调的时序因果 Transformer。被这套设计抹掉的外部模块是：外部 VAD、ASR 识别、外部语言模型、TTS 合成、动画模块、视频生成模块。

4 · 怎么做到边听边说、随时能打断

人和世界的交互天生是流式、全双工的：我们不是先听完、再单独想、最后才答，而是一边看一边听一边说、随时停顿和打断，感知和表达在音视频的时间尺度上重叠发生。实时交互模型也得长成这样。

因果编码器 + 因果解码器 + 低延迟多模态 token 调度，让 25fps 下的流式单元短到 160ms：输入的语音视频立刻影响输出，生成的音频和视觉状态在解码之前就耦合好，而不是事后修补。于是它能边听边说，你说话时它仍在听、被打断还能调整。

这套机制靠的是 block-causal attention：它把一小块（比如 160ms 的音视频片段）当成一个处理单位，块内部的 token 可以互相看（双向），但一个块只能看见过去的块、看不到未来的块。块 3 一到就能开算，因为它只依赖块 1、块 2，不用等未来的块 4——这就是流式生成。

部署细节：thinker–performer 怎么把延迟压到 200ms。Wan Streamer 训练时是单个端到端模型；实时部署时，同一个模型拆成跨两张 GPU 的 thinker–performer 流水线，尽量让计算重叠。thinker 负责编码、语言预测与状态更新、KV-cache 构建，以及把上一单元解码成音视频并立即输出；performer 只负责为下一段跑 flow-matching 求解器。因为 performer 从不跑解码器、thinker 从不跑高成本求解器，解码和生成互不阻塞。只要 performer 耗时加通信耗时塞进一个 160ms 单元，就维持实时吞吐。

边听边说、随时能被打断，落到对话里就是这种自然感。这两段都是英文实时对话：

【📹 视频③ · 英文车内 —— 在此插入视频。英文 · 车内近景。女生说自己很累，感谢对方耐心陪伴，疲惫真诚女声。】

【📹 视频④ · 英文室内 —— 在此插入视频。英文 · 浅色室内近景。聊无意识刷手机、自动化习惯、关掉通知，自然女声。】

5 · 和别的系统比，快在哪、能做什么

下面两组延迟数字测的不是一回事，得分开看。上方一组是完整的端到端交互闭环（感知用户并产生回应），其中只有 Wan Streamer 同时输出视频；下方一组是数字人／音视频渲染器，只计到渲染阶段，不含它们依赖的外部语言模型、ASR、TTS，所以用户实际感受到的延迟比图里更高。

两组刻度各自独立，不能横跨两组直接比大小。数值取各系统公开报告中最接近的口径，混合了不同测量边界。

能力维度的覆盖如下，Wan Streamer 是唯一一行全部打勾的：

需要提一句：这五个维度是 Wan 按自己的能力边界定的；表里其他系统分属纯语音（GPT-4o、豆包、Gemini）和数字人渲染（StreamAvatar、LPM）两类，和 Wan 不是同一品类。这张表更适合看「各家覆盖了哪些点」，不是排名次——Wan 唯一全✓，更多是因为「维度由它来定」。

最后看一段完整的真实链路：一次真实联网对话的屏幕录制，能看到从感知到回应的全过程。

【📹 视频⑤ · 实时录屏 —— 在此插入视频。真实联网对话录屏：左边是本地用户画面，右边是 AI Agent 实时回应，下方同步滚动文本流】

注意：本项目还处于研究阶段，并没有上线，没有开放使用入口，只能当成「技术验证」看。

来源：

Wan Streamer v0.1 官方发布页（wan-streamer.com），

论文 arXiv:2606.25041