发布日期:2026-04-15
模型系列:Qwen3.6-35B-A3B
开发商:阿里通义千问(Qwen)
架构:稀疏 MoE(35B 总参数,3B 激活)
许可证:Apache 2.0


一、 一句话总结

阿里开源的 Qwen3.6-35B-A3B 用 35B 总参数、仅 3B 激活参数的稀疏 MoE 架构,在 Agentic 编码能力上(SWE-bench 73.4)打平了参数量 10 倍于它的稠密模型,在 M5 MacBook 上量化可本地运行——并且在 Simon Willison 著名的”鹈鹕骑自行车”测试中,SVG 生成效果超过了 Anthropic 的旗舰 Opus 4.7。


二、 核心升级

2.1 架构规格

组件规格
总参数35B
激活参数~3B per token
专家数量256 个(8 路由 + 1 共享 per token)
专家中间维度512
Transformer 层数40(10 块 × [3 Gated DeltaNet + 1 Gated Attention])
注意力模式混合:线性(DeltaNet)+ Softmax(3:1 比例)
上下文窗口原生 262K,YaRN RoPE 扩展到 ~100 万
多模态文本 + 图像 + 视频(原生多模态)
许可证Apache 2.0

2.2 相对 Qwen3.5 的关键升级

  1. 思维保留(Thinking Preservation)preserve_thinking: true 支持在多轮对话中保留推理痕迹。解决了 Agent 每轮都要重新推导架构决策的”上下文健忘”问题,迭代编码循环中的通信开销降低约 80%。

  2. Agentic 编码栈 — 原生工具调用解析(--tool-call-parser qwen3_coder,vLLM/SGLang 支持),取代了 Qwen2 时代的 JSON 模式变通方案。与 MCP 服务器兼容,意味着 Claude Code 使用的同一套工具栈在这里也能用。

  3. 多 Token 预测(MTP) — 内置 MTP 头,无需独立的草稿模型即可实现投机解码,在兼容推理框架上吞吐量提升约 10 倍。

  4. 百万 Agent 强化学习 — 训练纳入了复杂的多 Agent 开发场景,而非静态代码补全。这是编码能力跃升的核心驱动力。

  5. 语言覆盖扩展 — 从主流编程语言到方言覆盖(普通话到粤语),体现全球化产品战略。


三、 与竞品的横向对比

3.1 核心性能矩阵

基准Qwen3.6-35B-A3B说明
SWE-bench Verified73.4Agentic 编码能力,逼近上一代 27B 稠密模型
GPQA Diamond86.0复杂科学问答推理
AIME 202692.7高难度数学竞赛
MMMU(视觉)81.7多模态理解与专家级视觉推理
MathVista-mini86.4视觉数学解题
RefCOCO(空间智能)92.0图像中物体定位与空间理解
ODInW13(空间智能)50.8开放域实例识别
架构参数35B 总 / 3B 激活256 专家稀疏 MoE

3.2 Agentic 编码效率对比

模型SWE-bench激活参数许可证效率评价
Qwen3.6-35B-A3B73.43BApache 2.0⭐⭐⭐⭐⭐ (最优)
Qwen3.5-27B75.027BApache 2.0⭐⭐⭐ (能力略强但成本高 9 倍)
Gemma 4-31B52.031BGemma⭐⭐ (差距大且参数大)

3.3 这意味着什么

  • 效率碾压:SWE-bench 73.4 的成绩,在 3B 激活参数下打出,远超同级别稠密模型。对比 Gemma 4-31B 的 52.0 分,差距达 21.4 分,而 Qwen 的激活参数仅为它的 1/10。
  • 跨代对比:与上一代 Qwen3.5-27B(75.0)相比,Qwen3.6-35B-A3B 的 73.4 分基本持平——但参数量从 27B 稠密降到 3B 激活。这是一次 9 倍的推理成本压缩。
  • 推理能力:AIME 92.7 + GPQA 86.0 使其稳居 2026 年 Q1 开源权重榜单顶端。
  • 视觉语言:RefCOCO 92.0 / ODInW13 50.8 的空间智能分数在开源模型中领先——这个模型真的理解图像中物体的位置,而不仅仅是”它是什么”。

四、 深度解读:为什么 3B 激活参数是核心看点?

4.1 稀疏性的经济学

这是让 Qwen3.6-35B-A3B 超越基准表本身价值的核心洞察:

  • 3B 稠密模型:在笔记本 GPU 甚至 CPU 上舒适运行。推理成本低。
  • 35B 稠密模型:需要多张高端 GPU,每 Token 成本高 10 倍。
  • Qwen3.6-35B-A3B:以 35B 模型的能力上限,用 3B 模型的推理成本 运行。

256 专家 MoE 架构意味着每个 Token 的路由器选择最相关的 8 个专家 + 1 个共享专家。剩余 247 个专家处于空闲状态。这不是小优化——这是对”计算/能力”权衡的根本性重新思考。

4.2 3B 激活参数意味着什么

  1. 本地部署:Simon Willison 在 M5 MacBook Pro 上通过 LM Studio 跑了 Unsloth Q4 量化版(约 20.9GB)。24GB 统一内存的 Mac 就能处理,留给操作系统还有余量。这对这个能力级别的模型来说是史无前例的。

  2. 单卡生产部署:在单张 RTX 4090 上,用 KTransformers 将非活跃专家卸载到系统内存,可以获得生产环境有用的 tokens-per-second。稠密 35B 模型根本塞不进去。

  3. 边缘部署:可以作为设备端 Agent 用于代码审查、文档生成或本地 RAG 增强,无需将敏感代码发送到外部 API。

  4. 成本效益 API:阿里云 DashScope 的 Qwen3.6-Plus 定价约为 2 元/百万输入 Token(大陆)。同等能力的稠密前沿模型预计成本高 5-10 倍。

4.3 激活参数的天花板

自然的问题:如果 3B 激活参数效果这么好,为什么不做得更小?答案在于专家池规模。256 个专家集体编码了 35B 参数的专业知识——代码模式、数学推理、视觉理解、多语言语义。只有 3B 总参数的模型会少得多专家可路由,降低专业深度。35B 总参数是知识蓄水池,3B 激活是取用机制。


五、 技术推测(非官方)

5.1 MoE 路由:我们能推断什么

官方文档确认 256 个专家中每 Token 选 8 路由 + 1 共享。几个架构选择值得注意:

  • 共享专家:唯一始终在线的专家可能编码通用知识和语言基础,而 8 个路由专家处理任务专业化(Python vs SQL、空间推理 vs 逻辑演绎等)。
  • 专家中间维度 512:相对较窄,表明模型通过深度(40 层)和路由精度而非单个专家容量来补偿。
  • 混合注意力(3:1 线性:Softmax):每块 3 层 Gated DeltaNet 后接 1 层传统 Softmax 注意力。这是 2026 时代的效率模式——线性注意力以 O(n) 成本处理重型上下文提升,Softmax 注意力提供纯线性注意力难以做到的精确 Token 对 Token 对齐。

5.2 训练数据假设

百万 Agent 强化学习声明是最具揭示性的细节:

  1. Agent 脚手架微调:SWE-bench 评估使用了内部 Agent 脚手架(bash + 文件编辑工具)。这表明模型是用工具使用轨迹训练的,而非仅静态代码/文本对。

  2. 真实代码分布:QwenClawBench(内部,即将开源)在 Claude Agent 任务的”真实用户分布”上进行评估。如果训练数据包含 Claude Code 交互日志(通过公开 GitHub 提交、开源 Agent 轨迹),这就能解释编码能力的跃升。

  3. 多模态对齐:视觉语言性能与 Sonnet 4.5 持平,暗示高质量的图文配对数据,可能包括代码截图、图表和 UI 原型——连接纯文本代码模型与真实开发者工作流的多模态数据。

  4. 林俊洋离职后的延续性:林俊洋于 2026 年 3 月卸任 Qwen 技术负责人。2026 年 4 月的发布表明团队势头得以保持。6 亿+下载量的生态系统提供了任何单一实验室都无法匹敌的反馈循环。


六、 企业落地建议

6.1 适合场景

场景匹配度理由
Agentic 编码助手★★★★★SWE-bench 73.4;原生工具调用;MCP 兼容
大规模代码审查★★★★★262K 上下文处理完整仓库;本地部署保持代码私密
内部知识库 RAG★★★★☆Apache 2.0 许可证;多模态输入支持 PDF + 图表
面向客户聊天机器人★★★☆☆推理不错,但稠密模型在对抗性提示鲁棒性上仍领先
边缘/离线部署★★★★★Q4 量化适配 24GB;无网络依赖
数学推理★★★★☆AIME 92.7 优秀,但 GPT-5 可能仍略胜
创意内容生成★★★☆☆鹈鹕测试令人鼓舞,但信号狭窄

6.2 迁移指南

从 Qwen3.5 或其他模型迁移

Step 1:推理框架更新

# SGLang v0.5.10+
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --speculative-algo NEXTN \
  --speculative-num-steps 3

Step 2:启用思维保留

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=conversation_history,
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": True,
            "preserve_thinking": True  # ← 新特性关键
        }
    }
)

Step 3:采样参数(按模式)

模式TemperatureTop-PTop-KPresence Penalty
思考(通用)1.00.95201.5
思考(精确编码)0.70.9201.2
指令(通用)0.70.8
指令(推理)0.60.9

Step 4:本地部署(笔记本路径)

  • 安装 LM Studio
  • 下载 lmstudio-community/Qwen3.6-35B-A3B-GGUF(Q4 量化,约 20.9GB)
  • 最低需要 24GB 统一内存(Mac M 系列)或 24GB VRAM(NVIDIA GPU)
  • llama.cpp 使用 --jinja 标志

七、 风险与局限

7.1 已知约束

风险影响应对
厂商自报基准所有分数为厂商自报,独立复现待更新将 SWE-bench 73.4 视为方向性参考
鹈鹕测试信号狭窄SVG 测试是创意烟雾弹测试,非通用能力基准不代表 Opus 4.7 通用任务上被超越
稠密模型优势仍在对抗性提示推理、长链条工具调用等仍领先明确场景选型
MoE 路由脆弱性稀疏 MoE 可能出现”专家崩溃”——边缘情况路由到次优专家监控病理输入表现
量化精度损失Q4 量化版在笔记本上运行必然损失精度生产环境推荐全精度或 Q8
生态成熟度Qwen3.6 新于 GPT-5/Claude/Gemini,集成较少6 亿+下载量部分抵消此劣势
中国云依赖权重是 Apache 2.0,但主要 API 通过阿里云 DashScope海外企业需考虑延迟和合规

八、 编辑观点 🌸

3B 激活参数是一个”类别错误”——而这正是关键所在

Qwen3.6-35B-A3B 迫使我们重新思考”模型大小”的含义。过去两年,行业被困在参数军备竞赛中:越大越好,赢家是训练出最大稠密模型的人。Qwen3.6-35B-A3B 宣布这场比赛过时了。

一个 35B 参数但每 Token 只用 3B 的模型不是妥协——它是完全不同的计算策略。它在说:知识和计算是可分离的。将知识存储在完整参数空间中,但只为每个 Token 计算所需的部分。这相当于机器学习领域的 JIT(即时编译),其影响是结构性的。

Agentic 编码基准是杀手级应用

SWE-bench 73.4 + 3B 激活参数是这个发布中最重要的数字。为什么?因为 Agentic 编码正是当下实际 AI 价值创造份额最大的工作负载。Claude Code、Cursor、OpenAI Codex——这些是开发者真正在用的产品。一个模型能以 1/10 推理成本匹配或超越它们底层引擎的能力,彻底改变了 AI 辅助开发的经济学。

目前每 Agentic 编码会话支付 15,000-30,000。

“鹈鹕测试”比你想象的更重要

Willison 的”鹈鹕骑自行车”SVG 测试常被贬为杂耍。不应该。这个任务需要:

  1. 空间推理——理解鹈鹕身体如何映射到自行车几何
  2. 结构知识——SVG 是基于精确坐标的格式;错误会产生破碎图像
  3. 创意综合——将生物和机械元素一致地融合

一个 3B 激活 MoE 在笔记本上跑出的效果超过 Opus 4.7,不是偶然。这证明模型的视觉-空间专家确实有效。火烈鸟骑独轮车的后续测试(戴墨镜、蝴蝶结、带自我意识的 SVG 注释)表明模型有个性和元认知——不只是技术能力。

这是基准无法捕捉的”感觉测试”,对采用率很重要。

对巨头的战略威胁

Anthropic、OpenAI 和 Google 应该将 Qwen3.6-35B-A3B 视为警告。前沿 API 模型与开源权重替代之间的差距缩小速度,超过了巨头定价策略的适应能力。当一个 Apache 2.0 模型以 10% 推理成本提供 80-90% 的前沿能力时,API 护城河就变成了定价负债。

问题不再是开源模型能否赶上——Qwen3.6-35B-A3B 表明它们在特定工作负载上已经赶上了。问题是哪些巨头能足够快地调整架构(MoE、混合注意力、投机解码)以保持领先。

底线

Qwen3.6-35B-A3B 是 2026 年 Q1 最重要的开源权重发布。它证明了参数效率——而不仅仅是参数规模——是竞争优势的轴线。对企业而言,它提供了一条通往 Agentic 编码、本地部署和 Apache 2.0 自由的生产就绪路径。对行业而言,它标志着”越大越好”的时代正在让位于”更聪明的路由更好”。

下载它。在笔记本上跑起来。看鹈鹕自己画出来。然后问自己:为什么我还在为每个 Token 付 $0.50?


基于 2026-04-15 公开信息整理 HuggingFace 模型卡片、Simon Willison 测试报告、第三方评测综合