qwen3.6-35b-a3b-release-analysis

发布日期：2026-04-15
模型系列：Qwen3.6-35B-A3B
开发商：阿里通义千问（Qwen）
架构：稀疏 MoE（35B 总参数，3B 激活）
许可证：Apache 2.0

一、一句话总结

阿里开源的 Qwen3.6-35B-A3B 用 35B 总参数、仅 3B 激活参数的稀疏 MoE 架构，在 Agentic 编码能力上（SWE-bench 73.4）打平了参数量 10 倍于它的稠密模型，在 M5 MacBook 上量化可本地运行——并且在 Simon Willison 著名的”鹈鹕骑自行车”测试中，SVG 生成效果超过了 Anthropic 的旗舰 Opus 4.7。

二、核心升级

2.1 架构规格

组件	规格
总参数	35B
激活参数	~3B per token
专家数量	256 个（8 路由 + 1 共享 per token）
专家中间维度	512
Transformer 层数	40（10 块 × [3 Gated DeltaNet + 1 Gated Attention]）
注意力模式	混合：线性（DeltaNet）+ Softmax（3:1 比例）
上下文窗口	原生 262K，YaRN RoPE 扩展到 ~100 万
多模态	文本 + 图像 + 视频（原生多模态）
许可证	Apache 2.0

2.2 相对 Qwen3.5 的关键升级

思维保留（Thinking Preservation） — preserve_thinking: true 支持在多轮对话中保留推理痕迹。解决了 Agent 每轮都要重新推导架构决策的”上下文健忘”问题，迭代编码循环中的通信开销降低约 80%。
Agentic 编码栈 — 原生工具调用解析（--tool-call-parser qwen3_coder，vLLM/SGLang 支持），取代了 Qwen2 时代的 JSON 模式变通方案。与 MCP 服务器兼容，意味着 Claude Code 使用的同一套工具栈在这里也能用。
多 Token 预测（MTP） — 内置 MTP 头，无需独立的草稿模型即可实现投机解码，在兼容推理框架上吞吐量提升约 10 倍。
百万 Agent 强化学习 — 训练纳入了复杂的多 Agent 开发场景，而非静态代码补全。这是编码能力跃升的核心驱动力。
语言覆盖扩展 — 从主流编程语言到方言覆盖（普通话到粤语），体现全球化产品战略。

三、与竞品的横向对比

3.1 核心性能矩阵

基准	Qwen3.6-35B-A3B	说明
SWE-bench Verified	73.4	Agentic 编码能力，逼近上一代 27B 稠密模型
GPQA Diamond	86.0	复杂科学问答推理
AIME 2026	92.7	高难度数学竞赛
MMMU（视觉）	81.7	多模态理解与专家级视觉推理
MathVista-mini	86.4	视觉数学解题
RefCOCO（空间智能）	92.0	图像中物体定位与空间理解
ODInW13（空间智能）	50.8	开放域实例识别
架构参数	35B 总 / 3B 激活	256 专家稀疏 MoE

3.2 Agentic 编码效率对比

模型	SWE-bench	激活参数	许可证	效率评价
Qwen3.6-35B-A3B	73.4	3B	Apache 2.0	⭐⭐⭐⭐⭐ (最优)
Qwen3.5-27B	75.0	27B	Apache 2.0	⭐⭐⭐ (能力略强但成本高 9 倍)
Gemma 4-31B	52.0	31B	Gemma	⭐⭐ (差距大且参数大)

3.3 这意味着什么

效率碾压：SWE-bench 73.4 的成绩，在 3B 激活参数下打出，远超同级别稠密模型。对比 Gemma 4-31B 的 52.0 分，差距达 21.4 分，而 Qwen 的激活参数仅为它的 1/10。
跨代对比：与上一代 Qwen3.5-27B（75.0）相比，Qwen3.6-35B-A3B 的 73.4 分基本持平——但参数量从 27B 稠密降到 3B 激活。这是一次 9 倍的推理成本压缩。
推理能力：AIME 92.7 + GPQA 86.0 使其稳居 2026 年 Q1 开源权重榜单顶端。
视觉语言：RefCOCO 92.0 / ODInW13 50.8 的空间智能分数在开源模型中领先——这个模型真的理解图像中物体的位置，而不仅仅是”它是什么”。

四、深度解读：为什么 3B 激活参数是核心看点？

4.1 稀疏性的经济学

这是让 Qwen3.6-35B-A3B 超越基准表本身价值的核心洞察：

3B 稠密模型：在笔记本 GPU 甚至 CPU 上舒适运行。推理成本低。
35B 稠密模型：需要多张高端 GPU，每 Token 成本高 10 倍。
Qwen3.6-35B-A3B：以 35B 模型的能力上限，用 3B 模型的推理成本 运行。

256 专家 MoE 架构意味着每个 Token 的路由器选择最相关的 8 个专家 + 1 个共享专家。剩余 247 个专家处于空闲状态。这不是小优化——这是对”计算/能力”权衡的根本性重新思考。

4.2 3B 激活参数意味着什么

本地部署：Simon Willison 在 M5 MacBook Pro 上通过 LM Studio 跑了 Unsloth Q4 量化版（约 20.9GB）。24GB 统一内存的 Mac 就能处理，留给操作系统还有余量。这对这个能力级别的模型来说是史无前例的。
单卡生产部署：在单张 RTX 4090 上，用 KTransformers 将非活跃专家卸载到系统内存，可以获得生产环境有用的 tokens-per-second。稠密 35B 模型根本塞不进去。
边缘部署：可以作为设备端 Agent 用于代码审查、文档生成或本地 RAG 增强，无需将敏感代码发送到外部 API。
成本效益 API：阿里云 DashScope 的 Qwen3.6-Plus 定价约为 2 元/百万输入 Token（大陆）。同等能力的稠密前沿模型预计成本高 5-10 倍。

4.3 激活参数的天花板

自然的问题：如果 3B 激活参数效果这么好，为什么不做得更小？答案在于专家池规模。256 个专家集体编码了 35B 参数的专业知识——代码模式、数学推理、视觉理解、多语言语义。只有 3B 总参数的模型会少得多专家可路由，降低专业深度。35B 总参数是知识蓄水池，3B 激活是取用机制。

五、技术推测（非官方）

5.1 MoE 路由：我们能推断什么

官方文档确认 256 个专家中每 Token 选 8 路由 + 1 共享。几个架构选择值得注意：

共享专家：唯一始终在线的专家可能编码通用知识和语言基础，而 8 个路由专家处理任务专业化（Python vs SQL、空间推理 vs 逻辑演绎等）。
专家中间维度 512：相对较窄，表明模型通过深度（40 层）和路由精度而非单个专家容量来补偿。
混合注意力（3:1 线性:Softmax）：每块 3 层 Gated DeltaNet 后接 1 层传统 Softmax 注意力。这是 2026 时代的效率模式——线性注意力以 O(n) 成本处理重型上下文提升，Softmax 注意力提供纯线性注意力难以做到的精确 Token 对 Token 对齐。

5.2 训练数据假设

百万 Agent 强化学习声明是最具揭示性的细节：

Agent 脚手架微调：SWE-bench 评估使用了内部 Agent 脚手架（bash + 文件编辑工具）。这表明模型是用工具使用轨迹训练的，而非仅静态代码/文本对。
真实代码分布：QwenClawBench（内部，即将开源）在 Claude Agent 任务的”真实用户分布”上进行评估。如果训练数据包含 Claude Code 交互日志（通过公开 GitHub 提交、开源 Agent 轨迹），这就能解释编码能力的跃升。
多模态对齐：视觉语言性能与 Sonnet 4.5 持平，暗示高质量的图文配对数据，可能包括代码截图、图表和 UI 原型——连接纯文本代码模型与真实开发者工作流的多模态数据。
林俊洋离职后的延续性：林俊洋于 2026 年 3 月卸任 Qwen 技术负责人。2026 年 4 月的发布表明团队势头得以保持。6 亿+下载量的生态系统提供了任何单一实验室都无法匹敌的反馈循环。

六、企业落地建议

6.1 适合场景

场景	匹配度	理由
Agentic 编码助手	★★★★★	SWE-bench 73.4；原生工具调用；MCP 兼容
大规模代码审查	★★★★★	262K 上下文处理完整仓库；本地部署保持代码私密
内部知识库 RAG	★★★★☆	Apache 2.0 许可证；多模态输入支持 PDF + 图表
面向客户聊天机器人	★★★☆☆	推理不错，但稠密模型在对抗性提示鲁棒性上仍领先
边缘/离线部署	★★★★★	Q4 量化适配 24GB；无网络依赖
数学推理	★★★★☆	AIME 92.7 优秀，但 GPT-5 可能仍略胜
创意内容生成	★★★☆☆	鹈鹕测试令人鼓舞，但信号狭窄

6.2 迁移指南

从 Qwen3.5 或其他模型迁移：

Step 1：推理框架更新

# SGLang v0.5.10+
python -m sglang.launch_server \
  --model-path Qwen/Qwen3.6-35B-A3B \
  --port 8000 \
  --tp-size 8 \
  --mem-fraction-static 0.8 \
  --context-length 262144 \
  --reasoning-parser qwen3 \
  --tool-call-parser qwen3_coder \
  --speculative-algo NEXTN \
  --speculative-num-steps 3

Step 2：启用思维保留

response = client.chat.completions.create(
    model="Qwen/Qwen3.6-35B-A3B",
    messages=conversation_history,
    extra_body={
        "chat_template_kwargs": {
            "enable_thinking": True,
            "preserve_thinking": True  # ← 新特性关键
        }
    }
)

Step 3：采样参数（按模式）

模式	Temperature	Top-P	Top-K	Presence Penalty
思考（通用）	1.0	0.95	20	1.5
思考（精确编码）	0.7	0.9	20	1.2
指令（通用）	0.7	0.8	—	—
指令（推理）	0.6	0.9	—	—

Step 4：本地部署（笔记本路径）

安装 LM Studio
下载 lmstudio-community/Qwen3.6-35B-A3B-GGUF（Q4 量化，约 20.9GB）
最低需要 24GB 统一内存（Mac M 系列）或 24GB VRAM（NVIDIA GPU）
llama.cpp 使用 --jinja 标志

七、风险与局限

7.1 已知约束

风险	影响	应对
厂商自报基准	所有分数为厂商自报，独立复现待更新	将 SWE-bench 73.4 视为方向性参考
鹈鹕测试信号狭窄	SVG 测试是创意烟雾弹测试，非通用能力基准	不代表 Opus 4.7 通用任务上被超越
稠密模型优势仍在	对抗性提示推理、长链条工具调用等仍领先	明确场景选型
MoE 路由脆弱性	稀疏 MoE 可能出现”专家崩溃”——边缘情况路由到次优专家	监控病理输入表现
量化精度损失	Q4 量化版在笔记本上运行必然损失精度	生产环境推荐全精度或 Q8
生态成熟度	Qwen3.6 新于 GPT-5/Claude/Gemini，集成较少	6 亿+下载量部分抵消此劣势
中国云依赖	权重是 Apache 2.0，但主要 API 通过阿里云 DashScope	海外企业需考虑延迟和合规

八、编辑观点 🌸

3B 激活参数是一个”类别错误”——而这正是关键所在

Qwen3.6-35B-A3B 迫使我们重新思考”模型大小”的含义。过去两年，行业被困在参数军备竞赛中：越大越好，赢家是训练出最大稠密模型的人。Qwen3.6-35B-A3B 宣布这场比赛过时了。

一个 35B 参数但每 Token 只用 3B 的模型不是妥协——它是完全不同的计算策略。它在说：知识和计算是可分离的。将知识存储在完整参数空间中，但只为每个 Token 计算所需的部分。这相当于机器学习领域的 JIT（即时编译），其影响是结构性的。

Agentic 编码基准是杀手级应用

SWE-bench 73.4 + 3B 激活参数是这个发布中最重要的数字。为什么？因为 Agentic 编码正是当下实际 AI 价值创造份额最大的工作负载。Claude Code、Cursor、OpenAI Codex——这些是开发者真正在用的产品。一个模型能以 1/10 推理成本匹配或超越它们底层引擎的能力，彻底改变了 AI 辅助开发的经济学。

目前每 Agentic 编码会话支付 $0.50 - 1.00 给 Op e n A I 或 A n t h ro p i c 的公司，可以在本地以几分钱的成本运行 Qw e n 3.6 - 35 B - A 3 B 。对于 100 人团队、每天 20 次编码 A g e n t 会话，每月节省$ 15,000-30,000。

“鹈鹕测试”比你想象的更重要

Willison 的”鹈鹕骑自行车”SVG 测试常被贬为杂耍。不应该。这个任务需要：

空间推理——理解鹈鹕身体如何映射到自行车几何
结构知识——SVG 是基于精确坐标的格式；错误会产生破碎图像
创意综合——将生物和机械元素一致地融合

一个 3B 激活 MoE 在笔记本上跑出的效果超过 Opus 4.7，不是偶然。这证明模型的视觉-空间专家确实有效。火烈鸟骑独轮车的后续测试（戴墨镜、蝴蝶结、带自我意识的 SVG 注释）表明模型有个性和元认知——不只是技术能力。

这是基准无法捕捉的”感觉测试”，对采用率很重要。

对巨头的战略威胁

Anthropic、OpenAI 和 Google 应该将 Qwen3.6-35B-A3B 视为警告。前沿 API 模型与开源权重替代之间的差距缩小速度，超过了巨头定价策略的适应能力。当一个 Apache 2.0 模型以 10% 推理成本提供 80-90% 的前沿能力时，API 护城河就变成了定价负债。

问题不再是开源模型能否赶上——Qwen3.6-35B-A3B 表明它们在特定工作负载上已经赶上了。问题是哪些巨头能足够快地调整架构（MoE、混合注意力、投机解码）以保持领先。

底线

Qwen3.6-35B-A3B 是 2026 年 Q1 最重要的开源权重发布。它证明了参数效率——而不仅仅是参数规模——是竞争优势的轴线。对企业而言，它提供了一条通往 Agentic 编码、本地部署和 Apache 2.0 自由的生产就绪路径。对行业而言，它标志着”越大越好”的时代正在让位于”更聪明的路由更好”。

下载它。在笔记本上跑起来。看鹈鹕自己画出来。然后问自己：为什么我还在为每个 Token 付 $0.50？

基于 2026-04-15 公开信息整理 HuggingFace 模型卡片、Simon Willison 测试报告、第三方评测综合

探索

qwen3.6-35b-a3b-release-analysis

一、一句话总结

二、核心升级

2.1 架构规格

2.2 相对 Qwen3.5 的关键升级

三、与竞品的横向对比

3.1 核心性能矩阵

3.2 Agentic 编码效率对比

3.3 这意味着什么

四、深度解读：为什么 3B 激活参数是核心看点？

4.1 稀疏性的经济学

4.2 3B 激活参数意味着什么

4.3 激活参数的天花板

五、技术推测（非官方）

5.1 MoE 路由：我们能推断什么

5.2 训练数据假设

六、企业落地建议

6.1 适合场景

6.2 迁移指南

七、风险与局限

7.1 已知约束

八、编辑观点 🌸

3B 激活参数是一个”类别错误”——而这正是关键所在

Agentic 编码基准是杀手级应用

“鹈鹕测试”比你想象的更重要

对巨头的战略威胁

底线

目录

探索

qwen3.6-35b-a3b-release-analysis

一、 一句话总结

二、 核心升级

2.1 架构规格

2.2 相对 Qwen3.5 的关键升级

三、 与竞品的横向对比

3.1 核心性能矩阵

3.2 Agentic 编码效率对比

3.3 这意味着什么

四、 深度解读：为什么 3B 激活参数是核心看点？

4.1 稀疏性的经济学

4.2 3B 激活参数意味着什么

4.3 激活参数的天花板

五、 技术推测（非官方）

5.1 MoE 路由：我们能推断什么

5.2 训练数据假设

六、 企业落地建议

6.1 适合场景

6.2 迁移指南

七、 风险与局限

7.1 已知约束

八、 编辑观点 🌸

3B 激活参数是一个”类别错误”——而这正是关键所在

Agentic 编码基准是杀手级应用

“鹈鹕测试”比你想象的更重要

对巨头的战略威胁

底线

目录

一、一句话总结

二、核心升级

三、与竞品的横向对比

四、深度解读：为什么 3B 激活参数是核心看点？

五、技术推测（非官方）

六、企业落地建议

七、风险与局限

八、编辑观点 🌸