发布日期:2026-04-15
模型系列:Qwen3.6-35B-A3B
开发商:阿里通义千问(Qwen)
架构:稀疏 MoE(35B 总参数,3B 激活)
许可证:Apache 2.0
一、 一句话总结
阿里开源的 Qwen3.6-35B-A3B 用 35B 总参数、仅 3B 激活参数的稀疏 MoE 架构,在 Agentic 编码能力上(SWE-bench 73.4)打平了参数量 10 倍于它的稠密模型,在 M5 MacBook 上量化可本地运行——并且在 Simon Willison 著名的”鹈鹕骑自行车”测试中,SVG 生成效果超过了 Anthropic 的旗舰 Opus 4.7。
二、 核心升级
2.1 架构规格
| 组件 | 规格 |
|---|---|
| 总参数 | 35B |
| 激活参数 | ~3B per token |
| 专家数量 | 256 个(8 路由 + 1 共享 per token) |
| 专家中间维度 | 512 |
| Transformer 层数 | 40(10 块 × [3 Gated DeltaNet + 1 Gated Attention]) |
| 注意力模式 | 混合:线性(DeltaNet)+ Softmax(3:1 比例) |
| 上下文窗口 | 原生 262K,YaRN RoPE 扩展到 ~100 万 |
| 多模态 | 文本 + 图像 + 视频(原生多模态) |
| 许可证 | Apache 2.0 |
2.2 相对 Qwen3.5 的关键升级
-
思维保留(Thinking Preservation) —
preserve_thinking: true支持在多轮对话中保留推理痕迹。解决了 Agent 每轮都要重新推导架构决策的”上下文健忘”问题,迭代编码循环中的通信开销降低约 80%。 -
Agentic 编码栈 — 原生工具调用解析(
--tool-call-parser qwen3_coder,vLLM/SGLang 支持),取代了 Qwen2 时代的 JSON 模式变通方案。与 MCP 服务器兼容,意味着 Claude Code 使用的同一套工具栈在这里也能用。 -
多 Token 预测(MTP) — 内置 MTP 头,无需独立的草稿模型即可实现投机解码,在兼容推理框架上吞吐量提升约 10 倍。
-
百万 Agent 强化学习 — 训练纳入了复杂的多 Agent 开发场景,而非静态代码补全。这是编码能力跃升的核心驱动力。
-
语言覆盖扩展 — 从主流编程语言到方言覆盖(普通话到粤语),体现全球化产品战略。
三、 与竞品的横向对比
3.1 核心性能矩阵
| 基准 | Qwen3.6-35B-A3B | 说明 |
|---|---|---|
| SWE-bench Verified | 73.4 | Agentic 编码能力,逼近上一代 27B 稠密模型 |
| GPQA Diamond | 86.0 | 复杂科学问答推理 |
| AIME 2026 | 92.7 | 高难度数学竞赛 |
| MMMU(视觉) | 81.7 | 多模态理解与专家级视觉推理 |
| MathVista-mini | 86.4 | 视觉数学解题 |
| RefCOCO(空间智能) | 92.0 | 图像中物体定位与空间理解 |
| ODInW13(空间智能) | 50.8 | 开放域实例识别 |
| 架构参数 | 35B 总 / 3B 激活 | 256 专家稀疏 MoE |
3.2 Agentic 编码效率对比
| 模型 | SWE-bench | 激活参数 | 许可证 | 效率评价 |
|---|---|---|---|---|
| Qwen3.6-35B-A3B | 73.4 | 3B | Apache 2.0 | ⭐⭐⭐⭐⭐ (最优) |
| Qwen3.5-27B | 75.0 | 27B | Apache 2.0 | ⭐⭐⭐ (能力略强但成本高 9 倍) |
| Gemma 4-31B | 52.0 | 31B | Gemma | ⭐⭐ (差距大且参数大) |
3.3 这意味着什么
- 效率碾压:SWE-bench 73.4 的成绩,在 3B 激活参数下打出,远超同级别稠密模型。对比 Gemma 4-31B 的 52.0 分,差距达 21.4 分,而 Qwen 的激活参数仅为它的 1/10。
- 跨代对比:与上一代 Qwen3.5-27B(75.0)相比,Qwen3.6-35B-A3B 的 73.4 分基本持平——但参数量从 27B 稠密降到 3B 激活。这是一次 9 倍的推理成本压缩。
- 推理能力:AIME 92.7 + GPQA 86.0 使其稳居 2026 年 Q1 开源权重榜单顶端。
- 视觉语言:RefCOCO 92.0 / ODInW13 50.8 的空间智能分数在开源模型中领先——这个模型真的理解图像中物体的位置,而不仅仅是”它是什么”。
四、 深度解读:为什么 3B 激活参数是核心看点?
4.1 稀疏性的经济学
这是让 Qwen3.6-35B-A3B 超越基准表本身价值的核心洞察:
- 3B 稠密模型:在笔记本 GPU 甚至 CPU 上舒适运行。推理成本低。
- 35B 稠密模型:需要多张高端 GPU,每 Token 成本高 10 倍。
- Qwen3.6-35B-A3B:以 35B 模型的能力上限,用 3B 模型的推理成本 运行。
256 专家 MoE 架构意味着每个 Token 的路由器选择最相关的 8 个专家 + 1 个共享专家。剩余 247 个专家处于空闲状态。这不是小优化——这是对”计算/能力”权衡的根本性重新思考。
4.2 3B 激活参数意味着什么
-
本地部署:Simon Willison 在 M5 MacBook Pro 上通过 LM Studio 跑了 Unsloth Q4 量化版(约 20.9GB)。24GB 统一内存的 Mac 就能处理,留给操作系统还有余量。这对这个能力级别的模型来说是史无前例的。
-
单卡生产部署:在单张 RTX 4090 上,用 KTransformers 将非活跃专家卸载到系统内存,可以获得生产环境有用的 tokens-per-second。稠密 35B 模型根本塞不进去。
-
边缘部署:可以作为设备端 Agent 用于代码审查、文档生成或本地 RAG 增强,无需将敏感代码发送到外部 API。
-
成本效益 API:阿里云 DashScope 的 Qwen3.6-Plus 定价约为 2 元/百万输入 Token(大陆)。同等能力的稠密前沿模型预计成本高 5-10 倍。
4.3 激活参数的天花板
自然的问题:如果 3B 激活参数效果这么好,为什么不做得更小?答案在于专家池规模。256 个专家集体编码了 35B 参数的专业知识——代码模式、数学推理、视觉理解、多语言语义。只有 3B 总参数的模型会少得多专家可路由,降低专业深度。35B 总参数是知识蓄水池,3B 激活是取用机制。
五、 技术推测(非官方)
5.1 MoE 路由:我们能推断什么
官方文档确认 256 个专家中每 Token 选 8 路由 + 1 共享。几个架构选择值得注意:
- 共享专家:唯一始终在线的专家可能编码通用知识和语言基础,而 8 个路由专家处理任务专业化(Python vs SQL、空间推理 vs 逻辑演绎等)。
- 专家中间维度 512:相对较窄,表明模型通过深度(40 层)和路由精度而非单个专家容量来补偿。
- 混合注意力(3:1 线性:Softmax):每块 3 层 Gated DeltaNet 后接 1 层传统 Softmax 注意力。这是 2026 时代的效率模式——线性注意力以 O(n) 成本处理重型上下文提升,Softmax 注意力提供纯线性注意力难以做到的精确 Token 对 Token 对齐。
5.2 训练数据假设
百万 Agent 强化学习声明是最具揭示性的细节:
-
Agent 脚手架微调:SWE-bench 评估使用了内部 Agent 脚手架(bash + 文件编辑工具)。这表明模型是用工具使用轨迹训练的,而非仅静态代码/文本对。
-
真实代码分布:QwenClawBench(内部,即将开源)在 Claude Agent 任务的”真实用户分布”上进行评估。如果训练数据包含 Claude Code 交互日志(通过公开 GitHub 提交、开源 Agent 轨迹),这就能解释编码能力的跃升。
-
多模态对齐:视觉语言性能与 Sonnet 4.5 持平,暗示高质量的图文配对数据,可能包括代码截图、图表和 UI 原型——连接纯文本代码模型与真实开发者工作流的多模态数据。
-
林俊洋离职后的延续性:林俊洋于 2026 年 3 月卸任 Qwen 技术负责人。2026 年 4 月的发布表明团队势头得以保持。6 亿+下载量的生态系统提供了任何单一实验室都无法匹敌的反馈循环。
六、 企业落地建议
6.1 适合场景
| 场景 | 匹配度 | 理由 |
|---|---|---|
| Agentic 编码助手 | ★★★★★ | SWE-bench 73.4;原生工具调用;MCP 兼容 |
| 大规模代码审查 | ★★★★★ | 262K 上下文处理完整仓库;本地部署保持代码私密 |
| 内部知识库 RAG | ★★★★☆ | Apache 2.0 许可证;多模态输入支持 PDF + 图表 |
| 面向客户聊天机器人 | ★★★☆☆ | 推理不错,但稠密模型在对抗性提示鲁棒性上仍领先 |
| 边缘/离线部署 | ★★★★★ | Q4 量化适配 24GB;无网络依赖 |
| 数学推理 | ★★★★☆ | AIME 92.7 优秀,但 GPT-5 可能仍略胜 |
| 创意内容生成 | ★★★☆☆ | 鹈鹕测试令人鼓舞,但信号狭窄 |
6.2 迁移指南
从 Qwen3.5 或其他模型迁移:
Step 1:推理框架更新
# SGLang v0.5.10+
python -m sglang.launch_server \
--model-path Qwen/Qwen3.6-35B-A3B \
--port 8000 \
--tp-size 8 \
--mem-fraction-static 0.8 \
--context-length 262144 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--speculative-algo NEXTN \
--speculative-num-steps 3Step 2:启用思维保留
response = client.chat.completions.create(
model="Qwen/Qwen3.6-35B-A3B",
messages=conversation_history,
extra_body={
"chat_template_kwargs": {
"enable_thinking": True,
"preserve_thinking": True # ← 新特性关键
}
}
)Step 3:采样参数(按模式)
| 模式 | Temperature | Top-P | Top-K | Presence Penalty |
|---|---|---|---|---|
| 思考(通用) | 1.0 | 0.95 | 20 | 1.5 |
| 思考(精确编码) | 0.7 | 0.9 | 20 | 1.2 |
| 指令(通用) | 0.7 | 0.8 | — | — |
| 指令(推理) | 0.6 | 0.9 | — | — |
Step 4:本地部署(笔记本路径)
- 安装 LM Studio
- 下载
lmstudio-community/Qwen3.6-35B-A3B-GGUF(Q4 量化,约 20.9GB) - 最低需要 24GB 统一内存(Mac M 系列)或 24GB VRAM(NVIDIA GPU)
- llama.cpp 使用
--jinja标志
七、 风险与局限
7.1 已知约束
| 风险 | 影响 | 应对 |
|---|---|---|
| 厂商自报基准 | 所有分数为厂商自报,独立复现待更新 | 将 SWE-bench 73.4 视为方向性参考 |
| 鹈鹕测试信号狭窄 | SVG 测试是创意烟雾弹测试,非通用能力基准 | 不代表 Opus 4.7 通用任务上被超越 |
| 稠密模型优势仍在 | 对抗性提示推理、长链条工具调用等仍领先 | 明确场景选型 |
| MoE 路由脆弱性 | 稀疏 MoE 可能出现”专家崩溃”——边缘情况路由到次优专家 | 监控病理输入表现 |
| 量化精度损失 | Q4 量化版在笔记本上运行必然损失精度 | 生产环境推荐全精度或 Q8 |
| 生态成熟度 | Qwen3.6 新于 GPT-5/Claude/Gemini,集成较少 | 6 亿+下载量部分抵消此劣势 |
| 中国云依赖 | 权重是 Apache 2.0,但主要 API 通过阿里云 DashScope | 海外企业需考虑延迟和合规 |
八、 编辑观点 🌸
3B 激活参数是一个”类别错误”——而这正是关键所在
Qwen3.6-35B-A3B 迫使我们重新思考”模型大小”的含义。过去两年,行业被困在参数军备竞赛中:越大越好,赢家是训练出最大稠密模型的人。Qwen3.6-35B-A3B 宣布这场比赛过时了。
一个 35B 参数但每 Token 只用 3B 的模型不是妥协——它是完全不同的计算策略。它在说:知识和计算是可分离的。将知识存储在完整参数空间中,但只为每个 Token 计算所需的部分。这相当于机器学习领域的 JIT(即时编译),其影响是结构性的。
Agentic 编码基准是杀手级应用
SWE-bench 73.4 + 3B 激活参数是这个发布中最重要的数字。为什么?因为 Agentic 编码正是当下实际 AI 价值创造份额最大的工作负载。Claude Code、Cursor、OpenAI Codex——这些是开发者真正在用的产品。一个模型能以 1/10 推理成本匹配或超越它们底层引擎的能力,彻底改变了 AI 辅助开发的经济学。
目前每 Agentic 编码会话支付 15,000-30,000。
“鹈鹕测试”比你想象的更重要
Willison 的”鹈鹕骑自行车”SVG 测试常被贬为杂耍。不应该。这个任务需要:
- 空间推理——理解鹈鹕身体如何映射到自行车几何
- 结构知识——SVG 是基于精确坐标的格式;错误会产生破碎图像
- 创意综合——将生物和机械元素一致地融合
一个 3B 激活 MoE 在笔记本上跑出的效果超过 Opus 4.7,不是偶然。这证明模型的视觉-空间专家确实有效。火烈鸟骑独轮车的后续测试(戴墨镜、蝴蝶结、带自我意识的 SVG 注释)表明模型有个性和元认知——不只是技术能力。
这是基准无法捕捉的”感觉测试”,对采用率很重要。
对巨头的战略威胁
Anthropic、OpenAI 和 Google 应该将 Qwen3.6-35B-A3B 视为警告。前沿 API 模型与开源权重替代之间的差距缩小速度,超过了巨头定价策略的适应能力。当一个 Apache 2.0 模型以 10% 推理成本提供 80-90% 的前沿能力时,API 护城河就变成了定价负债。
问题不再是开源模型能否赶上——Qwen3.6-35B-A3B 表明它们在特定工作负载上已经赶上了。问题是哪些巨头能足够快地调整架构(MoE、混合注意力、投机解码)以保持领先。
底线
Qwen3.6-35B-A3B 是 2026 年 Q1 最重要的开源权重发布。它证明了参数效率——而不仅仅是参数规模——是竞争优势的轴线。对企业而言,它提供了一条通往 Agentic 编码、本地部署和 Apache 2.0 自由的生产就绪路径。对行业而言,它标志着”越大越好”的时代正在让位于”更聪明的路由更好”。
下载它。在笔记本上跑起来。看鹈鹕自己画出来。然后问自己:为什么我还在为每个 Token 付 $0.50?
基于 2026-04-15 公开信息整理 HuggingFace 模型卡片、Simon Willison 测试报告、第三方评测综合