背景
RTX 3080 20GB 跑本地模型。选模型是个取舍游戏——参数越多能力越强,但显存有限。
本文对比在 20GB 显存下能跑的主流 Agent 模型,覆盖量化版和蒸馏版。
候选模型
| 模型 | 参数 | 量化 | 模型大小 | 适合 Agent? |
|---|---|---|---|---|
| Qwen3.5-9B-AWQ | 9B | AWQ 4bit | ~5.5 GB | ✅ |
| Llama-3.1-8B-GGUF | 8B | Q4_K_M | ~5 GB | ⚠️ 中文弱 |
| DeepSeek-V2-Lite | 16B | - | ~10 GB | ✅ 但显存余量小 |
| Mistral-Small-7B | 7B | AWQ | ~4 GB | ❌ 中文差 |
| Qwen3-14B-AWQ | 14B | AWQ 4bit | ~8 GB | ⚠️ 勉强塞,余量少 |
| Qwen2.5-7B-AWQ | 7B | AWQ 4bit | ~4.5 GB | ✅ 但比 9B 弱 |
模型大小与 KV Cache 的关系
选定模型后,KV Cache 的占用比例直接影响可用上下文长度:
| 模型 | 权重占用 | KV Cache 可用 | 最大上下文(预估) |
|---|---|---|---|
| Qwen3.5-9B-AWQ | ~5.5 GB | ~13 GB | 65K+ |
| Llama-3.1-8B-GGUF | ~5 GB | ~14 GB | 70K+ |
| DeepSeek-V2-Lite | ~10 GB | ~8 GB | 30K-40K |
| Qwen3-14B-AWQ | ~8 GB | ~10 GB | 40K-50K |
| Mistral-Small-7B | ~4 GB | ~15 GB | 80K+ |
| Qwen2.5-7B-AWQ | ~4.5 GB | ~14 GB | 70K+ |
权重占得越少,留给 KV Cache 的显存越多,支持的长上下文能力越强。
实测对比
中文能力
| 模型 | 中文理解 | 中文生成 | 中文工具调用 |
|---|---|---|---|
| Qwen3.5-9B-AWQ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Qwen3-14B-AWQ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| Llama-3.1-8B-GGUF | ⭐⭐ | ⭐⭐ | ⭐⭐⭐ |
| DeepSeek-V2-Lite | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ |
| Mistral-Small-7B | ⭐ | ⭐ | ⭐⭐ |
| Qwen2.5-7B-AWQ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
Qwen 系列在中文工具调用上有天然优势,因为微调数据包含大量中文用户场景。
Agent 工具调用
| 模型 | 工具调用准确率 | 多工具并行 | JSON 格式稳定性 |
|---|---|---|---|
| Qwen3.5-9B-AWQ | ⭐⭐⭐⭐⭐ | ✅ | ✅ 稳定 |
| Qwen3-14B-AWQ | ⭐⭐⭐⭐⭐ | ✅ | ✅ 稳定 |
| Llama-3.1-8B-GGUF | ⭐⭐⭐ | ⚠️ 部分 | ⚠️ 偶尔格式错误 |
| DeepSeek-V2-Lite | ⭐⭐⭐ | ⚠️ 部分 | ⚠️ 有时跑偏 |
| Mistral-Small-7B | ⭐⭐ | ❌ | ❌ 不稳定 |
| Qwen2.5-7B-AWQ | ⭐⭐⭐⭐ | ✅ | ✅ 稳定 |
推理速度
| 模型 | 首 token 延迟 | 生成速度 | 20GB 显存余量 |
|---|---|---|---|
| Qwen3.5-9B-AWQ | ~200ms | ~40 t/s | ~2-3 GB |
| Llama-3.1-8B-GGUF | ~250ms | ~35 t/s | ~3-4 GB |
| DeepSeek-V2-Lite | ~400ms | ~20 t/s | ~0.5 GB |
| Qwen3-14B-AWQ | ~300ms | ~25 t/s | ~1 GB |
| Mistral-Small-7B | ~150ms | ~50 t/s | ~4-5 GB |
| Qwen2.5-7B-AWQ | ~180ms | ~45 t/s | ~3 GB |
为什么 Qwen3.5-9B-AWQ 是最佳选择
综合来看,Qwen3.5-9B-AWQ 是 20GB 显存下的甜点:
能力:⭐⭐⭐⭐⭐(9B 参数,中文优化,工具调用强)
速度:⭐⭐⭐⭐(40 t/s,首 token 200ms)
余量:⭐⭐⭐(2-3GB 余量,够用但不宽裕)
优势:
- 中文 Agent 场景优化。Qwen 系列在中文工具调用上最稳定。
- AWQ 4bit 量化效率高。只占 5.5GB,质量损失小。
- 20GB 刚好塞得下。还能留 2-3GB 给 KV Cache。
- vLLM 生态成熟。可以直接用 vLLM 部署,不用额外适配。
其他场景推荐
| 场景 | 推荐模型 | 理由 |
|---|---|---|
| 纯英文 Agent | Llama-3.1-8B | 英文比 Qwen 好 |
| 长上下文优先 | Qwen2.5-7B-AWQ | 省显存,上下文窗口大 |
| 需要更强能力 | Qwen3-14B-AWQ | 但显存余量少,容易 OOM |
| 速度优先 | Mistral-Small-7B | 快但中文差,Agent 能力弱 |
总结
对于 20GB 显存的单卡本地 Agent 场景:
- 首选 Qwen3.5-9B-AWQ。能力、速度、显存三者平衡最好。
- 备选 Qwen2.5-7B-AWQ。如果上下文长度需求高,可以降参数换空间。
- 不推荐 14B 模型。勉强塞进去,但没余量给 KV Cache,长对话必 OOM。
- 中文场景选 Qwen。英文场景选 Llama。