20GB 显存本地 Agent 模型选型：Qwen3.5-9B 为什么是甜点？

背景

RTX 3080 20GB 跑本地模型。选模型是个取舍游戏——参数越多能力越强，但显存有限。

本文对比在 20GB 显存下能跑的主流 Agent 模型，覆盖量化版和蒸馏版。

模型	参数	量化	模型大小	适合 Agent？
Qwen3.5-9B-AWQ	9B	AWQ 4bit	~5.5 GB	✅
Llama-3.1-8B-GGUF	8B	Q4_K_M	~5 GB	⚠️ 中文弱
DeepSeek-V2-Lite	16B	-	~10 GB	✅ 但显存余量小
Mistral-Small-7B	7B	AWQ	~4 GB	❌ 中文差
Qwen3-14B-AWQ	14B	AWQ 4bit	~8 GB	⚠️ 勉强塞，余量少
Qwen2.5-7B-AWQ	7B	AWQ 4bit	~4.5 GB	✅ 但比 9B 弱

选定模型后，KV Cache 的占用比例直接影响可用上下文长度：

模型	权重占用	KV Cache 可用	最大上下文（预估）
Qwen3.5-9B-AWQ	~5.5 GB	~13 GB	65K+
Llama-3.1-8B-GGUF	~5 GB	~14 GB	70K+
DeepSeek-V2-Lite	~10 GB	~8 GB	30K-40K
Qwen3-14B-AWQ	~8 GB	~10 GB	40K-50K
Mistral-Small-7B	~4 GB	~15 GB	80K+
Qwen2.5-7B-AWQ	~4.5 GB	~14 GB	70K+

权重占得越少，留给 KV Cache 的显存越多，支持的长上下文能力越强。

模型	中文理解	中文生成	中文工具调用
Qwen3.5-9B-AWQ	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Qwen3-14B-AWQ	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐
Llama-3.1-8B-GGUF	⭐⭐	⭐⭐	⭐⭐⭐
DeepSeek-V2-Lite	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
Mistral-Small-7B	⭐	⭐	⭐⭐
Qwen2.5-7B-AWQ	⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐

Qwen 系列在中文工具调用上有天然优势，因为微调数据包含大量中文用户场景。

模型	工具调用准确率	多工具并行	JSON 格式稳定性
Qwen3.5-9B-AWQ	⭐⭐⭐⭐⭐	✅	✅ 稳定
Qwen3-14B-AWQ	⭐⭐⭐⭐⭐	✅	✅ 稳定
Llama-3.1-8B-GGUF	⭐⭐⭐	⚠️ 部分	⚠️ 偶尔格式错误
DeepSeek-V2-Lite	⭐⭐⭐	⚠️ 部分	⚠️ 有时跑偏
Mistral-Small-7B	⭐⭐	❌	❌ 不稳定
Qwen2.5-7B-AWQ	⭐⭐⭐⭐	✅	✅ 稳定

模型	首 token 延迟	生成速度	20GB 显存余量
Qwen3.5-9B-AWQ	~200ms	~40 t/s	~2-3 GB
Llama-3.1-8B-GGUF	~250ms	~35 t/s	~3-4 GB
DeepSeek-V2-Lite	~400ms	~20 t/s	~0.5 GB
Qwen3-14B-AWQ	~300ms	~25 t/s	~1 GB
Mistral-Small-7B	~150ms	~50 t/s	~4-5 GB
Qwen2.5-7B-AWQ	~180ms	~45 t/s	~3 GB

综合来看，Qwen3.5-9B-AWQ 是 20GB 显存下的甜点：

能力：⭐⭐⭐⭐⭐（9B 参数，中文优化，工具调用强）
速度：⭐⭐⭐⭐（40 t/s，首 token 200ms）
余量：⭐⭐⭐（2-3GB 余量，够用但不宽裕）

优势：

对于 20GB 显存的单卡本地 Agent 场景：