Skip to content
懒人吧
Go back

20GB 显存本地 Agent 模型选型:Qwen3.5-9B 为什么是甜点?

编辑页面

背景

RTX 3080 20GB 跑本地模型。选模型是个取舍游戏——参数越多能力越强,但显存有限。

本文对比在 20GB 显存下能跑的主流 Agent 模型,覆盖量化版和蒸馏版。

候选模型

模型参数量化模型大小适合 Agent?
Qwen3.5-9B-AWQ9BAWQ 4bit~5.5 GB
Llama-3.1-8B-GGUF8BQ4_K_M~5 GB⚠️ 中文弱
DeepSeek-V2-Lite16B-~10 GB✅ 但显存余量小
Mistral-Small-7B7BAWQ~4 GB❌ 中文差
Qwen3-14B-AWQ14BAWQ 4bit~8 GB⚠️ 勉强塞,余量少
Qwen2.5-7B-AWQ7BAWQ 4bit~4.5 GB✅ 但比 9B 弱

模型大小与 KV Cache 的关系

选定模型后,KV Cache 的占用比例直接影响可用上下文长度:

模型权重占用KV Cache 可用最大上下文(预估)
Qwen3.5-9B-AWQ~5.5 GB~13 GB65K+
Llama-3.1-8B-GGUF~5 GB~14 GB70K+
DeepSeek-V2-Lite~10 GB~8 GB30K-40K
Qwen3-14B-AWQ~8 GB~10 GB40K-50K
Mistral-Small-7B~4 GB~15 GB80K+
Qwen2.5-7B-AWQ~4.5 GB~14 GB70K+

权重占得越少,留给 KV Cache 的显存越多,支持的长上下文能力越强。

实测对比

中文能力

模型中文理解中文生成中文工具调用
Qwen3.5-9B-AWQ⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Qwen3-14B-AWQ⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Llama-3.1-8B-GGUF⭐⭐⭐⭐⭐⭐⭐
DeepSeek-V2-Lite⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Mistral-Small-7B⭐⭐
Qwen2.5-7B-AWQ⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

Qwen 系列在中文工具调用上有天然优势,因为微调数据包含大量中文用户场景。

Agent 工具调用

模型工具调用准确率多工具并行JSON 格式稳定性
Qwen3.5-9B-AWQ⭐⭐⭐⭐⭐✅ 稳定
Qwen3-14B-AWQ⭐⭐⭐⭐⭐✅ 稳定
Llama-3.1-8B-GGUF⭐⭐⭐⚠️ 部分⚠️ 偶尔格式错误
DeepSeek-V2-Lite⭐⭐⭐⚠️ 部分⚠️ 有时跑偏
Mistral-Small-7B⭐⭐❌ 不稳定
Qwen2.5-7B-AWQ⭐⭐⭐⭐✅ 稳定

推理速度

模型首 token 延迟生成速度20GB 显存余量
Qwen3.5-9B-AWQ~200ms~40 t/s~2-3 GB
Llama-3.1-8B-GGUF~250ms~35 t/s~3-4 GB
DeepSeek-V2-Lite~400ms~20 t/s~0.5 GB
Qwen3-14B-AWQ~300ms~25 t/s~1 GB
Mistral-Small-7B~150ms~50 t/s~4-5 GB
Qwen2.5-7B-AWQ~180ms~45 t/s~3 GB

为什么 Qwen3.5-9B-AWQ 是最佳选择

综合来看,Qwen3.5-9B-AWQ 是 20GB 显存下的甜点:

能力:⭐⭐⭐⭐⭐(9B 参数,中文优化,工具调用强)
速度:⭐⭐⭐⭐(40 t/s,首 token 200ms)
余量:⭐⭐⭐(2-3GB 余量,够用但不宽裕)

优势:

  1. 中文 Agent 场景优化。Qwen 系列在中文工具调用上最稳定。
  2. AWQ 4bit 量化效率高。只占 5.5GB,质量损失小。
  3. 20GB 刚好塞得下。还能留 2-3GB 给 KV Cache。
  4. vLLM 生态成熟。可以直接用 vLLM 部署,不用额外适配。

其他场景推荐

场景推荐模型理由
纯英文 AgentLlama-3.1-8B英文比 Qwen 好
长上下文优先Qwen2.5-7B-AWQ省显存,上下文窗口大
需要更强能力Qwen3-14B-AWQ但显存余量少,容易 OOM
速度优先Mistral-Small-7B快但中文差,Agent 能力弱

总结

对于 20GB 显存的单卡本地 Agent 场景:

  1. 首选 Qwen3.5-9B-AWQ。能力、速度、显存三者平衡最好。
  2. 备选 Qwen2.5-7B-AWQ。如果上下文长度需求高,可以降参数换空间。
  3. 不推荐 14B 模型。勉强塞进去,但没余量给 KV Cache,长对话必 OOM。
  4. 中文场景选 Qwen。英文场景选 Llama。

编辑页面
Share this post on:

Previous Post
Hermes Bridge 嵌入模型离线部署:解决反复重启的联网依赖
Next Post
Hermes 接入 DuckDuckGo 搜索:内置 provider 零成本配置