按卡索骥:如何根据自己的显卡找到合适的模型
引言
“我的电脑能跑什么模型?“——这是大模型入门者最常问的问题。
网上动辄说”7B 模型需要 14GB 显存""13B 需要 24GB”,但实际我们在一张 **RTX 3080(20GB)**上跑起了 35B 的 Qwen3.6-35B-A3B。
本文用实战经验告诉你:选模型不是看参数量,而是看参数量 × 量化 × 上下文的组合拳。
第一步:确定你的显卡预算
显存速查
| 显卡型号 | 显存 | 常见设备 |
|---|---|---|
| RTX 3060 | 12GB | 入门级游戏卡 |
| RTX 4060 / 4060 Ti | 8-16GB | 中端游戏卡 |
| RTX 4070 / 4070 Ti | 12GB | 中高端游戏卡 |
| RTX 4080 / 4080 Super | 16GB | 高端游戏卡 |
| RTX 3080 | 10-20GB | 我们实测的型号 |
| RTX 3090 / 3090 Ti | 24GB | 曾经的性价比之王 |
| RTX 4090 | 24GB | 消费级天花板 |
| Apple Silicon (M1/M2/M3) | 统一内存 8-128GB | Mac 用户 |
| 消费级 16GB 内存 | - | CPU 推理 |
可用显存 ≠ 显卡显存
可用显存 ≈ 显卡总显存 - 2GB(系统保留)
例子:
20GB 显卡 → 可用约 18GB
12GB 显卡 → 可用约 10GB
8GB 显卡 → 可用约 6GB
记住这个数字,后面会用到。
第二步:理解量化——你的”省钱利器”
量化等级速查表
| 量化 | 每参数字节 | 简称 | 质量保留 |
|---|---|---|---|
| FP16 | 2.0 | - | 100%(无损) |
| Q8_0 | 1.0 | 8bit | ~99% |
| Q6_K | 0.75 | 6bit | ~98% |
| Q5_K_M | 0.625 | 5bit | ~97% |
| Q4_K_M | 0.5 | 4bit | ~96%(甜点) |
| Q3_K_M | 0.438 | 3bit | ~93%(我们用的) |
| Q2_K | 0.313 | 2bit | ~85% |
显存估算公式
模型参数部分显存 = 参数量 × 量化字节
常见模型不同量化下的参数显存:
Q2_K Q3_K Q4_K Q8_0 FP16
7B (70亿) 2.2GB 3.1GB 3.5GB 7.0GB 14GB
9B (90亿) 2.8GB 3.9GB 4.5GB 9.0GB 18GB
14B (140亿) 4.4GB 6.1GB 7.0GB 14GB 28GB
35B (350亿) 10.9GB 15.3GB 17.5GB 35GB 70GB
加粗的是”可能适合你的显卡”的组合。
第三步:加入上下文变量
实际显存 ≈ 参数显存 + KV 缓存
KV 缓存 ≈ 层数 × 维度 × 量化字节 × 2 × 上下文长度
简化估算:
| 模型尺寸 | 4K 上下文 | 8K 上下文 | 16K 上下文 | 32K 上下文 |
|---|---|---|---|---|
| 7B Q4 | +0.2GB | +0.4GB | +0.8GB | +1.6GB |
| 9B Q4 | +0.3GB | +0.6GB | +1.2GB | +2.4GB |
| 35B Q3 | +0.2GB | +0.4GB | +0.8GB | +1.6GB |
第四步:根据显存选模型
🎯 8GB 显存(入门级)
可用 ~6GB
推荐选项:
7B Q4_Q3 + 8K 上下文 ≈ 3.5 + 0.4 = 3.9GB ✅
9B Q4 + 4K 上下文 ≈ 4.5 + 0.3 = 4.8GB ✅
7B Q8 + 4K 上下文 ≈ 7.0 + 0.2 = 7.2GB ❌(刚好超)
结论:7B Q4 是甜点
🎯 12GB 显存(主流)
可用 ~10GB
推荐选项:
7B Q8 + 8K 上下文 ≈ 7.0 + 0.4 = 7.4GB ✅
9B Q4 + 16K 上下文 ≈ 4.5 + 1.2 = 5.7GB ✅
14B Q4 + 4K 上下文 ≈ 7.0 + 0.6 = 7.6GB ✅
结论:Q4 量化下 14B 都不是问题
🎯 20GB 显存(如 RTX 3080 20GB)← 我们的配置
可用 ~18GB
推荐选项:
9B Q8 + 32K 上下文 ≈ 9.0 + 2.4 = 11.4GB ✅
14B Q4 + 16K 上下文 ≈ 7.0 + 1.7 = 8.7GB ✅
35B Q3_K + 48K 上下文 ≈ 15.3 + 2.0 = 17.3GB ✅ ← 我们的方案
结论:35B Q3_K + 48K 刚好塞满
🎯 24GB(RTX 3090/4090)
可用 ~22GB
推荐选项:
35B Q4_K + 32K 上下文 ≈ 17.5 + 1.6 = 19.1GB ✅
70B Q3_K + 8K 上下文 ≈ 30.7 + 0.8 = 31.5GB ❌(超了)
70B Q2_K + 8K 上下文 ≈ 21.9 + 0.8 = 22.7GB ✅(勉强)
结论:35B Q4 最舒适,70B 需要最低量化
第五步:实际决策流程
你的显存有多大?
↓
减去 2GB 系统预留 → 得到可用显存
↓
除以 1.2(预留 20% 给 KV 缓存和其他开销)
↓
得到"参数显存预算"
↓
查量化表,找到对应参数量的模型
示例:RTX 3080 20GB
可用 ≈ 18GB
预算 ≈ 18 / 1.2 = 15GB
查表:35B Q3_K = 15.3GB ✅
选择:35B Q3_K + 32K 上下文
六、显卡之外的方案
CPU 推理(无 GPU)
推荐:llama.cpp + Q2_K/Q3_K 量化
7B Q2_K ≈ 2.2GB 内存 ✅ 任何电脑都能跑
9B Q2_K ≈ 2.8GB 内存 ✅
但速度约 2-5 tokens/s(较慢但能用)
Apple Silicon(M 系列芯片)
- 统一内存模型:内存即”显存”
- 16GB Mac → 约等于 12GB 显存
- 32GB Mac → 约等于 24GB 显存
- 搭配:llama.cpp + Metal 加速,效率极高
CPU + GPU 混合
llama.cpp 的 --n-gpu-layers 参数可以部分加载到 GPU:
--n-gpu-layers 20 → 前 20 层放 GPU,其余在 CPU
适合显存差一点点但又不愿降量化的情况
七、实战清单
选模型七步法
□ 第一步:查显卡显存(nvidia-smi)
□ 第二步:算出可用显存(总显存 - 2GB)
□ 第三步:决定上下文需求(日常 8K,复杂 32K+)
□ 第四步:用公式反推可承受的参数显存
□ 第五步:查量化表找到合适的参数量 + 量化组合
□ 第六步:去 HuggingFace 或 ModelScope 搜索 GGUF 文件
□ 第七步:用 llama.cpp 试跑,nvidia-smi 监控实际占用
我们的实践参考
| 项目 | 值 |
|---|---|
| 显卡 | RTX 3080 20GB |
| 模型 | Qwen3.6-35B-A3B (35B Q3_K) |
| 上下文 | 48K (49152) |
| 显存占用 | ~18.3GB / 20GB |
| 推理速度 | 122 tokens/s |
八、常见误区
| 误区 | 正解 |
|---|---|
| ”20GB 才能跑 7B” | ❌ Q4 量化下 7B 仅需 4GB |
| ”35B 根本不可能在家用显卡上跑” | ❌ Q3_K 量化后 16GB 左右 |
| ”量化越低越差” | ❌ Q3_K 保留约 93% 质量,日常使用差距很小 |
| ”显存不够就没办法” | ❌ 可降量化、缩上下文、混合 CPU-GPU |
总结
选模型的正确公式:
可跑模型 ≈ 显卡显存 ÷ 1.2 - KV缓存 ≈ 参数显存预算
参数显存预算 ÷ 参数量 = 可用的量化等级
说白了:显存固定时,你在参数量和量化质量之间做权衡。
- 想跑大模型 → 降低量化(Q3_K、Q2_K)
- 想要高质量 → 用小模型加高量化(7B Q8)
- 想要效率和质量的平衡 → 35B Q3_K(我们实测推荐)
没有最好的模型,只有最适合你显卡的模型。