按卡索骥：如何根据自己的显卡找到合适的模型

引言

“我的电脑能跑什么模型？“——这是大模型入门者最常问的问题。

网上动辄说”7B 模型需要 14GB 显存""13B 需要 24GB”，但实际我们在一张 **RTX 3080（20GB）**上跑起了 35B 的 Qwen3.6-35B-A3B。

本文用实战经验告诉你：选模型不是看参数量，而是看参数量 × 量化 × 上下文的组合拳。

第一步：确定你的显卡预算

显存速查

显卡型号	显存	常见设备
RTX 3060	12GB	入门级游戏卡
RTX 4060 / 4060 Ti	8-16GB	中端游戏卡
RTX 4070 / 4070 Ti	12GB	中高端游戏卡
RTX 4080 / 4080 Super	16GB	高端游戏卡
RTX 3080	10-20GB	我们实测的型号
RTX 3090 / 3090 Ti	24GB	曾经的性价比之王
RTX 4090	24GB	消费级天花板
Apple Silicon (M1/M2/M3)	统一内存 8-128GB	Mac 用户
消费级 16GB 内存	-	CPU 推理

可用显存 ≠ 显卡显存

可用显存 ≈ 显卡总显存 - 2GB（系统保留）

例子：
20GB 显卡 → 可用约 18GB
12GB 显卡 → 可用约 10GB
8GB 显卡  → 可用约 6GB

记住这个数字，后面会用到。

第二步：理解量化——你的”省钱利器”

量化等级速查表

量化	每参数字节	简称	质量保留
FP16	2.0	-	100%（无损）
Q8_0	1.0	8bit	~99%
Q6_K	0.75	6bit	~98%
Q5_K_M	0.625	5bit	~97%
Q4_K_M	0.5	4bit	~96%（甜点）
Q3_K_M	0.438	3bit	~93%（我们用的）
Q2_K	0.313	2bit	~85%

显存估算公式

模型参数部分显存 = 参数量 × 量化字节

常见模型不同量化下的参数显存：
                    Q2_K    Q3_K    Q4_K    Q8_0    FP16
7B  (70亿)          2.2GB   3.1GB   3.5GB   7.0GB   14GB
9B  (90亿)          2.8GB   3.9GB   4.5GB   9.0GB   18GB
14B (140亿)         4.4GB   6.1GB   7.0GB   14GB    28GB
35B (350亿)         10.9GB  15.3GB  17.5GB  35GB    70GB

加粗的是”可能适合你的显卡”的组合。

第三步：加入上下文变量

实际显存 ≈ 参数显存 + KV 缓存

KV 缓存 ≈ 层数 × 维度 × 量化字节 × 2 × 上下文长度

简化估算：

模型尺寸	4K 上下文	8K 上下文	16K 上下文	32K 上下文
7B Q4	+0.2GB	+0.4GB	+0.8GB	+1.6GB
9B Q4	+0.3GB	+0.6GB	+1.2GB	+2.4GB
35B Q3	+0.2GB	+0.4GB	+0.8GB	+1.6GB

第四步：根据显存选模型

🎯 8GB 显存（入门级）

可用 ~6GB
推荐选项：
  7B Q4_Q3 + 8K 上下文  ≈ 3.5 + 0.4 = 3.9GB ✅
  9B Q4   + 4K 上下文   ≈ 4.5 + 0.3 = 4.8GB ✅
  7B Q8   + 4K 上下文   ≈ 7.0 + 0.2 = 7.2GB ❌（刚好超）
结论：7B Q4 是甜点

🎯 12GB 显存（主流）

可用 ~10GB
推荐选项：
  7B Q8   + 8K 上下文   ≈ 7.0 + 0.4 = 7.4GB ✅
  9B Q4   + 16K 上下文  ≈ 4.5 + 1.2 = 5.7GB ✅
  14B Q4  + 4K 上下文   ≈ 7.0 + 0.6 = 7.6GB ✅
结论：Q4 量化下 14B 都不是问题

🎯 20GB 显存（如 RTX 3080 20GB）← 我们的配置

可用 ~18GB
推荐选项：
  9B Q8   + 32K 上下文  ≈ 9.0 + 2.4 = 11.4GB ✅
  14B Q4  + 16K 上下文  ≈ 7.0 + 1.7 = 8.7GB ✅
  35B Q3_K + 48K 上下文 ≈ 15.3 + 2.0 = 17.3GB ✅  ← 我们的方案
结论：35B Q3_K + 48K 刚好塞满

🎯 24GB（RTX 3090/4090）

可用 ~22GB
推荐选项：
  35B Q4_K + 32K 上下文 ≈ 17.5 + 1.6 = 19.1GB ✅
  70B Q3_K + 8K 上下文  ≈ 30.7 + 0.8 = 31.5GB ❌（超了）
  70B Q2_K + 8K 上下文  ≈ 21.9 + 0.8 = 22.7GB ✅（勉强）
结论：35B Q4 最舒适，70B 需要最低量化

第五步：实际决策流程

你的显存有多大？
    ↓
减去 2GB 系统预留 → 得到可用显存
    ↓
除以 1.2（预留 20% 给 KV 缓存和其他开销）
    ↓
得到"参数显存预算"
    ↓
查量化表，找到对应参数量的模型

示例：RTX 3080 20GB
  可用 ≈ 18GB
  预算 ≈ 18 / 1.2 = 15GB
  查表：35B Q3_K = 15.3GB ✅
  选择：35B Q3_K + 32K 上下文

六、显卡之外的方案

CPU 推理（无 GPU）

推荐：llama.cpp + Q2_K/Q3_K 量化
  7B Q2_K  ≈ 2.2GB 内存 ✅ 任何电脑都能跑
  9B Q2_K  ≈ 2.8GB 内存 ✅ 
  但速度约 2-5 tokens/s（较慢但能用）

Apple Silicon（M 系列芯片）

统一内存模型：内存即”显存”
16GB Mac → 约等于 12GB 显存
32GB Mac → 约等于 24GB 显存
搭配：llama.cpp + Metal 加速，效率极高

CPU + GPU 混合

llama.cpp 的 --n-gpu-layers 参数可以部分加载到 GPU：
  --n-gpu-layers 20  → 前 20 层放 GPU，其余在 CPU
  适合显存差一点点但又不愿降量化的情况

七、实战清单

选模型七步法

□ 第一步：查显卡显存（nvidia-smi）
□ 第二步：算出可用显存（总显存 - 2GB）
□ 第三步：决定上下文需求（日常 8K，复杂 32K+）
□ 第四步：用公式反推可承受的参数显存
□ 第五步：查量化表找到合适的参数量 + 量化组合
□ 第六步：去 HuggingFace 或 ModelScope 搜索 GGUF 文件
□ 第七步：用 llama.cpp 试跑，nvidia-smi 监控实际占用

我们的实践参考

项目	值
显卡	RTX 3080 20GB
模型	Qwen3.6-35B-A3B (35B Q3_K)
上下文	48K (49152)
显存占用	~18.3GB / 20GB
推理速度	122 tokens/s

八、常见误区

误区	正解
”20GB 才能跑 7B”	❌ Q4 量化下 7B 仅需 4GB
”35B 根本不可能在家用显卡上跑”	❌ Q3_K 量化后 16GB 左右
”量化越低越差”	❌ Q3_K 保留约 93% 质量，日常使用差距很小
”显存不够就没办法”	❌ 可降量化、缩上下文、混合 CPU-GPU

总结

选模型的正确公式：

可跑模型 ≈ 显卡显存 ÷ 1.2 - KV缓存 ≈ 参数显存预算
参数显存预算 ÷ 参数量 = 可用的量化等级

说白了：显存固定时，你在参数量和量化质量之间做权衡。

想跑大模型 → 降低量化（Q3_K、Q2_K）
想要高质量 → 用小模型加高量化（7B Q8）
想要效率和质量的平衡 → 35B Q3_K（我们实测推荐）

没有最好的模型，只有最适合你显卡的模型。