Skip to content
懒人吧
Go back

按卡索骥:如何根据自己的显卡找到合适的模型

编辑页面

按卡索骥:如何根据自己的显卡找到合适的模型

引言

“我的电脑能跑什么模型?“——这是大模型入门者最常问的问题。

网上动辄说”7B 模型需要 14GB 显存""13B 需要 24GB”,但实际我们在一张 **RTX 3080(20GB)**上跑起了 35B 的 Qwen3.6-35B-A3B

本文用实战经验告诉你:选模型不是看参数量,而是看参数量 × 量化 × 上下文的组合拳。

第一步:确定你的显卡预算

显存速查

显卡型号显存常见设备
RTX 306012GB入门级游戏卡
RTX 4060 / 4060 Ti8-16GB中端游戏卡
RTX 4070 / 4070 Ti12GB中高端游戏卡
RTX 4080 / 4080 Super16GB高端游戏卡
RTX 308010-20GB我们实测的型号
RTX 3090 / 3090 Ti24GB曾经的性价比之王
RTX 409024GB消费级天花板
Apple Silicon (M1/M2/M3)统一内存 8-128GBMac 用户
消费级 16GB 内存-CPU 推理

可用显存 ≠ 显卡显存

可用显存 ≈ 显卡总显存 - 2GB(系统保留)

例子:
20GB 显卡 → 可用约 18GB
12GB 显卡 → 可用约 10GB
8GB 显卡  → 可用约 6GB

记住这个数字,后面会用到。

第二步:理解量化——你的”省钱利器”

量化等级速查表

量化每参数字节简称质量保留
FP162.0-100%(无损)
Q8_01.08bit~99%
Q6_K0.756bit~98%
Q5_K_M0.6255bit~97%
Q4_K_M0.54bit~96%(甜点)
Q3_K_M0.4383bit~93%(我们用的)
Q2_K0.3132bit~85%

显存估算公式

模型参数部分显存 = 参数量 × 量化字节

常见模型不同量化下的参数显存:
                    Q2_K    Q3_K    Q4_K    Q8_0    FP16
7B  (70亿)          2.2GB   3.1GB   3.5GB   7.0GB   14GB
9B  (90亿)          2.8GB   3.9GB   4.5GB   9.0GB   18GB
14B (140亿)         4.4GB   6.1GB   7.0GB   14GB    28GB
35B (350亿)         10.9GB  15.3GB  17.5GB  35GB    70GB

加粗的是”可能适合你的显卡”的组合。

第三步:加入上下文变量

实际显存 ≈ 参数显存 + KV 缓存

KV 缓存 ≈ 层数 × 维度 × 量化字节 × 2 × 上下文长度

简化估算:

模型尺寸4K 上下文8K 上下文16K 上下文32K 上下文
7B Q4+0.2GB+0.4GB+0.8GB+1.6GB
9B Q4+0.3GB+0.6GB+1.2GB+2.4GB
35B Q3+0.2GB+0.4GB+0.8GB+1.6GB

第四步:根据显存选模型

🎯 8GB 显存(入门级)

可用 ~6GB
推荐选项:
  7B Q4_Q3 + 8K 上下文  ≈ 3.5 + 0.4 = 3.9GB ✅
  9B Q4   + 4K 上下文   ≈ 4.5 + 0.3 = 4.8GB ✅
  7B Q8   + 4K 上下文   ≈ 7.0 + 0.2 = 7.2GB ❌(刚好超)
结论:7B Q4 是甜点

🎯 12GB 显存(主流)

可用 ~10GB
推荐选项:
  7B Q8   + 8K 上下文   ≈ 7.0 + 0.4 = 7.4GB ✅
  9B Q4   + 16K 上下文  ≈ 4.5 + 1.2 = 5.7GB ✅
  14B Q4  + 4K 上下文   ≈ 7.0 + 0.6 = 7.6GB ✅
结论:Q4 量化下 14B 都不是问题

🎯 20GB 显存(如 RTX 3080 20GB)← 我们的配置

可用 ~18GB
推荐选项:
  9B Q8   + 32K 上下文  ≈ 9.0 + 2.4 = 11.4GB ✅
  14B Q4  + 16K 上下文  ≈ 7.0 + 1.7 = 8.7GB ✅
  35B Q3_K + 48K 上下文 ≈ 15.3 + 2.0 = 17.3GB ✅  ← 我们的方案
结论:35B Q3_K + 48K 刚好塞满

🎯 24GB(RTX 3090/4090)

可用 ~22GB
推荐选项:
  35B Q4_K + 32K 上下文 ≈ 17.5 + 1.6 = 19.1GB ✅
  70B Q3_K + 8K 上下文  ≈ 30.7 + 0.8 = 31.5GB ❌(超了)
  70B Q2_K + 8K 上下文  ≈ 21.9 + 0.8 = 22.7GB ✅(勉强)
结论:35B Q4 最舒适,70B 需要最低量化

第五步:实际决策流程

你的显存有多大?

减去 2GB 系统预留 → 得到可用显存

除以 1.2(预留 20% 给 KV 缓存和其他开销)

得到"参数显存预算"

查量化表,找到对应参数量的模型

示例:RTX 3080 20GB
  可用 ≈ 18GB
  预算 ≈ 18 / 1.2 = 15GB
  查表:35B Q3_K = 15.3GB ✅
  选择:35B Q3_K + 32K 上下文

六、显卡之外的方案

CPU 推理(无 GPU)

推荐:llama.cpp + Q2_K/Q3_K 量化
  7B Q2_K  ≈ 2.2GB 内存 ✅ 任何电脑都能跑
  9B Q2_K  ≈ 2.8GB 内存 ✅ 
  但速度约 2-5 tokens/s(较慢但能用)

Apple Silicon(M 系列芯片)

CPU + GPU 混合

llama.cpp 的 --n-gpu-layers 参数可以部分加载到 GPU:
  --n-gpu-layers 20  → 前 20 层放 GPU,其余在 CPU
  适合显存差一点点但又不愿降量化的情况

七、实战清单

选模型七步法

□ 第一步:查显卡显存(nvidia-smi)
□ 第二步:算出可用显存(总显存 - 2GB)
□ 第三步:决定上下文需求(日常 8K,复杂 32K+)
□ 第四步:用公式反推可承受的参数显存
□ 第五步:查量化表找到合适的参数量 + 量化组合
□ 第六步:去 HuggingFace 或 ModelScope 搜索 GGUF 文件
□ 第七步:用 llama.cpp 试跑,nvidia-smi 监控实际占用

我们的实践参考

项目
显卡RTX 3080 20GB
模型Qwen3.6-35B-A3B (35B Q3_K)
上下文48K (49152)
显存占用~18.3GB / 20GB
推理速度122 tokens/s

八、常见误区

误区正解
”20GB 才能跑 7B”❌ Q4 量化下 7B 仅需 4GB
”35B 根本不可能在家用显卡上跑”❌ Q3_K 量化后 16GB 左右
”量化越低越差”❌ Q3_K 保留约 93% 质量,日常使用差距很小
”显存不够就没办法”❌ 可降量化、缩上下文、混合 CPU-GPU

总结

选模型的正确公式:

可跑模型 ≈ 显卡显存 ÷ 1.2 - KV缓存 ≈ 参数显存预算
参数显存预算 ÷ 参数量 = 可用的量化等级

说白了:显存固定时,你在参数量和量化质量之间做权衡。

没有最好的模型,只有最适合你显卡的模型。


编辑页面
Share this post on:

Previous Post
小模型原地打转:模型为什么会陷入反复循环以及如何解决
Next Post
量化、质量与速度:普通用户如何找到最佳平衡点