Posts

All the articles I've posted.

MTP（多 Token 预测）：大模型推理加速的“透视眼”

18 Jun, 2026

# MTP（多 Token 预测）：大模型推理加速的'透视眼' ## 引言传统大模型生成文本时，一次只预测**一个 token**，然后把这个 token 拼回去，再预测下一个： ``` 输入: '今天天气真' → 预测: '好...
反常识：为什么有些 7B 模型比 9B 模型更吃显存？（全面分析）

18 Jun, 2026

# 反常识：为什么有些 7B 模型比 9B 模型更吃显存？（全面分析） ## 引言 '模型越大越吃显存'——这听起来像常识，但在实际部署中，我们确实遇到了反直觉的情况：**一个 7B 模型在同等量化下，占用的显存比另一个 9B 模型还多...
小模型原地打转：模型为什么会陷入反复循环以及如何解决

18 Jun, 2026

# 小模型原地打转：为什么模型会陷入'反复循环'以及如何解决 ## 引言使用小模型（7B/9B/13B）的时候，你有没有遇到过这种情况： ``` 用户：请写一个 Python 函数计算斐波那契数列模型：我来写一个 Python 函...
按卡索骥：如何根据自己的显卡找到合适的模型

18 Jun, 2026

# 按卡索骥：如何根据自己的显卡找到合适的模型 ## 引言 '我的电脑能跑什么模型？'——这是大模型入门者最常问的问题。网上动辄说'7B 模型需要 14GB 显存''13B 需要 24GB'，但实际我们在一张 **RTX 3080（...

MTP（多 Token 预测）：大模型推理加速的“透视眼”