Tag: 推理加速
All the articles with the tag "推理加速".
-
MTP(多 Token 预测):大模型推理加速的“透视眼”
# MTP(多 Token 预测):大模型推理加速的'透视眼' ## 引言 传统大模型生成文本时,一次只预测**一个 token**,然后把这个 token 拼回去,再预测下一个: ``` 输入: '今天天气真' → 预测: '好...
All the articles with the tag "推理加速".
# MTP(多 Token 预测):大模型推理加速的'透视眼' ## 引言 传统大模型生成文本时,一次只预测**一个 token**,然后把这个 token 拼回去,再预测下一个: ``` 输入: '今天天气真' → 预测: '好...