Tag: LLM

All the articles with the tag "LLM".

vLLM 显存参数调优全解析：从 OOM 到稳定输出

1 Jun, 2026

在 RTX 3080 20GB 上跑 Qwen3.5-9B，从频繁 OOM 到稳定运行，逐个参数调优的实测记录和数据。
另一种断流：Hermes 没设 context_length，对话撑到 57K 直接挂

1 Jun, 2026

同样是不回复、断流，但根因和 OOM 完全不同——Hermes 配置缺少 context_length，vLLM 的 max_model_len=65536 成了隐形天花板。对话一撑到 57K，下一轮请求超上限直接 HTTP 400。
Hermes 断流排查实录：从「回复到一半就停」到 vLLM OOM 根因修复

1 Jun, 2026

Hermes Agent 回复到一半突然卡住，没有报错、没有超时，就这么停了。花了两天时间从现象倒推根因，最终定位到 vLLM 显存不足导致的流式中断。这篇文章记录完整的排查思路和修复过程。

vLLM 显存参数调优全解析：从 OOM 到稳定输出