Tag: 排障
All the articles with the tag "排障".
-
Hermes 双重压缩排查:对话为什么越聊越失忆
明明设了 context_length,对话还是经常断片——聊几轮后就不记得刚才说过什么。排查发现 Hermes 有两套独立的压缩系统同时在跑,一个阈值 0.9,一个阈值 0.7,谁先触发谁压缩,结果每几轮对话就被压一次。
-
另一种断流:Hermes 没设 context_length,对话撑到 57K 直接挂
同样是不回复、断流,但根因和 OOM 完全不同——Hermes 配置缺少 context_length,vLLM 的 max_model_len=65536 成了隐形天花板。对话一撑到 57K,下一轮请求超上限直接 HTTP 400。
-
Hermes 断流排查实录:从「回复到一半就停」到 vLLM OOM 根因修复
Hermes Agent 回复到一半突然卡住,没有报错、没有超时,就这么停了。花了两天时间从现象倒推根因,最终定位到 vLLM 显存不足导致的流式中断。这篇文章记录完整的排查思路和修复过程。