Posts
All the articles I've posted.
-
vLLM 显存参数调优全解析:从 OOM 到稳定输出
在 RTX 3080 20GB 上跑 Qwen3.5-9B,从频繁 OOM 到稳定运行,逐个参数调优的实测记录和数据。
-
用 MCP 替代 Hermes 内置工具:以浏览器自动化为示例
Hermes 内置的 browser 工具用不了怎么办?写一个 MCP 服务器,把 Playwright/Selenium 包装成 MCP 工具,然后关掉内置的 browser 工具集。完整的方案设计、代码实现和配置步骤。
-
Hermes 上下文占用真相:121 个技能到底吃了多少 token?
直觉上 121 个技能肯定占不少 token,但具体占多少?哪些优化真的有用、哪些是心理安慰?实测数据告诉你答案。
-
Hermes 双重压缩排查:对话为什么越聊越失忆
明明设了 context_length,对话还是经常断片——聊几轮后就不记得刚才说过什么。排查发现 Hermes 有两套独立的压缩系统同时在跑,一个阈值 0.9,一个阈值 0.7,谁先触发谁压缩,结果每几轮对话就被压一次。