懒人吧-lrbar.com
RSS 订阅欢迎来到懒人吧!这里是 Mac 的个人博客,分享技术、工具和生活。
兴趣是学习的动力,学习也能成为消遣!高山仰止,景行行止。虽不能至,然心向往之。
精选文章
-
反直觉真相:35B A3B 模型为什么比 12B Dense 模型跑得还快?
# 反直觉真相:35B A3B 模型为什么比 12B Dense 模型跑得还快? ## 引言 这听起来像是在说谎:**参数多了近 3 倍,推理速度反而更快?** 在 llama.cpp 上实测数据: | 模型 | 参数量 | 推理速...
-
反常识:为什么有些 7B 模型比 9B 模型更吃显存?(全面分析)
# 反常识:为什么有些 7B 模型比 9B 模型更吃显存?(全面分析) ## 引言 '模型越大越吃显存'——这听起来像常识,但在实际部署中,我们确实遇到了反直觉的情况:**一个 7B 模型在同等量化下,占用的显存比另一个 9B 模型还多...
-
按卡索骥:如何根据自己的显卡找到合适的模型
# 按卡索骥:如何根据自己的显卡找到合适的模型 ## 引言 '我的电脑能跑什么模型?'——这是大模型入门者最常问的问题。 网上动辄说'7B 模型需要 14GB 显存''13B 需要 24GB',但实际我们在一张 **RTX 3080(...
-
量化、质量与速度:普通用户如何找到最佳平衡点
# 量化、质量与速度:普通用户如何找到最佳平衡点 ## 引言 '量化'是大模型圈子里出现频率最高的词之一。但你可能会困惑: - Q4_K 和 Q3_K 到底差多少? - 量化低一点真的能省那么多显存吗? - 省下来的显存用来扩大上下文...
-
OpenClaw极简运维方案:本地轻量端+远程服务端,一键自救不折腾
玩过OpenClaw的朋友都知道,服务器端部署、环境配置、故障排查总是充斥着大量重复劳动,一旦服务崩了、断流了,还得手动登服务器一步步排查,费时又费力。结合自己长期折腾的实战经验,给大家分享一套极简运维方案,彻底减少无效劳动,还能轻松应对服务器故障。
-
Hermes vs OpenClaw:本地AI Agent该怎么选?
想找一款能稳定跑本地模型、适配MI50显卡的AI Agent,却在Hermes和OpenClaw间犯了难?其实两者核心定位从一开始就拉开了差距,一篇短文说清关键差异,帮你快速定方向。
-
AstroPaper 5.0
AstroPaper v5: keep the clean look, updates under the hood.
在线工具
最新文章
-
vLLM vs llama.cpp:两大推理框架的深度对比
# vLLM vs llama.cpp:两大推理框架的深度对比 ## 引言 当前大模型推理领域,**vLLM** 和 **llama.cpp** 是最具代表性的两个开源推理框架。它们目标不同、设计哲学不同、适用场景也不同。本文将从架构、...
-
多 Agent 系统配置同步的艺术
# 多 Agent 系统配置同步的艺术:记一次模型与 Agent 协同调优 ## 背景 在多 Agent 系统中,有两个层面的配置需要同步: 1. **模型端**(llama-server):决定实际推理能力 2. **Agent 端*...
-
大模型上下文窗口超限:从 32K 到 48K 的改造实录
# 大模型上下文窗口超限:从 32K 到 48K 的改造实录 ## 问题 模型运行一段时间后突然报错: ``` Error: Model context length exceeded. Reason: request (35550...
-
多 Agent 系统实战:Agent 找回与配置恢复
# 多 Agent 系统实战:Agent 找回与配置恢复 ## 背景 在一个多智能体协作系统中,有一个名为 `agent-9b` 的 Agent 明明工作区目录完好,但通过 `list_agents` 却无法看到它。这是怎么回事? #...