我的碎碎念

不为繁华易匠心,不舍初心得始终。

0%

让世界看到你的模型:记第一次训练自己的小模型

大家好,我是男秀。

最近,开智社群开了一门「零基础 AI 大模型研发训练营」课程。作为一名有着多年经验的 Python 工程师兼开智铁粉,这波羊毛……啊不,这门硬核课程必须第一时间加入。

经过“七七四十九天”的疯狂折磨,今天终于可以正式宣告:我亲手微调并上线了自己的第一个小模型!

2026 年初 OpenClaw 爆火,之后又出现了 Hermes。但只要你深入用过就会发现,这些项目本质上都是在代码层面为 AI 搭建外部环境。

AI 生态工具变化太快了,几个月甚至几周就会迭代一轮。天天去追这些随时可能被替代的脚手架。不如把精力收回来,去学习未来三到五年都不会变的底层知识——而大模型研发与微调的底层逻辑,恰恰就属于这一类。

费曼说过:“我不能创造的东西,我就不理解。”对大模型祛魅的最好方式,就是亲自去创造它。 这也是我深度参与大模型训练营的初衷。

开智的课程一如既往地保持着高信息密度的传统,也有很多必须动手的作业。

作为打工人,我的时间几乎全部分散在上班工作、照顾家庭等等日常琐事中,留给课程学习的时间极少。如果没有 AI 的配合,单靠肉身我几乎完成不了这些作业。

不过,成年人社会没有标准答题操作,我有我自己的破局之道:我的本地电脑本身接入了一块 NVIDIA RTX 4060 显卡。为了充分利用这个显卡,我在本地电脑部署了一个国产的 OpenClaw工具,然后将其对接到了飞书,加上deepseek最近发布了v4-pro版本,成本和效果达到了预期。

通过国产OpenClaw、飞书和4060显卡,我拉起了一套自动化训练流,直接通过飞书发送命令给OpenClaw工具,让它帮我执行:于是出现了这样的画风:我在公司上班的时候,OpenClaw 在后台跑训练;我晚上睡觉的时候,OpenClaw 还在跑训练。

并且每次睡觉前我给飞书发任务时,我老婆还吐槽我是个资本家+周扒皮,哈哈。

另外,相比于需要盯着余额的云平台,使用本地显卡最大的好处,是拥有了“大胆试错”的安全感。别人是大胆假设小心求证,我是大胆假设大胆求证。 这次数据集微调出来的效果不行,大不了就重新再训一遍!

工程这块,懂的不难,不懂才难。只有真正上手做过,才会形成自己的“行动知识”。

正如课程讲师提到,微调模型最重要的还是数据集。想要模型效果符合预期,至少需要 3000 条高质量的数据集。

在构建这 3000 多条数据的过程中,我实践下来最重要的一个心得就是:蒸馏大于爬取。 利用大模型的能力蒸馏出来的数据,质量远比直接去网上抓取的数据要高得多。

当然,工程上也有小技巧。盲目堆数据很容易浪费精力,我参考了一些做法:先精选 30 条核心的”黄金数据集”进行冒烟测试,验证方向没问题后,再扩充到 300 条微调,最后才逐步往上增加。

到这一步,前面提到的”本地显卡放心大胆试错”的心理优势就彻底闭环了——正是因为有 4060 在后面顶着,不计成本,我才可以放开手脚去迭代数据。一次效果不行?删掉重训。方向跑偏了?砍掉一半再试。这是一种大胆试错的安全感,与在云平台盯着余额跑训练的心理是不一样的。

怎么构建高质量的数据集?技术之外,最核心的其实是熟悉业务领域知识

在这次微调我的“咖啡师小模型”时,我遇到的最大难点,不是技术知识不足,而是我根本不知道一个真实的吧台咖啡师,到底需要哪些核心知识。

在模型早期的内测评估阶段,因为我对业务不够懂,只能全靠大模型的能力去进行数据蒸馏。小模型是能够微调出来了,但是我很难评估它的准确性,所以我让更厉害的模型去评估的时候,总是会出现一些冲煮参数不准确的硬伤。

比如模型会把冲煮水温写成”245°C”——水都烧干了。这种低级错误,不靠懂咖啡的人来纠正是发现不了的。

这一点让我对微调模型有了更深的体会:大模型可以让不懂业务的人,轻易达到60分或者70分,但是想要达到90分甚至更高的分数,还是需要业务专家的参与。

我最终微调出来的,是一个“吧台咖啡师”的垂直场景模型。

用户进入网站,就好像访问了一家真实的咖啡店。在吧台里,有一位咖啡师在随时和你对话。

为了还原这种场景感,我特地调整了语气风格:

  • 去百科化: 它的输出不会像 ChatGPT 那样,一开口就是一股标准、冰冷、充满教科书感的 AI 味。
  • 带点小情绪小动作: 我在数据集里特意加了一点咖啡师的小动作和小情绪。比如每次对话开头可能会有“调了调冷萃壶的水温”这样的小动作。
  • 压缩思考窗口:小模型的”脑容量”有限。我让它只记关键词(比如”深烘|水温|85-90°C”),不做长篇推理。用最少的信息锚定正确的答案。

体验地址已经上线,欢迎大家去我的“吧台”坐坐: 

🔗 体验地址https://coffee-master.zeabur.app

训练出自己的小模型之后,我一直在思考一个问题:大模型能替代 Agent 吗?

这次完整地走完微调、量化到部署的一整套流程后,我找到了答案:哪怕把小模型微调得炉火纯青,依然替代不了 Agent 开发。

因为大模型最擅长的是“推理”,而不是“搞琐事”。

像最基础的会话 Session 状态保持、复杂的业务流控制(Workflow)、以及特定敏感话题的拦截与拒绝回答功能,这些工程层面的脏活累活,天然就不是大模型擅长的舞台。大刀阔斧的业务框架,必须由 Agent 来死死守住。

最近我看到一篇风向标新闻:一家团队通过「后训练 + Agent」的深度结合,拿下了特定垂直领域的最高分。

结合这次微调经历,我预测:未来的技术大趋势,必然是后训练与 Agent 开发的深度结合。

未来计划是对我的小模型加上小agent,模型负责”聊天语气”和”咖啡知识”,Agent 负责拦截敏感问题、管理会话状态等——各司其职。

课程结尾有一句金句:“当你学会创作大模型,你就不再是 AI 的旁观者,而是成为 AI 的掌控者。”

从最开始学习底层理论、拆解 Token,到后来亲手搞定准备数据、预训练、后训练、量化以及最终的部署,我完整地走了一遍大模型研发的全流程。这种把控感,让我真正拥有了创作属于自己的小模型作品的能力。

按照玩游戏的成就体系来看:

  • 今日成就已达成: 成功训练并上线自己的第一个大模型。
  • 主线任务进行中: 后面还要再多折腾几次,通过高频迭代让模型成为我真正的技术代表作。

期待早日通关,拿下「模型家」这个称号。

欢迎关注我的其它发布渠道