Back to Blog

2024年6月18日

2024:从工业算法转向大模型,我先重做了训练平台

在企业场景中,先把训练与评估流程标准化,再谈模型升级,才能让 LLM 落地真正可持续。

LLM训练平台工程化RAG

2024:从工业算法转向大模型,我先重做了训练平台

2024 年我从传统算法项目逐步转向大模型落地,第一阶段在制造业场景做模型训练平台建设。很多人会默认“转 LLM 就要先换模型”,但我在现场看到的现实是,团队主要瓶颈并不在模型结构,而在训练流程。数据准备靠手工、参数配置靠经验、评估结果难复现,导致每次实验成本都很高,GPU 看起来跑得很满,实际有效利用率并不高。

为什么我先做平台,不先做模型

当时团队成员背景差异很大,并不是所有人都熟悉训练细节。如果流程高度依赖少数专家,项目就很难规模化。我把目标定成三件事:

  1. 让非算法同学也能按规范完成训练。
  2. 让同一任务在不同人手里结果可复现。
  3. 让每次失败都能留下可定位的证据链。

于是我把数据清洗、样本切分、训练配置、评估输出串成一条可复用流水线,把“隐性经验”写进模板和校验规则里。具体做法包括:统一数据 schema、内置任务 recipe、限定安全参数区间、训练异常自动归档日志、评估报告自动生成。

在 CIM 业务里做第一版 LLM 验证

平台稳定后,我开始推进 LLM 在 CIM 场景的验证。这个场景的特点是数据来源多、结构碎、语义口径不一致。传统检索只能“查到字段”,很难给出可直接执行的答案。我做了一个轻量 RAG 原型:

  • 文档按业务实体切块,而不是按固定长度盲切。
  • 检索阶段做实体聚合,减少跨文档语义断裂。
  • 生成阶段强制引用来源,降低“答得像对但不可追溯”的风险。

这个阶段我没有追求花哨能力,只盯三个线上可量化指标:可回答率、引用一致性、响应时延。原因很简单,业务方并不关心你用的是什么论文方法,他们关心结果是不是稳定、能不能复核、能不能持续迭代。

结果与复盘

平台上线后,训练开发效率提升约 40%,GPU 资源利用优化约 25%。更关键的是,团队协作方式发生了变化:从“靠专家兜底”转成“靠流程托底”。这让后续做 Agent、多模态 RAG 时有了稳定地基。

回看这段经历,我对“大模型工程化”形成了一个很明确的判断:

  • 没有流程,模型迭代是偶然成功。
  • 有了流程,中等模型也能持续变强。
  • 评估口径和数据治理,往往比单次参数调优更决定上限。

这也是我后来做复杂 Agent 系统时始终坚持的原则。先把系统变成可观测、可复现、可回滚,再追求更高的天花板。因为线上真正需要的不是“偶尔惊艳”,而是“稳定可交付”。