2024：从工业算法转向大模型，我先重做了训练平台

2024 年我从传统算法项目逐步转向大模型落地，第一阶段在制造业场景做模型训练平台建设。很多人会默认“转 LLM 就要先换模型”，但我在现场看到的现实是，团队主要瓶颈并不在模型结构，而在训练流程。数据准备靠手工、参数配置靠经验、评估结果难复现，导致每次实验成本都很高，GPU 看起来跑得很满，实际有效利用率并不高。

为什么我先做平台，不先做模型

当时团队成员背景差异很大，并不是所有人都熟悉训练细节。如果流程高度依赖少数专家，项目就很难规模化。我把目标定成三件事：

让非算法同学也能按规范完成训练。
让同一任务在不同人手里结果可复现。
让每次失败都能留下可定位的证据链。

于是我把数据清洗、样本切分、训练配置、评估输出串成一条可复用流水线，把“隐性经验”写进模板和校验规则里。具体做法包括：统一数据 schema、内置任务 recipe、限定安全参数区间、训练异常自动归档日志、评估报告自动生成。

在 CIM 业务里做第一版 LLM 验证

平台稳定后，我开始推进 LLM 在 CIM 场景的验证。这个场景的特点是数据来源多、结构碎、语义口径不一致。传统检索只能“查到字段”，很难给出可直接执行的答案。我做了一个轻量 RAG 原型：

文档按业务实体切块，而不是按固定长度盲切。
检索阶段做实体聚合，减少跨文档语义断裂。
生成阶段强制引用来源，降低“答得像对但不可追溯”的风险。

这个阶段我没有追求花哨能力，只盯三个线上可量化指标：可回答率、引用一致性、响应时延。原因很简单，业务方并不关心你用的是什么论文方法，他们关心结果是不是稳定、能不能复核、能不能持续迭代。

结果与复盘

平台上线后，训练开发效率提升约 40%，GPU 资源利用优化约 25%。更关键的是，团队协作方式发生了变化：从“靠专家兜底”转成“靠流程托底”。这让后续做 Agent、多模态 RAG 时有了稳定地基。

回看这段经历，我对“大模型工程化”形成了一个很明确的判断：

没有流程，模型迭代是偶然成功。
有了流程，中等模型也能持续变强。
评估口径和数据治理，往往比单次参数调优更决定上限。

这也是我后来做复杂 Agent 系统时始终坚持的原则。先把系统变成可观测、可复现、可回滚，再追求更高的天花板。因为线上真正需要的不是“偶尔惊艳”，而是“稳定可交付”。