2025：多 Agent Prompt 自动调优，从人工修提示到系统自进化

在多 Agent 工作流里，Prompt 不是一次性交付物，而是持续演化的策略接口。项目初期我们遇到的最大问题是：线上失败在重复出现，团队却只能靠人工复盘、人工改提示，修复速度跟不上任务复杂度增长。

AutoFeedbackLoop：把失败 Trace 变成可学习资产

我设计并实现了 AutoFeedbackLoop 模块，把每次任务失败留下的关键信息自动结构化：

系统会将这些失败 trace 回灌到提示构造环节，在下次相似任务中优先规避已知错误路径。这个机制的价值不是“自动把提示写完”，而是让系统能持续积累“反例经验”，减少同类错误反复发生。

我们发现模型很容易记住少量模板形式，一旦输入字段顺序、语气、边界条件变化，输出就明显退化。为此我引入结构化扰动策略作为常规评测环节：字段重排、表达风格变体、约束顺序变化、极端条件注入。

这套方法相当于给 Agent 系统做鲁棒性压力测试，提前暴露脆弱链路。实践结果是，在真实线上噪声输入下，任务稳定性明显提高，格式幻觉和逻辑跳步都下降。

长链任务的典型问题是“前一步没完成，后一步已开始执行”。我把上下文感知状态机作为动作闸门：只有前置条件满足时，才开放特定工具和提示模板。这样可以把很多不确定行为收敛在可控状态集合里，减少流程漂移。

这也是我后来在复杂 Agent 项目中反复复用的经验：与其让模型在大空间里自由发挥，不如先用状态机把动作边界定义清楚。

多模型并行是现实需求，我们不能把能力绑定在单一底座上。通过“反馈回灌 + 扰动评测 + 状态机约束”三件套，我们把系统行为从“模型风格驱动”逐步转向“策略协议驱动”。当底座切换时，输出一致性更可控，迁移成本更低。

这次实践让我更坚定一个观点：Prompt Engineering 在多 Agent 时代本质上是系统工程。单条提示写得再漂亮，也无法替代反馈闭环、鲁棒性评测和执行边界管理。真正有效的优化，不是让系统偶尔答得更好，而是让系统长期、稳定、可解释地完成任务。