2024:强化学习交通信号控制论文复盘(DQN + SUMO)
这篇工作是我在强化学习方向的重要项目之一,核心目标是把 RL 用在城市交通信号控制(Traffic Signal Control, TSC)里,验证在动态路况下相比传统固定配时策略是否能得到更稳的效率收益。论文与代码已公开:
背景与问题定义
在实际城市道路中,车流具有明显的时变性和随机性。传统信号控制方法在规则稳定时有效,但面对早晚高峰切换、突发拥堵和多方向流量不均时,往往反应不够灵活。研究目标是让智能体在交叉口环境中持续交互学习,动态调整相位策略,降低整体等待时间并提升通行效率。
方法设计
项目基于 SUMO 仿真环境搭建实验系统。代码里给出了两条可对比路径:
- Q-Learning 基线:基于
sumo_rl的 QLAgent,使用 epsilon-greedy 探索。 - DQN 模型:基于
stable_baselines3的 DQN,采用 MLP policy,进行 100000 step 训练。
在环境参数上,主要围绕单路口控制设置最短/最长绿灯、黄灯时长、仿真时长等约束,并将控制过程记录到 outputs。此外还提供了 plot.py,可对 system_mean_waiting_time、停车数等指标进行统计可视化,便于比较不同策略下的收敛趋势和稳定性。
实验观察
从仿真结果看,强化学习策略在动态车流场景中表现出更好的自适应能力,尤其在等待时间和拥堵缓解上相对传统静态方案更有优势。论文里重点讨论了不同 reward 机制下信号时长策略的变化,这一点非常关键,因为 reward 设计直接决定了智能体“在优化什么”。
我在这个项目里最大的收获不是某一组数值,而是形成了完整可复现流程:
- 明确环境参数和实验边界。
- 保留每次训练与仿真的输出轨迹。
- 用统一指标比较不同算法行为,而不是只看单次结果。
对后续工作的影响
这篇论文虽然属于 RL 方向,但对我后续做 LLM / Agent 系统影响很大。原因是两者底层方法论一致:
- 都需要清晰的状态定义与反馈机制。
- 都依赖可观测与可复盘的实验体系。
- 都要在“效果、稳定性、可解释性”之间做工程权衡。
我后续在多 Agent 场景里做状态机、反馈闭环、评测驱动迭代,很多思路都来自这段强化学习训练经验。可以说,这篇研究不仅是一个交通控制课题,也是一套系统化算法工程方法的起点。