运筹与管理 ›› 2025, Vol. 34 ›› Issue (8): 185-191.DOI: 10.12005/orms.2025.0260
王苓, 王钰, 梁承姬
WANG Ling, WANG Yu, LIANG Chengji
摘要: 近年来集装箱吞吐量增加、作业设备智能化程度提升,使得港口对动态环境下泊位与岸桥联合调度的要求不断提高。为充分利用动态环境中的大量数据从而作出高效的优化决策,本文将连续泊位岸桥调度问题考虑为序列决策问题,构建了相应的马尔可夫决策过程,提出了一种基于近端策略优化(Proximal Policy Optimization, PPO)的深度强化学习算法。该算法充分考虑了岸桥的动态移动、船舶动态抵港情况,设计了合理的状态空间、动作空间和奖励函数,算法通过与大规模复杂场景下的动态环境不断交互获得连续泊位岸桥联合优化的最佳调度方案。多个算例的测试结果表明本文所提出的PPO算法能够充分适应不同问题规模和动态环境,相较于传统的调度决策方法更具优势:与遗传算法和粒子群算相比,其计算效率提升了93.21%和93.01%,决策目标平均改进了15.7%和20.3%;与DDPG强化学习算法相比在收敛速度上更快,通过对比在几组不同算例下的决策目标改进了6.5%~10%的作业时间。
中图分类号: