运筹与管理 ›› 2024, Vol. 33 ›› Issue (9): 15-21.DOI: 10.12005/orms.2024.0279
邓涵毅1, 梁承姬1,3, SHIJian2, 王钰1, GINOLIM3
DENG Hanyi1, LIANG Chengji1,3, SHI Jian2, WANG Yu1, GINO LIM3
摘要: 为了提高算法在大规模问题上的求解速度,提高集装箱码头的船舶周转速度。本文针对船舶泊位分配与岸桥调度都具有时序性,提出了一种包含状态、动作和奖励函数的马尔科夫决策过程的强化学习调度算法。在考虑泊位分配与岸桥数量调度问题的基础上,研究了同时决策泊位分配与岸桥调度,并考虑岸桥移动与具体岸桥编号分配的动态调度方法,建立了目标为船舶在港时间最短的连续泊位岸桥联合调度的数学模型。实验结果表明强化学习算法在大规模数据上求解速度明显比遗传算法和CPLEX快,解的质量也是相对优秀,证明了算法的有效性与优越性。为了改进该算法本文最后分析了强化学习算法的学习率、动作选择概率和折扣因子对结果的影响。
中图分类号: