运筹与管理 ›› 2025, Vol. 34 ›› Issue (10): 66-72.DOI: 10.12005/orms.2025.0310
王文杰, 胡志华, 田曦丹
WANG Wenjie, HU Zhihua, TIAN Xidan
摘要: 集装箱堆场的运行效率对整个港口的营运水平有极大的影响,为快速生成翻箱方案,提升集装箱堆场的翻箱效率,提出了一种基于ε-贪心策略的免模型启发式Q学习算法。算法以限定性单优先级集装箱翻箱问题的马尔可夫决策过程模型为基础,设计了一种集装箱堆场贝位布局的特征提取方式以实现算法环境状态的约减,同时确定了智能体动作奖励机制并引入了一种启发式动作选择规则来优化算法的寻优能力。通过仿真算例进行实验,结果表明,在集装箱数量为36~85规模的实例中,与数学规划和分支定界算法求得的最优翻箱策略相比,启发式Q学习算法的翻箱步数改进度为1%~9%;在集装箱数量为36~64规模的实例中,求解时间缩短了36%~65%;此外,在集装箱数量为18,50,64,85规模的实例中泛化测度为0.97~1.00,证明算法有较好的泛化性能。
中图分类号: