运筹与管理 ›› 2024, Vol. 33 ›› Issue (6): 71-77.DOI: 10.12005/orms.2024.0183
夏蓓鑫, 顾嘉怡, 田童, 袁杰, 彭运芳
XIA Beixin, GU Jiayi, TIAN Tong, YUAN Jie, PENG Yunfang
摘要: 准时高效的物料搬运系统保证了装配制造的持续稳定运行,为动态应对装配线状态变化,有效平衡混流装配的生产效率与能耗,本文提出了基于Q学习算法的强化学习调度模型,对其系统状态、动作策略、报酬函数进行设计,并引入神经网络对Q值函数进行泛化和逼近,改进策略选择机制,形成基于双参数贪婪策略的强化学习动态调度方法。仿真实验结果表明,这种强化学习调度相比其他调度方法,物料搬运调度的优化效果更好,能在保证物料准时运送到装配线,实现最大产量的同时,有效减少搬运距离。
中图分类号: