基于好奇心-贪婪奖励函数的机器人路径规划的方法
本发明基于好奇心‑贪婪奖励函数的机器人路径规划的方法,包括贪心奖励模块、好奇心奖励模块和奖励融合模块。好奇心奖励模块随着对环境的熟悉程度动态调整探索策略,主动探索不熟悉的区域。贪心奖励模块更快的探索到有效信息,避开障碍物区域,引导机器人进入正确探索方向。奖励融合模块对贪心奖励模块、好奇心奖励模块进行奖励融合,让机器人怀着好奇心探索工作环境,贪心的向任务点靠近,在不同的规划阶段得到更准确有效的奖励值,提升机器人路径规划能力。本发明通过好奇心奖励函数、贪心奖励函数和奖励融合函数,引导机器人进入正确的探索方向,融合两种奖励函数,在不同的规划阶段得到更准确有效的奖励值,有助于提高机器人路径规划能力。
提升未知环境探索效率:通过平衡已知区域利用与未知区域探索的奖励机制,增强机器人在复杂场景中的自主勘测能力,加速构建高精度环境地图。
动态避障能力优化:贪婪奖励驱动实时路径调整,配合好奇心机制预判潜在风险,在人员密集区或移动障碍场景中实现安全导航。
长期任务适应性:自适应奖励函数避免传统算法陷入局部最优,确保仓储物流等重复性作业中持续保持路径规划新鲜度与效率。
本发明根据机器人轨迹规划任务中由于稀疏奖励导致的效率低下的问题,从机器人的内外两部分入手,提供了好奇心驱动的内部好奇心奖励函数和贪心驱动的外部贪心奖励函数。好奇心奖励函数改变了传统深度强化学习方法的随机探索方式,让机器人对已经熟悉的工作空间不再感兴趣,更倾向于探索未曾探索过的地方,提高了探索效率。贪心奖励函数能够让机器人在探索过程中快速过滤掉对于实现任务无关的信息,降低无效数据对于机器人的干扰,引导机器人进入正确的探索方向,让机器人的探索策略能更加准确的更新,提高学习效率。深入分析机器人的轨迹规划任务,提供的奖励融合模块法在学习规划的过程中充分汲取两种奖励函数的优越之处,融合成为一种更加全面的奖励函数。
联系方式
李跃
19303128393
河北省石家庄市红旗大街626号
请填写以下信息
联系人:
手机号:
单位名称:
备注: