摘要:针对动态环境下强化学习算法对移动障碍物的检测不理想,进而影响最优避障策略的问题。 提出一种以状态预测误差 为内在动机的奖励结构形式(state predict error - intrinsic curiosity module, SPE-ICM)来提高策略函数对 Agent 的环境探索能力。 首先,引入内在奖励机制为 Agent 提供多重奖励(reward)结构;其次,依据内外的奖励结构优化提高 Agent 对环境信息的感知能 力,改进对移动障碍物在数据结构上的采集检测方式,并且依赖新的检测方式对最优避障策略函数进行优化提升;最后,将该网 络模型与深度确定性策略梯度算法(DDPG)结合,运用到以 ROS 搭建的路径规划仿真环境中进行对比实验,验证所提算法的可 行性。 结果表明,所提算法在检测能力、决策能力上效果明显更优。