首页 > 教程学习资料 > 常见问题

强化学习DDPG 算法训练过程中总是选择边界动作是什么原因造成的?

正一算法 2024-01-15 10:44:49 人看过

“边界动作”,一般是指动作取自己变化区间的两个端点值。

主要原因依次有:(1)奖励函数设置的不当,应设置“动作取【区间中点】获得较大奖励”。(2)在奖励函数设置无突出问题条件下,初始状态或说初始观测值设置在“动作变化区间【中点】,状态变量变化区间【中点】”。(3)艾普西隆-贪婪策略的概率阈值---艾普西隆取很小的正数,使其减少随机探索动作。

版权声明:倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

编辑推荐

热门文章