首页 > 教材学习资料 > 常见问题

强化学习DDPG 算法训练过程中总是选择边界动作是什么原因造成的？

正一算法 2024-01-15 10:44:49 人看过

“边界动作”，一般是指动作取自己变化区间的两个端点值。

主要原因依次有：(1)奖励函数设置的不当，应设置“动作取【区间中点】获得较大奖励”。(2)在奖励函数设置无突出问题条件下，初始状态或说初始观测值设置在“动作变化区间【中点】，状态变量变化区间【中点】”。(3)艾普西隆-贪婪策略的概率阈值---艾普西隆取很小的正数，使其减少随机探索动作。

版权声明：倡导尊重与保护知识产权。未经许可，任何人不得复制、转载、或以其他方式使用本站《原创》内容，违者将追究其法律责任。本站文章内容，部分图片来源于网络，如有侵权，请联系我们修改或者删除处理。

相关阅读：

深度强化学习算法原理与实战亮点特色有哪些怎么使用这本书

DeepSeek都可以做些什么？

神经网络算法很多，有哪些典型且有代表性的神经网络算法呢？

强化学习DDPG 算法训练过程中总是选择边界动作是什么原因造成的？

研0，深度学习该怎么入门啊?

傅里叶变换如何应用于实际的物理信号？

编辑推荐

热门文章

Copyright © 2023-2030 正一算法程序视频教学平台版权所有　鲁ICP备12004622号