240 私信
这个人很懒,暂无签名信息
0

深度学习Q-learing算法实现

深度学习Q-learing算法实现 1. 问题分析 这是一个走悬崖的问题。强化学习中的主体从S出发走到G处一个回合结束,除了在边缘以外都有上下左右四个行动,如果主体走入悬崖区域,回报为-100,走入中间三个圆圈中的任一个,会得到-1的奖励,走入其他所有的位置,回报都为-5。 这是一个经典的Q-learing问题走悬崖的问题,也就是让我们选择的最大利益的路径,可以将图片转化为reward矩阵...

个人介绍
暂无介绍