我没有用户名的专栏列表

关注私信

这个人很懒，暂无签名信息

7
回答
1
提问
3
文章
40
粉丝
336

赞同
32

经验
201

财富

深度学习Q-learing算法实现

我没有用户名发布于
1398 收藏

深度学习Q-learing算法实现 1. 问题分析这是一个走悬崖的问题。强化学习中的主体从S出发走到G处一个回合结束，除了在边缘以外都有上下左右四个行动，如果主体走入悬崖区域，回报为-100，走入中间三个圆圈中的任一个，会得到-1的奖励，走入其他所有的位置，回报都为-5。这是一个经典的Q-learing问题走悬崖的问题，也就是让我们选择的最大利益的路径，可以将图片转化为reward矩阵...