图书馆
首页
图书馆指南
本馆介绍
馆长寄语
馆藏分布
流通规则
开放时间
入馆时间
联系我们
读者之友
组织机构
通知公告
资源动态
馆藏资源
常用数据库
试用数据库
深入浅出强化学习.编程实战
日期:2020-10-30
点击率:
15
本书分3篇介绍了目前强化学习算法中最基本的算法。第1篇讲解基于值函数的强化学习算法, 介绍了基于两种策略评估方法 (蒙特卡洛策略评估和时间差分策略评估) 的强化学习算法, 以及如何将函数逼近的方法引入强化学习算法中。第2篇讲解直接策略搜索方法, 介绍了基本的策略梯度方法、AC方法、PPO方法和DDPG算法。第3篇讲解基于模型的强化学习方法, 介绍了基于MPC的方法、AlphaZero算法基本原理及在五子棋上的具体实现细节。