EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS
发表时间:2020(ICLR 2020)
文章要点:这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning选择动作,提出了model-based policy planning (POPLIN)算法。作者提出了两个变种,model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具体的,POPLIN-A就是用一个policy network来生成动作序列,然后用CEM来fine-tune确定最终的动作。这个CEM就是假定了一个高斯分布,然后在动作序列上添加这个高斯噪声来看效果是提升还是减少,然后再优化这个高斯分布使得最终的return最大。
这里作者又细分了两个方法,POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是说policy network只用来生成最初的动作序列,剩下的fine-tune交给CEM去做。
POPLIN-A-Replan就是说每次都会用policy network重新plan一下。
另一个算法POPLIN-P,这个和POPLIN-A的区别就是CEM的噪声是加在网络的参数上的,而不是动作空间上的
总结:之前还感觉没有任何新东西,算法也是别人早就提过,就是做试验了,可能图画的比较好看吧。不过做实验应该也挺辛苦的。
疑问:确实不太清楚创新点在哪。
原文地址:https://www.cnblogs.com/initial-h/p/17360498.html
- JOJ 2680 Problem F: Coin Game
- React多页面应用1(webpack开发环境搭建,包括Babel、热更新等)
- JOJ 2676 Problem B
- React项目配置2(自己封装Ajax)
- React项目配置1(如何管理项目公共js方法)
- c++中stack、queue、vector的用法一、栈(stack)二、队列(queue)三、向量(vector)
- React技巧7(TodoList实现3组件之间传递数据之优化)
- React技巧6(TodoList实现2组件之间传递数据)
- POJ A Knight's Journey
- React技巧5(TodoList实现)
- 求一个数n次方后的末尾数(数论/快速幂)问题描述解题思路代码实现运行结果参考
- Catch That Cow
- React技巧4(如何处理List里面的Item)
- ZOJ 3620 Escape Time II
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法
- jQuery 效果
- jQuery 样式操作
- Nginx 限制资源的访问
- 如何设计一个秒杀系统
- Linux下登录凭证窃取技巧
- kali修改root密码
- PPT画成这样,述职答辩还能过吗?
- 详解 Cookie,Session,Token
- SSM 单体框架 - 前端开发:课程和广告模块
- 80 行 Python 代码写个图形计算器
- 近期对libatapp的一些优化调整(增加服务发现和连接管理,支持yaml等)
- SSM 单体框架 - 前端开发:用户和权限模块
- Cnitch:一款Docker引擎运行进程权限检测工具
- SAP Spartacus BrowserPlatformLocation的初始化逻辑
- 重启 CentOS 7 系统后的 IP 地址问题