EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS
发表时间:2020(ICLR 2020)
文章要点:这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning选择动作,提出了model-based policy planning (POPLIN)算法。作者提出了两个变种,model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具体的,POPLIN-A就是用一个policy network来生成动作序列,然后用CEM来fine-tune确定最终的动作。这个CEM就是假定了一个高斯分布,然后在动作序列上添加这个高斯噪声来看效果是提升还是减少,然后再优化这个高斯分布使得最终的return最大。
这里作者又细分了两个方法,POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是说policy network只用来生成最初的动作序列,剩下的fine-tune交给CEM去做。
POPLIN-A-Replan就是说每次都会用policy network重新plan一下。
另一个算法POPLIN-P,这个和POPLIN-A的区别就是CEM的噪声是加在网络的参数上的,而不是动作空间上的
总结:之前还感觉没有任何新东西,算法也是别人早就提过,就是做试验了,可能图画的比较好看吧。不过做实验应该也挺辛苦的。
疑问:确实不太清楚创新点在哪。
原文地址:https://www.cnblogs.com/initial-h/p/17360498.html
- WordPress免插件仅代码实现面包屑导航
- 开源的作业调度框架 - Quartz.NET
- Windows Server 2003网络负载均衡的实现
- 使用 ETW 对 .NET 应用程序进行性能诊断
- ORB_SLAM论文解读
- Mono.Addins 插件式框架
- 通过多说服务器缓存加速Gravatar 头像,解决被墙问题
- asp.net mvc脚手架代码生成工具
- Page.FindControl方法找不到指定控件的原因
- Silverlight 2 DispatcherTimer和通过XAML创建UI元素
- 腾讯移动安全实验室发布《2013年手机安全报告》
- 自定义Unity 容器的扩展 --- Unity Application Block Event Broker
- LINQ to SQL集成到应用程序中需考虑的一些问题
- WCF的追踪分析工具——SvcPerf
- JavaScript 教程
- JavaScript 编辑工具
- JavaScript 与HTML
- JavaScript 与Java
- JavaScript 数据结构
- JavaScript 基本数据类型
- JavaScript 特殊数据类型
- JavaScript 运算符
- JavaScript typeof 运算符
- JavaScript 表达式
- JavaScript 类型转换
- JavaScript 基本语法
- JavaScript 注释
- Javascript 基本处理流程
- Javascript 选择结构
- Javascript if 语句
- Javascript if 语句的嵌套
- Javascript switch 语句
- Javascript 循环结构
- Javascript 循环结构实例
- Javascript 跳转语句
- Javascript 控制语句总结
- Javascript 函数介绍
- Javascript 函数的定义
- Javascript 函数调用
- Javascript 几种特殊的函数
- JavaScript 内置函数简介
- Javascript eval() 函数
- Javascript isFinite() 函数
- Javascript isNaN() 函数
- parseInt() 与 parseFloat()
- escape() 与 unescape()
- Javascript 字符串介绍
- Javascript length属性
- javascript 字符串函数
- Javascript 日期对象简介
- Javascript 日期对象用途
- Date 对象属性和方法
- Javascript 数组是什么
- Javascript 创建数组
- Javascript 数组赋值与取值
- Javascript 数组属性和方法