EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS

发表时间：2020（ICLR 2020）
文章要点：这篇文章说现在的planning方法都是在动作空间里randomly generated，这样很不高效（其实瞎扯了，很多不是随机的方法啊）。作者提出在model based RL里用policy网络来做online planning选择动作，提出了model-based policy planning (POPLIN)算法。作者提出了两个变种，model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具体的，POPLIN-A就是用一个policy network来生成动作序列，然后用CEM来fine-tune确定最终的动作。这个CEM就是假定了一个高斯分布，然后在动作序列上添加这个高斯噪声来看效果是提升还是减少，然后再优化这个高斯分布使得最终的return最大。

这里作者又细分了两个方法，POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是说policy network只用来生成最初的动作序列，剩下的fine-tune交给CEM去做。

POPLIN-A-Replan就是说每次都会用policy network重新plan一下。

另一个算法POPLIN-P，这个和POPLIN-A的区别就是CEM的噪声是加在网络的参数上的，而不是动作空间上的

总结：之前还感觉没有任何新东西，算法也是别人早就提过，就是做试验了，可能图画的比较好看吧。不过做实验应该也挺辛苦的。
疑问：确实不太清楚创新点在哪。

原文地址：https://www.cnblogs.com/initial-h/p/17360498.html