EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS

时间:2023-04-27
本文章向大家介绍EXPLORING MODEL-BASED PLANNING WITH POLICY NETWORKS,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。


发表时间:2020(ICLR 2020)
文章要点:这篇文章说现在的planning方法都是在动作空间里randomly generated,这样很不高效(其实瞎扯了,很多不是随机的方法啊)。作者提出在model based RL里用policy网络来做online planning选择动作,提出了model-based policy planning (POPLIN)算法。作者提出了两个变种,model-based policy planning in action space (POPLIN-A)和model-based policy planning parameter space (POPLIN-P)。
具体的,POPLIN-A就是用一个policy network来生成动作序列,然后用CEM来fine-tune确定最终的动作。这个CEM就是假定了一个高斯分布,然后在动作序列上添加这个高斯噪声来看效果是提升还是减少,然后再优化这个高斯分布使得最终的return最大。

这里作者又细分了两个方法,POPLIN-A-Init和POPLIN-A-Replan。POPLIN-A-Init就是说policy network只用来生成最初的动作序列,剩下的fine-tune交给CEM去做。

POPLIN-A-Replan就是说每次都会用policy network重新plan一下。

另一个算法POPLIN-P,这个和POPLIN-A的区别就是CEM的噪声是加在网络的参数上的,而不是动作空间上的

总结:之前还感觉没有任何新东西,算法也是别人早就提过,就是做试验了,可能图画的比较好看吧。不过做实验应该也挺辛苦的。
疑问:确实不太清楚创新点在哪。

原文地址:https://www.cnblogs.com/initial-h/p/17360498.html