OpenAI Gym入门级导游 | 附PDF手册下载 | 山人刷强化 | 4th

时间:2022-07-22
本文章向大家介绍OpenAI Gym入门级导游 | 附PDF手册下载 | 山人刷强化 | 4th,主要内容包括其使用实例、应用技巧、基本知识点总结和需要注意事项,具有一定的参考价值,需要的朋友可以参考一下。

Gym入门手册PDf下载

公众号回复20180616

Gym是一个强化学习算法开发和对比的工具箱。该环境支持智能体的各种训练任务,从走路到玩游戏,如Pong、Pinball等。

强化学习(RL,Reinforcement Learing)本身是什么,有什么优势在前面的文章中已有介绍(历史文章清单见文末),这里只划两个重点:

1.RL是一个非常通用的、包括所有需要做一系列决策的问题。

2.RL算法开始在许多非常复杂的环境中实现了很棒的效果。

说RL是为了引出Gym,Gym的出现是OpenAI组织为了解决RL中两个瓶颈问题而推出的环境平台。

Gym定位

1.需要更好的benchmarks.,从而为RL提供成长的土壤,一如CNN爆发时的ImageNet一样。

2.发表成果中缺少标准化的环境,导致了复现成果困难、阻碍了研究者之间的交流、继承和进展。

特色

1)开源了强化学习任务的交互环境。Gym库提供了便于使用的强化学习任务组件。

例如:

import gym env = gym.make("Taxi-v1") 
observation = env.reset() 
for _ in range(1000):  
    env.render()  
    action = env.action_space.sample() # your agent here 
(this takes random actions)  
    observation, reward, done, info = env.step(action)

2)我们提供环境,你提供算法。你可以使用已有的数字化计算库实现智能体,如Tensorflow或Theano。

1.安装

安装非常方便,可以通过pip、Github的clone等方式,具体参见入门手册。

2.环境

这里一些主要环境,还有很多大家自己摸索:

Classic control and toy text

提供了一些RL相关论文中的一些小问题,开始学习Gym从这开始!

Atari

这里提供了一些小游戏,比如我们小时候玩过的小蜜蜂,弹珠等等。这些问题对RL研究有着很大影响!

Board games

提供了Go这样一个简单的下棋游戏,由于这个问题是多人游戏,Gym提供有opponent与你训练的agent进行对抗。

2D and 3D robots

机器人控制环境。 这些问题用 MuJoCo 作为物理引擎。

当然还有很多好玩的问题,比如CNN的自动调参、Minecraft等。

举个栗子:立摆平衡环境

立摆平衡环境,CartPole-v0,可提供一个1000步长的立摆环境,代码和动画如下所示。调用代码如下

import gym 
env = gym.make('CartPole-v0') 
env.reset() 
for _ in range(1000):    
    env.render()    
    env.step(env.action_space.sample()) # take a random action

生成环境视频如下:

视频内容

3.观察

Gym的step函数提供了我们训练算法所需要的反馈,主要有四类值。

observation(object)

实体在特定环境中的返回值

reward(float)

执行动作的反馈奖励信息

done(boolean)

是否需要重置环境的信号,如游戏中已经game over等

info(dict)

用于调试的诊断信息,也可以用来调试学习算法,不过在环境中不允许用这类信息训练算法。

4.空间

每个环境的定义是由两个空间组成的:动作空间action_space和观察空间observation_space。详细设计代码参见入门手册。

授人以渔

上手Gym两种姿势:1)入门手册;2)Github

Gym入门手册PDF下载:微信公众号回复20180616

Github地址:https://github.com/openai/gym

OpenAI Gym网址:https://gym.openai.com/

参考资料

OpenAI Gym网址:https://gym.openai.com/

Open AI Gym简介:http://www.cnblogs.com/yifdu25/p/8179861.html