强化学习综述

前有google的阿尔法狗打败人类围棋冠军,最近又听说特斯拉的无人驾驶用的也是强(Reinforcement learning),最近强化学习可是火的一比,这让我不禁也想了解下该领域,从网上找到一篇综述,优点是很全面,缺点是70页都是英文。  
CONTENTS 1 Introduction 5 2 Background 6

2.1 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.2 Deep Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.3 Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.1 Problem Setup . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.2 Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.3 Temporal Difference Learning . . . . . . . . . . . . . . . . . . . . . . . . 9

2.3.4 Multi-step Bootstrapping . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.5 Function Approximation . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.3.6 Policy Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.7 Deep Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 12

2.3.8 RL Parlance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.3.9 Brief Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3 CoreElements 14

3.1 Value Function . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.1 Deep Q-Network (DQN) . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.1.2 Double DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.1.3 Prioritized Experience Replay . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.4 Dueling Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.1.5 More DQN Extensions . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 Policy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2.1 Actor-Critic . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.2 Policy Gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.3 Combining Policy Gradient with Off-Policy RL . . . . . . . . . . . . 19

3.3 Reward . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

3.4 Model . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.5 Planning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 、

3.6 Exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4 ImportantMechanisms 22

4.1 Attention and Memory . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2 Unsupervised Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

4.2.1 Horde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

4.2.2 Unsupervised Auxiliary Learning . . . . . . . . . . . . . . . . . . . . . . 23

4.2.3 Generative Adversarial Networks . . . . . . . . . . . . . . . . . . . . . . 23

4.3 Transfer Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.4 Multi-Agent Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 24

4.5 Hierarchical Reinforcement Learning . . . . . . . . . . . . . . . . . . . . . . . . 25

4.6 Learning to Learn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

5 Applications 26

5.1 Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.1.1 Perfect Information Board Games . . . . . . . . . . . . . . . . . . . . . . 26

5.1.2 Imperfect Information Board Games . . . . . . . . . . . . . . . . . . . . . 28

5.1.3 Video Games . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5.2 Robotics . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2.1 Guided Policy Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.2.2 Learn to Navigate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.3 Natural Language Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3.1 Dialogue Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

5.3.2 Machine Translation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

5.3.3 Text Generation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.4 Computer Vision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.5 Neural Architecture Design . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.6 Business Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.7 Finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.8 Healthcare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.9 Industry 4.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

5.10 Smart Grid . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.11 Intelligent Transportation Systems . . . . . . . . . . . . . . . . . . . . . . . . . . 35

5.12 Computer Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6 MoreTopics 36 7 Resources 37

7.1 Books . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

7.2 More Books . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

7.3 Surveys and Reports . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

7.4 Courses . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

7.5 Tutorials . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

7.6 Conferences, Journals and Workshops . . . . . . . . . . . . . . . . . . . . . . . . 39

7.7 Blogs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7.8 Testbeds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

7.9 Algorithm Implementations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

8 BriefSummary . . . . . . . . . . . . . . . . . . . . . . . . . . .42 9 Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . .44
[wshop_downloads]  
0
广告位招租

评论0

请先

没有账号? 忘记密码?