强化学习前沿

floralel · 发表于 2018-4-2 10:22:50

本帖最后由 floralel 于 2018-4-2 10:31 编辑

【摘要】强化学习相比于传统机器学习中的其他范式如监督学习与非监督学习技术更适合实现自主决策，更接近人们想象中的人工智能。强化学习的应用非常广泛，包括在控制领域、自动驾驶领域、NLP 领域、推荐系统与检索系统领域、金融领域以及通讯、生产调度、规划和资源访问控制等运筹领域都有广泛的应用。但目前的强化学习能应用的场景本质上都非常简单，强化学习的发展还处在初级阶段不能像深度学习一样成熟到即插即用。本文将简要介绍强化学习的背景、技术特点、难点、可能的解决方案及未来的发展方向。

一、强化学习

人工智能是目前的热门研究领域，吸引了社会各界的目光。在人们聚焦人工智能的同时，需要冷静下来思考下人工智能的哲学问题，什么是智能?尽管难以精确地给智能下定义，但从表面而言，当人们发现当一个对象可以根据外界环境的变化作出“聪明”的行为时，便会觉得其拥有智能。比如像犬类等一些动物，人们认为它们是有一些智能的，因为它们可以听从饲养员的指令完成相应的动作。而这些反应是要经过一定训练得到的，训练方法就是饲养员发出指令“坐下”，当幼犬完成指令要求的动作后，就把食物给它。反复进行上述训练过程，便可使得幼犬习得该指令。这就是一种学习过程，幼犬经过一定时间的训练后懂得根据指令完成相应动作可以获得食物作为回报。训练过程如图一(a)所示，同时可以将其进一步抽象出四个强化学习中的概念如图一(b)。

(a) 来源:https://www.leiphone.com/news/201705/NlTc7oObBqh116Z5.html:  

(b) http://nooverfit.com/wp/15-%E5%A ... 4%B9%A0101-%E9%97%A A%E7%94%B5%E5%85%A5%E9%97%A8-reinforcement-learning/ 

从这两个图片中可以得到强化学习的思想，那便是智能体(Agent)、行动 (action)、状态(State)、回报(reward)。强化学习可以使得智能体在一个未知的环境里通过与环境互动来适应这个环境，学习如何进行行动或者说如何决策。 Agent 可以从环境中观测到其自身的状态、环境的状态以及在其做出行动后环境可能给予的回报。它根据观测到的状态做出行动叫做动作或决策;而这个动作放在环境里会被执行，从而改变环境。将上面过程进行抽象可以将其对应的变量概括为:动作的集合、状态的集合、奖赏函数以及决定环境变化的转移函数。为了说明强化学习的意义，我们需要将其与其他机器学习范式进行对比。强化学习与监督学习不同的地方在于，监督学习是一个开环的学习，通过在环境中得到的数据根据算法得到模型就可以用这个模型进行预测，而强化学习是一个闭环的学习其得到模型后还要放回到环境中运行，产生新的数据后再放回环境中，再利用新得到的数据产生新的模型。更具体地说，监督学习得到的数据分为观测值的特征值以及标签，标签给出了当模型得到一个观测值、特征后应该作出怎样的预测或决策。而强化学习得到的数据是一个序列，做了一个动作以后下面又到了什么状态，有一个反馈值，并且有了新的状态。而这个反馈值只是对当前策略的一个评估仅能知道当前策略做的有多好但不能知道做什么策略是最好的。

二、强化学习当前发展水平及其应用

强化学习已有 50 多年的发展历史，强化学习的基础之一贝尔曼条件(Bellman Condition)由应用数学家 Richard Bellman 于 1953 年提出。1957 年，贝尔曼提出马尔可夫决策过程和动态规划。随后 Andreae 开发出了 STeLLA 系统， Donald Michie 描述了 MENACE。Werbos 于 1977 年提出自适应动态规划 (ADP),R.S.Sutton 于 1988 年首次使用时间差分学习(TD 算法),随后一年， Waikins 提出了 Q-learning。Tesauro et al.将强化学习和神经网络结合到一起， Bertsekas 提出神经动态规划，Thrun 等人提出蒙特卡罗定位方法。在这之后过了十年于 2013 年强化学习有了新的进展，Mnih et al.提出了深度 Q 学习(DQN)， 2014 年 Silver 提出确定性策略梯度学习(Policy Gradient Learning),2016 年 Van Hasselt，H.Guez,A.使用双 Q-learning 的深度强化学习。2017 年 Sutton 和 Barto 等学者提出了 Q(σ)算法，2018 年 DeepMind 在 Nature Neuroscience 发表新论文提出一种新型的元强化学习算法。强化学习最广为人知的应用，就是众所周知的 AlphaGo，随着 AlphaGo 战平李世石，深度强化学习也受到了前所未有的关注。AlphaGo 系统的基础框架是蒙特卡洛树搜索，但是只用蒙特卡洛树只能达到业余五六段的水准。于是 DeepMind 使用了深度强化学习来改进搜索树的深度和宽度

图二 AlphaGo 战平韩国围棋国手李世石

来源:https://cdn-images-1.medium.com/max/1000/1*9QWOdIJx8q_8jM5QQSv4zQ.jpeg 由于强化学习是对序列的预测和序列的学习，所以其最成熟也是最早的应用领域

是机器控制。在机器人领域相比于深度学习只能用于感知的局限，强化学习方法学习到的是状态-空间中的策略具有更好的适应性。除此之外，由于强化学习是对序列的学习的特点，被各个领域广泛使用。在自动驾驶领域中，驾驶就是一个序列决策过程，从 80 年代的 ALVINN、TORCS 到如今的 CARLA,业界一直在思考用强化学习解决单车辆的自动驾驶问题以及多车辆的交通调度问题。NLP 领域相对于成熟的计算机视觉领域的任务，NLP 领域要解决的问题通常需要经过多次迭代交互来寻求最优解而输出的反馈信号通常需要经过一系列的动作后才能获得。这种特性非常契合强化学习，故在 NLP 领域强化学习也有很多成功案例比如对话机器人领域中 Yoshua Bengio 研究组开发的 MILABOT 的模型、 Facebook 聊天机器人等;机器翻译领域 Microsoft Translator 等。推荐系统与检索系统领域，金融领域，通讯、生产调度、规划和资源访问控制等运筹领域也广泛使用强化学习。

三、强化学习的技术特点

· 强化学习离不开马尔可夫决策过程(Markov Decision Process),一个马尔可夫决策过程由一个四元组构成 M = (S,A,Tsa,R)即状态、动作、状态转移概率、回报函数。MDP 的动态过程如图 3 所示某个智能体(agent)的初始状态为 s0，然后从 A 中挑选一个动作 a0 执行，执行后，agent 按 Psa 概率随机转移到了下一个 s1 状态，s1∈Ts0a0。然后再执行一个动作 a1，就转移到了 s2，接下来再执行 a2，如此类推。

图 3MDP 动态过程强化学习的本质是学习从环境到动作的映射即策略，自然就会有寻找最优策略的问题出现。强化学习寻找最优策略有两种算法可以使用，分别

是价值迭代和策略迭代。考虑下面这个迷宫问题:

从入口(Start)走到出口(Goal)就算胜利. 小方格的位置就是我们状态 S, 行为 Action 只有四种(上下左右), 回报函数就定为每远离一步 Goal, 回报-1。 价值迭代算法，以立即回报 r(s,a)与下一个状态 S+1 的长期价值综合更新每个状态 S 的长期价值 V(s)。

每一次的迭代，对于每个状态 S 都要更新其价值函数 V(s)，对于每个状态 s 的价值更新都要考虑所有行为 Action 的可能性。最后可以得到所有状态 s 的长期价值。

当价值迭代完成后每一状态下的下一步的策略也就自然得到了，选择价值最大的方向走就可以了。

策略迭代，每次迭代我们分为两步走，第一步先确定一个策略πk 使用这个策略迭代价值函数直到收敛。

最后得到的 V(s)就是我们使用策略 πk，能取得的最好价值函数同时也是对策略πk 的一种评估。第二步重新考虑每个状态的所有可能行为 Action 优化策略，用更好的 Action 取代原来的 Action。

最终优化策略函数 πk 可以得到每个状态应有的最佳策略:

四、强化学习的技术难点

强化学习算法可以分为基于模型的方法(Model-based)与免模型的方法 (Model-free)。对于机器学习领域更多的是采用免模型的方法，通过大量采样估计代理状态、动作的值函数或回报函数来优化动作策略。而免模型的方法存在着自身的本质缺陷，首先免模型方法无法从不带反馈信号的样本中学习，而反馈通常是稀疏的这就导致免模型方法的样本利用率很低，而免模型方法是由数据驱动的方法需要大量采样。比如在 Atari 平台上的《Space Invader》和《Seaquest》

游戏中，智能体所获得的分数会随训练数据增加而增加。利用免模型 DRL 方法可能需要 2 亿帧画面才能学到比较好的效果。AlphaGo 最早在 Nature 公布的版本也需要 3000 万个盘面进行训练。而机械控制相关的问题训练数据远不如视频图像问题的数据易获取，只能借助模拟器进行训练，而模拟器与现实世界存在 Reality Gap，限制了训练出的算法的泛化性能。其次免模型的方法在追求泛化性的同时放弃了特定问题本身固有的信息，其解释性不强不易调试。基于模型的方法一般先从数据中学习模型，再基于学到的模型对策略进行优化，因为模型的存在，可以充分利用每一个样本来逼近模型数据利用率得到极大提高。但基于模型的方法也还存在不少自身缺陷，对于无法建模的问题束手无策，比如 NLP，存在大量难以归纳成模型的任务。其次建模会带来误差而且误差会随着算法与环境的迭代交互越来越大使得算法难以收敛得到最优解。除了模型的问题外强化学习领域的实验平台还不成熟，在这样的测试环境中实验结果没有足够的说服力。

五、强化学习的可能解决方案与未来发展方向 DQN和 AlphaGo 系列工作给人们留下了深刻的印象，但是这两种任务的环境都是确定和静态的，状态主要是离散、静态和完全可观测的，反馈也是确定的。在解决部分可见状态任务如 StarCraft，状态连续任务如机械控制任务以及动态反馈任务和多代理任务中 DRL 仍未取得突破。在计算机视觉领域任务的研究中，我们不应该将一个基于 DL 的任务强行构造成 RL 问题进行求解，应该针对一些天然适合 RL 处理的任务尝试与 DL 结合来提升现有方法在目标识别和函数逼近环节上的能力。为了解决强化学习目前存在的问题，学界在强化学习的各个方面都提出了新的改进以及未来的发展方向

发展基于模型的方法，基于模型的方法不仅能大幅降低采样需求，还可以通过学习任务的动力学模型，为预测学习打下基础。提高免模型方法的数据利用率和扩展性。这是免模型学习的两处硬伤，也是 Rich Sutton 的终极研究目标。这个领域很艰难，但是任何有意义的突破也将带来极大价值。

与模仿学习(ImitationLearning, IL)结合。机器学习与自动驾驶领域最早的成功案例 ALVINN 就是基于 IL;当前 RL 领域最顶级的学者 Pieter Abbeel 在跟随 Andrew Ng 读博士时候,设计的通过 IL 控制直升机的算法成为 IL 领域的代表性工作。2016 年，英伟达提出的端到端自动驾驶系统也是通过 IL 进行学习。而 AlphaGo 的学习方式也是 IL。IL 介于 RL 与监督学习之间，兼具两者的优势，既能更快地得到反馈、更快地收敛，又有推理能力，很有研究价值。奖赏塑形(Reward Shaping)，奖赏即反馈，对强化学习的算法性能影响是巨大的，设计好的反馈是强化学习领域的研究热点，近年来涌现出很多基于“好奇心” 的 RL 算法和层级 RL 算法，这两类算法的思路都是在模型训练的过程中插入反馈信号，从而部分地克服了反馈过于稀疏的问题。另一种思路是学习反馈函数，这是逆强化学习(Inverse RL, IRL)的主要方式之一。近些年大火的 GAN 也是基于这个思路来解决生成建模问题, GAN 的提出者 Ian Goodfellow 也认为 GAN 就是 RL 的一种方式。

RL 中的迁移学习与多任务学习。当前 RL 的采样效率极低，而且学到的知识不通用。迁移学习与多任务学习可以有效解决这些问题。通过将从原任务中学习的策略迁移至新任务中，避免了针对新任务从头开始学习，这样可以大大降低数据需求，同时也提升了算法的自适应能力。在真实环境中使用 RL 的一大困难在于 RL 的不稳定性，一个自然的思路是通过迁移学习将在模拟器中训练好的稳定策略迁移到真实环境中，策略在新环境中仅通过少量探索即可满足要求。

彡御风 · 发表于 2018-4-8 07:29:06

字数太多，不看

吴振2857 · 发表于 2018-4-6 19:28:41

楼主听话，快到碗里来！

多多岛df · 发表于 2018-4-10 17:02:51

我自横田向天笑，笑完我就去睡觉

童远小 · 发表于 2018-4-3 14:06:31

早知道前世的五百次回眸，能换来今生的与你相遇。我就该把头甩断，来换这一辈子与你相遇。

weibiaodian888 · 发表于 2018-4-7 02:12:33

上头条

HJGH85 · 发表于 2018-4-7 02:53:44

元芳你怎么看

孤独宝宝情堔堔 · 发表于 2018-4-11 20:12:31

穿别人的鞋，走自己的路，让他们找去吧。

ya得 · 发表于 2018-4-2 21:13:07

闪瞎了我的钛合金狗眼

manew1997 · 发表于 2018-4-11 22:33:43

强，拜读了，收益匪浅

		自动登录	找回密码
密码			立即注册

强化学习前沿

本帖子中包含更多资源

浏览过的版块