内容发布更新时间 : 2024/11/16 3:37:49星期一 下面是文章的全部内容请认真阅读。
摘要
强化学习是机器学习的一个重要分支,它是一种以环境反馈作为输入的,特殊的、适应环境的学习。它将环境抽象成若干状态,通过不断试错强化而产生状态到行为的最优化映射。然而实际环境的状态数无限或连续或状态不完全可知,因此很难以用数学模型精确定义系统。加上强化学习算法的收敛性较慢,因此如何能够优化的建立环境模型,如何提高算法效率就成为强化学习面临的主要问题。本次课题首先介绍强化学习的概念、建立系统模型,再介绍几种经典的强化学习算法,接着介绍目前解决若干问题而提出的POMDP模型,PSR 模型、HRL模型,最后就PSR模型进行算法改进。
关键词:强化学习;蒙特卡诺法;TD算法;Q学习;Sasar学习;POMDP模型;PSR模型 ;HRL模型
强化学习技术是从控制理论、统计学、心理学等相关学科发展而来的,在人工智能、机器学习和自动控制等领域中得到广泛的研究和应用,并被认为是设计智能系统的核心技术之一。
一.强化学习的理论基础: 1.强化学习问题的框架:
我们将有智能的学习体称为agent,将系统分成若干个状态,每个状态S可以有不同的动作选择,对应的每个选择也就有一个值函数Q(s,a)。Agent选择一个动作a作用于环境,环境接收该动作后状态发生变化(S’),同时产生一个强化信号r(奖赏)给agent,agent根据这个奖赏评价刚才的动作的好坏进而修改该动作值,并选择下一动作a’。对于一个强化学习系统来讲,其目标是学习一个行为策略:π:S->A,使系统选择的动作能够获得环境奖赏的累计值Σr最大。当一个动作导致环境给正的奖赏时这种动作的趋势就被加强,反之则减弱。强化学习的目的就是要学习从状态到动作的最佳映射,以便使奖励信号最大化。【10,11】 强化学习的框架如图:
新状态S’环境状态S奖惩反馈r强化学习系统动作a
2.环境的描述:
通常,我们从五个角度对环境进行分析:【4】
角度一:离散状态vs连续状态
角度二:状态完全可感知vs状态部分可感知 角度三:插曲式vs非插曲式 角度四:确定性vs不确定性 角度五:静态vs动态
在强化学习中,我们首先考虑最简单的环境模型随机、离散状态、离散时间对其数学建模。我们通常用马尔科夫模型:
马尔科夫状态:一个状态信号保留了所有的相关信息,则就是马儿科夫的。 马儿科夫决策过程(MDP)【2】: MDP的本质是:当状态向下一状态转移的概率和奖赏值只取决于当前状态和选择的动作,而与历史状态和动作无关。强化学习主要研究在P和R函数未知的情况下系统如何学习最优的行为策略。
用rt+1表示t时刻的即时奖赏【7】,用Rt表示t时刻的累计奖赏,则Rt为t时刻开始到最后的所有奖赏和,而越后续的动作对当前影响要比t时刻奖赏逐渐减小,因此越往后的奖赏加上了一个折扣γ,这样,t时刻的奖赏总和就是
Rt=rt+1+γrt+2+γ2rt+3+…
=rt+1+γRt+1 (1)
t时刻状态s的状态值(表示状态s如何优秀)用V(s)表示,它用t时刻选择各个动作的奖赏的数学期望来表示。
V(s)=E{Rt|st=s}
=E{rt+1+γV(st+1)|st=s}
=
a?π(s,a)?Pssa'[Rss'?γV(s’)] (2) as'π
ππ
π
π
注意到这里两式都是一个递推式,称为Bellman等式,写成这种形式非常便于从状
态s转换到s’时计算状态值。
强化学习问题是要寻求一个最优的策略π*,在上面的等式中表现为寻求状态值的最优值,在不断学习强化的过程中对状态s获得一个最优值V*(s),它表示在状态s下选取最优的那个动作而获得的最大的累计奖赏回报。因此在最优策略π*下,状态s的最优值定义为:
*
V(s) =maxE {rt+1+γV(st+1)|st=s}
a?A(s)=maxa?A(s)a?Pssa'[Rss'?γV(s’)] (3) s'π
各种算法的最终目的便是计算各状态的最优值,并根据最优值去指导动作。
二. 经典的强化学习算法回顾: 1. 动态规划算法【1】:
动态规划的思想,根据2式去不断由V(s’)估计V(s)的值,估计完成后下一次可以继续选择最优的动作,这样迭代到一定程度后算法收敛,每个V(s)都会收敛到一个稳定值,从而学习到一个最优的策略。
用公式表示为: Vk+1 (s)=E{Rt|st=s}
=E{rt+1+γV(st+1)|st=s}
=
ππ
?π(s,a)?Pas'ass'a[Rss'?γVk (s’)] (4)
2. 蒙特卡诺算法:
在强化学习中,P和R开始都是未知的,系统无法直接通过(4)式进行值函数的估计,因此常常是是在完整的学习一次后才将学习中各步的奖赏累计用于计算经过的状态的值函数估计。称为蒙特卡诺方法。如式(5),保持π策略不变,在每次学习循环中重复的使用(5)式,将(5)式逼近于(3)式。 V(st)<-V(st)+α[Rt-V(st)] (5)
3. TD算法:【13】
结合动态规划和蒙特卡诺算法,Sutton提出基于时间差分的TD算法,它在每一步的学习中利用下式更新状态值:
V(st)<-V(st)+ α[rt+1+γV(st+1)-V(st)] (6)
TD法是一类专门用于预测问题的渐进学习过程,传统的学习预测方法是由预测值和实际值之间的误差来修正参数的,而TD法是由相继预测间的误差值来完成的,当随着时间的推移预测有变化时就进行学习。
三.强化学习面临的主要问题
我们上面讨论的强化学习模型是最简单的有限状态、离散状态、离散时间模型,而实际应用中环境比这种模型复杂得多,尤其在状态数增多后经典的强化学习算法便会面临维数灾难【12】,另外马尔科夫模型是假设所有状态都已经知道,而实际上在学习过程中会出现新的未知状态,这时为非马尔科夫模型【6】……这些问题用经典的数学模型状态将无法实现。目前强化学习的主要问题就是如何寻找新的数学模型,来实现环境状态的未知和维数爆炸等问题。
四.当前强化学习研究动态
目前强化学习的研究主要集中在解决非马尔科夫模型和解决维数爆炸问题等.本文
着重介绍POMDP模型、HRL模型以及由POMDP模型衍生的PSR模型等。 1. 部分感知状态马尔科夫模型(POMDP)——解决非马尔科夫环境问题:
在经典马尔科夫模型上增加状态预测,并对每个状态设置一个信度b,用于表示该状态的可信度,在决定动作时使用b作为依据,同时根据观察值进行状态预测,这样很好的解决一些非马尔科夫模型。