RL

RL 分类下共有 7 篇文章

Actor Critic

Actor Critic 结合了Policy Gradient (Actor)和Function Approximation (Critic)的方法。Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率。 Actor Critic …

DDPG

Deep Deterministic Policy Gradient(DDPG) Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测。 DDPG 结合了之前获得成 …

DQN

DQN 神经网络的作用 方式1:将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值。 方式2:只输入状态值, 输出所有的动作值, 然后按照 Q-learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。 神经网络更新 Q估计:通过NN预测出Q(s2, a1) …

Policy Gradients

Policy Gradients 对比起Value-based的方法(Q learning, Deep Q Network), Policy Gradients 直接输出动作,最大好处就是, 它能在一个连续分布上选取 action。 Policy Gradients 决策 行为不再是Q-value来 …

PPO

Proximal Policy Optimization(PPO) 一句话概括PPO: OpenAI 提出的一种解决Policy Gradient不好确定Learning rate(或者Step size) 的问题。 因为如果step size过大, 学出来的Policy会一直乱动, 不会收敛, 但 …

Q-Learning

Q-Learning QLearning 决策 学习完成后,根据当前状态在Q值表中的最大Q值来选取动作 QLearning更新 更新Q值表:通过计算现实Q值和估计Q值的差距来更新 现实Q值:通过想象在下个状态选择的Q值(max)乘上衰减系数,并加上到达下个状态的奖励作为现实Q …

Sarsa

Sarsa Sarsa 决策 学习完成后,根据当前状态在Q值表中的最大Q值来选取动作 Sarsa更新 更新Q值表:通过计算现实Q值和估计Q值的差距来更新 现实Q值:估算的动作也是接下来要做的动作(on-policy) 估计Q值:原Q值表中对应的Q值 Sarsa整体算法 不同之处:Sarsa是说到做到 …