RL

RL 分类下共有 7 篇文章

Actor Critic

Actor Critic 结合了Policy Gradient (Actor)和Function Approximation (Critic)的方法。Actor基于概率选行为,Critic基于Actor的行为评判行为的得分,Actor根据Critic的评分修改选行为的概率。 Actor Critic …

Jan 1, 0001 1 min read RL

DDPG

Deep Deterministic Policy Gradient（DDPG） Google DeepMind 提出的一种使用 Actor Critic 结构, 但是输出的不是行为的概率, 而是具体的行为, 用于连续动作 (continuous action) 的预测。 DDPG 结合了之前获得成 …

Jan 1, 0001 4 min read RL

DQN

DQN 神经网络的作用方式1：将状态和动作当成神经网络的输入, 然后经过神经网络分析后得到动作的 Q 值。方式2：只输入状态值, 输出所有的动作值, 然后按照 Q-learning 的原则, 直接选择拥有最大值的动作当做下一步要做的动作。神经网络更新 Q估计：通过NN预测出Q(s2, a1) …

Jan 1, 0001 3 min read RL

Policy Gradients

Policy Gradients 对比起Value-based的方法(Q learning, Deep Q Network), Policy Gradients 直接输出动作，最大好处就是, 它能在一个连续分布上选取 action。 Policy Gradients 决策行为不再是Q-value来 …

Jan 1, 0001 1 min read RL

PPO

Proximal Policy Optimization（PPO）一句话概括PPO: OpenAI 提出的一种解决Policy Gradient不好确定Learning rate(或者Step size) 的问题。因为如果step size过大, 学出来的Policy会一直乱动, 不会收敛, 但 …

Jan 1, 0001 4 min read RL

Q-Learning

Q-Learning QLearning 决策学习完成后，根据当前状态在Q值表中的最大Q值来选取动作 QLearning更新更新Q值表：通过计算现实Q值和估计Q值的差距来更新现实Q值：通过想象在下个状态选择的Q值（max）乘上衰减系数，并加上到达下个状态的奖励作为现实Q …

Jan 1, 0001 2 min read RL

Sarsa

Sarsa Sarsa 决策学习完成后，根据当前状态在Q值表中的最大Q值来选取动作 Sarsa更新更新Q值表：通过计算现实Q值和估计Q值的差距来更新现实Q值：估算的动作也是接下来要做的动作（on-policy）估计Q值：原Q值表中对应的Q值 Sarsa整体算法不同之处：Sarsa是说到做到 …

Jan 1, 0001 3 min read RL