强化学习：从基础到机器人控制实践

引言

强化学习（Reinforcement Learning, RL）作为机器学习的一个重要分支，通过智能体（agent）与环境（environment）的交互来学习最优策略（policy）。与监督学习需要大量标注数据不同，强化学习通过试错（trial-and-error）的方式，从奖励信号（reward signal）中学习，这使得它在机器人控制、游戏AI、自动驾驶等领域展现出巨大潜力。

在机器人控制场景中，强化学习能够处理传统控制方法难以建模的复杂环境。无论是移动机器人的导航避障、机械臂的抓取操作，还是人形机器人的步态控制，强化学习都展现出了强大的适应性。与传统的基于模型的控制方法相比，强化学习不需要精确的环境动力学模型，能够直接从传感器数据中学习控制策略，这使得它在面对不确定性和复杂环境时更具优势。

本文将系统介绍强化学习的理论基础，从马尔可夫决策过程（Markov Decision Process, MDP）开始，逐步深入到价值方法、策略梯度、深度强化学习等核心算法，并结合机器人控制的实际应用场景，提供实践指导和调参建议。

基础框架：马尔可夫决策过程

MDP 的核心要素

马尔可夫决策过程是强化学习的数学基础，它形式化地描述了智能体与环境交互的过程。一个MDP由以下要素组成：

状态空间（State Space） $S$ ：环境所有可能状态的集合。在机器人导航中，状态可能包括位置、速度、传感器读数等。
动作空间（Action Space） $A$ ：智能体可以执行的所有动作的集合。对于移动机器人，动作可能是前进、后退、左转、右转等离散动作，或者是连续的速度和角速度指令。
转移概率（Transition Probability） $P(s'|s,a)$ ：在状态 $s$ 执行动作 $a$ 后，转移到状态 $s'$ 的概率。这描述了环境的动态特性。
奖励函数（Reward Function） $R(s,a,s')$ ：智能体在状态 $s$ 执行动作 $a$ 并转移到 $s'$ 时获得的即时奖励（reward）。奖励函数的设计至关重要，它引导智能体学习期望的行为。
折扣因子（Discount Factor） $\gamma \in [0,1]$ ：用于权衡即时奖励和未来奖励的重要性。 $\gamma$ 接近1时，智能体更关注长期回报；接近0时，更关注即时奖励。

回报与目标

智能体的目标是最大化累积回报（return），定义为：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

其中 $G_t$ 表示从时刻 $t$ 开始的累积折扣回报。

价值函数与策略

状态价值函数（State Value Function） $V^{\pi}(s)$ 表示在策略 $\pi$ 下，从状态 $s$ 开始的期望回报：

$V^{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s] = \mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s\right]$

动作价值函数（Action Value Function） $Q^{\pi}(s,a)$ 表示在状态 $s$ 执行动作 $a$ 后，遵循策略 $\pi$ 的期望回报：

$Q^{\pi}(s,a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]$

最优策略（Optimal Policy） $\pi^*$ 是使得价值函数最大的策略：

$V^*(s) = \max_{\pi} V^{\pi}(s), \quad Q^*(s,a) = \max_{\pi} Q^{\pi}(s,a)$

最优策略满足：

$\pi^*(a|s) = \begin{cases} 1 & \text{if } a = \arg\max_{a'} Q^*(s,a') \\ 0 & \text{otherwise} \end{cases}$

动态规划与价值方法

Bellman 方程

价值函数满足 Bellman 方程，这是强化学习算法的理论基础。状态价值函数的 Bellman 方程为：

$V^{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s',r} P(s',r|s,a)[r + \gamma V^{\pi}(s')]$

最优价值函数满足 Bellman 最优性方程：

$V^*(s) = \max_{a} \sum_{s',r} P(s',r|s,a)[r + \gamma V^*(s')]$

$Q^*(s,a) = \sum_{s',r} P(s',r|s,a)[r + \gamma \max_{a'} Q^*(s',a')]$

价值迭代与策略迭代

价值迭代（Value Iteration） 通过迭代更新价值函数直到收敛：

$V_{k+1}(s) = \max_{a} \sum_{s',r} P(s',r|s,a)[r + \gamma V_k(s')]$

策略迭代（Policy Iteration） 交替进行策略评估和策略改进：

策略评估：计算当前策略的价值函数
策略改进：根据价值函数更新策略

这两种方法都需要知道环境的转移概率 $P(s',r|s,a)$ ，因此属于**基于模型（Model-based）的方法。在实际应用中，环境模型往往未知或难以精确建模，因此需要无模型（Model-free）**的方法。

无模型强化学习

Q-learning 与 SARSA

Q-learning 是一种经典的时序差分（Temporal Difference, TD）学习算法，用于学习最优动作价值函数：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma \max_{a'} Q(s_{t+1},a') - Q(s_t,a_t)]$

其中 $\alpha$ 是学习率（learning rate）。Q-learning 是**离线策略（Off-policy）**算法，因为它学习最优策略，但可以使用任意策略收集经验。

SARSA（State-Action-Reward-State-Action）是**在线策略（On-policy）**算法：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)]$

SARSA 学习的是当前策略的价值函数，而不是最优策略。

探索与利用

在强化学习中，智能体需要在**探索（Exploration）新动作和利用（Exploitation）**已知好的动作之间平衡。 $\epsilon$ -greedy 策略是常用的探索策略：

$\pi(a|s) = \begin{cases} 1-\epsilon + \frac{\epsilon}{|A|} & \text{if } a = \arg\max_{a'} Q(s,a') \\ \frac{\epsilon}{|A|} & \text{otherwise} \end{cases}$

其中 $\epsilon$ 是探索率，以 $\epsilon$ 的概率随机选择动作，以 $1-\epsilon$ 的概率选择最优动作。

Deep Q-Network (DQN)

当状态空间很大或连续时，使用表格存储 Q 值变得不可行。DQN 使用深度神经网络来近似 Q 函数，解决了维度灾难问题。

DQN 的核心改进

经验回放（Experience Replay）：存储经验元组 $(s_t, a_t, r_{t+1}, s_{t+1})$ 到回放缓冲区（replay buffer），训练时随机采样批次数据，打破数据间的相关性，提高样本效率。

目标网络（Target Network）：使用一个独立的网络来计算目标 Q 值，定期更新，减少训练过程中的不稳定性：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma \max_{a'} Q_{\text{target}}(s_{t+1},a') - Q(s_t,a_t)]$

DQN 算法流程

graph TD
    A[初始化Q网络和目标网络] --> B[观察状态s_t]
    B --> C{选择动作}
    C -->|ε-greedy| D[执行动作a_t]
    D --> E[观察奖励r和下一状态s_{t+1}]
    E --> F[存储经验到回放缓冲区]
    F --> G{缓冲区是否足够大?}
    G -->|否| B
    G -->|是| H[采样批次经验]
    H --> I[计算目标Q值]
    I --> J[更新Q网络]
    J --> K{是否更新目标网络?}
    K -->|是| L[复制Q网络到目标网络]
    K -->|否| B
    L --> B

DQN 在 Atari 游戏和离散动作空间的机器人控制任务中取得了显著成功，但对于连续动作空间（如机械臂控制），需要其他方法。

基于策略的方法与 Actor-Critic

策略梯度

**策略梯度（Policy Gradient）**方法直接优化策略参数 $\theta$ ，目标是最大化期望回报：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[R(\tau)]$

其中 $\tau$ 是轨迹（trajectory）， $R(\tau)$ 是轨迹的累积回报。

策略梯度定理给出了目标函数的梯度：

$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) R(\tau)\right]$

REINFORCE 算法是策略梯度的经典实现，使用蒙特卡洛方法估计回报。但这种方法方差很大，导致训练不稳定。

Actor-Critic 框架

Actor-Critic 方法结合了价值函数和策略梯度，使用价值函数作为基线（baseline）来减少方差：

$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) A(s_t,a_t)\right]$

其中优势函数（Advantage Function） $A(s_t,a_t) = Q(s_t,a_t) - V(s_t)$ 表示动作相对于平均水平的优势。

Actor-Critic 包含两个组件：

Actor：策略网络，负责选择动作
Critic：价值网络，负责评估状态或动作的价值

A2C（Advantage Actor-Critic） 和 A3C（Asynchronous Advantage Actor-Critic） 是 Actor-Critic 的经典变体，在连续控制任务中表现优异。

机器人控制中的强化学习

连续动作空间

机器人控制通常涉及连续动作空间（如速度、力矩指令）。DDPG（Deep Deterministic Policy Gradient） 和 TD3（Twin Delayed DDPG） 是处理连续动作的经典算法：

DDPG：结合 DQN 和 Actor-Critic，使用确定性策略和经验回放
TD3：在 DDPG 基础上引入双 Q 网络、延迟策略更新和目标策略平滑，提高稳定性

PPO（Proximal Policy Optimization） 是另一种流行的算法，通过限制策略更新幅度来保证训练稳定性：

$L^{\text{CLIP}}(\theta) = \mathbb{E}_t\left[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)\right]$

其中 $r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是重要性采样比率。

奖励设计

奖励函数的设计对强化学习至关重要。在机器人控制中，常见挑战包括：

稀疏奖励（Sparse Reward）：只在完成任务时给予奖励，导致探索困难
- 解决方案：奖励塑形（reward shaping）、课程学习（curriculum learning）、示教学习（imitation learning）
奖励尺度：奖励过大或过小都会影响训练
- 解决方案：奖励归一化、自适应奖励缩放
多目标平衡：需要平衡速度、精度、能耗等多个目标
- 解决方案：加权奖励、多目标优化

安全与约束

在真实机器人上部署强化学习策略时，安全性至关重要：

域随机化（Domain Randomization）：在仿真中随机化环境参数（摩擦力、质量、传感器噪声等），提高策略的鲁棒性
约束优化：在策略优化中加入安全约束，避免危险动作
仿真到实物的迁移（Sim-to-Real）：通过域适应技术，将在仿真中训练的策略迁移到真实机器人

实践示例：CartPole 环境

下面是一个使用 PyTorch 和 Gymnasium 实现的简单策略梯度示例：

import torch
import torch.nn as nn
import torch.optim as optim
import gymnasium as gym
import numpy as np

# 策略网络（Actor）
class PolicyNetwork(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=128):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, action_dim)

    def forward(self, state):
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return torch.softmax(self.fc3(x), dim=-1)

# 价值网络（Critic）
class ValueNetwork(nn.Module):
    def __init__(self, state_dim, hidden_dim=128):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, 1)

    def forward(self, state):
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# 训练参数
env = gym.make('CartPole-v1')
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
policy_net = PolicyNetwork(state_dim, action_dim)
value_net = ValueNetwork(state_dim)
optimizer_policy = optim.Adam(policy_net.parameters(), lr=3e-4)
optimizer_value = optim.Adam(value_net.parameters(), lr=3e-4)

gamma = 0.99
max_episodes = 1000

# 训练循环
for episode in range(max_episodes):
    state, _ = env.reset()
    states, actions, rewards, log_probs = [], [], [], []

    # 收集轨迹
    while True:
        state_tensor = torch.FloatTensor(state)
        action_probs = policy_net(state_tensor)
        action = torch.multinomial(action_probs, 1).item()
        log_prob = torch.log(action_probs[action])

        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated

        states.append(state)
        actions.append(action)
        rewards.append(reward)
        log_probs.append(log_prob)

        state = next_state
        if done:
            break

    # 计算回报和优势
    returns = []
    G = 0
    for r in reversed(rewards):
        G = r + gamma * G
        returns.insert(0, G)

    returns = torch.FloatTensor(returns)
    states_tensor = torch.FloatTensor(states)
    values = value_net(states_tensor).squeeze()
    advantages = returns - values

    # 更新策略网络
    policy_loss = -torch.stack(log_probs) * advantages.detach()
    optimizer_policy.zero_grad()
    policy_loss.mean().backward()
    optimizer_policy.step()

    # 更新价值网络
    value_loss = nn.functional.mse_loss(values, returns)
    optimizer_value.zero_grad()
    value_loss.backward()
    optimizer_value.step()

    if episode % 100 == 0:
        print(f"Episode {episode}, Total Reward: {sum(rewards)}")

这个示例展示了 Actor-Critic 方法的核心思想：使用价值网络估计状态价值，计算优势函数，然后用优势函数加权策略梯度来更新策略网络。

常见陷阱与调参建议

超参数调优

学习率（Learning Rate）：通常设置在 $10^{-4}$ 到 $10^{-3}$ 之间，Actor 和 Critic 可以使用不同的学习率
折扣因子 $\gamma$ ：接近1（如0.99）关注长期回报，接近0关注即时奖励
探索率 $\epsilon$ ：在 $\epsilon$ -greedy 中，可以从1.0线性衰减到0.01
批次大小（Batch Size）：经验回放的批次大小通常为32-256

训练稳定性

梯度裁剪（Gradient Clipping）：防止梯度爆炸，通常限制在 $[-1, 1]$ 或 $[-0.5, 0.5]$
奖励归一化：对奖励进行标准化，使其均值为0、方差为1
状态归一化：对输入状态进行归一化，加速训练
固定随机种子：设置 torch.manual_seed() 和 np.random.seed() 确保可复现性

调试技巧

监控指标：跟踪平均回报、策略损失、价值损失、探索率等
可视化：绘制训练曲线，观察收敛情况
检查梯度：监控梯度范数，确保梯度不会消失或爆炸
超参数敏感性分析：系统性地测试不同超参数组合的影响

总结

强化学习为机器人控制提供了强大的工具，从基础的 MDP 框架到深度强化学习算法，从离散动作空间到连续控制，从仿真训练到真实部署，每一个环节都需要深入理解和精心设计。奖励函数的设计、探索策略的选择、超参数的调优，都会显著影响最终的性能。

随着计算能力的提升和算法的改进，强化学习在机器人领域的应用前景广阔。从简单的导航任务到复杂的操作技能，从单一智能体到多智能体协作，强化学习正在推动机器人技术的快速发展。

参考文献

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
Lillicrap, T. P., et al. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
Fujimoto, S., et al. (2018). Addressing Function Approximation Error in Actor-Critic Methods. ICML.
OpenAI Gymnasium: https://gymnasium.farama.org/
Stable-Baselines3: https://stable-baselines3.readthedocs.io/

引言

基础框架：马尔可夫决策过程

MDP 的核心要素

马尔可夫决策过程是强化学习的数学基础，它形式化地描述了智能体与环境交互的过程。一个MDP由以下要素组成：

状态空间（State Space） $S$ ：环境所有可能状态的集合。在机器人导航中，状态可能包括位置、速度、传感器读数等。
动作空间（Action Space） $A$ ：智能体可以执行的所有动作的集合。对于移动机器人，动作可能是前进、后退、左转、右转等离散动作，或者是连续的速度和角速度指令。
转移概率（Transition Probability） $P(s'|s,a)$ ：在状态 $s$ 执行动作 $a$ 后，转移到状态 $s'$ 的概率。这描述了环境的动态特性。
奖励函数（Reward Function） $R(s,a,s')$ ：智能体在状态 $s$ 执行动作 $a$ 并转移到 $s'$ 时获得的即时奖励（reward）。奖励函数的设计至关重要，它引导智能体学习期望的行为。
折扣因子（Discount Factor） $\gamma \in [0,1]$ ：用于权衡即时奖励和未来奖励的重要性。 $\gamma$ 接近1时，智能体更关注长期回报；接近0时，更关注即时奖励。

回报与目标

智能体的目标是最大化累积回报（return），定义为：

$G_t = R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \cdots = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$

其中 $G_t$ 表示从时刻 $t$ 开始的累积折扣回报。

价值函数与策略

状态价值函数（State Value Function） $V^{\pi}(s)$ 表示在策略 $\pi$ 下，从状态 $s$ 开始的期望回报：

$V^{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s] = \mathbb{E}_{\pi}\left[\sum_{k=0}^{\infty} \gamma^k R_{t+k+1} | S_t = s\right]$

动作价值函数（Action Value Function） $Q^{\pi}(s,a)$ 表示在状态 $s$ 执行动作 $a$ 后，遵循策略 $\pi$ 的期望回报：

$Q^{\pi}(s,a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a]$

最优策略（Optimal Policy） $\pi^*$ 是使得价值函数最大的策略：

$V^*(s) = \max_{\pi} V^{\pi}(s), \quad Q^*(s,a) = \max_{\pi} Q^{\pi}(s,a)$

最优策略满足：

$\pi^*(a|s) = \begin{cases} 1 & \text{if } a = \arg\max_{a'} Q^*(s,a') \\ 0 & \text{otherwise} \end{cases}$

动态规划与价值方法

Bellman 方程

价值函数满足 Bellman 方程，这是强化学习算法的理论基础。状态价值函数的 Bellman 方程为：

$V^{\pi}(s) = \sum_{a} \pi(a|s) \sum_{s',r} P(s',r|s,a)[r + \gamma V^{\pi}(s')]$

最优价值函数满足 Bellman 最优性方程：

$V^*(s) = \max_{a} \sum_{s',r} P(s',r|s,a)[r + \gamma V^*(s')]$

$Q^*(s,a) = \sum_{s',r} P(s',r|s,a)[r + \gamma \max_{a'} Q^*(s',a')]$

价值迭代与策略迭代

价值迭代（Value Iteration） 通过迭代更新价值函数直到收敛：

$V_{k+1}(s) = \max_{a} \sum_{s',r} P(s',r|s,a)[r + \gamma V_k(s')]$

策略迭代（Policy Iteration） 交替进行策略评估和策略改进：

策略评估：计算当前策略的价值函数
策略改进：根据价值函数更新策略

无模型强化学习

Q-learning 与 SARSA

Q-learning 是一种经典的时序差分（Temporal Difference, TD）学习算法，用于学习最优动作价值函数：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma \max_{a'} Q(s_{t+1},a') - Q(s_t,a_t)]$

其中 $\alpha$ 是学习率（learning rate）。Q-learning 是**离线策略（Off-policy）**算法，因为它学习最优策略，但可以使用任意策略收集经验。

SARSA（State-Action-Reward-State-Action）是**在线策略（On-policy）**算法：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma Q(s_{t+1},a_{t+1}) - Q(s_t,a_t)]$

SARSA 学习的是当前策略的价值函数，而不是最优策略。

探索与利用

在强化学习中，智能体需要在**探索（Exploration）新动作和利用（Exploitation）**已知好的动作之间平衡。 $\epsilon$ -greedy 策略是常用的探索策略：

$\pi(a|s) = \begin{cases} 1-\epsilon + \frac{\epsilon}{|A|} & \text{if } a = \arg\max_{a'} Q(s,a') \\ \frac{\epsilon}{|A|} & \text{otherwise} \end{cases}$

其中 $\epsilon$ 是探索率，以 $\epsilon$ 的概率随机选择动作，以 $1-\epsilon$ 的概率选择最优动作。

Deep Q-Network (DQN)

当状态空间很大或连续时，使用表格存储 Q 值变得不可行。DQN 使用深度神经网络来近似 Q 函数，解决了维度灾难问题。

DQN 的核心改进

目标网络（Target Network）：使用一个独立的网络来计算目标 Q 值，定期更新，减少训练过程中的不稳定性：

$Q(s_t,a_t) \leftarrow Q(s_t,a_t) + \alpha[r_{t+1} + \gamma \max_{a'} Q_{\text{target}}(s_{t+1},a') - Q(s_t,a_t)]$

DQN 算法流程

graph TD
    A[初始化Q网络和目标网络] --> B[观察状态s_t]
    B --> C{选择动作}
    C -->|ε-greedy| D[执行动作a_t]
    D --> E[观察奖励r和下一状态s_{t+1}]
    E --> F[存储经验到回放缓冲区]
    F --> G{缓冲区是否足够大?}
    G -->|否| B
    G -->|是| H[采样批次经验]
    H --> I[计算目标Q值]
    I --> J[更新Q网络]
    J --> K{是否更新目标网络?}
    K -->|是| L[复制Q网络到目标网络]
    K -->|否| B
    L --> B

DQN 在 Atari 游戏和离散动作空间的机器人控制任务中取得了显著成功，但对于连续动作空间（如机械臂控制），需要其他方法。

基于策略的方法与 Actor-Critic

策略梯度

**策略梯度（Policy Gradient）**方法直接优化策略参数 $\theta$ ，目标是最大化期望回报：

$J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}[R(\tau)]$

其中 $\tau$ 是轨迹（trajectory）， $R(\tau)$ 是轨迹的累积回报。

策略梯度定理给出了目标函数的梯度：

$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) R(\tau)\right]$

REINFORCE 算法是策略梯度的经典实现，使用蒙特卡洛方法估计回报。但这种方法方差很大，导致训练不稳定。

Actor-Critic 框架

Actor-Critic 方法结合了价值函数和策略梯度，使用价值函数作为基线（baseline）来减少方差：

$\nabla_{\theta} J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta}}\left[\sum_{t=0}^{T} \nabla_{\theta} \log \pi_{\theta}(a_t|s_t) A(s_t,a_t)\right]$

其中优势函数（Advantage Function） $A(s_t,a_t) = Q(s_t,a_t) - V(s_t)$ 表示动作相对于平均水平的优势。

Actor-Critic 包含两个组件：

Actor：策略网络，负责选择动作
Critic：价值网络，负责评估状态或动作的价值

A2C（Advantage Actor-Critic） 和 A3C（Asynchronous Advantage Actor-Critic） 是 Actor-Critic 的经典变体，在连续控制任务中表现优异。

机器人控制中的强化学习

连续动作空间

DDPG：结合 DQN 和 Actor-Critic，使用确定性策略和经验回放
TD3：在 DDPG 基础上引入双 Q 网络、延迟策略更新和目标策略平滑，提高稳定性

PPO（Proximal Policy Optimization） 是另一种流行的算法，通过限制策略更新幅度来保证训练稳定性：

$L^{\text{CLIP}}(\theta) = \mathbb{E}_t\left[\min(r_t(\theta)\hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon)\hat{A}_t)\right]$

其中 $r_t(\theta) = \frac{\pi_{\theta}(a_t|s_t)}{\pi_{\theta_{\text{old}}}(a_t|s_t)}$ 是重要性采样比率。

奖励设计

奖励函数的设计对强化学习至关重要。在机器人控制中，常见挑战包括：

稀疏奖励（Sparse Reward）：只在完成任务时给予奖励，导致探索困难
- 解决方案：奖励塑形（reward shaping）、课程学习（curriculum learning）、示教学习（imitation learning）
奖励尺度：奖励过大或过小都会影响训练
- 解决方案：奖励归一化、自适应奖励缩放
多目标平衡：需要平衡速度、精度、能耗等多个目标
- 解决方案：加权奖励、多目标优化

安全与约束

在真实机器人上部署强化学习策略时，安全性至关重要：

域随机化（Domain Randomization）：在仿真中随机化环境参数（摩擦力、质量、传感器噪声等），提高策略的鲁棒性
约束优化：在策略优化中加入安全约束，避免危险动作
仿真到实物的迁移（Sim-to-Real）：通过域适应技术，将在仿真中训练的策略迁移到真实机器人

实践示例：CartPole 环境

下面是一个使用 PyTorch 和 Gymnasium 实现的简单策略梯度示例：

import torch
import torch.nn as nn
import torch.optim as optim
import gymnasium as gym
import numpy as np

# 策略网络（Actor）
class PolicyNetwork(nn.Module):
    def __init__(self, state_dim, action_dim, hidden_dim=128):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, action_dim)

    def forward(self, state):
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return torch.softmax(self.fc3(x), dim=-1)

# 价值网络（Critic）
class ValueNetwork(nn.Module):
    def __init__(self, state_dim, hidden_dim=128):
        super().__init__()
        self.fc1 = nn.Linear(state_dim, hidden_dim)
        self.fc2 = nn.Linear(hidden_dim, hidden_dim)
        self.fc3 = nn.Linear(hidden_dim, 1)

    def forward(self, state):
        x = torch.relu(self.fc1(state))
        x = torch.relu(self.fc2(x))
        return self.fc3(x)

# 训练参数
env = gym.make('CartPole-v1')
state_dim = env.observation_space.shape[0]
action_dim = env.action_space.n
policy_net = PolicyNetwork(state_dim, action_dim)
value_net = ValueNetwork(state_dim)
optimizer_policy = optim.Adam(policy_net.parameters(), lr=3e-4)
optimizer_value = optim.Adam(value_net.parameters(), lr=3e-4)

gamma = 0.99
max_episodes = 1000

# 训练循环
for episode in range(max_episodes):
    state, _ = env.reset()
    states, actions, rewards, log_probs = [], [], [], []

    # 收集轨迹
    while True:
        state_tensor = torch.FloatTensor(state)
        action_probs = policy_net(state_tensor)
        action = torch.multinomial(action_probs, 1).item()
        log_prob = torch.log(action_probs[action])

        next_state, reward, terminated, truncated, _ = env.step(action)
        done = terminated or truncated

        states.append(state)
        actions.append(action)
        rewards.append(reward)
        log_probs.append(log_prob)

        state = next_state
        if done:
            break

    # 计算回报和优势
    returns = []
    G = 0
    for r in reversed(rewards):
        G = r + gamma * G
        returns.insert(0, G)

    returns = torch.FloatTensor(returns)
    states_tensor = torch.FloatTensor(states)
    values = value_net(states_tensor).squeeze()
    advantages = returns - values

    # 更新策略网络
    policy_loss = -torch.stack(log_probs) * advantages.detach()
    optimizer_policy.zero_grad()
    policy_loss.mean().backward()
    optimizer_policy.step()

    # 更新价值网络
    value_loss = nn.functional.mse_loss(values, returns)
    optimizer_value.zero_grad()
    value_loss.backward()
    optimizer_value.step()

    if episode % 100 == 0:
        print(f"Episode {episode}, Total Reward: {sum(rewards)}")

这个示例展示了 Actor-Critic 方法的核心思想：使用价值网络估计状态价值，计算优势函数，然后用优势函数加权策略梯度来更新策略网络。

常见陷阱与调参建议

超参数调优

学习率（Learning Rate）：通常设置在 $10^{-4}$ 到 $10^{-3}$ 之间，Actor 和 Critic 可以使用不同的学习率
折扣因子 $\gamma$ ：接近1（如0.99）关注长期回报，接近0关注即时奖励
探索率 $\epsilon$ ：在 $\epsilon$ -greedy 中，可以从1.0线性衰减到0.01
批次大小（Batch Size）：经验回放的批次大小通常为32-256

训练稳定性

梯度裁剪（Gradient Clipping）：防止梯度爆炸，通常限制在 $[-1, 1]$ 或 $[-0.5, 0.5]$
奖励归一化：对奖励进行标准化，使其均值为0、方差为1
状态归一化：对输入状态进行归一化，加速训练
固定随机种子：设置 torch.manual_seed() 和 np.random.seed() 确保可复现性

调试技巧

监控指标：跟踪平均回报、策略损失、价值损失、探索率等
可视化：绘制训练曲线，观察收敛情况
检查梯度：监控梯度范数，确保梯度不会消失或爆炸
超参数敏感性分析：系统性地测试不同超参数组合的影响

总结

参考文献

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction (2nd ed.). MIT Press.
Mnih, V., et al. (2015). Human-level control through deep reinforcement learning. Nature, 518(7540), 529-533.
Silver, D., et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529(7587), 484-489.
Schulman, J., et al. (2017). Proximal Policy Optimization Algorithms. arXiv preprint arXiv:1707.06347.
Lillicrap, T. P., et al. (2015). Continuous control with deep reinforcement learning. arXiv preprint arXiv:1509.02971.
Fujimoto, S., et al. (2018). Addressing Function Approximation Error in Actor-Critic Methods. ICML.
OpenAI Gymnasium: https://gymnasium.farama.org/
Stable-Baselines3: https://stable-baselines3.readthedocs.io/

文章

GMR：通用动作重映射器

使用 Dotfile 同步配置

编码器正交编码方法

多摩川编码器协议

具身智能面试题（20题）

Pinocchio机器人库详解

TWIST算法深度研究：从图像重建到机器人路径规划

TWIST2算法：二阶滑模控制的革命性进展

TWIST算法技术补充：数学推导与实现细节

Pi0深度解析：Physical Intelligence的机器人基础模型

Pi0.5深度解析：开放式世界泛化的VLA模型

Pi0.6深度解析：体验学习与知识隔离的前沿VLA模型

Diffusion Policy深度解析：基于扩散模型的机器人动作生成策略

cuBLAS深度解析：GPU加速的线性代数库

深入理解CUDA：统一计算设备架构

引言

基础框架：马尔可夫决策过程

MDP 的核心要素

回报与目标

价值函数与策略

动态规划与价值方法

Bellman 方程

价值迭代与策略迭代

无模型强化学习

Q-learning 与 SARSA

探索与利用

Deep Q-Network (DQN)

DQN 的核心改进

DQN 算法流程

基于策略的方法与 Actor-Critic

策略梯度

Actor-Critic 框架

机器人控制中的强化学习

连续动作空间

奖励设计

安全与约束

实践示例：CartPole 环境

常见陷阱与调参建议

超参数调优

训练稳定性

调试技巧

总结

参考文献

发表评论

评论 (0)

文章

GMR：通用动作重映射器

使用 Dotfile 同步配置

编码器正交编码方法

多摩川编码器协议

具身智能面试题（20题）

Pinocchio机器人库详解

TWIST算法深度研究：从图像重建到机器人路径规划

TWIST2算法：二阶滑模控制的革命性进展

TWIST算法技术补充：数学推导与实现细节

Pi0深度解析：Physical Intelligence的机器人基础模型

Pi0.5深度解析：开放式世界泛化的VLA模型

Pi0.6深度解析：体验学习与知识隔离的前沿VLA模型

Diffusion Policy深度解析：基于扩散模型的机器人动作生成策略

cuBLAS深度解析：GPU加速的线性代数库

深入理解CUDA：统一计算设备架构

引言

基础框架：马尔可夫决策过程

MDP 的核心要素

回报与目标

价值函数与策略

动态规划与价值方法

Bellman 方程

价值迭代与策略迭代

无模型强化学习

Q-learning 与 SARSA

探索与利用

Deep Q-Network (DQN)

DQN 的核心改进

DQN 算法流程

基于策略的方法与 Actor-Critic

策略梯度

Actor-Critic 框架

机器人控制中的强化学习