GRPO 流程

整体流程

参考 verl 框架得到：

for each epoch:
    for each batch:
        # 生成阶段
        给定prompt生成n_samples_per_prompts=16个不同响应
        在以同个prompt生成的响应作为一组，计算相对奖励

        # 优化阶段
        保存初始模型输出的log_probs作为参考
        for each PPO_epoch:
            打乱样本顺序并创建mini-batches
            for each mini-batch:
                计算当前策略的输出概率（log_prob）
                计算策略梯度损失（pg_loss），例如使用PPO-Clip
                计算熵损失（entropy_loss），用于维持探索性
                计算价值函数损失（value_loss，如果有价值网络的话）
                计算KL损失（kl_loss，可选，用于控制策略更新幅度）
                组合损失（total_loss = pg_loss + c1*value_loss - c2*entropy_loss + c3*kl_loss）
            反向传播并更新模型参数
                应用梯度裁剪（例如clip_grad_norm_）
            # 可选：检查KL散度是否过大，如果过大则提前结束当前PPO_epoch

过程理解

被优化的模型：
- 主要优化的是策略网络(actor_module)，也就是负责生成输出的语言模型
- 如果使用了 critic，也会优化价值网络(critic_module)，用于估计状态价值
迭代的目的：
- PPO 算法的核心思想是约束策略更新幅度，确保新策略不会偏离旧策略太多
- 多次使用同一批数据进行迭代，可以充分利用已收集的经验，提高样本效率
- 通过 mini-batch 的方式，在大规模语言模型训练中更好地利用 GPU 内存
迭代过程中的操作：
- 计算当前策略下的动作概率分布（log_prob），与旧策略（old_log_prob）进行比较
- 使用已经计算好的优势函数（advantages），指导策略更新的方向
- 结合裁剪目标函数（clip_ratio）限制更新幅度，避免过度优化导致策略崩溃
- 增加熵正则化（entropy_loss）以鼓励探索
- 可能还会添加 KL 惩罚项（kl_loss）进一步限制策略变化