mally的技术笔记mally的技术笔记
AIGC相关
关于作者
AIGC相关
关于作者
  • AIGC相关
  • 长文

    • 长文
    • MoE 梳理
    • Tokenization 分词
    • VERL 框架看 GRPO 过程
  • 细碎大模型知识

    • 细碎大模型知识
    • clip-higher 为什么有效
    • F1 分数是什么
    • 温度 temperature 是什么
    • 分词和嵌入的关系
    • SwiGLU 激活函数
    • 拒绝采样微调是什么
    • 策略熵和交叉熵
    • GRPO 流程
    • DPO 公式推导
  • 论文阅读

    • 论文阅读
    • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert
    • Scaling Relationship on Learning Mathematical Reasoning with Large Language Models
    • switch transfomer 论文
    • RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning
    • Mixture of Experts Explained
    • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert

      • Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert
      • 背景知识

策略熵和交叉熵

1. 交叉熵(Cross-Entropy)

  • 定义:衡量两个个概率分布之间的差异,设真实分布为 p,预测分布为 q,则交叉熵为:H(p,q)=−∑p(x)log⁡q(x)
  • 核心作用:评估两个个分布的相似性,常用于分类任务的损失函数(如在神经网络中衡量预测概率与真实标签的差距)。
  • 特点:关注“预测分布与真实分布的匹配程度”,值越小表示两个分布越接近。

2. 策略熵(Policy Entropy)

  • 定义:衡量单个概率分布的不确定性(随机性),对策略分布 $ \pi(a|s)$ (给定状态 s 时采取动作 a 的概率),其熵为:H(π)=−∑aπ(a|s)log⁡π(a|s)
  • 核心作用:在强化学习中,用于衡量策略的探索性——熵越大,策略越随机(倾向于尝试多种动作);熵越小,策略越确定(倾向于固定动作)。
  • 特点:仅与单个分布相关,反映分布本身的“混乱程度”,与真实标签无关。

总结

  • 交叉熵:比较两个分布(如预测 vs 真实),用于优化预测准确性。
  • 策略熵:描述单个分布(如智能体的动作选择策略),用于控制探索-利用平衡(强化学习中常见)。

在强化学习的策略梯度方法中,两者常结合使用(例如损失函数 = 策略损失 + 熵正则项),既优化策略性能,又鼓励适当探索。

Prev
拒绝采样微调是什么
Next
GRPO 流程