DPO 公式推导

DPO 公式

数据集 ${x, y_{w}, y_{l}}$ ，其中 x 表示问题， $y_{w}$ 表示好的（winner), $y_{l}$ 表示不好的（loser）。

J_{r} (r, D) = max E_{(x, y_{tr}, y_{tl}) \sim D} [\log σ {β \log \frac{π_{\hat{θ}} (y_{u} | x)}{π_{ref} (y_{u} | x)} - β \log \frac{π_{\hat{θ}} (y_{l} | x)}{π_{ref} (y_{l} | x)}}]

注意点:

由于是句子级别的，x 和 y 都是由很多 token 构成的， $π (y | x)$ 其实是把生成过程的每个 token 的交叉熵加起来了。

就是 $r (x, y) = β \log \frac{π_{θ}^{*} (y | x)}{π_{ref} (y | x)} + β \log Z (x)$

PPO 来源于 policy-based 的强化学习，它希望寻找策略使得策略奖励最大（另一类 vlue-based，是希望行动奖励最大），同时为了稳定它希望当前新策略和旧策略不能差异太大。

max_{π} E_{x \sim D, y \sim π} [r (x, y)] - β D_{KL} [π (y | x) ∥ π_{ref} (y | x)]

其中：

然而，PPO 这样首先得训一个奖励模型，这样太麻烦。DPO 就希望绕过这个。

于是 DPO 是对 PPO 的公式展开。

定义一个新的概率分布 $π^{*} = \frac{1}{Z (x)} π_{ref} (y | x) \cdot \exp {\frac{1}{β} r (x, y)}$ ，上述展开的公式则可以写成

要让 $π_{θ}$ 使得 J 最小，而 $l o g Z (x)$ 与 $π_{θ}$ 无关，故而只要优化第一项 KL 就好，KL 最小，则两个分布一样，即 $π^{*} = π_{θ}$ ,那么这个公式为

π_{θ} = \frac{1}{Z (x)} π_{ref} (y | x) \cdot \exp {\frac{1}{β} r (x, y)}

那么从这个公式就可以反推出奖励模型的表达式： $r (x, y) = β \log \frac{π_{θ}^{*} (y | x)}{π_{ref} (y | x)} + β \log Z (x)$ ，这时候就可以把优化奖励模型 r 变成优化 $π^{*}$ 了（Z(x)在后面可以）。

首先看 Bradley-Terry 模型定义：

把要奖励最大，利用 Bradley-Terry 化解为了好的回答比坏的回答胜出的概率更大。

即 $p_{β}^{*} (y_{w} ≻ y_{l} | x) = \frac{r (x, y_{w})}{r (x, y_{w}) + r (x, y_{l})}$ ，

化简后就是 $p_{β}^{*} = sigmoid (β \log \frac{π_{ref} (y_{1} | x)}{π^{*} (y_{1} | x)} - β \log \frac{π_{ref} (y_{2} | x)}{π^{*} (y_{2} | x)})$

故而 DPO 的损失函数为：

DPO 公式推导把推导逻辑写清楚了