mally的技术笔记
AIGC相关
关于作者
拒绝采样微调是什么
数据集为问题,回答,大小为 n。
拒绝采样微调 可以理解为是两轮 sft 微调
先用第一阶段 sft 训练好的模型(也可以是其他的),对数据集中的每个问题生成 k 个候选回答。
通过某种筛选算法,从 k 个候选回答筛选出想要的(假设平均每个问题筛选出 a 个)。
把这些筛选后的结果,作为新的数据集(假设为 k*a 个),再次对模型做 sft 训练。
Prev
SwiGLU 激活函数
Next
策略熵和交叉熵