拒绝采样微调是什么

数据集为问题，回答，大小为 n。

拒绝采样微调可以理解为是两轮 sft 微调

先用第一阶段 sft 训练好的模型（也可以是其他的），对数据集中的每个问题生成 k 个候选回答。
通过某种筛选算法，从 k 个候选回答筛选出想要的（假设平均每个问题筛选出 a 个）。
把这些筛选后的结果，作为新的数据集（假设为 k*a 个），再次对模型做 sft 训练。