mally的技术笔记
AIGC相关
关于作者
细碎大模型知识
目录
DPO公式推导
F1分数是什么
GRPO流程
SwiGLU激活函数
clip-higher为什么有效
分词和嵌入的关系
拒绝采样微调是什么
温度temperature是什么
策略熵和交叉熵
Next
clip-higher 为什么有效