2024年05月07日
摘要本文针对语言模型的偏好对齐算法进行研究,尽管这些算法已经展示了积极的效果,但监督式微调(Supervised Fine-Tuning, SFT)对于实现成功的收敛仍然是必要的。在本文中,我们研究了SFT在偏好对齐中的关键作用,并强调对不受欢迎的生成风格施加轻微的惩罚就足以进行偏好对齐的SFT。基于这一基础,我们提出了一种直接且创新的无参考模型的单体赔率比偏好优化算法(ORPO),从而省略了额外的偏好对齐阶段。我们从理论和实证两个层面展示了在不同大小的模型(从125M到7B)中使用ORPO进行
Powered By Z-BlogPHP 1.7.3
冀公网安备13019902000834
冀ICP备18019600号-1
Copyright CC Some Rights Reserved.Contact Email:chengyingbo88@163.com