一键安装此插件:
42plugin install ovachiever/droid-tings/simpo
用于LLM对齐的简单偏好优化方法,无需参考模型,比DPO更高效,在AlpacaEval 2.0上性能提升6.4分,适合需要比DPO/PPO更简单快速训练的场景。
从属套包
ovachiever/kit/droid-tings