一键安装此插件:
42plugin install ovachiever/droid-tings/simpo42plugin install ovachiever/droid-tings/simpo插件介绍
用于LLM对齐的简单偏好优化方法,无需参考模型,比DPO更高效,在AlpacaEval 2.0上性能提升6.4分,适合需要比DPO/PPO更简单快速训练的场景。
一键安装此插件:
42plugin install ovachiever/droid-tings/simpo42plugin install ovachiever/droid-tings/simpo用于LLM对齐的简单偏好优化方法,无需参考模型,比DPO更高效,在AlpacaEval 2.0上性能提升6.4分,适合需要比DPO/PPO更简单快速训练的场景。