一键安装此插件:
42plugin install ovachiever/droid-tings/openrlhf
基于Ray+vLLM加速的高性能RLHF框架,支持7B-70B+大模型的PPO、GRPO、RLOO、DPO训练,采用分布式架构和GPU资源共享,比DeepSpeedChat快2倍。
从属套包
ovachiever/kit/droid-tings