一键安装此插件:
42plugin install ovachiever/droid-tings/openrlhf42plugin install ovachiever/droid-tings/openrlhf插件介绍
基于Ray+vLLM加速的高性能RLHF框架,支持7B-70B+大模型的PPO、GRPO、RLOO、DPO训练,采用分布式架构和GPU资源共享,比DeepSpeedChat快2倍。
一键安装此插件:
42plugin install ovachiever/droid-tings/openrlhf42plugin install ovachiever/droid-tings/openrlhf基于Ray+vLLM加速的高性能RLHF框架,支持7B-70B+大模型的PPO、GRPO、RLOO、DPO训练,采用分布式架构和GPU资源共享,比DeepSpeedChat快2倍。