一键安装此插件:
42plugin install ovachiever/droid-tings/grpo-rl-training
提供使用 TRL 进行 GRPO/RL 微调的专家指导,适用于推理和任务特定模型训练。
从属套包
ovachiever/kit/droid-tings