一键安装此插件:
42plugin install ovachiever/droid-tings/lm-evaluation-harness42plugin install ovachiever/droid-tings/lm-evaluation-harness插件介绍
在60多个学术基准(如MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估大语言模型。适用于模型质量基准测试、模型比较、学术结果报告或训练进度跟踪。EleutherAI、HuggingFace及主要实验室采用的行业标准,支持HuggingFace、vLLM和API。