一键安装此插件:

42plugin install ovachiever/droid-tings/lm-evaluation-harness

插件介绍

在60多个学术基准(如MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag)上评估大语言模型。适用于模型质量基准测试、模型比较、学术结果报告或训练进度跟踪。EleutherAI、HuggingFace及主要实验室采用的行业标准,支持HuggingFace、vLLM和API。

从属套包

ovachiever/kit/droid-tings

插件信息

类型
许可证MIT
来源GitHub
发布时间2026年1月14日

插件评分

活水指数
4.2
文档清晰
内容质量
示例丰富
规范程度
可信程度