⚡

大模型评估套件

Name: 大模型评估套件
Rating: 4.5
Author: ovachiever

⚡Skill

科学研究 AI工具博士生博士后教授

测试 AI助手元能力

一键安装此插件：

42plugin install ovachiever/droid-tings/lm-evaluation-harness42plugin install ovachiever/droid-tings/lm-evaluation-harness

插件介绍

在60多个学术基准（如MMLU、HumanEval、GSM8K、TruthfulQA、HellaSwag）上评估大语言模型。适用于模型质量基准测试、模型比较、学术结果报告或训练进度跟踪。EleutherAI、HuggingFace及主要实验室采用的行业标准，支持HuggingFace、vLLM和API。

大模型评估套件

插件介绍

大模型评估套件

插件介绍

插件信息

插件评分