用于评估本地LLM质量的社区基准测试套件。通过API提交结果。
Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.