ชุดเบนช์มาร์กจากชุมชนสำหรับประเมินคุณภาพ LLM ในเครื่อง ส่งผลลัพธ์ผ่าน API
Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.