स्थानीय LLM गुणवत्ता का मूल्यांकन करने के लिए समुदाय बेंचमार्क suites। परिणाम API से सबमिट करें।
Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.