Наборы оценок

Наборы бенчмарков сообщества для оценки качества локальных LLM. Отправляйте результаты через API.

OpenAI HumanEval via EleutherAI lm-evaluation-harness task humaneval, 0-shot, pass@k code-generation scoring.

Massive Multitask Language Understanding via EleutherAI lm-evaluation-harness task mmlu, 5-shot, exact-match/accuracy style scoring.