Eval-Suites

Community-Benchmark-Suites zur Bewertung lokaler LLM-Qualität. Reiche Ergebnisse über die API ein.

OpenAI HumanEval via EleutherAI lm-evaluation-harness task humaneval, 0-shot, pass@k code-generation scoring.