Eval Suites

स्थानीय LLM गुणवत्ता का मूल्यांकन करने के लिए समुदाय बेंचमार्क suites। परिणाम API से सबमिट करें।

OpenAI HumanEval via EleutherAI lm-evaluation-harness task humaneval, 0-shot, pass@k code-generation scoring.