Suítes de eval

Suítes de benchmark da comunidade para avaliar a qualidade de LLMs locais. Envie resultados pela API.

OpenAI HumanEval via EleutherAI lm-evaluation-harness task humaneval, 0-shot, pass@k code-generation scoring.