ชุดเบนช์มาร์กจากชุมชนสำหรับประเมินคุณภาพ LLM ในเครื่อง ส่งผลลัพธ์ผ่าน API
OpenAI HumanEval via EleutherAI lm-evaluation-harness task humaneval, 0-shot, pass@k code-generation scoring.