评测套件
用于评估本地LLM质量的社区基准测试套件。通过API提交结果。
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning1 条记录
官方
v1.0 · LM-Eval run
reasoning0 条记录
官方
v1.0 · LM-Eval run
reasoning1 条记录
官方
v1.0 · Custom server-side
reasoning3 条记录