評価スイート
ローカルLLMの品質を評価するためのコミュニティベンチマークスイート。APIから結果を送信してください。
公式
v1.0 · Custom server-side
writing6 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
math0 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
coding0 件の記録
公式
v1.0 · LM-Eval run
coding0 件の記録
公式
v1.0 · LM-Eval run
math3 件の記録
公式
v1.0 · LM-Eval run
truthfulness0 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
reasoning1 件の記録
公式
v1.0 · LM-Eval run
reasoning0 件の記録
公式
v1.0 · LM-Eval run
reasoning1 件の記録
公式
v1.0 · Custom server-side
reasoning3 件の記録