DeathMath Benchmark
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
Что оценивает бенчмарк?
- RussianMath Score: Оценка способности решать математические задачи на русском языке
- RussianPhysics Score: Оценка способности решать задачи по физике на русском языке
- Combined Score: Общая оценка (среднее математики и физики)
Таблица результатов моделей DeathMath
DeepSeek R1 Distill Qwen 14B | 0.776 | 0.874 | 0.612 | 2441816 | 16974.732 | Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке. |