DeathMath Leaderboard
Оценка моделей на сложных математических и физических задачах
DeathMath Benchmark
DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.
Что оценивает бенчмарк?
- RussianMath Score: Оценка способности решать математические задачи на русском языке
- RussianPhysics Score: Оценка способности решать задачи по физике на русском языке
- Combined Score: Общая оценка (среднее математики и физики)
Таблица результатов моделей DeathMath
{
- "headers": [
- "model",
- "score",
- "math_score",
- "physics_score",
- "total_tokens",
- "evaluation_time",
- "system_prompt"
- "data": [
- [
- "Anonumous/Gemini 3 Pro",
- 0.776,
- 0.94,
- 0.612,
- 2441816,
- 6400.851,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "AlexWortega/Gemeni 2.5 Pro",
- 0.728,
- 0.874,
- 0.582,
- 2227721,
- 4937.3,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Anonumous/GPT-5",
- 0.705,
- 0.91,
- 0.5,
- 1374085,
- 4908.359,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "o3-mini-high",
- 0.692,
- 0.884,
- 0.5,
- 2186756,
- 5107.465,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Anonumous/GPT-OSS-120B",
- 0.675,
- 0.849,
- 0.5,
- 671703,
- 939.085,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "o3",
- 0.669,
- 0.868,
- 0.469,
- 1164000,
- 5025.798,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "o4-mini-high",
- 0.664,
- 0.868,
- 0.459,
- 1997548,
- 5811.027,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Anonumous/GPT-5 Nano",
- 0.649,
- 0.839,
- 0.459,
- 2218450,
- 5109.693,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "Anonumous/GPT-5 Mini",
- 0.634,
- 0.849,
- 0.418,
- 993326,
- 3368.527,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "Anonumous/Claude Sonnet 4.5",
- 0.61,
- 0.688,
- 0.531,
- 461074,
- 1216.334,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "Anonumous/Claude Opus 4.1",
- 0.607,
- 0.704,
- 0.51,
- 448628,
- 1927.201,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "Anonumous/GPT-OSS-20B",
- 0.583,
- 0.789,
- 0.378,
- 1034077,
- 4009.333,
- "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
- [
- "AlexWortega/Claude Sonnet 4",
- 0.551,
- 0.633,
- 0.469,
- 490996,
- 1294.7,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Qwen QwQ 32B",
- 0.53,
- 0.653,
- 0.408,
- 2112951,
- 16974.732,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Gemini 2.0 Flash",
- 0.514,
- 0.558,
- 0.469,
- 495313,
- 736.576,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Claude 3.7 Sonnet",
- 0.47,
- 0.542,
- 0.398,
- 405583,
- 1081.97,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "gpt-4.1",
- 0.466,
- 0.584,
- 0.347,
- 549983,
- 2434.593,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "LakoMoor/QVikhr-3-8B-Instruction",
- 0.445,
- 0.563,
- 0.327,
- 1486327,
- 11874.2,
- "You are a helpful assistant. Answer in Russian."
- [
- "LakoMoor/Qwen3-8B",
- 0.417,
- 0.538,
- 0.296,
- 1576445,
- 12744.3,
- "You are a helpful assistant. Answer in Russian."
- [
- "Gemma 3 27B",
- 0.4,
- 0.474,
- 0.327,
- 384164,
- 3024.304,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Claude 3.5 Sonnet",
- 0.376,
- 0.416,
- 0.337,
- 252843,
- 702.003,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "DeepSeek R1 Distill Qwen 14B",
- 0.346,
- 0.447,
- 0.245,
- 806258,
- 7904.138,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "DeepSeek V3 0324",
- 0.343,
- 0.432,
- 0.255,
- 339857,
- 2901.808,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "gpt-4o",
- 0.338,
- 0.432,
- 0.245,
- 399483,
- 1145.041,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "GigaChat-2-Max",
- 0.314,
- 0.363,
- 0.265,
- 185204,
- 965.849,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "AvitoTech/A-vibe",
- 0.28,
- 0.367,
- 0.194,
- 797771,
- 4097.367,
- null
- [
- "GigaChat-2-Pro",
- 0.27,
- 0.316,
- 0.224,
- 215297,
- 1250.343,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Qwen2.5 72B Instruct",
- 0.189,
- 0.379,
- 0,
- 322441,
- 5670.726,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "GigaChat-Max",
- 0.181,
- 0.189,
- 0.173,
- 200271,
- 1056.48,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "Gemma 3 4B",
- 0.18,
- 0.258,
- 0.102,
- 726285,
- 2959.358,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "GigaChat-2",
- 0.083,
- 0.095,
- 0.071,
- 136051,
- 576.885,
- "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
- [
- "metadata": null