DeathMath Leaderboard

Оценка моделей на сложных математических и физических задачах

DeathMath Benchmark

DeathMath - это бенчмарк для оценки способности моделей решать сложные математические и физические задачи на русском языке.

Что оценивает бенчмарк?

  • RussianMath Score: Оценка способности решать математические задачи на русском языке
  • RussianPhysics Score: Оценка способности решать задачи по физике на русском языке
  • Combined Score: Общая оценка (среднее математики и физики)

Таблица результатов моделей DeathMath

{
  • "headers": [
    • "model",
    • "score",
    • "math_score",
    • "physics_score",
    • "total_tokens",
    • "evaluation_time",
    • "system_prompt"
    ],
  • "data": [
    • [
      • "Anonumous/Gemini 3 Pro",
      • 0.776,
      • 0.94,
      • 0.612,
      • 2441816,
      • 6400.851,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "AlexWortega/Gemeni 2.5 Pro",
      • 0.728,
      • 0.874,
      • 0.582,
      • 2227721,
      • 4937.3,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Anonumous/GPT-5",
      • 0.705,
      • 0.91,
      • 0.5,
      • 1374085,
      • 4908.359,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "o3-mini-high",
      • 0.692,
      • 0.884,
      • 0.5,
      • 2186756,
      • 5107.465,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "Anonumous/GPT-OSS-120B",
      • 0.675,
      • 0.849,
      • 0.5,
      • 671703,
      • 939.085,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "o3",
      • 0.669,
      • 0.868,
      • 0.469,
      • 1164000,
      • 5025.798,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "o4-mini-high",
      • 0.664,
      • 0.868,
      • 0.459,
      • 1997548,
      • 5811.027,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Anonumous/GPT-5 Nano",
      • 0.649,
      • 0.839,
      • 0.459,
      • 2218450,
      • 5109.693,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "Anonumous/GPT-5 Mini",
      • 0.634,
      • 0.849,
      • 0.418,
      • 993326,
      • 3368.527,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "Anonumous/Claude Sonnet 4.5",
      • 0.61,
      • 0.688,
      • 0.531,
      • 461074,
      • 1216.334,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "Anonumous/Claude Opus 4.1",
      • 0.607,
      • 0.704,
      • 0.51,
      • 448628,
      • 1927.201,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "Anonumous/GPT-OSS-20B",
      • 0.583,
      • 0.789,
      • 0.378,
      • 1034077,
      • 4009.333,
      • "Ты - полезный ИИ-ассистент, решающий задачи по математике и физике. Отвечай на русском языке."
      ],
    • [
      • "AlexWortega/Claude Sonnet 4",
      • 0.551,
      • 0.633,
      • 0.469,
      • 490996,
      • 1294.7,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Qwen QwQ 32B",
      • 0.53,
      • 0.653,
      • 0.408,
      • 2112951,
      • 16974.732,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "Gemini 2.0 Flash",
      • 0.514,
      • 0.558,
      • 0.469,
      • 495313,
      • 736.576,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Claude 3.7 Sonnet",
      • 0.47,
      • 0.542,
      • 0.398,
      • 405583,
      • 1081.97,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "gpt-4.1",
      • 0.466,
      • 0.584,
      • 0.347,
      • 549983,
      • 2434.593,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "LakoMoor/QVikhr-3-8B-Instruction",
      • 0.445,
      • 0.563,
      • 0.327,
      • 1486327,
      • 11874.2,
      • "You are a helpful assistant. Answer in Russian."
      ],
    • [
      • "LakoMoor/Qwen3-8B",
      • 0.417,
      • 0.538,
      • 0.296,
      • 1576445,
      • 12744.3,
      • "You are a helpful assistant. Answer in Russian."
      ],
    • [
      • "Gemma 3 27B",
      • 0.4,
      • 0.474,
      • 0.327,
      • 384164,
      • 3024.304,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Claude 3.5 Sonnet",
      • 0.376,
      • 0.416,
      • 0.337,
      • 252843,
      • 702.003,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "DeepSeek R1 Distill Qwen 14B",
      • 0.346,
      • 0.447,
      • 0.245,
      • 806258,
      • 7904.138,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "DeepSeek V3 0324",
      • 0.343,
      • 0.432,
      • 0.255,
      • 339857,
      • 2901.808,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "gpt-4o",
      • 0.338,
      • 0.432,
      • 0.245,
      • 399483,
      • 1145.041,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "GigaChat-2-Max",
      • 0.314,
      • 0.363,
      • 0.265,
      • 185204,
      • 965.849,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "AvitoTech/A-vibe",
      • 0.28,
      • 0.367,
      • 0.194,
      • 797771,
      • 4097.367,
      • null
      ],
    • [
      • "GigaChat-2-Pro",
      • 0.27,
      • 0.316,
      • 0.224,
      • 215297,
      • 1250.343,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "Qwen2.5 72B Instruct",
      • 0.189,
      • 0.379,
      • 0,
      • 322441,
      • 5670.726,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "GigaChat-Max",
      • 0.181,
      • 0.189,
      • 0.173,
      • 200271,
      • 1056.48,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ],
    • [
      • "Gemma 3 4B",
      • 0.18,
      • 0.258,
      • 0.102,
      • 726285,
      • 2959.358,
      • "Вы - полезный помощник по математике и физике. Ответьте на русском языке."
      ],
    • [
      • "GigaChat-2",
      • 0.083,
      • 0.095,
      • 0.071,
      • 136051,
      • 576.885,
      • "Р’С‹ - полезный помощник РїРѕ математике Рё физике. Ответьте РЅР° СЂСѓСЃСЃРєРѕРј языке."
      ]
    ],
  • "metadata": null
}