Битва бенчмарков: цифры решают
Бенчмарки — это спорный, но всё ещё самый объективный способ сравнить модели. Рассмотрим ключевые тесты 2026 года, которые реально что-то говорят об интеллекте модели, а не просто красиво смотрятся в пресс-релизе.
ARC-AGI-2 — тест на абстрактное мышление
Это самый показательный бенчмарк поколения: он проверяет способность решать принципиально новые задачи, которых модель не видела при обучении — то, что раньше считалось исключительно человеческим навыком. Gemini 3.1 Pro набирает здесь 77,1% — более чем вдвое выше среднего результата человека (~60%) и в 4,4 раза лучше GPT-5.1 (17,6%). Это, пожалуй, самый громкий результат всего сравнения: по способности к обобщению и абстракции Gemini 3.1 Pro на сегодня недосягаема.
AIME 2025 / HMMT — олимпийская математика
Здесь маятник качается в другую сторону. GPT-5.1 (прямой предшественник GPT-5.4) показывала 94% на AIME 2025 и 93,3% на HMMT 2025 — это уровень финалистов национальных олимпиад по математике. Gemini 3.1 Pro сопоставимых публичных результатов по этим тестам не публиковала. Для задач, требующих строгих математических рассуждений и доказательств, линейка GPT остаётся эталоном.
SWE-Bench Verified — реальное программирование
SWE-Bench — это не синтетические задачки, а настоящие баги из реальных GitHub-репозиториев. Gemini 3.1 Pro решает 80,6% задач, тогда как GPT-5.1 — 76,3%. Разрыв в 4 процентных пункта — это десятки дополнительно решённых реальных проблем в коде. Для разработчиков, использующих AI в ревью и дебаггинге, это ощутимое преимущество Google.
GPQA Diamond — уровень аспиранта в науке
GPQA Diamond — это вопросы уровня PhD по физике, химии и биологии, составленные так, чтобы даже профессора смежных специальностей ошибались. Gemini 3.1 Pro — 94,3%, GPT-5.1 — 88,1%. Разрыв в 6 пунктов на таком уровне сложности — это не погрешность, а системное преимущество.
Humanity’s Last Exam — самый сложный тест 2026 года
HLE создавался как тест, который ни одна модель не должна была пройти легко — 3000 вопросов от мировых экспертов по узкоспециализированным областям знаний. Gemini 3.1 Pro набирает 44,4%, GPT-5.1 — 24,8%. Почти двукратный разрыв говорит о том, что в глубоко экспертных областях Gemini 3.1 Pro значительно надёжнее.
Artificial Analysis Intelligence Index
Независимая платформа Artificial Analysis оценивает модели в агрегированном рейтинге по 115 участникам. Gemini 3.1 Pro занимает #1 место со Score 57 при медиане по рынку 26 — то есть опережает среднюю модель более чем вдвое по совокупному интеллекту.
Итоговая таблица бенчмарков
| Бенчмарк |
GPT-5.1 / 5.4 |
Gemini 3.1 Pro |
Победитель |
| ARC-AGI-2 |
17,6% |
77,1% |
🟦 Gemini |
| AIME 2025 |
94,0% |
н/д |
🟥 GPT |
| HMMT 2025 |
93,3% |
н/д |
🟥 GPT |
| SWE-Bench Verified |
76,3% |
80,6% |
🟦 Gemini |
| GPQA Diamond |
88,1% |
94,3% |
🟦 Gemini |
| Humanity’s Last Exam |
24,8% |
44,4% |
🟦 Gemini |
| AI Analysis Index |
— |
#1 из 115 |
🟦 Gemini |
Вывод по разделу: по совокупности независимых бенчмарков Gemini 3.1 Pro выигрывает в 5 из 7 категорий. GPT-5.4 сохраняет лидерство в математике олимпийского уровня — и это серьёзное преимущество для узкого, но важного класса задач. Во всём остальном Google в 2026 году задаёт стандарт.
Мультимодальность: текст — это только начало
Эпоха «просто чат-бота» закончилась. Современные LLM воспринимают мир так же, как человек — через разные каналы восприятия. Но здесь между двумя флагманами пролегает принципиальная граница.
Работа с изображениями: паритет
Обе модели уверенно работают с визуальным контентом: анализируют фотографии, читают графики и диаграммы, распознают текст на скриншотах, описывают интерфейсы и инфографику. Для задач маркетинга — разбор рекламных макетов, анализ конкурентных лендингов, генерация описаний по фото товара — обе модели справляются на высоком уровне. Здесь победителя нет: это базовая функция флагмана 2026 года.
Аудио: только GPT-5.4
Gemini 3.1 Pro не принимает аудио как прямой входной формат. GPT-5.4 же умеет работать со звуком нативно: транскрибировать речь, анализировать интонацию, отвечать на вопросы по содержимому подкаста или голосовой заметки. Для команд, создающих голосовых ассистентов, инструменты расшифровки встреч или аудиоаналитику — это непреодолимое преимущество OpenAI.
Видео: только GPT-5.4
Это, пожалуй, самое ощутимое практическое различие. GPT-5.4 понимает видео: может посмотреть ролик и ответить на вопросы по содержимому, выделить ключевые моменты, описать действия в кадре. Gemini 3.1 Pro этого не умеет в прямом смысле — видео как входной формат модель не поддерживает. Для видеомаркетинга, анализа обучающего контента или разбора записей вебинаров GPT-5.4 не имеет альтернативы.
Кодовое зрение (Code Vision)
Обе модели умеют читать скриншоты интерфейсов и генерировать по ним код — это стало стандартом для флагманов. Однако Gemini 3.1 Pro демонстрирует более высокие результаты в задачах реального программирования (SWE-Bench 80,6%), что косвенно указывает на лучшее понимание визуальных архитектурных схем и диаграмм в контексте разработки.
Итог по мультимодальности
| Модальность |
GPT-5.4 |
Gemini 3.1 Pro |
| Текст |
✅ |
✅ |
| Изображения |
✅ |
✅ |
| Аудио |
✅ |
❌ |
| Видео |
✅ |
❌ |
| Скриншоты/UI |
✅ |
✅ |
По мультимодальности GPT-5.4 выигрывает с явным преимуществом: два дополнительных канала восприятия — аудио и видео — открывают целые классы задач, недоступные для Gemini 3.1 Pro. Если ваш продукт работает только с текстом и изображениями — разницы нет. Но как только появляется звук или видео — альтернативы GPT-5.4 не существует.
Интеллект и рассуждение: кто думает глубже?
Бенчмарки показывают цифры, но за ними стоит более фундаментальный вопрос: как именно модель приходит к ответу? Архитектура рассуждения — это то, что отличает «умную» модель от «быстрой».
Как думает GPT-5.4: режим Thinking
GPT-5.4 предлагает два режима работы. В режиме Instant модель отвечает почти мгновенно — без глубокого внутреннего монолога, опираясь на «интуицию», накопленную при обучении. В режиме Thinking модель явно выстраивает цепочку промежуточных рассуждений перед финальным ответом: раскладывает задачу на шаги, проверяет себя, отбрасывает ошибочные гипотезы. Пользователь может видеть этот процесс — это делает рассуждение прозрачным и верифицируемым. Именно Thinking-режим обеспечивает GPT-5.4 результаты уровня 94% на олимпийской математике AIME.
Как думает Gemini 3.1 Pro: Extended Thinking
Gemini 3.1 Pro использует Extended Thinking — глубокое внутреннее рассуждение, которое происходит до того, как модель начинает генерировать ответ. Именно поэтому задержка первого токена достигает ~29 секунд: модель буквально «обдумывает» задачу в скрытом пространстве, прежде чем выдать результат. Этот подход дал феноменальные результаты на ARC-AGI-2 (77,1%) и Humanity’s Last Exam (44,4%) — тестах, где важна не скорость, а качество суждения.
Галлюцинации: кто врёт меньше?
Это больная тема для всех LLM. Gemini 3.1 Pro благодаря Extended Thinking демонстрирует более низкий уровень фактических ошибок на сложных профессиональных вопросах — об этом свидетельствует результат GPQA Diamond 94,3% против 88,1% у GPT-5.1. Однако GPT-5.4 в режиме Thinking также значительно снижает галлюцинации по сравнению с режимом Instant. Практический вывод: в обоих случаях включайте режим рассуждения для задач, где цена ошибки высока.
Реальные примеры глубины рассуждения
- Юридический анализ: Gemini 3.1 Pro с окном в 1М токенов прочитает весь договор целиком и найдёт противоречия между разделами. GPT-5.4 придётся разбивать документ на части.
- Научный вывод: При разборе исследовательской статьи Gemini 3.1 Pro точнее воспроизводит методологию и ограничения работы — результат 94,3% на GPQA это подтверждает.
- Бизнес-кейсы: GPT-5.4 в Thinking-режиме лучше структурирует многоступенчатые управленческие решения благодаря прозрачной цепочке рассуждений, которую легко проверить и скорректировать.
Вердикт по рассуждению
| Критерий |
GPT-5.4 |
Gemini 3.1 Pro |
| Прозрачность рассуждения |
✅ Видимые шаги |
⚠️ Скрытый процесс |
| Глубина для сложных задач |
✅ Высокая |
✅✅ Выше |
| Скорость отклика |
✅ Быстро (Instant) |
⚠️ ~29 сек задержка |
| Галлюцинации |
Низкий уровень |
Ниже на экспертных темах |
| Математика |
✅✅ Лидер |
⚠️ Слабее |
По совокупности Gemini 3.1 Pro думает глубже в большинстве сценариев — но GPT-5.4 делает процесс рассуждения прозрачным и управляемым, что критично в профессиональных и корпоративных контекстах, где нужно объяснить, почему модель пришла к такому выводу.
Скорость и производительность в реальных условиях
Интеллект без скорости — это умный человек, который думает три минуты перед каждой фразой. В продуктовой разработке и массовой генерации контента скорость — это деньги и пользовательский опыт.
Два разных типа «быстроты»
Скорость LLM измеряется двумя независимыми параметрами, которые часто путают:
- TTFT (Time To First Token) — время ожидания до того, как модель начала печатать. Критично для чат-ботов и интерактивных интерфейсов: пользователь видит «думает…» и ждёт.
- Throughput (токенов/сек) — скорость генерации после старта. Критично для API, пакетной обработки и длинных документов.
У Gemini 3.1 Pro парадоксальная ситуация: высокий throughput (105,8 т/сек) при высоком TTFT (~29 секунд). Модель долго «думает», но потом выдаёт текст быстро. GPT-5.4 в режиме Instant начинает отвечать почти мгновенно — это принципиально важно для диалоговых продуктов.
Что это значит на практике
Представьте два сценария:
Сценарий А — чат-бот поддержки клиентов. Пользователь задаёт вопрос и ждёт. 29 секунд тишины перед первым словом — это неприемлемо для UX. Здесь GPT-5.4 в режиме Instant выигрывает безоговорочно.
Сценарий Б — пакетная генерация SEO-статей через API. Вы запускаете 100 запросов на сервере, результат нужен через 5 минут, а не в реальном времени. Здесь задержка первого токена не важна — важна суммарная скорость. Gemini 3.1 Pro с 105,8 т/сек справится эффективно.
Производительность при длинном контексте
Отдельная история — скорость при работе с большим контекстом. При заполнении контекстного окна на 50–80% обе модели замедляются, но Gemini 3.1 Pro сохраняет стабильность дольше — архитектура изначально проектировалась под миллион токенов. GPT-5.4 при приближении к 400К токенов начинает терять в скорости ощутимее.