Первая открытая модель, которая на равных соревнуется с GPT-5 — и при этом стоит в 10–30 раз дешевле. Как китайская лаборатория под санкциями переписала правила игры.
Декабрь 2025 года вошёл в историю искусственного интеллекта как месяц, когда открытые модели окончательно закрыли разрыв с закрытыми флагманами. 1 декабря китайская лаборатория DeepSeek выпустила DeepSeek V3.2 — и мировое AI-сообщество замерло: открытая модель под лицензией MIT показала результаты уровня GPT-5 на ключевых математических и программистских бенчмарках, взяв золотые медали сразу на двух международных олимпиадах.
Это был не первый раз, когда DeepSeek удивляла мир. В начале 2025 года выход DeepSeek V3 и R1 заставил переосмыслить представления о том, сколько вычислительных ресурсов нужно для обучения модели переднего края. Но V3.2 — это другой масштаб. Модель обучена в условиях американских экспортных санкций на чипы, при вычислительном бюджете на порядок меньшем, чем у конкурентов — и всё равно вышла на их уровень.
В этом обзоре — полный разбор модели: архитектура и ключевые технические решения, бенчмарки и реальные достижения, сравнение с другими открытыми моделями — Llama 4, Qwen3, Mistral Large 3, Gemma 4, — а также честный разговор об ограничениях. Без маркетинга: только то, что реально важно знать о DeepSeek V3.2.
Дата выхода
1 дек. 2025
Лицензия
MIT
Параметры
685B / 37B акт.
Контекст
163 800 токенов
Архитектура и технические решения
Что внутри модели и почему это важно
DeepSeek V3.2 не является революцией с нуля — это тонко выверенное накопление инженерных решений, каждое из которых направлено на одно: получить максимум интеллекта при минимуме вычислений. Три ключевых нововведения отличают её от предшественников.
01
Mixture of Experts (MoE) — 685 млрд параметров, 37 млрд активных
Модель содержит 256 специализированных «экспертных» сетей на каждом слое, но для обработки каждого токена активируются только 8 из них. Это архитектурный компромисс, позволяющий хранить знания масштаба 685B-параметровой модели при вычислительных затратах, сопоставимых с моделью в ~37B параметров. Именно поэтому DeepSeek V3.2 может работать быстро и дёшево, не жертвуя качеством.
02
DeepSeek Sparse Attention (DSA) — длинный контекст без лишних затрат
Стандартный механизм внимания в трансформерах требует вычислений, которые растут как O(L²) — квадратично от длины контекста. При контексте в 163 000 токенов это колоссальные затраты. DSA заменяет его разреженным вниманием O(kL), где k — небольшое фиксированное число «значимых» позиций. Результат: обработка длинных текстов стала дешевле на 50–70% без измеримой потери качества. Это впервые обкатали в экспериментальной V3.2-Exp ещё в сентябре 2025 — производственная V3.2 получила это как базовую функцию.
03
Thinking in Tool-Use — рассуждение не прерывается при вызове инструментов
Все предыдущие модели с инструментами страдали одной проблемой: при каждом tool call внутренняя цепочка рассуждений сбрасывалась и модель начинала думать заново. DeepSeek V3.2 — первая модель, реализовавшая Thinking Retention Mechanism: она сохраняет весь ход мысли на протяжении агентной сессии, пока не изменится исходный запрос пользователя. На практике это означает заметно более точные ответы при сложных многошаговых задачах с вызовом внешних инструментов.
04
Масштабированное обучение с подкреплением (RL) — 85 000+ инструкций, 1 800+ сред
Post-training — этап после предобучения, где модель учится быть полезной и точной — в V3.2 построен на трёх специализированных «моделях-учителях»: отдельных для кода, математики и агентных задач. Они генерируют синтетические данные для дообучения основной модели. Протокол GRPO (Group Relative Policy Optimization) при этом убирает необходимость в отдельной critic-сети, снижая потребление памяти при RL-обучении примерно вдвое. Итог — модель, обученная на по-настоящему сложных задачах, а не только на стандартных датасетах.
Два варианта одной модели
DeepSeek выпустила V3.2 в двух конфигурациях, рассчитанных на разные сценарии использования.
DeepSeek V3.2
Ежедневный помощник
Доступна везде — API, веб-интерфейс, мобильное приложение. Поддерживает tool-use в обоих режимах (thinking и non-thinking). Оптимальный баланс скорости и качества для регулярных задач.
DeepSeek V3.2-Speciale
Максимальная глубина
Та же архитектура, но с расширенными цепочками рассуждений и более высоким вычислительным бюджетом при инференсе. Соперничает с Gemini 3.0 Pro. Не поддерживает tool-use — заточена исключительно под сложные аналитические и математические задачи.
Стоит отметить контекст: всё это сделано на GPU H800 — экспортно-ограниченной версии H100 с урезанными скоростями межсоединений. Базовая версия V3 была обучена на 2 048 таких чипах за $5.6 млн. Для сравнения: Llama 3 405B потребовала более 30 млн GPU-часов. Эффективность архитектуры DeepSeek — не случайность, а вынужденная необходимость, превратившаяся в конкурентное преимущество.
Бенчмарки и реальные достижения
Цифры, которые изменили восприятие открытых моделей
Бенчмарки — несовершенный инструмент: модели обучаются на похожих данных, а результаты могут быть подогнаны под тесты. Но есть категория результатов, которую сложно оспорить: соревнования в реальном времени, где задачи неизвестны заранее, а оценивают люди. Именно здесь DeepSeek V3.2-Speciale заявила о себе наиболее громко.
Олимпийский уровень: соревнования 2025 года
IMO 2025 — международная математическая олимпиада
Золотая медаль — 35/42 балла
Решено 5 из 6 задач. Порог золотой медали среди людей — 31 балл.
IOI 2025 — олимпиада по информатике
Золотая медаль — 492/600, 10-е место
10-е место среди всех участников — людей и систем ИИ.
ICPC World Finals 2025
2-е место — 10 из 12 задач
Чемпионат мира по программированию среди студентов — высшая лига алгоритмических задач.
CMO 2025 — китайская математическая олимпиада
Золотая медаль
Одно из самых сложных национальных математических соревнований в мире.
Математические бенчмарки: сравнение с закрытыми флагманами
Бенчмарк
DeepSeek V3.2-S
GPT-5 High
Gemini 3.0 Pro
AIME 2025 (вступительный экзамен AMC)
96.0%
94.6%
95.0%
HMMT 2025 (командный тур MIT/Harvard)
99.2%
—
97.5%
LiveCodeBench (новые задачи кодинга)
83.3%
84.5%
90.7%
MMLU (широкие знания)
88.5%
~88%
~89%
Где DeepSeek V3.2 ведёт — и где отстаёт
Сильные стороны
▲Математика и конкурентное программирование — лучший результат среди открытых моделей
▲AIME 2025 — превышает GPT-5 High (96.0% vs 94.6%)
▲Широкая база знаний — MMLU 88.5%, конкурентный уровень с закрытыми моделями
▲Кодинг для практических задач — уровень GPT-5, заметно лучше Claude 4.5
Слабые стороны
▼HLE (предельно сложные задачи) — заметно уступает Gemini 3.0 Pro
▼LiveCodeBench — 83.3% против 90.7% у Gemini 3.0 Pro
▼Сложные агентные цепочки — уступает Claude Opus 4.5 и GPT-5 при многошаговом tool-use
▼Глубина знаний о мире — меньший объём предобучения сказывается на редких темах
Сами разработчики DeepSeek честно признают в техническом отчёте: breadth of world knowledge — широта знаний о мире — ещё уступает ведущим закрытым моделям из-за меньшего объёма предобучающих данных. Это не маркетинговая скромность: у модели с меньшим compute-бюджетом объективно меньше «прочитанного». Планируется устранить в следующих итерациях.
Сравнение с другими открытыми моделями
Llama 4, Qwen3, Mistral Large 3, Gemma 4 — кто где сильнее
Открытый ландшафт в конце 2025 — начале 2026 года стал по-настоящему конкурентным. DeepSeek V3.2 — не единственная сильная модель, доступная без ограничений. Чтобы понять, где она действительно лучшая, а где уступает, нужно смотреть на конкретные задачи.
| Параметр | DeepSeek V3.2 | Llama 4 Maverick | Qwen3-235B | Mistral Large 3 | Gemma 4 27B |
|---|---|---|---|---|---|
| Всего параметров | 685B | 400B | 235B | 675B | 27B |
| Активных на токен | 37B | 17B | 22B | dense | dense |
| Контекст | 163K | 1M | 131K | 128K | 128K |
| Лицензия | MIT | Llama 4 Community | Apache 2.0 | Apache 2.0 | Gemma Terms |
| API, input / 1M | $0.027 | ~$0.19 | $0.38 | $2.00 | бесплатно |
| Математика / reasoning | ★★★★★ | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ |
| Код | ★★★★☆ | ★★★★☆ | ★★★★★ | ★★★☆☆ | ★★★☆☆ |
| Агенты / tool-use | ★★★☆☆ | ★★★★☆ | ★★★☆☆ | ★★★☆☆ | ★★☆☆☆ |
| Мультиязычность | ★★★☆☆ | ★★★★☆ | ★★★★★ | ★★★★☆ | ★★★☆☆ |
Разбор по конкурентам
Llama 4 (Scout / Maverick) — Meta
Llama 4 Community
Главное преимущество Llama 4 — контекстное окно. Scout поддерживает до 10 миллионов токенов: это несколько крупных кодовых баз или библиотека документов в одном запросе. Ни одна другая открытая модель рядом не стоит. На практических задачах SWE-bench (реальные баги в реальных репозиториях) Maverick также держится лучше DeepSeek. Слабость: математика и reasoning заметно хуже, цена через managed API выше. Лицензия Llama 4 Community ограничивает использование сервисами с >700M пользователей — для большинства это не проблема, но читать мелкий шрифт стоит.
Qwen3-235B — Alibaba
Apache 2.0
Ближайший полноценный конкурент DeepSeek V3.2 по общему уровню. Qwen3-235B лидирует в коде: HumanEval 88.0% — лучший результат среди открытых моделей в своём классе. На мультиязычности Qwen вне конкуренции: 201 язык, включая редкие азиатские. Лицензия Apache 2.0 — максимально свободная из доступных. Отдельного внимания заслуживает Qwen3.5-9B: модель весом 9B параметров показывает GPQA Diamond 81.7% против 71.5% у GPT-OSS-120B — модели в 13 раз крупнее. Это принципиально иной уровень эффективности для edge-deployment.
Mistral Large 3 — Mistral AI
Apache 2.0
Европейская альтернатива с историей. 675B параметров, 80+ языков, первая крупная MoE-модель от Mistral после долгого перерыва — специально оптимизированная для Blackwell-чипов NVIDIA. По общему качеству рассуждений уступает DeepSeek V3.2, но выигрывает в двух нишах: compliance-требования на европейском рынке (GDPR, AI Act) и мультиязычные задачи с европейскими языками. Цена через API существенно выше — $2/M input токенов.
Gemma 4 27B — Google
Gemma Terms
Другая весовая категория, но другая и ниша. Gemma 4 весит 14 ГБ — она запускается на потребительском железе, работает на MacBook с 16 ГБ RAM, генерирует 85 токенов в секунду без GPU-кластера. На прямое сравнение с DeepSeek V3.2 по качеству она не претендует — разрыв в параметрах слишком велик. Но если задача — локальный инференс без облака, без данных наружу, без latency — Gemma 4 и малые версии Qwen3.5 остаются единственным разумным выбором.
Вывод: не существует одной «лучшей» открытой модели
DeepSeek V3.2 — лидер по математике и reasoning при лучшей цене среди платных API. Qwen3-235B берёт кодом и мультиязычностью. Llama 4 Scout — контекстом. Gemma 4 и малые Qwen3.5 — компактностью для edge. Mistral — европейским compliance. Грамотный стек в 2026 году часто включает несколько моделей под разные задачи.
Стоимость и экономика
Почему ценовой разрыв — это не маркетинг, а структурное преимущество
Производительность DeepSeek V3.2 была бы впечатляющей сама по себе. Но в сочетании с ценой она становится явлением другого порядка. Модель уровня GPT-5 доступна через API по цене, которая в 10–30 раз ниже закрытых аналогов — и это не временная акция, а следствие архитектурных решений.
Input, за 1M токенов
$0.027
DeepSeek V3.2 API
Output, за 1M токенов
$0.11
DeepSeek V3.2 API
Self-hosting (MIT)
$0
при своей инфраструктуре
Реальный пример: одна типичная задача
Задача: обработать документ на 100 000 токенов и получить ответ на 100 000 токенов
DeepSeek V3.2
$0.07
Qwen3-235B (API)
$0.38
Mistral Large 3
$0.80
GPT-5
$1.13
Claude Opus 4.5
~$4.50
Данные: публичные API-тарифы на декабрь 2025. Для Llama 4 через managed API — сопоставимо с Qwen3.
Экономика self-hosting: когда выгодно разворачивать самому
MIT-лицензия даёт право скачать все 685B параметров, дообучить их, встроить в продукт и не платить за каждый токен. Это стратегически важно для компаний с требованиями к суверенитету данных или высоким объёмом трафика.
Сценарий
Что выгоднее
До ~50M токенов в месяц
API — нет смысла держать инфраструктуру
50M+ токенов в месяц
Self-hosting начинает окупаться
Требования data sovereignty / GDPR
Self-hosting вне зависимости от объёма
Fine-tuning под свою задачу
Только self-hosting — API дообучение не даёт
Минимальная конфигурация для self-hosting полной модели — 8× H100 (640 ГБ VRAM суммарно) при FP8-квантизации. Это $250–300K инвестиций в железо или $2–5K/месяц в облачных GPU-кластерах. Для большинства команд API остаётся разумным выбором — тем более что при цене $0.07 за типичную задачу разница с self-hosting минимальна.
Кому подходит и для каких задач
Конкретные сценарии — и честные антикейсы
DeepSeek V3.2 — модель общего назначения с выраженными пиками в математике, коде и reasoning. Это значит, что для одних задач она является оптимальным выбором, для других — лишь приемлемым, а для третьих её использование будет прямой ошибкой.
Где DeepSeek V3.2 — очевидный выбор
Исследователи, учёные, студенты STEM
Математические доказательства, решение задач олимпиадного уровня, разбор статей, генерация и проверка гипотез. Модель с золотой медалью IMO 2025 не нуждается в дополнительных рекомендациях для этой аудитории. При этом MIT-лицензия позволяет использовать её в академических вычислительных кластерах без ограничений.
Разработчики — изолированные задачи кода
Отладка, генерация алгоритмов, code review, написание тестов, объяснение чужого кода. На конкретных задачах без длинных агентных цепочек DeepSeek V3.2 держится на уровне GPT-5 при цене в 15–20 раз ниже. Идеален для dev copilot с высоким трафиком — экономия по API-счёту ощутима уже на небольших командах.
Стартапы и indie-разработчики
Frontier-качество без frontier-бюджета — именно то, чего не хватало небольшим командам. Задача, которая обходилась в $15 через GPT-5, стоит $0.50 через DeepSeek. Для продукта с несколькими тысячами пользователей это разница между прибыльностью и убытком на API-расходах.
Аналитики и исследователи данных
Контекст 163K токенов — это ~120 000 слов или несколько сотен страниц документов в одном запросе. Синтез длинных отчётов, обработка финансовых данных, поиск паттернов в больших массивах текста — всё это укладывается в один вызов без разбивки на чанки.
Компании с требованиями data sovereignty
MIT-лицензия — единственная в этом списке, которая позволяет развернуть модель полностью внутри периметра, дообучить на собственных данных и не отправлять ни байта в сторонние облака. Для fintech, healthcare и государственных проектов это принципиальное условие, которое закрытые GPT-5 или Claude физически не могут выполнить.
Где DeepSeek V3.2 — не лучший выбор
Контекст больше 163K токенов
Нужно работать с огромными кодовыми базами, многолетними архивами или несколькими книгами в одном запросе — берите Llama 4 Scout с его 10M токенами. DeepSeek здесь просто не дотягивается физически.
Сложные автономные агенты
Длинные цепочки с десятками tool call, условным ветвлением и состоянием между шагами — зона Claude Opus 4.5 и GPT-5. DeepSeek теряет состояние и дрейфует в сложных многошаговых workflows.
Мультиязычность — 50+ языков
Продукты для глобальной аудитории, особенно с охватом редких языков — выбор Qwen3.5 с 201 поддерживаемым языком или Mistral Large 3 для европейского рынка.
Edge и мобильный деплой
685B параметров требуют минимум 8× H100. Для устройств, ноутбуков или IoT — только Gemma 4 27B (14 ГБ) или малые версии Qwen3.5. DeepSeek здесь физически неприменим.
Практическое правило выбора
Если задача — математика, код, аналитика, reasoning, или просто нужна frontier-модель по минимальной цене без vendor lock-in — DeepSeek V3.2 является ответом по умолчанию. Для всего остального — смотрите на конкретный параметр, по которому другая модель объективно лидирует.
Геополитика, ограничения и итог
Почему это важнее, чем кажется — и что будет дальше
Контекст, который нельзя игнорировать
DeepSeek V3.2 создана в условиях американских экспортных ограничений на чипы. Лаборатория не имела доступа к H100 — и работала на H800, урезанной версии с замедленными межсоединениями. Это не сноска в технической документации: это центральный факт истории модели.
Санкции предполагали, что ограничение доступа к вычислениям ограничит и качество моделей. DeepSeek V3.2 показала, что это уравнение не работает так прямолинейно. Когда нет возможности просто купить больше GPU, приходится думать об архитектуре — и DSA, MoE с 256 экспертами, GRPO без critic-сети стали следствием именно этого давления.
GPU DeepSeek vs Llama 3
11×
меньше GPU-часов потрачено
Бюджет обучения V3
$5.6M
vs сотни миллионов у конкурентов
Чипы
H800
санкционный аналог H100
Для AI-индустрии это меняет несколько устоявшихся тезисов. Первый: «кто владеет compute — тот владеет frontier AI». DeepSeek показала, что архитектурная эффективность может компенсировать разрыв в железе. Второй: «открытые модели всегда отстают от закрытых на поколение». V3.2 выпустила это утверждение из актуального словаря.
Честные ограничения
Широта знаний о мире. Меньший объём предобучающих данных относительно GPT-5 и Gemini 3 сказывается на редких, нишевых и актуальных темах. Модель может уверенно ошибаться там, где закрытые флагманы держатся точнее.
Эффективность токенов в reasoning. Thinking-режим генерирует длинные цепочки рассуждений, которые не всегда оправданы сложностью задачи. Это выливается в более высокий расход токенов и latency по сравнению с теми же GPT-5 или Gemini 3.
Творческий контент. В генерации художественных текстов и нестандартных нарративов модель консервативна — склонна к предсказуемым формулировкам и избегает смелых образов. Claude заметно свободнее в этом отношении.
Инфраструктурный порог для self-hosting. 8× H100 — это не потребительское решение. Для команд без серьёзной GPU-инфраструктуры self-hosting требует либо значительных инвестиций, либо аренды облачных кластеров.
Итог
DeepSeek V3.2 — это не просто сильная модель. Это доказательство того, что архитектурная инженерия способна заменить вычислительное превосходство. Открытая модель под MIT-лицензией с результатами уровня GPT-5, золотыми медалями IMO и IOI, ценой в $0.027 за миллион токенов и правом развернуть её где угодно — такого сочетания не было до декабря 2025 года.
Это не означает, что DeepSeek V3.2 «лучшая модель» в абсолютном смысле. Gemini 3.0 Pro превосходит её в сложном reasoning и мультимодальности. Claude Opus 4.5 надёжнее в автономных агентах. Llama 4 Scout не имеет конкурентов по контекстному окну. Qwen3-235B лидирует в коде и мультиязычности. Открытый AI-ландшафт в 2026 году — это не пьедестал с одним победителем, а зрелая экосистема специализированных инструментов.
Но если нужно выбрать одну открытую модель как точку отсчёта — модель, которая задаёт стандарт соотношения возможностей, стоимости и свободы использования, — DeepSeek V3.2 в декабре 2025 года стала именно ею.