DeepSeek V3.2: архитектура, стоимость и сравнение моделей

Первая открытая модель, которая на равных соревнуется с GPT-5 — и при этом стоит в 10–30 раз дешевле. Как китайская лаборатория под санкциями переписала правила игры.

Декабрь 2025 года вошёл в историю искусственного интеллекта как месяц, когда открытые модели окончательно закрыли разрыв с закрытыми флагманами. 1 декабря китайская лаборатория DeepSeek выпустила DeepSeek V3.2 — и мировое AI-сообщество замерло: открытая модель под лицензией MIT показала результаты уровня GPT-5 на ключевых математических и программистских бенчмарках, взяв золотые медали сразу на двух международных олимпиадах.

Это был не первый раз, когда DeepSeek удивляла мир. В начале 2025 года выход DeepSeek V3 и R1 заставил переосмыслить представления о том, сколько вычислительных ресурсов нужно для обучения модели переднего края. Но V3.2 — это другой масштаб. Модель обучена в условиях американских экспортных санкций на чипы, при вычислительном бюджете на порядок меньшем, чем у конкурентов — и всё равно вышла на их уровень.

В этом обзоре — полный разбор модели: архитектура и ключевые технические решения, бенчмарки и реальные достижения, сравнение с другими открытыми моделями — Llama 4, Qwen3, Mistral Large 3, Gemma 4, — а также честный разговор об ограничениях. Без маркетинга: только то, что реально важно знать о DeepSeek V3.2.

Дата выхода
1 дек. 2025

Лицензия
MIT

Параметры
685B / 37B акт.

Контекст
163 800 токенов

Архитектура и технические решения

Что внутри модели и почему это важно

DeepSeek V3.2 не является революцией с нуля — это тонко выверенное накопление инженерных решений, каждое из которых направлено на одно: получить максимум интеллекта при минимуме вычислений. Три ключевых нововведения отличают её от предшественников.

Mixture of Experts (MoE) — 685 млрд параметров, 37 млрд активных

Модель содержит 256 специализированных «экспертных» сетей на каждом слое, но для обработки каждого токена активируются только 8 из них. Это архитектурный компромисс, позволяющий хранить знания масштаба 685B-параметровой модели при вычислительных затратах, сопоставимых с моделью в ~37B параметров. Именно поэтому DeepSeek V3.2 может работать быстро и дёшево, не жертвуя качеством.

DeepSeek Sparse Attention (DSA) — длинный контекст без лишних затрат

Стандартный механизм внимания в трансформерах требует вычислений, которые растут как O(L²) — квадратично от длины контекста. При контексте в 163 000 токенов это колоссальные затраты. DSA заменяет его разреженным вниманием O(kL), где k — небольшое фиксированное число «значимых» позиций. Результат: обработка длинных текстов стала дешевле на 50–70% без измеримой потери качества. Это впервые обкатали в экспериментальной V3.2-Exp ещё в сентябре 2025 — производственная V3.2 получила это как базовую функцию.

Thinking in Tool-Use — рассуждение не прерывается при вызове инструментов

Все предыдущие модели с инструментами страдали одной проблемой: при каждом tool call внутренняя цепочка рассуждений сбрасывалась и модель начинала думать заново. DeepSeek V3.2 — первая модель, реализовавшая Thinking Retention Mechanism: она сохраняет весь ход мысли на протяжении агентной сессии, пока не изменится исходный запрос пользователя. На практике это означает заметно более точные ответы при сложных многошаговых задачах с вызовом внешних инструментов.

Масштабированное обучение с подкреплением (RL) — 85 000+ инструкций, 1 800+ сред

Post-training — этап после предобучения, где модель учится быть полезной и точной — в V3.2 построен на трёх специализированных «моделях-учителях»: отдельных для кода, математики и агентных задач. Они генерируют синтетические данные для дообучения основной модели. Протокол GRPO (Group Relative Policy Optimization) при этом убирает необходимость в отдельной critic-сети, снижая потребление памяти при RL-обучении примерно вдвое. Итог — модель, обученная на по-настоящему сложных задачах, а не только на стандартных датасетах.

Два варианта одной модели

DeepSeek выпустила V3.2 в двух конфигурациях, рассчитанных на разные сценарии использования.

DeepSeek V3.2
Ежедневный помощник

Доступна везде — API, веб-интерфейс, мобильное приложение. Поддерживает tool-use в обоих режимах (thinking и non-thinking). Оптимальный баланс скорости и качества для регулярных задач.

DeepSeek V3.2-Speciale
Максимальная глубина

Та же архитектура, но с расширенными цепочками рассуждений и более высоким вычислительным бюджетом при инференсе. Соперничает с Gemini 3.0 Pro. Не поддерживает tool-use — заточена исключительно под сложные аналитические и математические задачи.

Стоит отметить контекст: всё это сделано на GPU H800 — экспортно-ограниченной версии H100 с урезанными скоростями межсоединений. Базовая версия V3 была обучена на 2 048 таких чипах за $5.6 млн. Для сравнения: Llama 3 405B потребовала более 30 млн GPU-часов. Эффективность архитектуры DeepSeek — не случайность, а вынужденная необходимость, превратившаяся в конкурентное преимущество.

Бенчмарки и реальные достижения

Цифры, которые изменили восприятие открытых моделей

Бенчмарки — несовершенный инструмент: модели обучаются на похожих данных, а результаты могут быть подогнаны под тесты. Но есть категория результатов, которую сложно оспорить: соревнования в реальном времени, где задачи неизвестны заранее, а оценивают люди. Именно здесь DeepSeek V3.2-Speciale заявила о себе наиболее громко.

Олимпийский уровень: соревнования 2025 года

IMO 2025 — международная математическая олимпиада
Золотая медаль — 35/42 балла
Решено 5 из 6 задач. Порог золотой медали среди людей — 31 балл.

IOI 2025 — олимпиада по информатике
Золотая медаль — 492/600, 10-е место
10-е место среди всех участников — людей и систем ИИ.

ICPC World Finals 2025
2-е место — 10 из 12 задач
Чемпионат мира по программированию среди студентов — высшая лига алгоритмических задач.

CMO 2025 — китайская математическая олимпиада
Золотая медаль
Одно из самых сложных национальных математических соревнований в мире.

Математические бенчмарки: сравнение с закрытыми флагманами

Бенчмарк
DeepSeek V3.2-S
GPT-5 High
Gemini 3.0 Pro

AIME 2025 (вступительный экзамен AMC)
96.0%
94.6%
95.0%

HMMT 2025 (командный тур MIT/Harvard)
99.2%
—
97.5%

LiveCodeBench (новые задачи кодинга)
83.3%
84.5%
90.7%

MMLU (широкие знания)
88.5%
~88%
~89%

Где DeepSeek V3.2 ведёт — и где отстаёт

Сильные стороны

▲Математика и конкурентное программирование — лучший результат среди открытых моделей
▲AIME 2025 — превышает GPT-5 High (96.0% vs 94.6%)
▲Широкая база знаний — MMLU 88.5%, конкурентный уровень с закрытыми моделями
▲Кодинг для практических задач — уровень GPT-5, заметно лучше Claude 4.5

Слабые стороны

▼HLE (предельно сложные задачи) — заметно уступает Gemini 3.0 Pro
▼LiveCodeBench — 83.3% против 90.7% у Gemini 3.0 Pro
▼Сложные агентные цепочки — уступает Claude Opus 4.5 и GPT-5 при многошаговом tool-use
▼Глубина знаний о мире — меньший объём предобучения сказывается на редких темах

Сами разработчики DeepSeek честно признают в техническом отчёте: breadth of world knowledge — широта знаний о мире — ещё уступает ведущим закрытым моделям из-за меньшего объёма предобучающих данных. Это не маркетинговая скромность: у модели с меньшим compute-бюджетом объективно меньше «прочитанного». Планируется устранить в следующих итерациях.

Сравнение с другими открытыми моделями

Llama 4, Qwen3, Mistral Large 3, Gemma 4 — кто где сильнее

Открытый ландшафт в конце 2025 — начале 2026 года стал по-настоящему конкурентным. DeepSeek V3.2 — не единственная сильная модель, доступная без ограничений. Чтобы понять, где она действительно лучшая, а где уступает, нужно смотреть на конкретные задачи.

Параметр	DeepSeek V3.2	Llama 4 Maverick	Qwen3-235B	Mistral Large 3	Gemma 4 27B
Всего параметров	685B	400B	235B	675B	27B
Активных на токен	37B	17B	22B	dense	dense
Контекст	163K	1M	131K	128K	128K
Лицензия	MIT	Llama 4 Community	Apache 2.0	Apache 2.0	Gemma Terms
API, input / 1M	$0.027	~$0.19	$0.38	$2.00	бесплатно
Математика / reasoning	★★★★★	★★★☆☆	★★★★☆	★★★☆☆	★★★☆☆
Код	★★★★☆	★★★★☆	★★★★★	★★★☆☆	★★★☆☆
Агенты / tool-use	★★★☆☆	★★★★☆	★★★☆☆	★★★☆☆	★★☆☆☆
Мультиязычность	★★★☆☆	★★★★☆	★★★★★	★★★★☆	★★★☆☆

Разбор по конкурентам

Llama 4 (Scout / Maverick) — Meta
Llama 4 Community

Главное преимущество Llama 4 — контекстное окно. Scout поддерживает до 10 миллионов токенов: это несколько крупных кодовых баз или библиотека документов в одном запросе. Ни одна другая открытая модель рядом не стоит. На практических задачах SWE-bench (реальные баги в реальных репозиториях) Maverick также держится лучше DeepSeek. Слабость: математика и reasoning заметно хуже, цена через managed API выше. Лицензия Llama 4 Community ограничивает использование сервисами с >700M пользователей — для большинства это не проблема, но читать мелкий шрифт стоит.

Qwen3-235B — Alibaba
Apache 2.0

Ближайший полноценный конкурент DeepSeek V3.2 по общему уровню. Qwen3-235B лидирует в коде: HumanEval 88.0% — лучший результат среди открытых моделей в своём классе. На мультиязычности Qwen вне конкуренции: 201 язык, включая редкие азиатские. Лицензия Apache 2.0 — максимально свободная из доступных. Отдельного внимания заслуживает Qwen3.5-9B: модель весом 9B параметров показывает GPQA Diamond 81.7% против 71.5% у GPT-OSS-120B — модели в 13 раз крупнее. Это принципиально иной уровень эффективности для edge-deployment.

Mistral Large 3 — Mistral AI
Apache 2.0

Европейская альтернатива с историей. 675B параметров, 80+ языков, первая крупная MoE-модель от Mistral после долгого перерыва — специально оптимизированная для Blackwell-чипов NVIDIA. По общему качеству рассуждений уступает DeepSeek V3.2, но выигрывает в двух нишах: compliance-требования на европейском рынке (GDPR, AI Act) и мультиязычные задачи с европейскими языками. Цена через API существенно выше — $2/M input токенов.

Gemma 4 27B — Google
Gemma Terms

Другая весовая категория, но другая и ниша. Gemma 4 весит 14 ГБ — она запускается на потребительском железе, работает на MacBook с 16 ГБ RAM, генерирует 85 токенов в секунду без GPU-кластера. На прямое сравнение с DeepSeek V3.2 по качеству она не претендует — разрыв в параметрах слишком велик. Но если задача — локальный инференс без облака, без данных наружу, без latency — Gemma 4 и малые версии Qwen3.5 остаются единственным разумным выбором.

Вывод: не существует одной «лучшей» открытой модели

DeepSeek V3.2 — лидер по математике и reasoning при лучшей цене среди платных API. Qwen3-235B берёт кодом и мультиязычностью. Llama 4 Scout — контекстом. Gemma 4 и малые Qwen3.5 — компактностью для edge. Mistral — европейским compliance. Грамотный стек в 2026 году часто включает несколько моделей под разные задачи.

Стоимость и экономика

Почему ценовой разрыв — это не маркетинг, а структурное преимущество

Производительность DeepSeek V3.2 была бы впечатляющей сама по себе. Но в сочетании с ценой она становится явлением другого порядка. Модель уровня GPT-5 доступна через API по цене, которая в 10–30 раз ниже закрытых аналогов — и это не временная акция, а следствие архитектурных решений.

Input, за 1M токенов
$0.027
DeepSeek V3.2 API

Output, за 1M токенов
$0.11
DeepSeek V3.2 API

Self-hosting (MIT)
$0
при своей инфраструктуре

Реальный пример: одна типичная задача

Задача: обработать документ на 100 000 токенов и получить ответ на 100 000 токенов

DeepSeek V3.2

$0.07

Qwen3-235B (API)

$0.38

Mistral Large 3

$0.80

GPT-5

$1.13

Claude Opus 4.5

~$4.50

Данные: публичные API-тарифы на декабрь 2025. Для Llama 4 через managed API — сопоставимо с Qwen3.

Экономика self-hosting: когда выгодно разворачивать самому

MIT-лицензия даёт право скачать все 685B параметров, дообучить их, встроить в продукт и не платить за каждый токен. Это стратегически важно для компаний с требованиями к суверенитету данных или высоким объёмом трафика.

Сценарий
Что выгоднее

До ~50M токенов в месяц
API — нет смысла держать инфраструктуру

50M+ токенов в месяц
Self-hosting начинает окупаться

Требования data sovereignty / GDPR
Self-hosting вне зависимости от объёма

Fine-tuning под свою задачу
Только self-hosting — API дообучение не даёт

Минимальная конфигурация для self-hosting полной модели — 8× H100 (640 ГБ VRAM суммарно) при FP8-квантизации. Это $250–300K инвестиций в железо или $2–5K/месяц в облачных GPU-кластерах. Для большинства команд API остаётся разумным выбором — тем более что при цене $0.07 за типичную задачу разница с self-hosting минимальна.

Кому подходит и для каких задач

Конкретные сценарии — и честные антикейсы

DeepSeek V3.2 — модель общего назначения с выраженными пиками в математике, коде и reasoning. Это значит, что для одних задач она является оптимальным выбором, для других — лишь приемлемым, а для третьих её использование будет прямой ошибкой.

Где DeepSeek V3.2 — очевидный выбор

Исследователи, учёные, студенты STEM

Математические доказательства, решение задач олимпиадного уровня, разбор статей, генерация и проверка гипотез. Модель с золотой медалью IMO 2025 не нуждается в дополнительных рекомендациях для этой аудитории. При этом MIT-лицензия позволяет использовать её в академических вычислительных кластерах без ограничений.

Разработчики — изолированные задачи кода

Отладка, генерация алгоритмов, code review, написание тестов, объяснение чужого кода. На конкретных задачах без длинных агентных цепочек DeepSeek V3.2 держится на уровне GPT-5 при цене в 15–20 раз ниже. Идеален для dev copilot с высоким трафиком — экономия по API-счёту ощутима уже на небольших командах.

Стартапы и indie-разработчики

Frontier-качество без frontier-бюджета — именно то, чего не хватало небольшим командам. Задача, которая обходилась в $15 через GPT-5, стоит $0.50 через DeepSeek. Для продукта с несколькими тысячами пользователей это разница между прибыльностью и убытком на API-расходах.

Аналитики и исследователи данных

Контекст 163K токенов — это ~120 000 слов или несколько сотен страниц документов в одном запросе. Синтез длинных отчётов, обработка финансовых данных, поиск паттернов в больших массивах текста — всё это укладывается в один вызов без разбивки на чанки.

Компании с требованиями data sovereignty

MIT-лицензия — единственная в этом списке, которая позволяет развернуть модель полностью внутри периметра, дообучить на собственных данных и не отправлять ни байта в сторонние облака. Для fintech, healthcare и государственных проектов это принципиальное условие, которое закрытые GPT-5 или Claude физически не могут выполнить.

Где DeepSeek V3.2 — не лучший выбор

Контекст больше 163K токенов

Нужно работать с огромными кодовыми базами, многолетними архивами или несколькими книгами в одном запросе — берите Llama 4 Scout с его 10M токенами. DeepSeek здесь просто не дотягивается физически.

Сложные автономные агенты

Длинные цепочки с десятками tool call, условным ветвлением и состоянием между шагами — зона Claude Opus 4.5 и GPT-5. DeepSeek теряет состояние и дрейфует в сложных многошаговых workflows.

Мультиязычность — 50+ языков

Продукты для глобальной аудитории, особенно с охватом редких языков — выбор Qwen3.5 с 201 поддерживаемым языком или Mistral Large 3 для европейского рынка.

Edge и мобильный деплой

685B параметров требуют минимум 8× H100. Для устройств, ноутбуков или IoT — только Gemma 4 27B (14 ГБ) или малые версии Qwen3.5. DeepSeek здесь физически неприменим.

Практическое правило выбора

Если задача — математика, код, аналитика, reasoning, или просто нужна frontier-модель по минимальной цене без vendor lock-in — DeepSeek V3.2 является ответом по умолчанию. Для всего остального — смотрите на конкретный параметр, по которому другая модель объективно лидирует.

Геополитика, ограничения и итог

Почему это важнее, чем кажется — и что будет дальше

Контекст, который нельзя игнорировать

DeepSeek V3.2 создана в условиях американских экспортных ограничений на чипы. Лаборатория не имела доступа к H100 — и работала на H800, урезанной версии с замедленными межсоединениями. Это не сноска в технической документации: это центральный факт истории модели.

Санкции предполагали, что ограничение доступа к вычислениям ограничит и качество моделей. DeepSeek V3.2 показала, что это уравнение не работает так прямолинейно. Когда нет возможности просто купить больше GPU, приходится думать об архитектуре — и DSA, MoE с 256 экспертами, GRPO без critic-сети стали следствием именно этого давления.

GPU DeepSeek vs Llama 3
11×
меньше GPU-часов потрачено

Бюджет обучения V3
$5.6M
vs сотни миллионов у конкурентов

Чипы
H800
санкционный аналог H100

Для AI-индустрии это меняет несколько устоявшихся тезисов. Первый: «кто владеет compute — тот владеет frontier AI». DeepSeek показала, что архитектурная эффективность может компенсировать разрыв в железе. Второй: «открытые модели всегда отстают от закрытых на поколение». V3.2 выпустила это утверждение из актуального словаря.

Честные ограничения

Широта знаний о мире. Меньший объём предобучающих данных относительно GPT-5 и Gemini 3 сказывается на редких, нишевых и актуальных темах. Модель может уверенно ошибаться там, где закрытые флагманы держатся точнее.

Эффективность токенов в reasoning. Thinking-режим генерирует длинные цепочки рассуждений, которые не всегда оправданы сложностью задачи. Это выливается в более высокий расход токенов и latency по сравнению с теми же GPT-5 или Gemini 3.

Творческий контент. В генерации художественных текстов и нестандартных нарративов модель консервативна — склонна к предсказуемым формулировкам и избегает смелых образов. Claude заметно свободнее в этом отношении.

Инфраструктурный порог для self-hosting. 8× H100 — это не потребительское решение. Для команд без серьёзной GPU-инфраструктуры self-hosting требует либо значительных инвестиций, либо аренды облачных кластеров.

Итог

DeepSeek V3.2 — это не просто сильная модель. Это доказательство того, что архитектурная инженерия способна заменить вычислительное превосходство. Открытая модель под MIT-лицензией с результатами уровня GPT-5, золотыми медалями IMO и IOI, ценой в $0.027 за миллион токенов и правом развернуть её где угодно — такого сочетания не было до декабря 2025 года.

Это не означает, что DeepSeek V3.2 «лучшая модель» в абсолютном смысле. Gemini 3.0 Pro превосходит её в сложном reasoning и мультимодальности. Claude Opus 4.5 надёжнее в автономных агентах. Llama 4 Scout не имеет конкурентов по контекстному окну. Qwen3-235B лидирует в коде и мультиязычности. Открытый AI-ландшафт в 2026 году — это не пьедестал с одним победителем, а зрелая экосистема специализированных инструментов.

Но если нужно выбрать одну открытую модель как точку отсчёта — модель, которая задаёт стандарт соотношения возможностей, стоимости и свободы использования, — DeepSeek V3.2 в декабре 2025 года стала именно ею.