DeepSeek mHC: Как элегантная математика решает нестабильность

1 января 2026 года исследовательская группа DeepSeek опубликовала технический документ, который может определить вектор развития архитектур нейросетей на ближайшие годы. В работе под названием «mHC: Manifold-Constrained Hyper-Connections» представлена новая архитектура, решающая фундаментальную проблему масштабирования трансформеров — нестабильность градиентов при усложнении связей.

Вместо экстенсивного наращивания вычислительных мощностей, DeepSeek предлагает алгоритмическое решение, основанное на строгих математических ограничениях.

От Residual к Hyper-Connections: В поисках связности

Современные большие языковые модели (LLM) строятся на базе архитектуры Трансформеров, использующих остаточные связи (Residual Connections). Это механизм, позволяющий сигналу проходить через слои сети, минуя нелинейные преобразования, что облегчает обучение глубоких сетей. Однако эта структура линейна и ограничивает поток информации между удаленными слоями.

Исследователи DeepSeek предложили концепцию Hyper-Connections (HC). Идея заключается в создании плотной сети динамических связей между слоями, где каждый слой имеет доступ к информации с множества предыдущих уровней, а не только непосредственного «соседа». Теоретически это значительно повышает выразительную способность модели (expressive power).

Проблема: Взрыв сигнала (Signal Explosion)

Внедрение гиперсвязей столкнулось с серьезным препятствием физики обучения нейросетей. При тестировании наивной реализации HC исследователи зафиксировали феномен экспоненциального роста дисперсии сигнала.

По мере прохождения через слои сети, амплитуда сигнала и градиентов усиливалась бесконтрольно. В экспериментах коэффициент усиления достигал 3000x. Это приводит к двум критическим проблемам:

  1. Нестабильность обучения: Веса модели обновляются слишком агрессивно, что ведет к расходимости (loss divergence).

  2. Числовая неустойчивость: Значения выходят за пределы точности формата с плавающей запятой (fp16/bf16).

Модель становилась фактически необучаемой.

Решение: Manifold-Constrained Hyper-Connections (mHC)

Чтобы обуздать «взрыв», не отказываясь от преимуществ гиперсвязей, авторы применили подход, основанный на теории многообразий (Manifold Theory). Так родилась архитектура mHC.

Ключевым математическим инструментом стабилизации стали двойные стохастические матрицы (Doubly Stochastic Matrices).

Как это работает?

В линейной алгебре двойная стохастическая матрица — это квадратная матрица неотрицательных вещественных чисел, в которой:

  • Сумма элементов в каждой строке равна 1.

  • Сумма элементов в каждом столбце равна 1.

DeepSeek применили это свойство к матрицам весов, управляющим гиперсвязями. Вместо произвольных коэффициентов смешивания слоев, система принудительно проецирует веса на так называемое многообразие Биркгофа (Birkhoff polytope) — пространство всех двойных стохастических матриц.

Это математическое ограничение (constraint) дает гарантию сохранения нормы сигнала. Поскольку сумма весов строго нормирована по обоим измерениям (вход и выход), энергия сигнала не рассеивается (vanishing gradients) и не усиливается (exploding gradients). Сигнал просто перераспределяется в многомерном пространстве признаков.

Основные результаты

В 5 разделе работы авторы представили эмпирические доказательства эффективности метода на примере обучения моделей размером до 27 миллиардов параметров (27B). Сравнение проводилось между тремя архитектурами: Baseline (стандартный трансформер), HC (стандартные гиперсвязи) и mHC.

Анализ стабильности обучения (Figure 5)

Рисунок 5 в документе демонстрирует динамику функции потерь (Loss Curve) и нормы градиентов в процессе обучения модели 27B.

  • Standard HC (Светло-голубая линия): Демонстрирует явную нестабильность. На графике видны резкие всплески (spikes) значений функции потерь, особенно заметные в районе 12,000 шагов. Это указывает на риск расходимости модели, когда градиенты ведут себя хаотично. Несмотря на высокую теоретическую мощность, обучение такой модели сопряжено с большими рисками.

  • DeepSeek mHC (Синяя линия): Кривая обучения абсолютно гладкая и монотонно убывающая. Она практически неотличима от эталонной линии Baseline по стабильности, но показывает лучшие результаты по значению Loss. Никаких всплесков или аномалий не зафиксировано на протяжении всего процесса обучения.

  • Итог по графику: mHC успешно подавляет амплитуду сигнала, удерживая коэффициент усиления в пределах 1.6x, в то время как у обычного HC он достигал 3000x.

Эффективность на бенчмарках (Table 4)

В "Таблице 4" приведены результаты тестирования обученной модели 27B на популярных академических бенчмарках. Интересно, что Standard HC, несмотря на нестабильность, также показывает прирост над Baseline, но mHC превосходит обе архитектуры, обеспечивая и качество, и стабильность.
Вот часть результатов из таблицы приведённой в работе:

Бенчмарк (Task) Метрика Baseline (27B) Standard HC (27B) DeepSeek mHC (27B) Прирост (mHC vs Baseline)
MMLU Знания (5-shot) 59.0 61.2 63.4 +4.4
GSM8K Математика (8-shot) 46.7 50.1 53.8 +7.1
BBH Рассуждения (3-shot) 43.8 48.9 51.0 +7.2
DROP Чтение/Понимание (3-shot) 47.0 51.6 53.9 +6.9

Примечание: Данные для Standard HC показывают, что гиперсвязи сами по себе эффективны, но mHC позволяет извлечь из них максимум, не жертвуя стабильностью процесса обучения.

Ключевые выводы из данных:

  1. Решение сложных задач: Наибольший отрыв mHC демонстрирует в задачах, требующих многоступенчатых рассуждений (Reasoning), таких как GSM8K (математика) и BBH (алгоритмические задачи). Это подтверждает гипотезу, что более плотная связность слоев помогает модели строить более сложные логические цепочки.

  2. Снижение Loss: Финальное значение функции потерь у mHC было на 0.021 ниже, чем у Baseline, что является существенным улучшением для моделей такого масштаба.

Заключение

Работа DeepSeek демонстрирует переход от эмпирического подбора параметров («alchemy») к строгому математическому дизайну архитектур. Использование двойных стохастических матриц позволяет создавать значительно более глубокие и связные сети, обходя ограничения, которые ранее считались непреодолимыми без радикального увеличения аппаратной базы.

Материалы использованные при подготовке статьи

  1. DeepSeek mHC: Manifold-Constrained Hyper-Connections
  2. DeepSeek kicks off 2026 with paper