Автор: @vibedilettante + Gemini
Последние два года в индустрии ИИ прошли под флагом «гонки вооружений» размеров контекстного окна. Google и OpenAI предлагают нам миллионы токенов. Но любой разработчик, работавший с RAG (Retrieval-Augmented Generation) на больших объемах, знает грязный секрет этой технологии: больше — не всегда значит лучше.
Сегодня мы разбираем свежий подход от команды Prime Intellect — Recursive Language Models (RLM), который предлагает заменить грубую силу на интеллектуальную навигацию.
Проблема: Context Rot (Деградация контекста)
Представьте, что вас попросили найти одну конкретную фразу в толстой книге. Если вы попытаетесь держать в голове каждое слово этой книги одновременно, вы потеряете нить. То же самое происходит с большими языковыми моделями (LLM).
Существует феномен, называемый «Lost in the Middle». Исследования показывают, что при заполнении огромного контекстного окна (100k+ токенов) способность модели извлекать факты, находящиеся в «середине» текста, резко падает. Модель начинает галлюцинировать или просто игнорировать куски данных. Кроме того, стоимость такого внимания растет нелинейно: удвоение контекста часто ведет к четырехкратному росту затрат на вычисления.
Что предлагает RLM?
Prime Intellect предлагает сменить парадигму: текст — это не входные данные, это внешняя среда.
В архитектуре RLM модель (назовем её «Менеджер») получает доступ к интерпретатору Python. Вместо того чтобы пытаться «проглотить» 500 страниц документации сразу, она действует как человек-исследователь:
- Пишет скрипт, который разбивает текст на главы или логические секции.
- Делегирует задачи своим копиям (или более легким моделям, назовем их «Работниками»), отправляя им на вход только нужные куски текста.
- Агрегирует результаты, проверяет их и решает — ответила ли она на вопрос пользователя или нужно углубиться (рекурсивный вызов).
Это позволяет модели сохранять фокус внимания предельно четким на каждом этапе работы.
Ключевые отличия от классического подхода
| Характеристика | Классическая LLM (Long Context) | RLM (Recursive) |
|---|---|---|
| Метод обработки | Читает всё сразу (In-context) | Читает порциями через код |
| Внимание | Рассеивается на весь объем | Сфокусировано на конкретном фрагменте |
| Стоимость | Высокая (квадратичная зависимость) | Низкая (линейная зависимость) |
| Ограничение | Размер окна (128k, 1M и т.д.) | Практически бесконечно |
Compute-Optimal Inference: Битва за эффективность
RLM — это яркий пример тренда на Inference-Time Compute. Мы перестаем гнаться за тем, чтобы модель «знала» всё заранее. Мы даем ей время «подумать» и инструменты (Python REPL), чтобы она могла исследовать данные в реальном времени.
С экономической точки зрения это прорыв. Вы можете использовать для черновой работы (чтения и саммаризации кусков текста) дешевые и быстрые модели (например, GPT-4o-mini или локальные Llama-3), а мощную, «дорогую» модель использовать только для управления процессом и финального синтеза ответа. Это значительно снижает стоимость обработки огромных массивов данных.
Заключение
RLM — это шаг от модели-читателя к модели-исследователю. Вместо того чтобы пытаться запомнить содержание целой библиотеки, ИИ учится пользоваться каталогом и читать нужные книги по запросу.
Пока технология находится на стадии активных экспериментов, но её потенциал для анализа юридических документов, кодовых баз и научной литературы огромен. Мы наблюдаем закат эпохи «просто увеличьте контекст» и начало эры агентных рекурсивных систем.