Как графовый поиск обошел нейросети в тесте на AGI

Автор: @vibedilettante
Источник: Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks (Arxiv: 2512.24156)

Мы привыкли считать, что путь к AGI (Общему Искусственному Интеллекту) лежит через наращивание параметров и контекстного окна нейросетей. Однако свежий препринт от исследователей Рудакова, Шока и Коули ставит этот тезис под сомнение. В бенчмарке ARC-AGI-3 алгоритмический подход без предварительного обучения (training-free) показал результаты, недоступные многим передовым языковым моделям (LLM).

Разберем, как работает их метод Graph-Based Exploration и почему он занял 3-е место в лидерборде.

Проблема: LLM не умеют исследовать

ARC-AGI-3 — это набор интерактивных задач, где агенту нужно понять скрытую логику уровня (например, «нужно сдвинуть все синие блоки влево»), просто взаимодействуя с ним. Большие языковые модели здесь часто проваливаются, так как среда требует методичного исследования, а не простого предсказания следующего токена.

Архитектура решения: Граф состояний + Визуальная значимость

Вместо того чтобы полагаться только на интуицию нейросети, авторы предложили представить процесс решения как обход направленного графа.

1. Объектно-ориентированное восприятие

Агент не работает с «сырыми» пикселями. Он разбивает игровое поле размером до 30x30 на объекты (связные компоненты одного цвета). Это позволяет системе оперировать понятными сущностями, а не просто набором точек.

2. Граф переходов

Система строит карту своих действий:

Узлы (Nodes): Уникальные состояния игрового поля.
Ребра (Edges): Действия (нажатия, перемещения), которые переводят игру из одного состояния в другое.

3. Умная очередь (Visual Salience)

Чтобы не перебирать миллионы вариантов наугад (что убивает производительность), агент использует эвристику визуальной значимости (visual salience). Приоритет отдается действиям, связанным с:

Объектами, которые изменились после последнего хода.
Объектами, которые визуально выделяются на фоне.
Состояниями, которые ведут к неизведанным частям графа.

Результаты: Алгоритмы снова в деле

Агент тестировался на закрытом наборе задач (private evaluation set) соревнования ARC-AGI-3. Результаты впечатляют:

3-е место: Если бы этот агент участвовал в официальном лидерборде на момент публикации, он занял бы третью строчку.
30 из 52: Медианный результат решенных задач составил 30 уровней, что превосходит многие стохастические методы на базе LLM.

Вывод

Работа Graph-Based Exploration — это мощный аргумент в пользу нейро-символических систем. Для задач, требующих рассуждения (Reasoning) и планирования, нам все еще нужны жесткие логические структуры. Чистые нейросети могут генерировать идеи, но проверять их и строить маршрут лучше с помощью графов.

P.S. Коллеги, как вы считаете: имеет смысл использовать LLM для первичного анализа изображений (сегментации), и только затем использовать эти результаты для постройки жесткого графа? Или же «зрение» тоже должно быть алгоритмическим? Жду ваших мнений в комментариях в моём телеграм канале https://t.me/vibedilettante 👇