Автор: @vibedilettante
Источник: Graph-Based Exploration for ARC-AGI-3 Interactive Reasoning Tasks (Arxiv: 2512.24156)
Мы привыкли считать, что путь к AGI (Общему Искусственному Интеллекту) лежит через наращивание параметров и контекстного окна нейросетей. Однако свежий препринт от исследователей Рудакова, Шока и Коули ставит этот тезис под сомнение. В бенчмарке ARC-AGI-3 алгоритмический подход без предварительного обучения (training-free) показал результаты, недоступные многим передовым языковым моделям (LLM).
Разберем, как работает их метод Graph-Based Exploration и почему он занял 3-е место в лидерборде.
Проблема: LLM не умеют исследовать
ARC-AGI-3 — это набор интерактивных задач, где агенту нужно понять скрытую логику уровня (например, «нужно сдвинуть все синие блоки влево»), просто взаимодействуя с ним. Большие языковые модели здесь часто проваливаются, так как среда требует методичного исследования, а не простого предсказания следующего токена.
Архитектура решения: Граф состояний + Визуальная значимость
Вместо того чтобы полагаться только на интуицию нейросети, авторы предложили представить процесс решения как обход направленного графа.
1. Объектно-ориентированное восприятие
Агент не работает с «сырыми» пикселями. Он разбивает игровое поле размером до 30x30 на объекты (связные компоненты одного цвета). Это позволяет системе оперировать понятными сущностями, а не просто набором точек.
2. Граф переходов
Система строит карту своих действий:
- Узлы (Nodes): Уникальные состояния игрового поля.
- Ребра (Edges): Действия (нажатия, перемещения), которые переводят игру из одного состояния в другое.
3. Умная очередь (Visual Salience)
Чтобы не перебирать миллионы вариантов наугад (что убивает производительность), агент использует эвристику визуальной значимости (visual salience). Приоритет отдается действиям, связанным с:
- Объектами, которые изменились после последнего хода.
- Объектами, которые визуально выделяются на фоне.
- Состояниями, которые ведут к неизведанным частям графа.
Результаты: Алгоритмы снова в деле
Агент тестировался на закрытом наборе задач (private evaluation set) соревнования ARC-AGI-3. Результаты впечатляют:
- 3-е место: Если бы этот агент участвовал в официальном лидерборде на момент публикации, он занял бы третью строчку.
- 30 из 52: Медианный результат решенных задач составил 30 уровней, что превосходит многие стохастические методы на базе LLM.
Вывод
Работа Graph-Based Exploration — это мощный аргумент в пользу нейро-символических систем. Для задач, требующих рассуждения (Reasoning) и планирования, нам все еще нужны жесткие логические структуры. Чистые нейросети могут генерировать идеи, но проверять их и строить маршрут лучше с помощью графов.
P.S. Коллеги, как вы считаете: имеет смысл использовать LLM для первичного анализа изображений (сегментации), и только затем использовать эти результаты для постройки жесткого графа? Или же «зрение» тоже должно быть алгоритмическим? Жду ваших мнений в комментариях в моём телеграм канале https://t.me/vibedilettante 👇