Исследователи из Массачусетского технологического института совершили прорыв в области искусственного интеллекта, решив фундаментальную проблему ограниченной памяти больших языковых моделей.
Как сообщает корреспондент сетевого издания «Белновости», ими разработана архитектура рекурсивной языковой модели, которая способна динамически обращаться к внешним данным, эффективно оперируя миллионами текстовых единиц (токенов) без экспоненциального роста требуемых вычислительных ресурсов.
Как указано в научной работе, опубликованной в репозитории arXiv, ключевое отличие новой системы от стандартных нейросетей заключается в отказе от статического контекстного окна фиксированного размера.

Вместо этого модель использует оригинальные данные в качестве внешнего пространства, по которому можно навигировать для извлечения релевантных фрагментов информации.
Механизм обращения к знаниям становится динамическим: нейросеть анализирует запрос, формирует поисковое действие и последовательно углубляется в объемные документы или сложные структурированные данные до достижения необходимого уровня понимания.
Такой подход не только технически снимает ограничение на длину контекста, но и напрямую влияет на качество генерации.
По словам ученых, возможность бесконечно углубляться в исходный материал значительно снижает риски так называемых «галлюцинаций» ИИ – ситуаций, когда модель из-за потери контекста начинает генерировать неправдоподобную или откровенно ложную информацию.
Эта ошибка характерна для современных языковых моделей с ограниченным окном внимания.
Отмечается, что ряд технологических компаний уже приступили к экспериментам по адаптации своих систем под новую архитектуру.
Разработка открывает путь к созданию искусственного интеллекта, который сможет полноценно работать с гигантскими массивами информации, такими как все научные публикации по конкретной теме, полный свод законов или многолетняя переписка предприятия, что ранее было технически и экономически неосуществимо.












