Удаление знаков препинания из текста снижает до 20% точность ответов нейросетей на запросы
Российские ученые установили, что знаки препинания и служебные части речи, часто воспринимаемые как малозначимые, играют важную роль в обработке данных языковыми моделями. Их удаление снижает точность ответов искусственного интеллекта на запросы до 20%, сообщили в Институте искусственного интеллекта AIRI.
- Современные большие языковые модели разбивают текст на токены — блоки, среди которых системе нужно выделить наиболее значимые для понимания. Однако было не вполне ясно, какие типы токенов критичны для корректной работы ИИ и какие данные сохраняются в связке с этими блоками. Для получения этой информации исследователи разработали LLM-микроскоп — набор инструментов, который позволяет анализировать внутренние процессы работы различных типов больших языковых моделей. Инструмент также помогает распознавать промежуточные результаты работы системы. Исходный код и примеры его использования были опубликованы в открытом доступе.
- Специалисты изучили, как на работу ИИ влияют мало значащие для человека элементы запроса на английском языке, в том числе знаки препинания и артикли. Больше всего информации о контексте содержится именно в данных элементах текста, а не в существительных, что побудило ученых разобраться, как на качество работы ИИ повлияет удаление всех знаков препинания и служебных частей речи.
- Подобная процедура заметно (до 20%) снизила точность ответов большого числа открытых и закрытых систем ИИ на два разных набора тестовых заданий для больших языковых моделей. Это происходило даже когда ученые просили саму систему ИИ удалить наименее значимые токены из текста.