Что произошло
Контентная платформа «Дзен», принадлежащая VK, запретила роботу GPTBot от OpenAI собирать информацию со страницы dzen.ru для сбора данных. Соответствующая директива была найдена в файле robots.txt, предназначенном для программ по автоматическому сбору информации с сайтов. Мера была принята для уменьшения нагрузки на серверы «Дзена», пояснили в пресс-службе компании.
Наша рекомендательная система — одна из самых больших в стране. Высоконагруженные сервисы работают беспрерывно и обрабатывают более 150 тыс. запросов в секунду. Решение не включать GPTBot от OpenAI в файл принято для грамотного использования технического ресурса, чтобы не создавать дополнительную нагрузку. В Дзене регулярно создаются миллионы новых публикаций: как в текстах, так и в видеоформате, — мы направляем ресурсы на то, чтобы обеспечить качественный опыт нашим пользователям и авторам.
Пресс-служба «Дзена»
Рекомендация не включать GPTBot от OpenAI в файл принята для правильного использования технического ресурса и обеспечения интересов наших пользователей.
Пресс-служба VK
Робот GPT, который используется для сбора информации, применяется в создании нейросетевых продуктов OpenAI. Компания не предоставляет доступ к ним в России и заблокировала доступ к сайту для пользователей из РФ. Подобные роботы-«обходчики» используются и другими компаниями, такими как «Яндекс» и Google, которые поддерживают актуальные данные о сайтах. В декабре 2023 года Главный радиочастотный центр, подведомственный Роскомнадзору, рекомендовал хостинг-провайдерам заблокировать обращения GPT. Однако в случае с «Дзеном» файл robots.txt носит рекомендательный характер и не сможет запретить роботам игнорировать прописанные в нем директивы.
Парсеры OpenAI ничем не отличаются от тысяч других коммерческих парсерсов; контент большой платформы — это актив, который она, конечно, хотела бы продавать, а не отдавать бесплатно, поэтому закрытие доступа для роботов — это норма в современном мире. Со стороны VK это логичный шаг. Крупные платформы вроде Reddit и X уже договорились с OpenAI о специальных условиях парсинга, VK при желании тоже может это сделать, но на фоне конкуренции российских нейросетей с ChatGPT вряд ли на это пойдет.
Александр Березкинзаместитель главного редактора «Московских новостей»
Кто еще запрещает использование своих данных нейросетям
- Fox Corp., один из крупнейших медиаиздателей в США, публично представила новую блокчейн-платформу Verify, которая поможет медиакомпаниям отслеживать, как их контент используется онлайн. Компания планирует использовать протокол Verify для заключения сделок по лицензированию своего контента с компаниями, занимающимися искусственным интеллектом.
- Ранее The New York Times подала в суд на OpenAI и Microsoft за нарушение авторских прав. В иске утверждается, что миллионы статей The Times были использованы для обучения автоматизированных чат-ботов, которые теперь конкурируют с новостным изданием в качестве источника достоверной информации. В жалобе The Times также показала, как ChatGPT обходит свой платный доступ по запросу.
В то же время издательская компания Axel Springer заключила многолетнее соглашение с родительской компанией ChatGPT OpenAI о лицензировании своего контента для предоставления пользователям ChatGPT новостного контента. А Брэду Лайткэпу, исполнительному директору OpenAI, было поручено изучить новые бизнес-модели для компании, среди которых — заключение сделок с издателями.