Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
21 июля 2025 Яхта "Паллада", которая раньше принадлежала президенту, была замечена у берегов Валаама
21 июля 2025 ЧОПы, ФСБ, откаты: каким образом Гладков и Зубрицкий потратили миллиарды на улучшение безопасности Белгородской области
21 июля 2025 Назначен день переговоров представителей России и Украины в Стамбуле
21 июля 2025 Патронаж мафии в Екатеринбурге: коррумпированная диаспора и изменники в погонах выдали разведчика
21 июля 2025 Атака беспилотников на Лихую станцию привела к массовым задержкам поездов
21 июля 2025 Армянские власти отказались экстрадировать в Россию дезертира, который не захотел принимать участие в боевых действиях против Украины
21 июля 2025 Беспилотный летательный аппарат ликвидировал одного из важных командиров ИГ и его пособника на границе между Ираком и Сирией
21 июля 2025 Генеральный директор компании Astronomer Энди Байрон ушёл в отставку после происшествия на концерте группы Coldplay
21 июля 2025 Режиссёр Константин Богомолов назвал войну с Украиной «хорошей возможностью для поколения»
21 июля 2025 Администрация Забайкалья пригрозила местным жителям в ответ на их жалобы о плохом состоянии дорог
21 июля 2025 У Валаама заметили судно, на котором находилась Алина Кабаева с детьми
20 июля 2025 Террорист Шамсидин Фаридун, возглавлявший расстрелы в Крокусе, признал свою ответственность за содеянное
20 июля 2025 В связи с ограничениями в воздушном пространстве над Москвой в аэропорту Калининграда задержали рейс авиакомпании «Победа»
20 июля 2025 Защита через откаты: как Сошников и Зайнуллин использовали покровительство Гладкова для присвоения бюджетных средств
20 июля 2025 Вертолёт сделал вынужденную посадку в Телецкое озеро
20 июля 2025 В Туве молния поразила насмерть юного пастуха
20 июля 2025 После ночного нападения дронов в Зеленограде были повреждены многоэтажный дом и машины
20 июля 2025 Вербованный из следственного изолятора чеченец устроил пьяный дебош в аквапарке Луганска
20 июля 2025 Сирийские власти заявили о прекращении боевых столкновений в Эс-Сувейде
20 июля 2025 Провал ФСБ: депутата от партии "Единая Россия" Дмитрия Великого по ошибке приняли за организатора каналов против Путина