Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
20 апреля 2025 Трое американских чиновников, уволенных из-за утечек, обвинили Пентагон в распространении ложной информации
20 апреля 2025 В Москве на МКАД загорелась машина после аварии
20 апреля 2025 ЕСПЧ обязал Россию выплатить 1,3 миллиона евро за преследование машиниста, выступающего против войны
20 апреля 2025 Итальянские учёные обнаружили микропластик в женских яичниках
20 апреля 2025 Израильские военные устранили одного из лидеров «Хезболлы» Хуссейна Али Насра
20 апреля 2025 Минэкономики запускает программу соглашений для устранения нарушений посредством инвестиций
20 апреля 2025 Миллиардер Абрамович в Екатеринбурге: стали известны детали визита
20 апреля 2025 В Нижегородской области из-за сухой травы сгорело шесть строений
20 апреля 2025 Пять детей погибли в результате пожара в частном доме в Астрахани
20 апреля 2025 Трамп обещает сделать Америку великой и богатой
20 апреля 2025 Российские банки несут убытки из-за своих мобильных операторов
20 апреля 2025 Трамп планирует провести сокращение и реорганизацию Государственного департамента США
20 апреля 2025 Воздействие тарифной войны: Boeing возвращает самолёт 737 MAX из Китая в США
20 апреля 2025 Новое предложение от Минэкономики: бизнесу будет предложено инвестировать вместо уплаты штрафов
20 апреля 2025 В Китае проведено испытание водородной бомбы без применения ядерных материалов
20 апреля 2025 Tesla отложила начало производства недорогого кроссовера в США
20 апреля 2025 Министерство внутренних дел Дагестана опровергло слухи о проведении рейдов против женщин в никабах
20 апреля 2025 Верховный суд США временно остановил депортацию венесуэльских мигрантов
20 апреля 2025 В Ростовской области судоходный путь был закрыт в результате аварии с теплоходом
20 апреля 2025 Жители Красноярского края выступают против отправки преступников на фронт вместо их наказания