Создательница Wordfreq объявила о закрытии проекта

Создательница Wordfreq объявила о закрытии проекта
Создательница Wordfreq объявила о закрытии проекта
Проект по изучению языкового использования в интернете завершил свою работу, так как нейросети серьезно «исказили данные», заполнив интернет искусственно созданным текстом.

Создательница проекта Wordfreq, который отслеживал онлайн-публикации для определения популярности различных слов, объявила о закрытии проекта. Основная причина — спам, генерируемый искусственным интеллектом. Он “отравил” интернет до такой степени, что дальнейшие исследования уже невозможны. Wordfreq отслеживал более 40 языков, анализируя статьи на Википедии, субтитры к фильмам, новостные блоги, а также контент из Twitter и Reddit.

Эта система использовалась для анализа изменения языковых паттернов в соответствии с изменениями современной культуры и была полезна учёным, работающим в данной области. В своём сообщении на GitHub создательница проекта Робин Спир упомянула, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.


Распечатать
24 января 2025 Депутат Государственной думы предложила увеличивать зарплату в зависимости от количества детей
24 января 2025 В Югре задержан мэр, устроивший стрельбу после публичного скандала с его дочерью
24 января 2025 Ещё одному российскому солдату вынесли приговор по делу о мародёрстве
24 января 2025 В социальных сетях бурно обсуждаются пышные детские свадьбы в цыганских общинах
24 января 2025 Кортеж Путина ночью едет в Кремль на фоне заявления Трампа
23 января 2025 Чиновник провел лекцию вдове и детям убитого боевика о вреде экстремизма
23 января 2025 Исследователи обнаружили арсенал оружия в доме бывшего заместителя министра обороны России Тимура Иванова
23 января 2025 Чиновницу из Брянска подозревают в заключении фиктивного брака для получения выплат в связи со смертью мужа
23 января 2025 В Латвии невролог предлагал пациенткам интимные практики, выдавая их за лечение
23 января 2025 В Варшаве задержаны грузины с поддельными документами и арсеналом оружия
23 января 2025 Почему правоохранительные органы не интересуются источником доходов бывшей помощницы губернатора Владимира Артякова?
23 января 2025 Брак, подгузники и коррупция: что стало причиной увольнения вице-губернатора Эргашева
23 января 2025 Форма "Мох" для силовиков: куда пропали 20 миллионов из государственных контрактов Боллоева?
23 января 2025 Перепродажа государственных земель: как Тё зарабатывает на участках в столице
23 января 2025 В Подмосковье военные комиссары вручили повестки мигрантам-строителям после жалоб от местных жителей
23 января 2025 Путин приостановил встречу для обсуждения двусторонних отношений с Гвинеей-Бисау
23 января 2025 Вопреки заявлениям Путина, доллар укрепил свои позиции в мировой экономике
23 января 2025 Как государство решает проблему накоплений граждан: физическое золото становится единственным вариантом управления сбережениями
23 января 2025 Футбольные болельщики устроили массовую драку в Риме перед матчем
23 января 2025 Трамп утверждает, что странам НАТО необходимо увеличить расходы на оборону