Женоненавистничество, расизм и нецензурная брань содержатся в свыше 13,5 тысяч проявлений сетевого троллинга.
Оскорбительные сообщения поступали со страниц обсуждений в Википедии. Подборка, включающая также более 100 000 менее оскорбительных постов, была создана учеными из Alphabet и Wikimedia Foundation, некоммерческой организации-основателя Википедии. По их мнению, эти данные будут способствовать разработке программного обеспечения, призванного помочь воспрепятствовать троллингу.
«Мы хотим понять, каким образом можно помочь людям продуктивно обсуждать наиболее спорные и важные темы в Интернете,» говорит Лукас Диксон, главный научный сотрудник Jigsaw, группы внутри Alphabet, которая создает технологии, обеспечивающие одновременно свободу слова и борьбу с ее злоупотреблением.
Исследователи из Jigsaw и Wikimedia использовали краудсорсинг в поисках людей, готовых просмотреть более 115 000 сообщений на страницах обсуждений Википедии. Целью поисков был троллинг в том виде, как его определяют правила сообщества. Данные использовались для разработки алгоритмов машинного обучения, которые были запущены одновременно с работой людей по обнаружению случаев троллинга. После сканирования всей коллекции из 63 миллионов сообщений редакторов Википедии было обнаружено, что лишь один из 10 случаев троллинга привел к реакции модераторов.
В прошлом году фонд Викимедиа поставил своим приоритетом принятие мер по снижению уровня троллинга в среде редакторов Википедии. Эти меры дополнили существующие усилия по смягчению недоброжелательной и бюрократической атмосферы сообщества Википедии, удерживающей новых волонтеров от участия. Это могло бы помочь и объяснить снижение числа редакторов, и расширить круг участников, в настоящее время состоящего в основном из мужчин, выходцев из стран западной демократии.
Jigsaw и Фонд Викимедиа не являются ни первопроходцами в изучения онлайн-троллинга, ни пионерами разработки ПО для обнаружения и борьбы с ним. «Но коллекций комментариев с пометками, относящих сообщения к троллингу или свободных от него, необходимых для машинного обучения, крайне недоставало», — говорит Эллери Вулчин, исследователь Викимедиа.
По его оценкам, коллекция троллинговых сообщений и комментариев увеличилась в 10, а то и в 100 раз по сравнению с тем, что было в их распоряжении ранее. Алгоритмам машинного обучения нужно больше маркированных примеров, чтобы точнее фильтровать данные.
Правда, смогут ли обученные таким образом алгоритмы выступать в качестве эффективных модераторов, пока не ясно. Программы далеки от понимания всех нюансов языка. Некоторые люди могут начать видоизменять ругательные выражения во избежание обнаружения. По словам Вулчина, исследователи не знают, что может произойти, если в результате их вмешательства люди начнут состязаться с машинами.