Отмывание контента — известный способ распространения дезинформации. Эта тактика используется пропагандистами в разных странах и на разных языках. The Information Laundromat («Информационная прачечная») позволяет отследить сети дезинформации и выявить неочевидные связи между пропагандистскими ресурсами.
Отмывание информации — хотя и сравнительно новый, но уже устоявшийся, термин. Как и при отмывании денег, задача отмывания информации — скрыть первоисточник, выдать сомнительную или ложную информацию за достоверную, предвзятую — за независимую и объективную. Выглядит отмывание часто следующим образом: сообщение публикуется в соцсетях или на форумах, искусственно раскручивается там, а затем, пройдя через несколько источников в разной степени связанных с новостной повесткой, (дез)информация несколько видоизменяется, становится похожей на новость и попадает в СМИ, естественно, без указания на первоисточник. Но бывают и более сложные схемы, одну из таких подробно описали специалисты отдела Би-би-си по борьбе с дезинформацией.
The Information Laundromat разработан Alliance For Securing Democracy (ASD) Фонда Джорджа Маршалла для анализа сетей отмывания информации. Инструмент помогает анализировать распространяющийся в Сети контент и метаданные сайтов. В основе работы — поисковые машины, инструмент проверки на плагиат Copyscape и база данных GDELT, которая существенно расширяет возможности аналитики. GDELT отслеживает мировые новости на более чем 100 языках.
Этот инструмент может проанализировать ссылку, заголовок или фрагмент текста, и помочь найти веб-сайты с похожим или идентичным содержанием и/или архитектурой.
Как это работает
- Вы вводите URL-адрес (список адресов), название или фрагмент текста, который хотите проверить.
- Система анализирует и оценивает сходство вашего исходного контента с другими сайтами, если вы проверяете контент, или устройство сайта, если вы проверяете сайты.
- На странице результатов сайты, где обнаружен похожий контент, сортируются по проценту схожести с вашим первоисточником.
- При проверке сайтов предлагается три уровня сравнения, анализ которых может помочь понять, являются ли сайты элементами одной сети.
Ложноположительные равно как и ложноотрицательные результаты возможны, мы видели их при тестировании, однако подобное возникает только при коротком или сверхпопулярном запросе, который снижает релевантность. Если вы ищете цитату, поиск будет достаточно точным.
«Информационная прачечная» по-настоящему мультиязычная. Доступен выбор языка, включая малораспространённые, например, мальтийский, и выбор страны (доменной зоны).
Несомненный бонус инструмента и в том, что он может быть использован и не по прямому задуманному авторами назначению, а, например, для отслеживания мошеннических сетей. Частично он пригоден и для анализа уязвимостей.
Кроме того, это решение с открытым кодом, который выложен на GitHub. Это означает, что можно провести переработку кода, внедрить собственные настройки и, вероятно, даже улучшить инструмент. Впрочем, дорабатывать код совсем не обязательно, можно просто использовать его со своей рабочей машины или развернуть в облаке, но для этого понадобятся относительно продвинутые навыки работы с кодом и облачными системами.
Концептуальные и технические ограничения
- Наличие результата в выдаче не говорит нам о намерениях публикатора и не свидетельствует напрямую о связи какого-либо сайта с сетью отмывания. Необходимо учитывать контекст и перепроверять результаты автоматического поиска. Сами по себе результаты поиска с помощью The Information Laundromat — отправная точка для дальнейшего исследования, а не истина в последней инстанции.
- Так как в системе используются сторонние разработки (Google, Bing, etc.), качество выдачи зависит от изменений в работе их поисковых и иных алгоритмов, это также следует иметь в виду.
- «Прачечная» отлично справляется со СМИ, однако результаты, связанные с публикациями в социальных сетях весьма скромны.
- При соединении через VPN сайт может не работать, есть ограничения для незарегистрированных пользователей, а получить регистрацию весьма затруднительно. Поэтому более эффективным выглядит запуск проекта локально, на собственной машине.
По итогам нашего тестирования можно сделать следующее заключение: The Information Laundromat — это отличный рабочий инструмент для журналиста или исследователя не только пропаганды, но и любой другой информации, активно распространяющейся в Сети. Однако следует иметь в виду, что система не предназначена для поиска первоисточника, скорее — для поиска уже отмытых сюжетов и сайтов, их распространяющих. Поиск первоисточника можно организовать с помощью других инструментов, таких, как TGStat, расширенный поиск или настраиваемые машины Google.