Конец анонимности: нейросети научились связывать данные и идентифицировать пользователей

freepik
ИИ научился находить людей по анонимным постам: теперь это реально
Большие языковые модели научились делать то, что раньше занимало часы ручной работы. Новое исследование показало: современные ИИ способны устанавливать личность человека по нескольким анонимным публикациям в интернете — и делать это на уровне целых платформ. Звучит как сюжет из научной фантастики, но это уже реальность.
Как модели узнают людей
Работу представил Саймон Лермен в статье «Large-Scale Online Deanonymization with LLMs». Исследователи проверяли, насколько эффективно языковые модели сопоставляют анонимные профили с реальными людьми на данных Hacker News, Reddit, LinkedIn и обезличенных интервью учёных. Результат: высокая точность даже при десятках тысяч кандидатов одновременно.
Магия в деталях
Раньше идентификация ограничивалась сложностью анализа разрозненных данных. Теперь модели извлекают сведения о городе, профессии, интересах из комментариев и ищут совпадения в открытых источниках. Сочетание поиска по эмбеддингам и логического анализа позволяет почти наверняка вернуть анонимный аккаунт к реальному владельцу. Кто бы мог подумать, что обычные посты могут стать ключом к личности?
Эксперименты показывают эффективность
- На Hacker News удаляли прямые идентификаторы и просили модель восстановить соответствие с LinkedIn.
- Аккаунты Reddit делили на части по времени или сообществам — модель снова объединяла фрагменты, превосходя классические методы.
- Тест с десятками тысяч кандидатов показал: точность падает медленно, без резких провалов.
Реальные кейсы
Используя набор обезличенных интервью Anthropic Interviewer, модель смогла установить личности девяти из 125 участников. Проверка проводилась вручную — эталонных данных нет. Даже небольшие детали вроде города, участия в конференции или редкого хобби формируют уникальный цифровой отпечаток.
Какие риски несёт технология
Массовая автоматизированная идентификация открывает дорогу для целевого фишинга, атак на конфиденциальность и подрывает понятие анонимности. Краткосрочные меры: ограничение доступа к данным, ужесточение контроля API, выявление автоматизированного сбора информации. Но даже нейтральные на первый взгляд шаги могут стать частью цепочки раскрытия личности.
Что дальше?
С распространением ИИ цена такой идентификации продолжает снижаться. Каждый анонимный пост, каждый комментарий создаёт уникальный цифровой отпечаток, пишет источник.


