Почему анонимность в интернете — это миф И как работает «пробив» пользователей
В издательстве «Альпина Паблишер» вышла книга «Форма жизни № 4». Ее автор — визионер, инженер, изобретатель, бывший вице-президент Kaspersky Lab и бионик, живущий с чипом под кожей, Евгений Черешнев — рассказывает о том, как технологии меняют человечество и какой цифровой след мы оставляем. The Village публикует отрывок из главы о том, почему анонимности в интернете не существует.
Миф об анонимизации информации
Очень многие компании имеют данные о нас. И я не первый, кто привлекает внимание к проблеме, — несколько очень крупных хакерских атак, увенчавшихся успехом (взлом базы данных Sony, учетных записей Skype, пользовательской информации Yahoo и так далее), побудили общественность задаться довольно неприятными вопросами и обращаться в суд, ведь от таких атак (попадания их поведенческой, личной и финансовой информации не в те руки) страдают живые люди. Многие компании отреагировали усилением мер безопасности, в частности, изменив процедуры хранения данных с персонализированного формата на анонимизированный. Грубо говоря, это означает, что имя и уникальные идентификаторы пользователя хранятся отдельно от данных о его поведении. Соединить эти базы может только сама компания-владелец и только в рамках жесткой политики безопасности. А если базу поведения, интересов и прочего утащит хакер, он не сможет сказать, чье конкретно это поведение, ибо коробочка с информацией подписана совершенно непонятным номером, который ничего не значит, если не знать «ключика». А он хранится в зайце, а в зайце — утка, а в утке — яйцо, а яйцо принадлежит высокооплачиваемому сисадмину компании.
Но вот какая штука… Это миф. Нет такой вещи, как полностью анонимные или анонимизированные данные (еще их часто называют деперсонализированными, то есть лишенными реальных идентификаторов людей). Приведу вам две аналогии. Представьте, что перед вами огромная пачка загранпаспортов реальных людей. Это очень персональные данные — они содержат имя, фамилию, год рождения и историю перемещений владельца через границы. Когда кто-то говорит «анонимизация», в примере с паспортами речь идет о том, что у всех них оторваны первые страницы с данными, которые лежат отдельно от самих книжечек. В итоге, если случайный человек возьмет из кучки паспорт без первой страницы, он сможет увидеть, что этот кто-то (чьи имя, фамилия, фото и дата рождения неизвестны) пересекал границы Турции, Германии и США в такие-то даты и через такие-то КПП (каждый крупный аэропорт или даже пограничный пункт в лихом захолустье имеют уникальные идентификаторы, вы можете их сами увидеть на печатях). Если другой возьмет из кучки первых страниц листок, он увидит фото Хана Соло, но не сможет ничего узнать о его истории перемещений.
Есть куда более персонализированные базы данных — например, история покупок на сайте Y с привязанным к ним IP клиента, а то и его телефоном
Но даже в этом примитивном примере понятно, что, если у вас есть доступ к базе данных пересечений границ вышеназванных стран и любой лист из двух кучек, вы сможете «склеить» информацию и привязать уникальную историю перемещений (штампов) к конкретному лицу. Безусловно, это очень грубый пример. Но он поможет вам понять, что в интернете, где количество баз данных измеряется десятками тысяч, личная и поведенческая информация дублируются, а люди используют одни и те же идентификаторы (адрес почты, номер телефона) и пароли к разным сайтам, сопоставить информацию и составить полный, детальный профиль человека с его реальными именем, фамилией, адресом и другими данными не составляет никакого труда.
Сравнив два цифровых следа, полученных из абсолютно разных источников, всегда можно сделать атрибуцию, даже если с технической точки зрения инженеры поработали на славу. Вот еще один пример: представьте себе, что в ваших руках база данных 10 тысяч человек, состоящая из 100 их любимых фильмов, полученная с сайта X. Имена и фамилии этих людей и их логины вам неизвестны, база, так сказать, анонимна и вообще неизвестно, откуда получена. На первый взгляд, информация анонимная, совершенно не уникальная: многим людям нравятся «Титаник» и «Терминатор», это никакой не секрет, и как базу привязать к конкретным людям, неясно. Но давайте немного ее «причешем»? Что, если взять список топ-100 фильмов с IMDb и удалить их из всех профилей базы? А если удалить список 200 самых популярных фильмов? У вас на руках окажется база 10 тысяч анонимных людей, но их списки внезапно перестанут быть одинаковыми; если убрать кассовые фильмы, останутся довольно уникальные — кому-то нравится нуар, в чьем-то списке окажутся фильмы только на русском или китайском, а кто-то «спалился» на особой любви к Эмиру Кустурице. Теперь вы знаете, что искать.
Если вы опытный оперативник, хакер или просто плохой парень с целью и дипломом software-инженера, вам не составит никакого труда написать программу-бот, которая будет искать для вас в Сети все данные людей с четким списком уникальных интересов из списка. С очень высокой долей вероятности вы как минимум получите несколько учетных записей в социальных сетях и на сайтах с обзорами фильмов — как правило, люди там своих интересов не скрывают, а в ряде случаев каждый просмотренный фильм и вовсе добавляется к публичному профилю, чтобы «обмениваться информацией с друзьями». Как результат, из списка 10 тысяч анонимных зрителей вы внезапно получаете базу из примерно 8 тысяч конкретных людей с живыми профилями в соцсетях. Эту информацию вы можете сопоставить с брокерскими данными и информацией, например, из ранее похищенных баз данных, которые легко можно найти в Сети (хакеры так и делают), и рано или поздно вы найдете совпадение по адресу электронной почты и IP, а это дает потенциальный доступ ко всем учетным записям человека, поиску всех его активностей в Сети с этим ящиком и никнеймом и месту проживания (если человек свой IP не маскирует, о чем мы, опять же, поговорим позже).
И это только один из примеров. Есть куда более персонализированные базы данных — например, история покупок на сайте Y с привязанным к ним IP клиента, а то и его телефоном. А телефон равно реальное имя. Где тут приватность? Из безымянного списка любителей кино вы только что получили список граждан конкретных стран с их номерами телефонов (следовательно, потенциально и паспортными данными) и кредитных карт (если добрались до ранее украденной базы уровня Sony).
Чтобы прочитать целиком, купите подписку. Она открывает сразу три издания
месяц
год
Подписка предоставлена Redefine.media. Её можно оплатить российской или иностранной картой. Продлевается автоматически. Вы сможете отписаться в любой момент.
На связи The Village, это платный журнал. Чтобы читать нас, нужна подписка. Купите её, чтобы мы продолжали рассказывать вам эксклюзивные истории. Это не дороже, чем сходить в барбершоп.
The Village — это журнал о городах и жизни вопреки: про искусство, уличную политику, преодоление, травмы, протесты, панк и смелость оставаться собой. Получайте регулярные дайджесты The Village по событиям в Москве, Петербурге, Тбилиси, Ереване, Белграде, Стамбуле и других городах. Читайте наши репортажи, расследования и эксклюзивные свидетельства. Мир — есть все, что имеет место. Мы остаемся в нем с вами.