ВТБ, «Сбербанк», официальный сайт мэра Москвы — утечки данных пользователей продолжаются

В связи с последними скандалами по утечке персональных решили написать статью, где подробно объясним – почему это происходит и как с этим бороться.
Рассказывает Медведев Павел – SEO-специалист, эксперт по поисковым системам в Rush Agency.

pavel

На фоне всеобщей истерии в ленте по GoogleDocs, PowerBi я ввел старый запрос 2011го года, чтобы посмотреть изменилась ли ситуация… и ужаснулся.

Раньше проблемы были в основном у мелких интернет-магазинов, сейчас информацию сливают и такие гиганты как travel.vtb.ru, Сбербанк, департамент транспорта Москвы, агрегаторы авиабилетов, и много других. Я считаю это связано с тем, что из-за кризиса многие хорошие специалисты и разработчики переориентировались на запад и качество кадров в IT снизилось.
Примеры данных которые можно найти в поисковой выдаче:

pic1

pic2

pic3

pic4

pic5

pic6

Вышеописанные 3 сайта пренебрегают элементарными требованиями защиты данных – у них даже отсутствует файл robots.txt.
Как могло произойти так, что персональные данные – Google-таблицы, отчеты с финансовыми показателями компаний в PowerBi и др. могли попасть в выдачу поисковых систем?
Поисковые системы не могут получать доступ и читать информацию со страниц, которые требуют авторизации.
Современные системы требуют сложные пароли, пользователям не всегда удобно запоминать столько паролей, для их удобства доступа к личным страницам создатели сайтов придумали документы с уникальным длинным адресом из случайного набора символов, который невозможно угадать или получить перебором, пример:
сайт.ру/проверить-статус-моего-заказа/orjY4mGPRjk5boDnW0uvlrrd71vZw9kphf8eGbhlTpS4q9cvHzFNngSdNNIG8H5Lt3

Проверяем защиту приведенного выше URL на предмет перебора:
pic7

Если быть более точным то 18 миллиардов триллионов триллионов триллионов триллионов триллионов триллионов триллионов триллионов лет для перебора всех возможных вариантов. Звучит надежно.

Как это работает: вам на email или в смс приходит сообщение с такой ссылкой и вроде бы логично что только вы можете воспользоваться ей для просмотра, корректировки своих личных данных.

Но есть много способов как поисковая система может узнать о ссылке – например вы на каком-то полу-приватном затерянном на окраинах интернета форуме, где сидите только вы и 5 ваших близких знакомых поделились этой ссылкой. Поисковые системы регулярно переобходят даже самые малопосещаемые и никому неизвестные ресурсы, если они в доступны для индексации роботам. Такая ссылка рано или поздно проиндексируется и страница с личной информацией попадет в индекс.

В 2011 году был скандал с попавшими в выдачу СМС Мегафона. Тогда я даже провел семантический анализ текстов этих СМС.

pic8

Мало кто хотел бы чтобы эта информация попадала в общий доступ, то есть ссылки точно на них не расставляли. Много измен, думаю тогда было раскрыто.

Дальше я в том же 2011-м решил проверить  как хранят персональные данные другие сайты и сразу же обнаружил множество открытых данных с заказами в интернет-магазинах.  Новость тогда прогремела и запрос для поиска попал в топ-20 самых популярных запросов дня по Liveinternet. Пользователей почему-то больше всего заинтересовали данные покупателей секс-шопов. Хотя если человек покупал в магазине лопату и из-за этого утекли его ФИО, Адрес, телефон  и иногда паспорта – по-моему такой же вопиющий провал.

pic9

Зачем поисковикам понадобилось индексировать эти страницы и  как они это делают.
Поисковые системы борются между собой за качество поиска. Одним из факторов хорошего поиска является полнота индекса – то есть они стараются собрать как можно больше страниц интернета, чтобы найти из них те, что больше всего отвечают на запросы пользователя. Поэтому кроме перехода по ссылкам они прибегают и к другим методам как можно узнать о появлении новых страниц.

1. Системы аналитики (счетчики, которые устанавливают на каждой странице сайта для исследования поведения посетителей на нем). Самые популярные в России – Яндекс.Метрика и Google Analytics.
Заходим в настройки любого счетчика Метрики и видим по умолчанию такие опции:
pic10

То есть, все просмотренные пользователями страницы по умолчанию отправляются на индексацию, если не указать запрет.
Но даже если установить запрет – приватные страницы все равно попадают в индекс. Потому что это один из множества источников данных поисковых систем. У Google есть браузер Хром, у Яндекса Яндекс.Браузер. На них приходится более 70% всех посетителей.

pic11

Устанавливая браузеры вы соглашаетесь с возможной обработкой, отправкой браузером анонимных данных о просмотрах и т.п. То есть это вполне легальный способ собрать большую часть когда-либо просмотренных пользователями страниц.

Когда вы скачиваете какую-нибудь бесплатную программу – часто с ней агрессивно навязываются программы и плагины для браузера от поисковых систем, которым многие специалисты расценивают, как дополнительный канал для анализа трафика и поведения пользователей.

Помимо этого поисковые системы могут покупать анонимизированные данные о трафике, просмотренных сайтах/страницах как это делает известный сервис SimilarWeb.

Ваша секретная ссылка уже не выглядит такой защищенной?
Представьте ситуацию: вы купили авиабилет с вылетом через пол-года, вам пришла СМС с ссылкой для просмотра и редактирования информации в личном кабинете. Вы перешли на нее в телефоне, проверили и забыли.
Тем временем ваш мобильный Яндекс/Андроид браузер или счетчик метрики сообщил поисковику что появилась неизвестная ранее страница,  робот проверил – страница работает, проиндексировал ее через какое-то время.
Потом злоумышленник вбивает в поиск зарос типа «билет на бали октябрь изменить бронирование» – попадает в ваш личный кабинет, переписывает фамилию на свою и через пол-года улетает вместо вас. (Можно представить что и такие сайты существуют, которые даже не предупредят о изменении и не запросят дополнительное подтверждение или авторизацию)

Вообще, это легально, что поисковики собирают такую информацию?

Поисковый робот не знает – персональные ли данные в файле. Коммерческая ли тайна в таблицах с финансовыми показателями или наоборот вы хотели бы делиться этой информацией со всеми. Часто структура и навигация сайтов настолько запутанная, используются различные хитрые javascript-ы так что попасть на полезные страницы по ссылкам с главной страницы поисковикам просто невозможно. В данном случае выглядит логичным получать адреса страниц для индексации из максимального числа источников.

Кто виноват в такой ситуации?

Я считаю что 80% вины лежит на владельцах сайтов, которые не обеспечивают должной качественной разработки и оптимизации сайтов. Как специалист по поисковой оптимизации сайтов с 12 летним опытом могу сказать, что большинство сайтов до доработки SEO-специалистами выглядят плачевно, владельцы словно живут в параллельном мире без киберугроз, без поисковых систем, ботов которые могут проиндексировать личные данные пользователей.

20% отдал бы поисковикам за то, что они недостаточно освещают свои механизмы ранжирования и индексации. Часто сталкиваешься с непониманием от разработчиков сайтов – «как же поисковые системы проиндексируют страницу, ведь у них нет ссылки этой страницы?». Такие же вопросы часто слышу даже от специалистов по SEO. Большинство современных разработчиков считает, что документ доступный по длинной уникальной ссылке – надежно защищен и никогда не попадет в индекс.  Рекомендую представителям поисковых систем больше упоминать на своих профильных конференциях и вебинарах для профессионалов о том что любая страница доступная без авторизации может рано или поздно попасть в индекс.
Еще есть проблема в том, что разные поисковые системы по разному используют директивы, их рекомендации по индексации иногда противоречат и взаимоисключаемы. То есть, разработчики сделав все по инструкции Google будут удивлены, когда в Яндексе директивы наоборот перестали работать из-за чего в индекс попали множество документов, которые не должны были индексироваться.

Последний случай с индексацией Google.Docs

Пароли и личные данные всегда попадали в индекс, можно было найти эти данные, просто не в таких масштабах.   Я связываю последнюю утечку с ростом популярности самих сервисов Google –больше людей пользуется таблицами, теперь это не только айтишники, но и воспитатели детских садов, мамочки составляющие план покупок. То есть это уже не только продвинутые пользователи.

Мои рекомендации для владельцев и разработчиков сайтов.

  • Любые чувствительные данные по-максимуму закрывать от посторонних с помощью авторизации.
  • Всегда запрещать роботам индексировать любую конфиденциальную информацию. Причем использовать не только один из способов рекомендуемый какой-либо поисковой системой, а дублировать, используя все методы защиты, такие как, например, robots.txt, clean-param, meta-noindex.
  • Проверять чтобы методы защиты были универсальными и работали во всех поисковых системах.
  • Помимо этого определять роботов по user-agent и блокировать им доступ к любой приватной информации, отдавая ответ сервера 4хх
  • Обращаться к профессионалам SEO для экспертизы поисковой оптимизации сайта

Рекомендации для поисковых систем и крупных сервисов типа PowerBi, Google.Docs

Чаще прислушиваться к мнению и просьбам специалистов по SEO. Например, в Яндексе работа некоторых директив индексации отличается от Google – из-за чего приходится делать сложные схемы обхода, например с междоменными canonical. Из-за этого у мелких сайтов без высококлассных специалистов могут быть проблемы  – закрытые страницы массово попадают в индекс, а там могут быть и частные данные.
Google же считает что он единственная в мире поисковая система и не учитывает при разработке своих сервисов что есть такие системы как Яндекс, с их продвинутыми алгоритмами индексации. Из-за этого в индекс попали документы Google.Docs доступные только по ссылке.
Если бы разработчики Google были более компетентны и учитывали работу всех поисковых роботов они бы добавили в документы доступные по ссылке запрет индексации с помощью мета-тега robots noindex. А так же блокировали бы доступ поисковых роботов к таким документам.
Так же нужно выдавать предупреждение  при открытии «доступа по ссылке» – что наличие ссылки только у вас не значит что о ней никто не узнает – множество программ, браузеров, плагинов, счетчиков, скриптов  собирает информацию и только из разработчикам известно как они ее хранят и куда дальше направляют.

Об этом блоге

Наше агентство специализируется на привлечении поискового трафика и увеличении продаж для наших клиентов. Мы работаем с сайтами самого различного типа.

Необходимо SEO?

Мы предлагаем честное SEO с оплатой за результат и обеспечиваем взрывной рост проектов наших клиентов.Не даром название агентства - Rush Agency. Расскажите ниже о вашем проекте и мы устроим Rush вашему бизнесу!

Другие посты нашего блога

Смотреть все посты