Социальные сети и золотое правило

Одна из недель MOOC Learning and Knowledge Analytics была посвящена инструментам для аналитики. Меня сразу “зацепил” Gephi - обалденная программа для визуализации и исследования графов, - и я решил, что обязательно должен лично поиграться с ней. С того момента, как я решил, началось планирование (самая интересная часть этой истории :D) сбора данных, для представления их в виде сети, то есть графа. Следуя примеру других участников курса, я нацелился на сбор данных из Twitter. О подробностях этого мини-исследования я расскажу в отдельном посте, а сейчас могу лишь подразнить одной из картинок, которую нарисовал мне Gephi :P

twittermining... on Twitpic

Самое интересное, что данные для аналитики можно собрать из любой социальной сети. Например, из В Контакте - это было бы даже интереснее, учитывая, что русскоязычная аудитория В Контакте обширнее аналогичной аудитории Twitter. Продолжая думать об этом, я наткнулся на Каталог пользователей ВКонтакте. Выбираем диапазон и фетчим (то есть скачиваем данные) все подряд, пытаясь найти любые паттерны. Например, ищем общие интересы внутри связной группы пользователей (можно проанализировать несколько последних обновлений статусов пользователей, чтобы найти пересечения лексических множеств у разных людей). Или собираем прямые ссылки на все доступные фото и ассоциируем их с человеком. Можно собирать как фотографии, опубликованные им лично, так и фотографии, на которых его отметили другие пользователи. Если два человека были отмечены на одной и той же фотографии, то это еще один повод связать их вместе :).

На сколько это этично? Этот вопрос слишком сложный, потому что, с одной стороны, результаты аналитики могут обнаружить скрытые от невооруженного глаза связи между различными пользователями и их контентом, которые они не хотели бы афишировать, с другой стороны, они добровольно продуцируют пищу для этой самой аналитики и, тем самым, неявно для самих себя обнажают эти паттерны для любого, кто мало-мальски владеет навыками сбора и анализа данных (а это совсем не сложно в наше время, нужно лишь метко сформулировать вопрос и настроить инструментарий на поиск его ответа). Именно поэтому я предлагаю вместо ответа на вопрос золотое правило, которое западные коллеги сформулировали давным давно:

Участвуя в социальных сетях, вообще не публикуйте то, что вы хотите скрыть хотя бы от одного пользователя Интернет (даже не социальной сети, а ИМЕННО ВСЕЙ СЕТИ ИНТЕРНЕТ!).

Никакие запреты и ограничения прав на просмотр вас не спасут. Онлайн-сервисы в праве менять свой функционал в любой момент, и вы сами согласились с этим условием перед тем, как начали предоставлять свои данные. Например, страницы пользователей В Контакте теперь можно просматривать даже без регистрации, то есть, по крайней мере, ваше имя или псевдоним и фотография профиля доступны всем пользователям безграничной сети.

Но кто реально обладает всеми вашими данными и потенциально может анализировать просто умопомрачительные объемы данных, так это сам онлайн сервис. This is who really owns your data! Кстати, сервисы часто делают это - каждый час или еще чаще. Даже больше, они не могу не анализировать ваши данные просто потому, что это нужно, например, для оценки реальной востребованности некоторого функционала или, скажем, удобства пользования интерфейсом. Но это лишь вершина айсберга. Результаты аналитики суть товар, который стоит очень дорого. На Западе существует следующее мнение: важно не то, кто обладает вашими данными, а то, кто обладает результатами их аналитики.

В заключение, еще один интересный вопрос. А есть ли в каталоге идентификаторов пользователей В Контакте пропуски? То есть были ли действительно удалены все данные тех пользователей, которые отправили запрос? Если пропуски имеются, то интересно проанализировать их долю на общее число пользователей в базе данных.

comments