Релевантный фоллавинг

…now searching for valuable connections

Приключения с добычей и аналитикой данных моего социального графа в Twitter хотя и текут вяло, но результатов отнюдь не лишены. Не стану раскрывать всех подробностей, пока мысли окончательно не улягутся в голове, но кое-что “рассекречу” прямо сейчас :)

Текущая ide fix заключается в оценке релевантности отдельных веток социального графа моим ожиданиям от них. Вчера (позавчера — я уснул, не закончив этот пост :D) я собрал данные для еще одного эксперимента в рамках уже текущей постановки вопроса.

Суть эксперимента в следующем. Есть две группы из семи пользователей в каждой, представляющие сообщества, к которым я некоторым образом отношусь. Первая группа представляет собой выборку из сообщества eLearningPRO, в нее входят участники из России и Украины. Вторая группа — выборка из участников Сахалинской IT-конференции 2010 года, все участники с Сахалина (насколько я знаю). Меня интересует следующее: насколько твиты первой группы в среднем соответствуют тематике информационных технологий в образовании, второй группы — информационным технологиям вообще (любые другие области). Задача эксперимента: построить облака тегов на основании текстов твитов для каждой из групп и с их помощью визуально оценить, насколько в среднем твиты данных групп релевантны моим ожиданиям.

Первый шаг. У каждого пользователя собираются последние 200 твитов; для каждой группы все твиты ее пользователей сохраняются в один текстовый файл (получаем два текстовых файла). Я воспользовался написанным для предыдущих твиттерокопаний софтом, и класс TwitterUser сделал за меня всю работу:

|f|
TwitterUser reset.
#('user1' 'user2' 'user3' 'user4' 'user5' 'user6' 'user7')
	do: [ :sn | TwitterUser newWithScreenName: sn ].
TwitterUser fetchTwits: 200.
f := FileStream fileNamed: 'twits.txt'.
TwitterUser renderTwitsOn: f.
f close.

(Все добытые на Twitter данные общедоступны, но я решил не раскрывать аккаунтов моих “респондентов”. Однако я не стал прятать представленные на картинках ниже ссылки на прочих пользователей, упоминаемых участниками групп.)

Второй шаг. Берем содержимое полученных на первом шаге файлов, и используем его в качестве “пищи” для Wordle, чтобы получить облака тегов. Тут тоже все очень просто: я открыл получившиеся файлы в Блокноте и скопировал их содержимое в окошко формы Worlde. И вот, что я получил.

Группа 1:

Группа 2:

Сразу бросается в глаза: и там, и там много ретвитов. Во второй группе слишком выделяются ссылки на участников исследуемых групп. Данное обстоятельство говорит (возможно говорит — здесь все суждения будут иметь вероятностно-статистический характер) о большей связности второй группы, ее замкнутости на себя. Интересно, что в первой группе слово “RT” кажется даже больше по отношению к прочим словам, чем это же слово по отношению к прочим словам во второй группе. Пользователи первой группы делают больше ретвитов и, кроме того, ретвитят и реплаят большее число различных людей, чем пользователи во второй группе (неужели и правда имеет место некий “аутизм” второй группы?).

Попробуем убрать из собранных данных ссылки на самих пользователей, попавших в исследуемые группы. Немного ручного труда (понадобится любой редактор с функцией замены текста) и получаем следующее.

Сначала немного статистики. Первая группа. Упоминаний участников группы в текстах их твитов: 12 + 1 + 7 + 0 + 1 + 0 + 54 = 75; ретвитов моих сообщений: 2; ответов на мои сообщения: 28. Вторая группа. Упоминаний участников группы в текстах их твитов: 10 + 4 + 3 + 50 + 45 + 1 + 0 = 113; ретвитов моих сообщений: 1; ответов на мои сообщения: 21.

Группа 1:

Группа 2:

Теперь самое интересное. Всматриваемся в слова, образующие облака для первой и второй групп.

Первая группа: elearning, edtech, social, media, web, free, технологии, образование, обучения, вебинар, википедия — в общем, вполне релевантно моим ожиданиям от твитов пользователей первой группы.

Вторая группа: сегодня, завтра, теперь, смотреть, хочу, наверное, реклама, дома, sakh, google, life + много ссылок на пользователей — не совсем то, что я ожидал. Для второй группы мы получаем следующую картину: попавшие в выборку сахалинские “айтишники” предпочитают использовать Twitter просто для общения, не создавая при этом профессиональное сообщество (жалко, ведь профессиональная сеть имеет массу преимуществ! и это именно то, что я ожидал от данной группы пользователей).

В первой группе много твитов на английском языке (во второй их меньше), поэтому русские и английские слова бьются за “место под солнцем” на первом облаке. Облако второй группы состоит большей частью из ссылок на пользователей, что отражает склонность участников второй группы к использованию Twitter, прежде всего, в качестве средства общения.

P.S. Я явно дал маху, не убрав на второй паре картинок слово “RT”. В следующий раз исключу и его, чтобы удобнее было рассматривать получившиеся облака.

comments