Google+

Sunday, March 26, 2017

Gephi: инструмент для обработки данных из домена G Suite.

G Suite для образования является не только удобным инструментом для создания информационно-образовательной среды школы, но и источником данных, на основании которых мы можем судить о состоянии взаимодействия между сотрудниками организации и о том, как протекает обучение, как учителя и школьники в его ходе сотрудничают друг с другом.


В предыдущей публикации мы рассмотрели процесс извлечения и фильтрации данных из домена G Suite. Посмотрим на то, что с этими данными можно делать дальше. Строго говоря, есть много инструментов, которые можно использовать для обработки этого массива. Здесь я предлагаю рассмотреть графический пакет Gephi, поскольку в нем хорошо решены задачи визуализации связей (нет ощущения “волосяного кома”, которые создают многие другие пакеты) и присутствуют все основные статистические процедуры.


Gephi - это бесплатный, свободно распространяемый продукт, на момент написания статьи стабильно работающей версией является Gephi 0.9.1 После установки мы запускаем Gephi, создаем новый проект под собственным именем. Теперь нам нужно импортировать в него данные из csv файла, который мы создали на предыдущем этапе.


Для этого мы идем в раздел Лаборатория данных и выбираем “Импортировать из csv”. Файл csv должен иметь название латиницей и названия столбцов source и target. При импорте тип таблицы указываем как “таблица ребер”, кодировка - UTF-8.




Нажимаем на кнопку Далее, убеждаемся, что выбрана ячейка “создать новую вершину, если конечной (или начальной) вершины не существует.”, затем “готово”. Данные будут экспортированы в Лабораторию данных Gephi.




Теперь зайдем в раздел Обработка. Скорее всего, мы увидим нечто такое:




Это первичный граф нашей организации. Точки в ней - это люди, линии между ними - установленные связи. Давайте усовершенствуем этот граф. Изменим размер точек людей, в зависимости от того, насколько активно они участвуют в сетевом взаимодействии.


Для этого нам понадобится статистический параметр “Степень”. “Степень” - это количество связей с другими участниками (узлами) сети, рассчитываемое для каждого узла. В правой панели в разделе Статистика найдите кнопку “Степень” и нажмите ее. Произойдет подсчет данных после чего в поле “Лаборатория данных” каждому узлу будет присвоено свое значение. Вы можете увидеть, кто из ваших сотрудников имеет максимальную степень взаимодействия - то есть активнее всех общается с другими сотрудниками.




Вернемся в поле обработка и визуализируем получившуюся картину. Для этого в разделе Appearance, находящейся слева от рабочей области, выберем вкладку Nodes и нажмем на кнопку Размер, далее - Attribute. В выпадающей вкладке выберем Degree (степень). Выставим минимальный размер (Min size) = 5, максимальный размер (Max size) = 30. Нажмем применить и обратим внимание на то, как изменился размер узлов в нашей сети.




Теперь давайте произведем кластеризацию нашей сети. Это нужно для того, чтобы понять, как распределены связи в нашей организации. В разделе Статистика найдем кнопку “модулярность” и нажмем ее. Ячейки “рандомизировать” и “Use Weights” должны быть выбраны.Система рассчитает нам по определенному алгоритму разбиение нашей организации на кластеры в зависимости от того, с какими другими узлами он в большей степени взаимодействует. В разделе “Лаборатория данных” для каждого узла сети будет указано то, к какому кластеру он принадлежит.


Распределим наши узлы по цветам в зависимости от их принадлежности к кластерам. В разделе Appearance заходим во вкладку Nodes и нажимаем кнопку Цвет. Далее - Attribute и выбираем Modularity Class, далее - Применить. Узлы нашей сети окрасятся в цвета в соответствии с принадлежностью к кластерам.


Теперь упорядочим нашу сеть с помощью алгоритма, который сгруппирует узлы, находящиеся в одном кластере. Для этого зайдем во вкладку Укладка и выберем алгоритм Force Atlas 2. Выберем ячейки LingerLog Режим и Запрет перекрытия и нажмем кнопку Пуск. Алгоритм рассортирует наши кластеры.




Теперь давайте сделаем подписи к узлам нашей сети - чтобы было понятно, кто из сотрудников организации где находится.


Зайдем во вкладку Labels (выпадающее меню внизу рабочей области). Выберите ячейку Labels. Выберите шрифт = 14 (Arial, полужирный), в меню Настройка выберите ячейку “ID”. На узлах появятся надписи, обозначающие сотрудников нашей организации.


Теперь зайдем во вкладку Просмотр и нажмем кнопку Обновить. Сеть нашей организации будет построена в “Чистовом виде”.





Как мы видим, это позволяет визуализировать и проанализировать структуру нашей организации.

1 comment:

  1. Slots Paradise - Las Vegas, NV at Mapyro
    Find the best Vegas Casino Slot Machines on Mapyro. 강원도 출장안마 Find your way around the casino, find 대구광역 출장마사지 where everything 춘천 출장안마 is located with free 안양 출장안마 parking, 전주 출장마사지

    ReplyDelete