Автор оригинала: FreeCodeCapm Team.
Хосе Агинага
Несколько недель назад я решил построить приложение, чтобы найти, какие языки программирования я звезю больше всего в Github.
Почему? Потому что в последнее время я был в главной роли проекты о Машинное обучение, наука о данных, и Искусственный интеллект. Я хотел увидеть, будет ли мой повышенный интерес в моем сроке гласных проектов каким-либо образом появится. И какой лучший способ обнаружить это, используя немного науки по данным самостоятельно?
Эксперимент состоял в получении информации из GitHub, очистив его вверх и отображаю его в визуализации. Чтобы попробовать сами, перейдите на следующую веб-страницу.
На каких языках есть самые звезды GitHub в 2016 году? Streamgraph of github rambed языки на 2016 году. starreed.jjperezaguinaga.com.
После того, как сами стараемся, дайте мне момент, чтобы объяснить, как это работает и покажет вам некоторые интересные примеры.
Извлечение и анализ данных
Для лучшего или хуже Github не обеспечивает простого способа потребности этой информации. Вам нужно пройти все ваши снятые проекты на github.com Затем щелкните по многим страницам, чтобы найти их все. В зависимости от того, сколько репозитории вы высказались, это займет за несколько минут, прежде чем вы сможете увидеть все проекты по конкретному времени.
Хорошая новость в том, что GitHub имеет Главная активность API , который я затем использовал для написания утилиты JavaScript для получения всех моих снятых проектов в течение года. GitHub позволяет вам пройти флаг, чтобы увидеть дату, когда вы впервые выбрали проект, который позволил мне получить только проекты, которые я родился в 2016 году.
При получении данных я продолжил фильтровать его на основе языка GitHub назначен им. Рамда Было особенно полезно отображать и уменьшить эти данные.
Затем, чтобы визуализировать эту информацию, я решил отобразить частоту каждого языка программирования для хранилища репозитория через диаграмму, известную как Streamgraph Отказ Агрегируя каждый язык языка в месяц, я мог видеть увеличение и снижение процентов с течением времени.
Как мы можем видеть на графике, я снялся 142 проекта В 2016 году на моих смиренных репозиториях было более 15 языков, но я показываю только топ-7, так как частота на языковые падает после этого номера. Верхний язык – это JavaScript, который не удивляет меня, так как я работаю в качестве инженера-интерфейса на ежедневной основе.
Второе и третье языки программирования являются Python и Иди, что, скорее всего, относится к проектам о искусственном интеллекте/глубоко изученном, я упомянул ранее. Python имеет смысл, так как он был недавно рассмотрел Самый популярный язык для машинного обучения Отказ
Каждый получает график.
В рамках разработки инструмента я проверил приложение с другими разработчиками. Это произвело серию интересных графов.
Ниже приведен список нескольких известных разработчиков, сгруппированных по языкам, которые они самые роли.
Разработчики JavaScript
Разработчики Голанга
Разработчики Python
Свифт, Р.
Вещь о данных
У меня было очень весело из этого эксперимента, и выучили два важных урока:
- Данные могут быть красивыми Отказ Не все должно иметь глубокий смысл, чтобы быть интересным. Например, обложка для этой статьи является продукт перекрытия серии страбаты из различных наборов данных. Мне это очень понравилось, я даже Авторское право Это.
- Наши данные идентифицируют нас. Учитывая достаточное количество смущенных проектов, шансы иметь два человека с той же съемными репозиториями в то же время незначительны *. Таким образом, если мы проанализируем шаблоны в ролях на разработчике, мы могли бы идентифицировать их, увидев их данные. Это пример Поведенческая аналитика , используется в прошлом к Определите пользователей по использованию мобильного приложения Отказ
К концу этого эксперимента мне больше интересовало изучение использования визуализации данных и изучения машины, чем до **. Я буду продолжать расширять свои знания в области, чтобы создать больше экспериментов, как это в будущем.
Пожалуйста, попробуйте это дома
Если вам интересно в коде, вы можете увидеть его на Github.
jjperezaguinaga/github-образцы Github-образцы -? На каких языках есть самые звезды GitHub в 2016 году? G ithub.com.
Помните, что код очень грязно, поэтому может возникнуть ошибки (например, ошибка времени ожидания скорости GitHub не поймана), поэтому не принимайте его в качестве ссылки на любые реальные производственные проекты. Не стесняйтесь Изменить, развернуть или вилить код как хочешь.
* Не незначительный, но очень маловероятно. Человеку нужно будет зореть тот же проект с той же секундой, чтобы поделиться тем же рисунком. Есть 31557600 секунд в астрономическом году и вокруг 20 м Репозитории в Github к концу 2016 года и около 5,8 м активных пользователей в Github. Вы говорите мне, каковы шансы двух человек с 10 сюргами проекта, чтобы иметь один и тот же шаблон.
** UDACIME выпустил в эти выходные Новый нанодег о глубоких учебных основах Отказ Я записался и опубликую обзор после того, как я закончу его.