В этом сообщении я собираюсь сравнить самую крупную страницу Instagram Tech Company, используя мой открытый исходный библиотека Python instascrape. ! Мы будем изучать их соответствующие взаимодействия, подписчики, объем постов и т. Д. 🙌
Крис-озерирование/InstaScrape
Мощная и гибкая библиотека Scropping Instagram для Python, обеспечивающая простые в использовании и выразительную инструменты для доступа к данным программно
Что это?
InstaScrape Это легкий пакет Python, который обеспечивает выразительный и гибкий API для соскабливания данных Instagram. Он предназначен для того, чтобы стать строительным блоком высокого уровня на наборе инструментов «Ученый данные» и может быть беспрепятственно интегрирован и распространен с помощью стандартных инструментов промышленности для веб-соскоб, науки и анализа данных.
Ключевая особенность
Вот несколько вещей, которые InstaScrape
Делает хорошо:
- Мощные, объектно-ориентированные соскобы инструменты для профилей, постов, хэштег, катушек и IGTV
- Scrapes HTML, Beautifulsoup и Json
- Скачать контент на свой компьютер как портить , JPG , MP4 и mp3
- Динамически извлекают HTML-встраиваемый код для постов
- Выразительный и последовательный API для краткого и элегантного кода
- Предназначен для бесшовной интеграции с Селен , Пандас и другие отраслевые стандартные инструменты для сбора и анализа данных
- Легкий; Без котельной или конфигураций не требуется
- Единственные жесткие зависимости являются Запросы а также…
Компании мы будем сравнивать за это упражнение,
Во-первых, давайте начнем с получения Список
их имена пользователей:
companies = ["google", "apple", "ibm", "facebook", "microsoft", "adobe", "oracle"]
Теперь, Скаивание наших данных так же просто, как
from instascrape import Profile profiles = [Profile(username) for username in companies] for prof in profiles: prof.scrape()
Вот и все! Мы просто соскреблированы 364 точками данных от 7 профилей только с несколькими строками кода, давайте использовать to_dict
Способ получить Список
обдумывать
это может быть передано в панда. Dataframe
Для выразительного и мощного анализа данных.
import pandas as pd data = [prof.to_dict() for prof in profiles] df = pd.DataFrame(data)
Во-первых, давайте начнем с сравнения, как много последователей каждая страница использует Матплотлиб Барный участок:
import matplotlib.pyplot as plt plt.style.use("seaborn-darkgrid") plt.bar(df["username"], df["followers"])
Мы можем сразу увидеть, что Apple явно имеет самые подписчики и удивительно, у FACEBOOK не имеет столько, сколько можно ожидать.
Теперь посмотрим, кто имеет наибольшее количество постов:
import matplotlib.pyplot as plt plt.style.use("seaborn-darkgrid") plt.bar(df["username"], df["posts"])
Наконец, мы собираемся изучить участие каждой страницы как функцию времени и посмотреть, как делают разные страницы
( Примечание: Некоторые из особенностей в коде пропущены, поэтому мы можем сосредоточиться на том, что важно; дополнительно Apple не будет изображен, поскольку их данные значительно больше)
for prof in profiles: posts = prof.get_recent_posts() #gets the 12 most recent posts posts_data = [post.to_dict() for post in posts] post_df = pd.DataFrame(posts_data) plt.plot(post_df.upload_date, post_df.likes, label=prof.username)
Некоторые интересные вещи, которые мы можем видеть прямо с летучей мыши:
- Oracle едва Получает все возможное
- Удивительно, что никто не делает Facebook
- Adobe, Google и Microsoft Post относительно часто часто
- IBM не разместил почти две недели
- Microsoft получает самые популярные в среднем на своих постах
И это в значительной степени! Это просто небольшой вкус того, что InstaScrape Может выполнить, и вам решать, как вы используете его, так что выходите туда и начните исследовать эти данные!
Если вам нравится то, что вы читаете, проверьте некоторые другие сообщения 😄
Scraping 25 000 точек данных от Instagram Joe BiDen с использованием InstaScrape
Крис, озелевая · ноябрь 5 ’20 · 2 мин читать
Загрузка последние фотографии Instagram, используя InstaScrape и Python
Крис озеривание · 26 октября ’20 · 2 мин прочитано
Также проверьте официальный репозиторий и бросьте его звездой ⭐ или внести свой вклад!
Крис-озерирование/InstaScrape
Мощная и гибкая библиотека Scropping Instagram для Python, обеспечивающая простые в использовании и выразительную инструменты для доступа к данным программно
Что это?
InstaScrape Это легкий пакет Python, который обеспечивает выразительный и гибкий API для соскабливания данных Instagram. Он предназначен для того, чтобы стать строительным блоком высокого уровня на наборе инструментов «Ученый данные» и может быть беспрепятственно интегрирован и распространен с помощью стандартных инструментов промышленности для веб-соскоб, науки и анализа данных.
Ключевая особенность
Вот несколько вещей, которые InstaScrape
Делает хорошо:
- Мощные, объектно-ориентированные соскобы инструменты для профилей, постов, хэштег, катушек и IGTV
- Scrapes HTML, Beautifulsoup и Json
- Скачать контент на свой компьютер как портить , JPG , MP4 и mp3
- Динамически извлекают HTML-встраиваемый код для постов
- Выразительный и последовательный API для краткого и элегантного кода
- Предназначен для бесшовной интеграции с Селен , Пандас и другие отраслевые стандартные инструменты для сбора и анализа данных
- Легкий; Без котельной или конфигураций не требуется
- Единственные жесткие зависимости являются Запросы а также…
Оригинал: “https://dev.to/chrisgreening/compare-major-tech-instagram-page-s-with-instascrape-2419”