Рубрики
Без рубрики

Исследование фильма TMDB набор данных

В последнее время я проходил программу Udacity Analodegree Analyst Data Analystegree. Я работал над каким -то проектом … Tagged с Python.

В последнее время я проходил через Аналитик данных Nanodegree Программа Udacity Анкет Я работал над некоторыми проектами там, и я буду писать о них в блоге в ближайшие недели.

Примечание: Этот пост в блоге является первой частью целой серии блога, где я описываю целый анализ наборов данных. Цель состоит в том, чтобы продемонстрировать, насколько простым может быть анализ данных.

О наборе данных

Набор данных называется данными фильмов TMDB. Загружено из Эта страница , его оригинальная версия была удалена Kaggle и заменен аналогичным набором фильмов и полей данных от База данных фильмов (TMDB) Анкет Он содержит более 5000 фильмов, а также их рейтинговая и базовая информация, включая рейтинги пользователей и данные о доходах.

Успешный фильм оценивается по его популярности, средний балл голосования (рейтинги) и выручка. Есть некоторые ключи, которые могут повлиять на успех фильма. Например, бюджет, актеры, директор, ключевые слова TAGLINE, время выполнения, жанры, производственные компании, дата выпуска, среднее голосование и т. Д.

Глядя на то, как данные находятся в наборе данных, можно задать различные вопросы. Например  -

  • Как была популярность фильма за эти годы?
  • Учитывая пять последних лет, как распределение доходов по различным уровням оценки?
  • Как распределение доходов на разных уровнях популярности?
  • Какие виды свойств связаны с фильмами, которые имеют высокую популярность?
  • Какие свойства связаны с фильмами с высоким показателем голосования?
  • Сколько фильмов выпускается год за годом?
  • Каковы тенденции ключевых слов по поколению?

В этой серии сообщений в блоге мы собираемся ответить на вопросы выше, используя данные фильма TMDB, Numpy, Pandas и Matplotlib.

Для этого сообщения мы сосредоточимся на общих комментариях о данных

Прежде всего, давайте импортируем необходимые пакеты

импортировать панды как PD импортировать Numpy как NP Импорт matplotlib.pyplot как plt импортировать Seaborn как SNS Из коллекций счетчик импорта %matplotlib inline

Общие свойства

Давайте загрузим информацию о наборе данных

df.read_csv (‘tmdb-movies.csv’) df.info ()

Судя по информации выше, набор данных имеет 10866 записей и 21 колум. Используемые типы – это int, float и string. Сформируйте общее количество записей и количество записей на столбец, многие столбцы имеют нулевые значения. Давайте проверим точное количество нулевых записей на столбец.

список (df.isnull (). sum (). items ())

Глядя на приведенный выше результат, мы видим, что столбцы с нулевыми значениями, домашняя страница, директор, слоган, ключевые слова, обзор, жанры, производственные компании. Мы также видим, что домашняя страница, слоган, ключевые слова и production_companies имеет много нулевых записей. Я решил избавиться от слогана и ключевых слов, так как у них много нулевых значений.

Давайте попробуем получить больше описательной информации из набора данных

df.describe ()

Если мы посмотрим на колонку популярности, мы сможем найти несколько выбросов. Поскольку он не имеет верхней части, лучше просто сохранить исходные данные. Мы видим, что в столбцах бюджета, выручки и времени выполнения существует много нулевых значений. Первое предположение может заключаться в том, что эти фильмы не были выпущены, но если мы посмотрим на столбец release_year, мы можем заметить, что минимальное значение (1996) – это лечебный год и что нулевых значений не было. Поэтому эти фильмы были выпущены. Может быть, нули означают отсутствие данных. Однако, чтобы определить, что давайте внимательно проверим эти записи

Сначала для бюджета

df_budget_zero.query (‘бюджет’) df_budget_zero.head (3)

затем для дохода

df_revenue_zero.query (‘доход’) df_revenue_zero.head (3)

После проверки г -на Афонсо Поярта на фильме «Созваливание#производства») на Виккипедии я заметил, что фильм на самом деле был успешным. Это означает, что был успешный релиз, который также означает, что был бюджет. Следовательно, нулевые значения были отсутствуют данные. Я бы принял решение, основываясь на том, чтобы отбросить записи, поскольку это может повлиять на статистику и результат моего анализа.

Впоследствии, давайте проверим количество нулевых значений, чтобы решить, следует ли просто установить нули в виде ULL или полностью выброшенных.

Сначала для бюджета нулевые значения

df_budget_0count.groupby (‘Budget’). Count () [‘id’] df_budget_0count.head (2)

Как предложено результатами, существует много нулевых значений, чем не нулевые значения. Выбросить их испортит результаты. Я лучше установил их как нулевые.

Затем для нулевых значений доходов

df_revenue_0count.groupby (‘доход’). count () [‘id’] df_revenue_0count.head (2)

Такая же ситуация. Установить на NULL

Наконец для времени выполнения

Количество нулей незначительное, они могут быть выпущены

Удалите несколько столбцов с множеством нулевых значений и ненужных для ответа на вопросы: домашняя страница, слоган, IMDB_ID, обзор, бюджет_адж, доход_адж. Удалить дублированные данные Удалить все нулевые значения в столбцах, которые имеют нулевые значения, заменяют нулевые значения на нулевые значения в столбце бюджета и доходов. Отбросьте линии со временем выполнения.

Первая часть заканчивается здесь. Если вы хорошо провели время, читая это, пожалуйста, проверьте вторую часть, посвященную очистке данных.

Спасибо за чтение

Оригинал: “https://dev.to/nkpremices/investigating-the-tmdb-movie-dataset-6co”