Рубрики
Без рубрики

Исследование набора данных фильма TMDB, часть 2

Этот пост в блоге является второй частью целой серии. Я бы порекомендовал вам прочитать первую часть, если … Tagged с Python.

Этот пост в блоге является второй частью целой серии. Я бы порекомендовал вам прочитать первую часть, если вы хотите понять эту.

В этом сообщении я собираюсь поговорить о очистке данных. Мы собираемся использовать результаты, которые мы получили в первой части, и построить оттуда.

Шаг 1. Удалите несколько столбцов с большим количеством нулевых значений.

df.drop ([‘imdb_id’, ‘Homepage’, ‘Tagline’, ‘Overview’, ‘Budget_Adj’, ‘eneury_adj’] ,,) df.head (1)

Шаг 2. Удалить дублированные данные

df.drop_duplicates (inplace = true)

Шаг 3. Удалить все нулевые значения в столбцах, которые имеют нулевые значения

df.dropna (submet = [‘CAST’, «Режиссер», «Жанры»] ,,)

Давайте проверим, есть ли еще нулевые значения

df.isnull (). sum ()

Шаг 4. Замените нулевые значения на нулевые значения в столбце бюджета и доходов.

DF [‘Budget’] [‘Budget’]. Замените (0, NP. Нэн) [‘доход’]. Заменить (0, np. Нэн) df.info ()

Шаг 5. Отбросьте столбец времени выполнения.

df.query (‘runtime’,) df.query (‘runtime’)

df.info ()

df.describe ()

Из приведенной выше таблицы мы видим, что замена нулей на нулевые значения в бюджете и распределении доходов заставила их выглядеть лучше. Мы также можем видеть, что минимум имеет больше смысла

Это конец второй части. Если вы хорошо провели время, чтение, следите за обновлениями. Я скоро опубликую третью часть.

Спасибо за чтение.

Оригинал: “https://dev.to/nkpremices/investigating-the-tmdb-movie-dataset-part-2-e64”