Рубрики
Без рубрики

Наиболее распространенные проблемы с реальными данными: Как проверить их и как их исправить

1. Отсутствующие данные Как проверить? .read_csv (‘name_of_csv_file.csv) df.in … Помечено Python, Datascity, Pandas, Numpy.

Как проверить?

df.read_csv (‘name_of_csv_file.csv) df.info ()

Индекс диапазона покажет вам общее количество, а затем помимо каждой записи, вы найдете его счет. Если он не приравнивается к общему количеству, то у вас отсутствуют данные в вашем наборе.

Как с этим иметь дело?

Это варьируется в зависимости от ситуации под рукой. Например, почему данные отсутствуют? И кажутся ли явление случайным.

Один из способов поступить в этот вопрос – это рассчитать отсутствующие значения, используя среднее значение.

Например, если у вас отсутствуют пропущенные значения на протяжении всего, что пользователь просматривал продукт на вашем сайте. «Продолжительность» – это имя переменной в этом случае.

значит [«продолжительность»]. Среднее () [«продолжительность»]. Фильна (среднее)

Вторая строка может быть написана как:

DF [«Продолжительность»]. Fillna (среднее значение)

И оба служат для применения изменений (добавление данных, которые вы только что рассчитали) на исходный набор.

Как проверить?

df.duplied ()

Это должно отображать «ложь» рядом со всеми строками, которые не являются дубликатами, а «истинные» рядом с теми, которые являются дубликатом из них над ними.

Я Первый экземпляр будет помечен как «false», но второй экземпляр (который является дубликатом) будет помечен как «true».

Вы также можете проверить с:

сумма (df.duplied ())

Это работает для более крупных наборов данных, и он показывает, сколько случаев у вас есть случаи дубликатов.

Как с этим иметь дело?

df.drop_duxates (Inplace = True)

Опять же,) используется для применения изменений в исходном наборе данных.

Как проверить?

df.read_csv (‘name_of_csv_file.csv) df.info ()

Например, если рядом с переменной «Timestamp» вы найдете «объект», это означает, что ваш набор данных имеет дело со временем Timestamp в виде строки (STR), которая не идеальна. Правильное представление – это объект DateTime.

В этом случае мы будем использовать:

df [‘timestamm’]. to_dateTime (df [‘timestamm’]

Примечание : Исправления типа данных не применяются при восстановлении файла CSV. Таким образом, в следующий раз, когда вы проанализируете файл, обязательно измените их снова соответственно.

Оригинал: “https://dev.to/gharamelhendy/most-common-issues-with-real-life-data-2bh”