Упражнение учебника Python для изучения науки о данных

Это произошло пару лет назад. После 5 лет после того, как заниматься SAS более 5 лет, я решил выйти из моего обычного ряда знакомства. Будучи данных исследователя данных, моя погоня за другими ценными инструментами была включена! Я обычно имел тенденцию к кодированию. Это была идеальная возможность сделать то, что я действительно лелею. Код. В конце концов, кодирование было полностью простым!

Я взял основные основы Python в течение семи дней. Более того, с этого момента вперед, я расследовал этот язык до самочувствительности, но дополнительно вызвало многочисленные другие, чтобы ознакомиться с этим языком. Python был изначально универсально полезным языком. Будь то, как это может, на протяжении долгосрочной перспективы, с твердой сетью поддерживать, этот язык получил посвященную библиотеку для экзамена данных и прикреплению.

Из-за отсутствия актива на Python для науки о данных я решил сделать это учебное упражнение, чтобы помочь многочисленным другим учить учить Python. В этом учебе мы возьмем масштабированные данные о том, как использовать Python для осмотра данных, укусить его, пока мы не будем приятны и практиковать его в нашем концом.

Почему учить Python для экзамена данных?

Python накопил большой интерес на последнее время в качестве решения языка для экзамена данных. У меня были основы Python некоторое время назад. Вот несколько причин, которые ходят для обучения Python:

Открытый источник – разрешено представить
Великолепная онлайн-сеть
Легко учить
Может превратиться в типичный язык для науки и создания онлайн-расследований.

Очевидно, что он на самом деле также имеет не так много недостатков: это расшифрованный язык вместо агрегированного языка – впоследствии может занимать больше времени чип компьютера. Тем не менее, учитывая инвестиционные фонды в времени разработчика (из-за простоты обучения), в настоящее время он может стать приличным решением.

Python 2.7 В/с 3.4

Это одна из самых обсуждаемых очков в Python. Вы будете постоянно столкнуться с этим, исключительно на шанс выключения, что вы изменили. Здесь нет правильного/неправильного решения. Это абсолютно зависит от обстоятельства и ваша необходимость использования. Я попытаюсь дать вам несколько указателей, чтобы помочь вам оседать на образованном решении.

Почему python 2.7?

Великие люди группы поддерживают! Это то, что вам нужно в ваших начальных днях. Python 2 был доставлен в конце 2000 года и использовался более 15 лет.

Множество библиотек аутсайдеров! Хотя многочисленные библиотеки предложили 3.x помогите еще в то же время бесчисленные модули работают только на адаптациях 2.x. Если вы намереваетесь использовать Python для явных приложений, таких как веб-улучшение с высокой зависимостью от внешних модулей, вы можете быть в идеальной ситуации с 2.7.

Часть основных моментов 3.x Andings имеет в обратном порядке и может работать с 2,7 формы.

Почему python 3.4?

Уборщик и быстрее! Дизайнеры Python исправили некоторые характерные глюки и незначительные недостатки, чтобы установить более заземленное создание для того, что придет. Это, вероятно, сначала не будет уместным, однако, будет иметь значение наконец.

Это то, что нужно! 2.7 – последняя доставка для семьи 2.x и в конечном итоге, всем нужно перейти к 3.x нанять кран варианты. Python 3 представил стабильные варианты в последние годы и продолжит эквивалент.

Не существует безошибочного чемпионата, кроме того, чтобы я предположил, что наиболее важно, вы должны ноль в обучении Python в качестве языка. Перемещение между вариантами должна просто привлекать время. Оставайтесь настроенными для преданной статьи на Python 2.x против 3.x в ближайшее время!

Как установить Python?

Есть 2 способа справиться со введением Python:

Вы можете скачать Python прямо из своей задачи веб-страницы и представить единственные сегменты и библиотеки тебе нужно
С другой стороны, вы можете скачать и представить пакет, который сопровождает предварительно представленные библиотеки. Я бы предложил загрузить Boa Seanctor. Другой выбор может быть gastroprodukt.pl/en/catering-furniture .

Вторая техника дает выпуску свободного заведения и, следовательно, я назначу, что чтобы издаться. Обеспечение этой методологии вам нужно доверять, что весь пакет будет капитально обновлен, независимо от того, увлекаетесь ли вы на самом последнем исполнении одиночной библиотеки. Следует не иметь никакого значения до тех пор, пока, если, пока и, кроме того, вы делаете фактическую разведку кровотечения.

Выбор климата продвижения

Всякий раз, когда вы ввели Python, есть разные варианты выбора климата. Вот 3 самых основных альтернативы:

Клемма/оболочка на основе
Инерт (климат по умолчанию)
Подарки щипцы амифона – как усадка в R

Хотя правильный климат полагается на вашу потребность, я для одной предпочтения iPython Note прокладывает на прокладку. Он дает тонну хороших основных моментов для записи, одновременно составляя сам код, и вы можете решить запустить код в квадратах (вместо линии по выполнению строки) Мы будем использовать климат iPython для этого общего учебных упражнений.

Запуск вашей первой программы Python.

Вы можете использовать Python в качестве основного мини-компьютера, чтобы начать с: Гастропродукт

Вещи, чтобы отметить

Вы можете начать iPython Journal, выражая «блокнот iPython» на вашем терминале/CMD, что контингент по операционной системе вы отжигаете
Вы можете назвать iPython Journal, просто нажав на имя – Intitledo на приведенном выше захвате экрана
Интерфейс показывает В [ ] Для источников информации и выхода [ ] для доходности.
Вы можете выполнить код, сжимая «MOVE + ENTER» или «ALT + ENTER», в случае вероятности, что вам нужно встроить дополнительную строку после.

Прежде чем мы глубоким погруженным в критическое мышление, давайте сделаем шагся назад и постичь зачатки Python. Поскольку мы понимаем, что структуры данных и акцент и упор и контингентная структура сборки ядра любого Мебель ручной работы язык. В Python они включают записи, струны, кортежи, ссылки на слово, для круга, в то время как-кружок, если-else и пр. Мы должны исследовать часть этих.

Структуры данных Python

Ниже приведены некоторые структуры данных, которые используются в Python. Вам должно быть удобно, чтобы они использовали их как правильно.

Записи – Записи являются одной из самых адаптируемых структур данных в Python. Ввод может быть просто охарактеризован, составив внедрение качества изолированных запятую в квадратных разделах. Записи могут содержать вещи различных видов, но обычно все, что у всех есть аналогичный сортировку. Записи Python являются изменены, и единственные компоненты издаки могут быть изменены.

Вот боевик для характеристики подноса и после этого доступа к нему:

Строки – Строки могут в основном характеризоваться использованием одного (‘), двусмысленного («) или тройного (« ») расстроенных запятых. Строки, заключенные в мусорных сигналах («»), могут варьироваться по разным линиям и одновременно используются каждые и снова в DocStrings (способ отчетности Python по возможностям отчетности). \ используется как уход Женщины носят персонаж. Если вы не возражаете, обратите внимание, что строки Python являются постоянными, поэтому вы не можете изменить часть строк.

Кортежи – Со кортеже говорят различными качествами, выделенными запятыми. Кортежи являются постоянными, а выход окружают корпуса, чтобы обоснованные кортежи эффективно обрабатывались. Более того, несмотря на то, что кортежи неизменяются, они могут проводить переменные данные при необходимости.

Поскольку кортежи являются постоянными и не могут измениться, они быстрее в подготовке при контрасте с записями. Таким образом, если ваше подножение, вероятно, не будет трансформироваться, вы должны использовать кортежи, а не записи.

Справка слова – Справка слова – неупорядоченное расположение ключа: уважение наборов, с обязательным условием, что ключи специальные (внутренние ссылки на одно слово). Пара поддержки делает незаполненное слово справочника: {}.

Питонский цикл и ограничительные сборки

Как и большинство диалектов, Python дополнительно имеет для круга, который является наиболее широко используемой техникой для цикла. Он имеет прямую пунктуацию:

Для меня в [Python Tireable]: выражение (я)

Здесь «Python Tireable» может быть топ-нот, кортежным или другим прогрессированным структурам данных, которые мы рассмотрим в более поздних сегментах. Мы должны исследовать базовую модель, решая факториал числа.

факт = 1. Для i в диапазоне (1, n + 1): правда

Приходя к контингентным прокламациям, они используются для выполнения кадров в зависимости от состояния. Наиболее регулярно используемая сборка – это, если иначе, со следующей языковой структурой:

В случае, если [состояние]: исполнение если правда

еще:

исполнение Если ложь

Например, в случае вероятности того, что нам нужно распечатать, является ли число N равномерно или нечетным:

Если n% 2: Печать («Даже»)

еще:

Печать («нечетное»)

Так как вы знаете о основах Python, мы должны сделать скорость дальше. Представьте себе сценарий, в котором вам нужно поиграть в сопроводительных начинаниях:

Увеличьте 2 решетки
Откройте для себя основание квадратичного состояния
Участок строки и гистограммы
Сделать фактические модели
Доступ к страницам

В случае вероятности, что вы пытаетесь составить код без какого-либо подготовки, это будет плохой сон, и вы не будете оставаться на Python более 2 дней! В любом случае, давайте не подчеркивать это. К счастью, есть многочисленные библиотеки с заранее определенным, что мы можем прямо привести в наш код и сделать нашу жизнь простыми. Например, рассмотрите факториальную модель, которую мы просто наблюдали. Мы можем сделать это в одиночном продвижении как:

math.factorial (n)

Off-ointer, нам нужно импортировать численную библиотеку для этого. Давайте рассмотрим различные библиотеки дальше.

Библиотеки Python

Позволяет сделать один шаг вперед в нашей экскурсии, чтобы узнать Python, узнав некоторые полезные библиотеки. Первоначальный шаг явно выяснить, как довести их в наше текущее обстоятельство. Есть несколько разных способов сделать так, как таковые в Python:

Импортировать математику как M Из математического импорта

В основном, мы охарактеризовали Moniker M до библиотеки математики. Теперь мы сможем использовать различные возможности из математической библиотеки (например, факториал), обращаясь к нему, используя NOM DE DEME M.FAFFORIAL ().

В последующем виде вы импортировали все пространство имен в математике, например, вы можете использовать Factilial (), не намекая на математику.

Совет : Google предлагает, чтобы вы использовали первый способ привлечения библиотек, как вы узнаете, откуда пришли емкости.

Ниже приведены встроенные библиотеки, вам потребуется для любых логических расчетов и расследования данных:

Numpy представляет математический питон. Самый замечательный элемент Numpy является N-мерным вылетом. Эта библиотека также содержит фундаментальные прямые полиномиальные математические возможности, изменения Фурье, прогрессировали произвольные номера способности и устройства для включения с другими низкоуровневыми диалектами, такими как Fortran, C и C ++
Scipy представляет логический питон. Scipy основан на Numpy. Это одна из самых полезных библиотек для ассортимента повышенного уровня наука и проектирования модулей, таких как дискретные изменения Фурье, математика на основе переменных, улучшение и неадекватные сетки.
MATPLOTLIB для построения огромных ассортимента диаграмм, начиная с гистограмм к линию участков к теплым участкам. Вы можете использовать Highlight Highlight в журнале iPython (pad pad pad aphton -), чтобы использовать эти подсвечивания построения встроенные. В случае вероятность того, что вы упускаете из виду встроенный выбор, в этот момент Pylab меняется на климат iPython в климат, принципиально такой же, как MatLab. Вы также можете использовать заказы на латекс, чтобы добавить математику на ваш участок.
Pandas для организованных данных и контрольных элементов. Он широко используется для передачи данных и договоренности. Пандас добавляли в целом по опозданию на Python и сыграли важную роль в усилении использования Python в сети исследователей данных.
Scikit Учитесь для AI. На основании Numpy, Scipy и Matplotlib эта библиотека содержит много продуктивных устройств для AI и измеримых демонстрационных демонстраций, включая группу, рецидив, связующее и размерность уменьшения.
Statsmodels для фактической демонстрации. STATSMODELS – это модуль Python, который позволяет клиентам исследовать данные, измеримые модели измеримые модели и выполняют фактические тесты. Широкое изложение четких измерений, фактических испытаний, потенциалов поручения и результаты доступны для различных видов данных и каждого оценщика.
Meanborn для фактического восприятия данных. Seanborn – это библиотека для замаскивания и просвещения измеримых иллюстраций в Python. Это зависит от коробка овощей поставлено Матплотлиб. Морной значит сделать восприятие очаговым предметом расследования и получения данных.
Bokeh для создания интеллектуальных участков, панелей приложений и данных и данных на текущих интернет-браузерах. Он занимается клиентом производить богатые и компактные иллюстрации в стиле d3.js. Кроме того, он обладает способностью превосходной интуитивности в чрезвычайно огромных или потоковых данных.
Взрыв для расширения емкости Numpy и Pandas до передачи и потоковых наборов данных. Он имеет тенденцию использовать, чтобы добраться до данных из большого количества источников, включая BLOCLZ, MongoDB, SQLALCHEMY, Apache Sparkle, Pytables и пр. Наряду с Боке, Bokeh, Blast может идти в качестве исключительно невероятного актива для создания мощных восприятий и приборных панелей огромные кусочки данных.
Скапитка для прогулки зарезки. Это ценная структура для получения явных примеров данных. Он имеет возможности начать на сайте Home URL URL и впоследствии Burrow через страницы сайта внутри сайта для сборки данных.
Симпи для эмблематического расчета. Он имеет широководящие способности от фундаментального представительного числа жонглирования к аналитике, полиномиальной математике, дискретной науке и квантовой физической науке. Другим полезным элементом – это возможность разработать следствие расчетов как код латекса.
Ходатайства о попадании в Интернет. Он работает как стандартная библиотека Python Urllib2, но намного проще для кода. Вы обнаружите ненавязчивые контрасты с Urllib2, но для очков отрезки, ходатайства могут быть более выгодными.

Дополнительные библиотеки, вам может потребоваться:

ОС для рабочей структуры и документов
NewsX и Igraph для контроля данных на основе диаграммы
Обычные артикуляции для открытия дизайнов в данных контента
Beautifulsoup для отклонения полотна. Это посредственный по сравнению с SCRAPY, так как он удалит данные с простоомагнитной страницы в бег.

Так как мы знаем о Python Essentials и дополнительных библиотек, позволяет принести глубокий прыжок в критическое мышление через Python. Поистине я имею в виду сделать пресеченную модель! Одновременно мы используем некоторые невероятные библиотеки и, кроме того, переходите в следующую степень структур данных. Мы возьмем вас через 3 ключевых этапа: 1 – расследование данных – узнать больше о данных, которые у нас есть 2 – Munning Data Muning – очистка данных и воспроизведение с ней, чтобы улучшить его измеримые демонстрации 3 – иметь несколько хороших времен

Исследовательское обследование в Python с использованием пандов

Чтобы дальше расследовать наши данные, позвольте мне познакомиться с другим существом (как будто Питон был недостаточным!) – Пандас. Пандас является одним из самых полезных библиотек по расследованию данных в Python (я понимаю, что эти имена звучит странно, однако, держится крепко!). Они сыграли важную роль в расширении использования Python в Nemess Network. В настоящее время мы будем использовать Pandas Peruse данные, установленные из экзаменационного соперничества Vidhya, выполняют исследовательское расследование и собрать наш первый расчет основных организаций для заботы об этом вопросе. Перед укладкой данных давайте понять 2 ключевых структур данных в пандах – аранжировке и датафрам

Пролог до договоренности и датафрам

Расположение может быть воспринято как 1-мерное помеченное/поданное выставка. Вы можете добраться до сингулярных компонентов этой договоренности через эти имена.

Рамка данных похоже на доминирующую руководство по упражнению – у вас есть имена разделений, ссылающихся на сегменты, и у вас есть строки, которые могут быть достигнуты с использованием номеров столбцов. Фундаментальный контрастность в том, что имена сегментов и номера линий известны как раздел и список столбцов, если возникнет возникновение кадров данных.

Расположение и рамки данных Структура центральной модели данных для Pands в Python. Наборы данных сначала добавляют что-то дополнительное значение для этих кадров данных и впоследствии, различные виды деятельности (например, с коллекционной и т. Д.).

Практическая настройка данных – продвижение ожидания

Вот изображение факторов:

Переменные изображения: Переменная: Изображение Loan_id: один из доброго аванса ID Пол: Мужской/женский Женат: кандидат вручен (Y/N) Иждивенцы: количество подопечных Образование: обучение кандидата (выпускник/под выпускники) Self_empless/самостоятельно используется: (Y/N) Alldicancome: кандидат платят Доход заявителя CO: CO Заявитель платят CoinaMount: предварительная сумма в тысячах Loan_amount_term: Срок продвижения в месяцах Credit_History: запись как потребителя соответствует правилам ** Property_Area : Метрополит/полутрополит/страна ** Loan_status : Аванс подтвержден (Y/N)

Мы должны начать с расследования

Для начала запустить интерфейс iPython в режиме inline Pylab, составив следующие на вашем терминале/Заказать Windows Заказать:

iPython Journal –

Это открывает журнал iPython в климате Pylab, который имеет пару ценных библиотек, ранее импортированных. Кроме того, у вас будет возможность построить свой встроенный в ваш данные, что делает это отличным климатом для интуитивно понятного экзамена данных. Вы можете проверить, будет ли климат укладывать точно, составление прилагаемого порядка (и получение доходности, как найдено на рисунке внизу):

Участок (Arange (5)) Я сейчас работаю в Linux, и убрал набор данных в сопроводительном районе:

/home/kunal/downloads/loan_prediction/train.csv.

Принося библиотеки и набор данных:

Ниже приведены библиотеки, которые мы будем использовать во время этого учебного упражнения:

воплощение
matplotlib.
панда

Было бы идеально, если вы заметите, что вам не нужно импортировать matplotlib и numpy в результате климата pylab. Я до сих пор сохранил их в коде, в результате чего вы используете код в альтернативном климате. После приема библиотеки вы читаете набор данных с использованием емкости READ_CSV (). Это средство, с помощью которого код выглядит до этого этапа:

Импортировать панды как PD Импортировать Numpy как NP Импорт MatPlotlib в виде PLT % Matplotlib Inline

df.rad_csv (“/home/kunal/downloads/loan_prediction/urch.csv”) # # Чтение набора данных в DataFrame, используя Pandas

Расследование данных Snappy

Всякий раз, когда вы позаряжете набор данных, вы можете просматривать не так много верхних строк, используя головку емкости ()

df.head (10)

Это должно печатать 10 столбцов. Опять же, вы также можете увидеть больше столбцов, печатая набор данных. Далее вы можете взять гандурь на контуре математических полей, используя Raphy () Работа

df.describe ()

Вот пару производных, вы можете рисовать, взяв на себя гундук на доходность изображения () работы:

Coinamount имеет (614 – 592) 22 пропущенных качества.
Loan_amount_term имеет (614 – 600) 14 пропущенных качеств.
Credit_History имеет (614 – 564) 50 недостающих качеств.
Мы также можем посмотреть, что около 84% кандидатов имеют Credit_History. Как? Среднее поле Credit_History составляет 0,84 (вспоминание, Credit_History имеет почитать 1 для лиц, которые имеют финансовую учет и 0 в любом случае)
Дисперсия по заявительнице состоит в том, что все счета в соответствии с желанием. То же самое с доходом заявителя CO

Помните, что мы можем получить мысль о потенциальном уклоне данных в данных, контрастировав среднее со средним, например, половину. Для нематематических качеств (например, Property_Area, Credit_History и пр.) Мы можем взять Гандера по поводу рецидивов, чтобы понять, если они хорошо сочетаются. Таблица рецидива может быть напечатана следующим порядком:

df [‘property_area’]. Value_Counts ()

Кроме того, мы можем увидеть исключительные оценки порта финансовой записи. Обратите внимание, что dfname [‘column_name’] – это фундаментальный метод упорядочения для доступа к конкретному разделу кадра данных. Он также имеет тенденцию быть элитой разделов.

Распыление расследования

Поскольку мы знаем о фундаментальных качествах данных, позволили нам изучить обращение различных факторов. Позвольте нам начать с числовых факторов – в частности, заявитем и кредит

Давайте начнем с построения гистограммы Alldicancome, используя прилагаемые заказы: df [‘Allizentincome’]. Hist (Bins = 50) Здесь мы видим, что существует не много возмутительных качеств. Это также мотивация позади того, почему 50 канистров необходимо, чтобы изобразить циркуляцию, очевидно.

Далее мы видим полевые участки, чтобы понять транспортировки. Коробка Участок для приема может быть нанесен: df.boxplot (столбец = ‘allentincome’) Это подтверждает наличие многочисленных аномалий/возмутительных качеств. Это может быть зачислено на уникальность оплаты в широкой публике. Некоторая часть этого может быть обусловлена тем, как мы принимаем гундер у людей с различными уровнями обучения. Позвольте нам изолировать их, обучение: df.boxplot (столбец = ‘allenticcome’,)

Мы видим, что между средней оплатой выпускниками и не выпускниками нет. В любом случае, существует более высокое количество выпускников с чрезвычайно крупнейшими зарплатами лиги, которые отказываются от впечатления быть исключениями.

В настоящее время, как насчет того, чтобы мы возьмем гундер на гистограмме и Boxplot из кредита, используя прилагаемый заказ: df [‘coalamount’]. hist (bins = 50)

df.boxplot (столбец = ‘coalamount’)

Еще раз, есть некоторые необычные качества. Ясно, как Allificancome, так и в кредит требуют некоторой меры передачи данных. CoinaMount отсутствует и хорошо, как необычные качества уважения, в то время как заявительница имеет пару возмутительных качеств, которые требуют дальнейшего договоренности. Мы возьмем это в грядущих сегментах.

Очистить вырезать переменное расследование

Поскольку мы понимаем распространения заявителем и Окрестностяндом, давайте понять четкие вырезанные факторы в более тонкостях. Мы будем использовать Dominate Style Rotate Table и перекрестную классификацию. Например, позволил нам взять на себя гундук на шансы на получение заранее зависимого от истории окладывания. Это может быть достигнуто в MS Dominization, используя столик как: Примечание : Здесь кредитный статус был закодирован как 1 для Да и 0 для Нет. Так что значит говорит о вероятности получения аванса Мебель из нержавеющей стали .

В настоящее время мы возьмем гандер на средства, необходимые для создания сопоставимого понимания, использующего Python. Любезно Дисплей холодильник Для того, чтобы получить висель разнообразных стратегий контроля данных в пандах.

Temp1 [‘credit_history’]. Value_Counts (Ascending = True) .Pivot_table (значения = ‘loan_status’, index = [‘credit_history’], aggfunc = lambda x: x.map ({‘y’: 1, ‘n’: 0}). Среднее ()) Печать («Рецитарная таблица для записи погашения кредита:») Печать (Temp1) Печать (‘\ NProbility Получить продвижение для каждой записи класса погашения кредита:’) Печать (Temp2)

В настоящее время мы видим, что мы получаем сопоставимый pivot_table, как MS доминируют на один. Это может быть нанесено на график гистограммы, используя библиотеку «MATPLOTLIB» со следующим кодом:

Импорт matplotlib.pyplot как PLT .figure (figsize = (8,4)) .add_subplot (121) AX1.SET_XLABEL («Credit_History») AX1.SET_YLABEL («Количество кандидатов») AX1.SET_TITLE («Заявители по Credit_History») ) .add_subplot (122) ) Ax2.Set_xlabel (‘credit_history’) AX2.SET_YLABEL (вероятность получения продвижения ») AX2.SET_TITLE (вероятность получения продвижения по финансовой записи »)

Это показывает, что шансы на получение продвижения – восемь наложений, если кандидат имеет существенную запись погашения кредита. Вы можете с участием сопоставимых диаграмм по сдержанным, независимому использованию, Property_Area, и так далее

Затем, опять же, эти два участка также могут быть изображены путем консолидации их в сложенном графике:: Temp3.crosstab (DF [‘Credit_history’], df [‘loan_status’]) , цвет = [«красный», «синий»],)

В случае вероятности того, что вы не поняли на данный момент, мы недавно сделали две основные расчеты группировки здесь, один зависимый от истории кредита, в то время как другие на 2 абсолютных факторах (подсчет пола). Вы можете быстро записать это, чтобы сделать свое первое размещение на AV DataHacks.

Мы только что воспринимали, как мы можем сделать исследовательский экзамен в Python, используя панды. Я доверяю своей привязанности к пандам (существо) расширило бы на данный момент – учитывая меру помощи, библиотека может дать вам наборы данных.

Далее, как насчет того, как насчет того, что мы расследуем факторы Ambalicancome и Loanstatus, выполняйте данные о разумных данных и сделайте набор данных для применения различных демонстрационных процедур. Я бы неведно попросил, чтобы вы предприняли другой набор данных и выпуск и испытываете автономную модель до проницательности.

Data Muning в Python: использование пандов

Для тех, кто следовал, вот вы должны носить обувь, чтобы начать бегать. Data Muning – Рекомендация необходимости

Пока наше расследование данных мы нашли пару выпусков в наборе данных, которые должны быть адресованы до того, как данные будут подготовлены для приличной модели. Эта деятельность регулярно намерена как «Data Muning». Вот вопросы, мы сейчас помните о:

Есть недостающие качества в определенных факторах. Мы должны оценить эти качества, невосприимчиво полагаясь на меру пропущенных качеств и нормальной значимости факторов.
Во время проведения гундера на дисперсиях мы увидели, что заявительница и кредит, оказались, содержали возмутительные качества на одном или оборотной стороне. Несмотря на то, что они могут хорошо бореться, все же следует решать подходящим образом.

Несмотря на эти проблемы с математическими полями, мы должны также взять Гандера в нематематических областях, например, секс, Property_Area, Wardded, обучение и подопечные, чтобы увидеть, в результате чего они содержат любой ценные данные .

В случае, если вы новичок в Пандас, я бы предложил прочную эту статью до начала продолжения. Он тонкостей некоторые ценные методы контроля данных.

Проверьте недостающие качества в наборе данных

Позвольте нам взять на себя не пропущенные качества во всех факторах на том основании, что большая часть моделей не работает со пропущенными данными, и независимо от того, обычно ли они помогают. Таким образом, позволил нам проверить количество ноль/Назы в набор данных

df.apply (лямбда х:)

Этот заказ должен раскрывать нам количество недостающих качеств в каждом разделе, как isnull () возвращает 1, если ценность недействительна.

Несмотря на то, что недостающие качества не являются высокими числами, но довольно многочисленные факторы у них, и каждый последний из них следует оценить и включать данные. Получите определенный вид на различные стратегии по восприятию через эту статью.

Примечание : Напомним, что эти недостающие качества могут вообще не могут быть называющимися. Например, если LONE_AMOUNT_TERM 0, это хорошо ли это хорошо, или вы думаете о том, что отсутствует? Я думаю, ваш ответ отсутствует, и вы правы. Поэтому мы должны проверить на ценности которые странные.

Оригинал: “https://dev.to/doruseo2/python-instructional-exercise-to-learn-data-science-3dn7”