Рубрики
Без рубрики

Прекратите использование Excel для анализа данных: обновление до Python

Эта статья была написана Тайлером Фолькманом и была первоначально опубликована на образовании. Тайлер – глава … Tagged с помощью Python, Data Science, машинного обучения.

Эта статья была написана Тайлером Фолькманом и была первоначально опубликована на Образование Анкет Тайлер – глава ИИ в брендовой развлекательной сети и автор книги «Курс образования» Анализ и визуализация данных Python Анкет Тайлер увлечен наукой данных и искусственным интеллектом. Он во многом вносит вклад в сообщество, в том числе ведущий писатель в искусственном интеллекте на среде. Проверьте его блог Обучение с данными Анкет

В 2017 году было подсчитано, что 750 миллионов человек по всему миру использовали Excel. Население мира в 2017 году составило около 7,6 миллиардов. Это означает, что примерно 10% населения использовали Excel, и я предполагаю в основном для аналитики данных. Это безумие.

Нет сомнений в том, что Excel был невероятно важным инструментом для компаний и все еще имеет место в инструментарии каждого аналитика и ученого, но для большей части вашей работы вам нужно прекратить использование Excel и обновление до Python. Я собираюсь показать вам, почему.

Так что, если вы все еще не взяли на себя скачок, чтобы выучить Python и вывести свои навыки анализа данных и визуализацию на следующий уровень, я представляю вам 5 причин, по которым вам нужно изучить Python прямо сейчас. В конце я уверен, что вы с нетерпением ждете возможности заменить большую часть своей работы Excel с Python.

Сегодня мы пойдем:

  • Масштаб и автоматизация
  • Воспроизводимость
  • Переносимые навыки
  • Расширенные возможности
  • Python легко выучить
  • Начните с Python для анализа данных
  • Завершая

Масштаб и автоматизация

Excel великолепен, когда вы хотите провести быстрый, специальный анализ с небольшими данными, но как только вы захотите перейти в более широкий масштаб, он просто не работает. Excel может поддерживать данные до 1 048 576 строк на 16 384 столбца. С другой стороны, Python может масштабироваться до размера вашей памяти, а также имеет много инструментов, которые поддерживают вычисления вне памяти.

Например, библиотека DASK позволяет масштабировать ваши вычисления для запуска на кластере машин, а не только на вашем ноутбуке. На самом деле, если вы знакомы с Pandas, это почти тот же код, чтобы читать в CSV:

import dask.dataframe as dd

# Load the data with Dask instead of Pandas.

df = dd.read_csv()

Одна строка кода, и теперь вы читаете в данных больше, чем память вашего компьютера. Я бы показал вам, как это сделать в Excel, но это даже невозможно.

Если этот код выглядит иностранным, проверьте мой курс Это учит вам всему, что вам нужно знать, чтобы начать с Pandas.

Кроме того, Python может масштабироваться, когда дело доходит до нескольких источников данных. В то время как Excel является как хранилищем данных, так и механизмом вычислений, Python полностью Данные агностик Анкет Если вы можете найти способ прочитать свои данные в Python, вы можете использовать их. А поскольку Python имеет так много отличных библиотек, это тривиально читать в данных из многих источников, таких как CSV, Excel, JSON и SQL DATARAS.

Наконец, Python – это удивительный язык программирования, когда дело доходит до автоматизация . Поскольку вы можете подключить Python непосредственно к любому источнику данных, легко запланировать задание, которое будет повторно накачать ваши данные любыми обновлениями, запустить ваши вычисления и даже создать отчет или динамическую динамическую панель панели, сэкономив вам тонны времени. Excel, с другой стороны, требует слишком много ручного труда и не может автоматизировать обновления.

Python может подключаться непосредственно к вашей базе данных для автоматических обновлений. Источник: Noledesktop

Воспроизводимость

Воспроизводимость – это концепция, которую любая аналитика или визуализация, которую вы создаете, должны быть простыми и простыми для воспроизведения для кого -то другого. Мало того, что кто-то должен иметь возможность повторно запустить ваш процесс и в конечном итоге получить тот же результат, но и должен быть в состоянии пройти ваши шаги, чтобы обеспечить точность. Эта концепция чрезвычайно важна, когда вы начинаете полагаться на автоматизацию. Автоматизация удивительна при правильной работе, но когда неправильные автоматизированные отчеты могут быть кошмаром.

Воспроизводимость с Excel очень сложная. Расчеты Excel в клетках практически невозможно проверить в любом типе масштаба. Типы данных чрезвычайно запутанны, потому что то, что вы видите, не всегда то, что представлено в необработанных данных, и, хотя VBA делает воспроизводимость немного лучше, в этот момент вам гораздо лучше инвестировать в обучение Python.

Взгляните на этот документ Excel:

Вы знаете сумма Колонка должна быть суммой A и B, но как вы это подтвердите? Вы можете проверить одну из формул и увидеть, что это на самом деле сумма, но, поскольку каждая ячейка может быть собственной формулой, что, если все они не верны? Если вы не обращали внимания, вы, возможно, пропустили, что ряд X была неверной.

Но в Python ваша сумма будет выглядеть так:

a = [1,2,3,4]
b = [5,6,7,8]
sum = []
for i in range(a):
    sum.append(a[i] + b[i])

Этот код ясен и легко подтвердить, что сумма всегда рассчитывается правильно.

С Python вы получаете все инструменты, разработанные для создания Воспроизводимость и сотрудничество лучше для инженеров -программистов Анкет Кроме того, Python превосходит подключение данных, позволяя нам анализировать данные в облаке и мгновенно повторять процесс. GIT, модульное тестирование, документация и стандарты форматирования кода распространены в сообществе Python. С Python 3 вы даже можете добавить статическое набор, чтобы сделать ваш код еще более ясным. Все эти инструменты облегчают то, чтобы ваш код был хорошо написан и правильно. Чтобы в следующий раз, когда вы посмотрите на свой код или кто -то еще поднимает его, его легко воспроизводить и понять.

Продолжайте обучение.

Изучите Python для анализа данных и больших данных, не пробираясь через видео или документацию. Текстовые курсы Educative просты в скидке и оснащены живыми средами кодирования, что делает обучение быстрым и эффективным.

Анализ и визуализацию данных Python

Переносимые навыки

Если вы знаете Excel, вы знаете Excel. Хотя навыки, которые вы изучаете, полезны, они не подлежат передаче ни на что другое. Одна из вещей, которые мне больше всего нравится в Python, – это не только удивительный инструмент для анализа данных и визуализации, но и солидный язык программирования, который можно использовать для многих других вещей.

Хочу сделать Машинное обучение Или даже глубокое обучение? Вы можете сделать это с Python. Хотите построить веб -сайт? Питон может это сделать. Хотите автоматизировать свой умный дом? Питон тоже может это сделать.

Кроме того, Python намного ближе к другим языкам программирования, чем Excel. Это намного облегчает подбор других языков, с которыми вы можете столкнуться на этом пути. Изучение Python открывает гораздо больше дверей, чем когда -либо мог.

Наконец, Спрос на Python невероятно высокий Анкет Согласно Stackoverflow, в 2019 году он считался 4 -м самым популярным языком программирования в мире среди профессиональных разработчиков программного обеспечения, а также первым наиболее разыскиваемым языком программирования. И действительно говорит, что средняя зарплата разработчика Python в США в 2020 году составляет 120 тысяч долларов в год. Неплохо.

Расширенные возможности

Excel имеет много встроенных формул, но по сравнению с возможностями Python. Python не только предлагает сотни библиотек, чтобы упростить продвинутую статистику и аналитику, но также может вывести ваши визуализации на другой уровень. Благодаря таким инструментам, как Matplotlib, Plotlyly, Streamlit и Seaborn, вы можете создавать красивые визуализации данных, а также интерактивные панели панели и участки.

Numpy и Scipy обладают удивительной поддержкой научных вычислений, линейной алгебры и векторизованных расчетов. И Scikit-Learn позволяет вам обучать алгоритмы машинного обучения от деревьев решений до машин повышения градиента. Я думаю xkcd сказал лучше всего:

Python легко выучить

Учитывая все удивительные преимущества Python по сравнению с Excel, это должно быть трудно выучить, верно? Нет! Проверьте это сравнение Привет, мир , самая простая программа на различных языках:

Python буквально одна строка: Печать ("Привет, мир!") . Это не становится проще. Python – один из самых простых языков программирования, который можно поднять и имеет одно из самых активных сообществ, особенно в мире аналитики данных. Python – один из самых интуитивно понятных языков программирования, и это даже понятно для кого -то с небольшим опытом работы в информатике! Хотя кривая обучения Excel может показаться предпочтительной, на другом конце гораздо меньше отдачи. Кривая обучения Python стоит времени и усилий В каком-то смысле, что Excel никогда не будет совпадать из-за своего универсального дизайна.

Python прост в использовании, и с огромным сообществом поддержки его никогда не было проще учиться. Чтобы помочь вам сделать переключатель, я разработал Курс Это не предполагает никакого опыта на Python и может взять вас с нуля, чтобы уверенно извлекать знания и ответы из данных.

Чтобы показать вам, насколько легким является Python, в следующем разделе я познакомлю вас с некоторыми основаниями для анализа данных и визуализаций в Python.

Начните с Python для анализа данных

Чтобы начать вас, я хочу провести вас через некоторые основные команды и операции в Python, которые будут необходимы для ваших навыков анализа данных. Давайте начнем с фондов.

Первое, что вы заметите, это то, что Python использует пробелы и не использует использование Semicolon ; как другие языки. Вот очень простой пример:

Импорт функциональных возможностей

Мы будем использовать многие библиотеки, некоторые из которых предварительно установлены с Python, а некоторые нам придется установить сами. Чтобы получить библиотеку использовать оператор импорта:

from collections import Counter

Эта команда импортирует счетчик класса из библиотеки коллекций. Счетчик является очень полезным инструментом для ученых данных; Он может подсчитать количество раз, когда элементы появляются в коллекциях, таких как списки. Например, в приведенном ниже коде мы создадим список брачных возрастов. Используя счетчик, мы можем быстро подсчитать количество раз, когда появляется каждый уникальный возраст.

Списки в Python

Списки являются полезной структурой данных для хранения данных. Они будут изучены более подробно во время следующего урока. Например:

Вы можете видеть, что мы создали список, содержащий старшие возрасты, используя [] в строке 2. Затем мы подали этот список в Счетчик Функция в строке 4, чтобы распечатать наиболее распространенные значения в виде списка кортежей, в строке 5.

Тупел – это коллекция внутри () Анкет Эти кортежи содержат два элемента: значение И тогда количество раз, когда значение появлялось в вашем списке. Частота заказывает список кортежей. Сначала появляется значение с наибольшим событием.

Функции в Python

Функции также полезны. Функции в Python начинаются с ключевого слова дефект и имя функции, за которым следует входные данные, которые ожидает функция в скобках. Вот функция, которая принимает 2 входа, x и у и возвращает сумма :

Функции также могут быть анонимными, что означает, что вам не нужно объявлять их при вышеизложенной структуре. Вместо этого вы можете использовать лямбда ключевое слово. Вот та же функция, что и выше, но как анонимная функция:

Завершая

Пришло время переключиться на Python. Больше нет оправданий! Чтобы стать аналитиком данных, вам нужно будет охватить следующие концепции:

  • Основы Python для аналитики
  • Чтение данных
  • Описывая данные
  • Данные очистки
  • Визуализация данных

Начните все эти концепции и многое другое в моем курсе Анализ и визуализация данных Python , который использует практическую практику и примеры кода, чтобы продвинуть вашу карьеру в аналитике данных.

Иди и поднимите свои навыки на следующий уровень с помощью Python!

Оригинал: “https://dev.to/educative/stop-using-excel-for-data-analytics-upgrade-to-python-2ld6”