Рубрики
Без рубрики

Как стать специалистом по данным без ученой степени

В этой статье мы рассмотрим, каково это-быть специалистом по обработке данных, необходимый набор навыков и как приобрести эти навыки, используя в основном бесплатные или дешевые онлайн-ресурсы.

Автор оригинала: Tash Postolovski.

Интерес к поисковому термину “наука о данных”, измеренный Google, за последние пять лет. Источник: Интерес к поисковому термину “наука о данных”, измеренный Google, за последние пять лет. Источник:

В технологической индустрии новые навыки и роли появляются быстрее, чем может справиться традиционное образование. Недавним примером является область data science и связанная с ней профессия Data Scientist .

Самое простое определение области науки о данных — это практика сбора, анализа и интерпретации данных с помощью технологий. Большинство степеней в области компьютерных наук еще не предлагают науку о данных в качестве основной специальности, и поэтому многие специалисты по обработке данных являются самоучками. По этой причине можно стать специалистом по обработке данных без формальной степени В этой статье мы рассмотрим, каково это-быть специалистом по обработке данных, необходимый набор навыков и как приобрести эти навыки, используя в основном бесплатные или дешевые онлайн-ресурсы.

обо мне

Я начал свою карьеру в качестве нетехнического менеджера по продуктам, тесно сотрудничая с командами инженеров-программистов. Я всегда считал программирование своего рода сверхдержавой, которая давала моим коллегам возможность создавать новые продукты и идеи, используя только компьютер и подключение к Интернету. Я решил овладеть этим навыком и отправился в путешествие, чтобы изучить разработку программного обеспечения (с помощью буткэмпа и целой кучи самообучения и практики!).

Сейчас я работаю инженером-программистом в Мельбурне, Австралия. Я очень заинтересован в потенциале науки о данных и рассматриваю ее как навык, которому может научиться любой инженер-программист, математик или начинающий статистик. Эта статья основана на моем собственном опыте изучения методов науки о данных, а также на опыте людей, которые проникли в эту область.

Чем специалисты по обработке данных отличаются от статистиков?

Известный статистик Нейт Сильвер утверждает , что специалисты по обработке данных ничем не отличаются от статистиков. Это, вероятно, верно для ведущих статистиков в этой области, которые используют технологические инструменты и языки программирования для понимания все более крупных хранилищ данных. Однако, хотя все специалисты по обработке данных используют эти инструменты, не все статистики делают это — это ключевое различие между этими двумя ролями.

Другим фактором являются различные контексты, в которых статистики и специалисты по обработке данных применяют свою профессию. Статистики работают во всех отраслях в течение многих лет, в то время как специалисты по обработке данных в основном работают в технологической отрасли или в компаниях с хорошо развитой ИТ-составляющей. Преобладание специалистов по обработке данных в технологической отрасли, вероятно, связано со способностью технологических компаний собирать, хранить и осмысливать огромные объемы данных — способность, которую многие традиционные компании еще не смогли освоить.

С практической точки зрения специалисты по обработке данных и статистики различаются по другому важному показателю: зарплате. Согласно PayScale, средняя зарплата специалистов по обработке данных в Соединенных Штатах составляет 91 000 долларов, что на 19 000 долларов выше средней зарплаты статистиков (72 000 долларов). Хотя может быть правдой, что специалисты по обработке данных и статистики часто выполняют аналогичные виды работы, специалисты по обработке данных получают за это гораздо более высокую финансовую компенсацию.

Что на самом деле делают специалисты по обработке данных?

На высоком уровне специалисты по обработке данных используют математику, инструменты и методы программирования, программное обеспечение и статистические методы для получения информации из данных. В интервью с несколькими учеными по обработке данных некоторые из вещей , о которых они сообщали изо дня в день, включали:

  • Извлечение данных о зарплате из объявлений о вакансиях, их хранение и анализ
  • Моделирование распространения эпидемии
  • Использование промышленной психологии для создания лучших моделей управления персоналом
  • Анализ данных для получения групп риска для студентов с низким социально-экономическим статусом
  • Использование данных, моделей и аналитики для принятия решений о том, как более эффективно продавать продукты

Навыки, необходимые ученым, изучающим данные (и как их освоить)

Математика

Количество математических навыков, необходимых для того, чтобы быть эффективным специалистом по обработке данных, горячо обсуждается. Некоторые утверждают, что требуются глубокие математические знания, в то время как другие утверждают, что, поскольку большинство статистических анализов выполняется с помощью библиотек программирования, таких как NumPy , математические знания менее важны, чем вы думаете. DataScienceWeekly предлагает этот список минимальных математических концепций, с которыми вам должно быть комфортно, чтобы быть успешным специалистом по данным:

Даже если вам не нравилась математика в школе, вы можете обнаружить, что она вам больше нравится в контексте науки о данных. Данные в статистике представляют собой концепции реального мира, в отличие от чисел во многих традиционных математических задачах. Для тех, кто имеет практическую склонность, получение информации из данных о распространенности явлений реального мира может быть более интересным и значимым способом взаимодействия с математикой, чем “решение для x”.”

Инструменты и методы программирования

Способность программировать помогает исследователям данных различными способами. Они могут писать сценарии для автоматизации одной из самых трудоемких задач в науке о данных: очистки и подготовки данных для анализа. Они могут писать сценарии для преобразования данных из одного формата в другой, например, для преобразования результата SQL-запроса в аккуратно отформатированный отчет CSV или, наоборот, для сохранения данных CSV в реляционной базе данных. В большинстве случаев анализ данных выполняется с использованием специально созданных библиотек, которые абстрагируются от многих повторяющихся или сложных вычислений, таких как pandas . Matplotlib может использоваться для визуализации результатов анализа данных.

Опрос читателей 2017 на KDnuggets |/(популярном веб-сайте по науке о данных) показал , что лингва-франка в области науки о данных-это Python , за которым следует язык программирования R|/. Доминирование Python во многом обусловлено количеством основных библиотек анализа данных и визуализации, написанных на Python (NumPy, pandas, Matplotlib, SciKit-Learning и т. Д.)

Давний программист на Python Майкл Р. Бернштейн предполагает , что Python был быстро принят статистиками и учеными в начале 1990-х и 2000-х годов, что дало языку и его библиотекам значительное преимущество в этих областях по сравнению с конкурирующими языками программирования.

Другим языком, который чрезвычайно популярен среди специалистов по обработке данных, является R. В отличие от Python, который является языком программирования общего назначения, R был создан специально для статистических вычислений и графических задач. Ожидается, что большинство ученых, занимающихся обработкой данных, поступающих в эту область сегодня, будут чувствовать себя комфортно с одним или другим, но какой из них вы должны выбрать?

Быть комфортно как с R, так и с Python идеально, так как каждый язык и связанная с ним экосистема библиотек имеют разные сильные и слабые стороны. Бывший редактор данных журнала Quartz Крис Гроскопф использует оба языка. Гроскопф сказал он предпочитает Python для обработки данных и повторных задач и R для специального анализа и исследования наборов данных.

Если вы хотите изучить только один из них, я рекомендую Python и его экосистему. Я рассуждаю так: Python-это инструмент с более широкими приложениями, чем R. Вы можете использовать Python для всех видов вещей: от администрирования серверов до создания веб-приложений и создания игр.

R гораздо сложнее адаптировать к случаям использования за пределами его основного фокуса на статистике и визуализации. Тем не менее, я бы рекомендовал вам попробовать несколько базовых учебных пособий на обоих языках и посмотреть, какой из них вы предпочитаете. В конечном счете, выбранный вами инструмент имеет меньшее значение, чем ваше умение с ним обращаться, и у вас гораздо больше шансов научиться владеть инструментом, который вам нравится использовать.

Где этому научиться UC San Diego предлагает бесплатный онлайн-курс по Python for Data Science , который включает в себя охват основных библиотек, таких как pandas, NumPy и Matplotlib. Microsoft предложила то же самое: онлайн-курс для обучения языку программирования R для науки о данных .

Машинное обучение

Машинное обучение находит все большее применение в мире науки о данных. Машинное обучение-это средство, с помощью которого компьютеры могут изучать (и улучшать) задачи без явного программирования. Методы машинного обучения могут использоваться для принятия решений и прогнозов на основе данных и имеют множество применений в области науки о данных.

Представьте, что вы специалист по обработке данных, работающий на крупном онлайн-рынке, который изо всех сил пытается справиться с растущим числом мошеннических транзакций. К тому времени, когда мошенническая транзакция обнаруживается, обычно уже слишком поздно, и ущерб уже нанесен. Ваша компания записала как можно больше информации о пользователях, обстоятельствах и поведении, стоящих за каждой мошеннической транзакцией. Вам поручено придумать способ предотвращения мошеннических транзакций до их совершения (например, замораживание транзакции, подлежащей проверке вручную).

Как специалист по обработке данных, работающий без машинного обучения, вы должны анализировать доступные данные о прошлых мошеннических транзакциях и искать закономерности. Например, вы можете сгруппировать данные и заметить, что транзакции, происходящие из определенного географического местоположения, покупка продуктов в определенной категории и/или использование определенного способа оплаты, скорее всего, являются мошенническими. Затем ваша команда разработчиков программного обеспечения, скорее всего, создаст систему, которая будет отмечать такие транзакции для проверки вручную.

Вы можете использовать машинное обучение для решения той же проблемы, используя записи как мошеннических, так и не мошеннических транзакций в качестве обучающих данных для построения модели . Используя эту модель, алгоритм может идентифицировать закономерности в мошеннических транзакциях, которые могут быть более тонкими и сложными, чем может идентифицировать сопоставление человеческих шаблонов.

Например, алгоритм машинного обучения может обнаруживать закономерности в переменных, которые человек может пропустить, например, время суток, когда мошеннические транзакции наиболее вероятны. Наиболее эффективно, что алгоритм может быть адаптирован для быстрого прогнозирования того, является ли входящая транзакция мошеннической. Ваша команда разработчиков программного обеспечения может использовать этот прогноз для соответствующей обработки транзакции, заморозив ее и пометив для проверки.

Из-за возможностей, предлагаемых машинным обучением, оно становится неотъемлемой частью науки о данных. Знакомство с основами машинного обучения и с тем, когда они могут быть полезны, поможет вам в вашей карьере специалиста по обработке данных.

Как упоминалось ранее в этой статье, самым популярным способом изучения основ машинного обучения является этот курс профессора Стэнфордского университета Эндрю Нг .

SQL

SQL , или Язык структурированных запросов, – это язык, используемый для взаимодействия с реляционными базами данных. Во всем мире большая часть данных хранится в реляционных базах данных. Чтобы работать с этими данными, вам необходимо иметь возможность запрашивать базу данных для извлечения необходимых данных. Вот почему понимание основ SQL очень важно для специалиста по обработке данных.

Где этому научиться SQLZoo – это бесплатный учебник по SQL с забавными практическими упражнениями.

Программное обеспечение

Программные пакеты, используемые специалистами по обработке данных, включают Tableau , Microsoft Excel , RapidMiner и KNIME . Вы можете быть удивлены, увидев Excel в этом списке, но отчеты CSV иногда являются единственным общим языком между специалистами по обработке данных и бизнесом в целом (в 2016 году Excel использовался почти так же часто, как SQL среди специалистов по обработке данных).

Если вы пытаетесь стать специалистом по обработке данных, единственный пакет программного обеспечения, с которым вам должно быть комфортно, – это Excel. Это просто потому, что он гарантированно будет использоваться в любой конкретной компании, в которую вы можете обратиться, в то время как другие пакеты программного обеспечения, такие как Tableau и RapidMiner, могут не использоваться. Стоит отметить, что вы, скорее всего, будете использовать Excel в качестве коммуникационного инструмента для обмена результатами, а не только непосредственно выполнять анализ данных в Excel. Как специалист по обработке данных, вы часто будете работать с наборами данных, которые слишком велики, чтобы их можно было анализировать только с помощью Excel.

Где этому научиться Udemy предлагает ряд курсов, обучающих продвинутым навыкам Microsoft Excel . Вы должны чувствовать себя комфортно как при анализе данных, так и при составлении отчетов по данным с помощью Excel.

Статистические методы

Глубокое понимание статистики, вероятно, является наиболее важным набором навыков для специалистов по обработке данных. Проще говоря, все навыки программирования, математики и программного обеспечения в мире не помогут вам, если вы не понимаете, как точно и справедливо анализировать статистику и сообщать о ней.

Например, если вы не понимаете, когда уместно сообщать о медиане или среднем значении для данного набора значений, вы можете получить результаты, искаженные выбросами, и, как таковые, рассказать вводящую в заблуждение историю. Если вы не понимаете теорию, лежащую в основе доверительных интервалов, соответствующего размера выборки и статистической значимости, вы можете в конечном итоге сделать окончательные утверждения, которые на самом деле должны быть оценками.

Все хорошие специалисты по обработке данных отличаются своими навыками и выбранными технологиями, но одна вещь, которую они все разделяют, – это глубокое понимание статистики.

Если вы еще не знаете языка программирования, я предлагаю сначала изучить основы статистики, не используя библиотеки программирования. Библиотеки программирования, такие как NumPy, абстрагируют внутреннюю часть того, как выводится статистика, и делают слишком легким получение результата, который вы принимаете, не понимая его по-настоящему. Пройдите базовый курс статистики, который фокусируется на вычислении статистики вручную или с помощью статистического программного обеспечения, такого как SPSS IBM. Вы также должны научиться честно, точно и четко отчитываться о статистике.

Где этому научиться Вы можете узнать о статистике и вероятности бесплатно в Академии Хана . Еще одним отличным ресурсом является книга Энди Филда Обнаружение статистики с помощью IBM SPSS Statistics, 4-е издание .

Получение Вашей Первой работы в качестве специалиста по обработке данных

Основываясь на моих исследованиях, вероятность того, что вас рассмотрят на роль специалиста по обработке данных начального уровня в компании, сводится к нескольким различным факторам: вашему образованию и продемонстрированным навыкам. Опыт, как правило, является фактором, но мы предположим, что у вас его нет, так как вы читаете статью о проникновении в отрасль.

Любые пробелы в вашем образовании должны быть компенсированы демонстрацией глубины ваших навыков. Например, человеку, который полностью самоучка, скорее всего, понадобится внушительный портфель проектов, чтобы компенсировать это. И наоборот, кому-то со степенью, уважаемой в области науки о данных, такой как степень по математике или информатике, скорее всего, потребуется продемонстрировать меньше прикладных навыков, чтобы претендовать на эту роль.

Как всегда, эти общие правила применимы к большинству компаний, но, вероятно, не применимы к компаниям “большой четверки”, таким как Google и Facebook. Эти компании чрезвычайно конкурентоспособны и, вероятно, ожидают получения соответствующей степени аспиранта в престижном университете в сочетании с личными проектами.

Я разработал простую систему баллов, чтобы помочь определить, где вы подходите. Для большинства компаний потребуется как минимум три балла, чтобы быть рассмотренными для роли начального уровня, занимающейся наукой о данных:

  • Портфолио многих интересных проектов в области науки о данных, демонстрирующих прикладные навыки: 3 балла
  • Степень в сильно актуальной области (математика, информатика, экономика, статистика): 3 балла
  • Общая степень (гуманитарные, социальные науки): 2 балла
  • Прошел буткемп по информатике или интенсивный курс: 2 балла
  • Вы завершили несколько интересных проектов в области науки о данных, которыми можете поделиться и рассказать: 1 балл
  • Нет научных проектов в области персональных данных: 0 баллов
  • Нет высшего образования: 0 баллов

Имейте в виду, что некоторые компании откажутся нанимать кандидата, не имеющего высшего образования. Тем не менее, некоторые компании будут заявлять в своих объявлениях о вакансиях, что будут рассматриваться только кандидаты с высшим образованием, но отменят это требование, если кандидат им достаточно понравится. Мой совет-все равно обратиться в эти компании… на всякий случай.

Разработка портфолио

Из вышесказанного вы можете видеть, что портфолио прикладных наук о данных может быть столь же мощным, как и соответствующая высшая степень. Проще говоря, соответствующая степень демонстрирует, что у вас есть потенциал для практики науки о данных. Портфолио показывает, что вы уже делаете это.

Я предлагаю создать портфель научных данных, прежде чем вы подадите заявку на работу в этой области. Один интересный проект, о котором вы можете подробно рассказать, лучше, чем многие крошечные проекты, которые вы никогда не заканчивали.

Отличный способ начать создавать свое портфолио-это решить некоторые проблемы и конкурсы, доступные по адресу Kaggle . Если возможно, попробуйте отслеживать свои сценарии и вывод с помощью GitHub , чтобы рекрутеры могли видеть, как вы подошли к решению проблемы. Часто то, как вы решаете проблему, гораздо важнее, чем найти “правильный” ответ.

Наконец, приложите усилия к тому, как вы представляете свои результаты. Набор скриптов на Python сам по себе гораздо менее впечатляет, чем отчет в формате PDF, включающий четкое резюме результатов и соответствующие визуализации данных.

Интервью по Науке о данных

Этот список из 20 вопросов для обнаружения поддельных данных ученых содержит пример вопросов, которые вы можете задать во время интервью. Как вы можете видеть, общими темами являются: относительные сильные и слабые стороны конкретных методов, когда следует использовать конкретные методы, соответствующий подход к данной проблеме и как правильно использовать статистику и сообщать о ней. Вы также можете просмотреть этот список 109 часто задаваемых вопросов для интервью по науке о данных . Однако имейте в виду, что эти вопросы могут не подходить для кандидатов начального уровня.

Вы должны быть готовы выполнить задачу по изучению данных до или во время процесса собеседования. Если в вашей комнате для собеседований есть белая доска (она должна быть!), Используйте ее для передачи своих идей и достижения общего понимания с интервьюером — даже если вам явно не было дано задание “решить на доске”.

Поделитесь Своим Путешествием

Если вы все-таки решите заняться наукой о данных, я желаю вам удачи.

Вы заинтересованы в том, чтобы стать специалистом по обработке данных? Если вы в настоящее время работаете специалистом по обработке данных, как вы проникли в эту отрасль? Мы хотели бы услышать о вашем путешествии в комментариях ниже.