Рубрики
Без рубрики

Техника данных: восприятие против реальности

Большинство организаций сегодня имеют свои данные, хранящиеся в различных форматах и через многочисленные платформы … Теги с датым, базой данных, Python, Rudderstack.

Большинство организаций сегодня имеют свои данные, хранящиеся в различных форматах и через многочисленные платформы. Инженеры данных являются теми, которые создают трубопроводы ETL для преобразования этих данных в формат, используемый для ученых данных. Это незамеченные герои, которые часто остаются незамеченными за красивыми визуализациями и результатами машинного обучения от ученых данных.

Многие не совсем понимают, какую техническую инженеров данных или какой инженер-инженер данных и окружает его с некоторыми распространенными недостатками. Этот пост подчеркивает несколько мифов, связанных с техникой данных (или инженерами данных) и больше рассказывает о своем вкладе в бизнес-команды.

Техника данных более тесно связана с программным обеспечением, чем на науке данных. Мы просто ловили пузырь, в котором вы были? Есть больше. Давайте посмотрим на общие восприятия, и давайте разорим их!

Техника данных является «классической ролью».

Техника данных не о контроле затрат, вытягивая кабели Ethernet или сброса паролей. Он скорее превратился в современную роль DevOps, которая объединяет науку, операции и кодирование данных. Инженеры данных создают инфраструктуру мониторинга данных, чтобы дать видимость в статус трубопровода, регулярно запускать процедуры обслуживания, настройку таблицы настроек, разработайте пользовательскую инфраструктуру данных, которая не доступен в полке. Они также несут ответственность за строительство и поддержание конвейера CI/CD, который запускает инфраструктуру данных. Ранее команды данных имели чрезвычайно плохие системы управления версиями, управление окружающей средой и инфраструктуру для тестирования, которые теперь упорядочены и поддерживаются инженерами данных.

Современные инструменты SaaS означают инженеры данных, будут вне их работы

Хотя с новым самообслуживанием SaaS-инструментами инженеры данных могли забрать заднее сиденье, они все еще являются критически важной частью команды данных. С новыми инструментами SaaS их задачи выросли более продвинутые, и теперь они сосредоточены на инфраструктуре основных данных, оптимизацию производительности, построение пользовательских трубопрочнств для приема данных и общей оркестры трубопроводов.

Хотя большая часть основной инфраструктуры легко доступен на полке, сегодня вам все еще нужен кто-то, кто контролирует его, чтобы убедиться, что он хорошо выполняет. Если вы компании, которая любит выходить за пределы существующей инструментации, вам нужны инженеры данных! Они также контролируют инструменты для вас.

Техника данных – это роль маркетинга/продажи, а не реальная инженерия

Техника данных позволяет компаниям управлять соединениями с их маркетинговыми источниками данных и настроить данные быстрого анализа. Многие маркетинговые аналитические инструменты помогут вам собрать результаты из рекламы Google, Facebook или других источников и кормить их в вашу приборную панель. Однако программное обеспечение в некоторых способах ограничивается полями, которые вы заполняете. Всегда есть один источник, который вы не можете подключиться напрямую, используя это программное обеспечение, например, информация о покупке носителя. Инженеры-инженеры могут найти другие способы получения необходимых данных в ваш инструмент аналитики, будь то через прямую загрузку или автоматизированный процесс, включающий электронную почту или FTP.

Кроме того, маркетинговые данные являются критически важными, и один API может вести себя по-разному, или программные платформы, такие как Facebook, могут изменить то, как они собирают цифровые данные в течение ночи. Это инженер данных, который может быстро поставить вещи на трек.

Только люди с усовершенствованными степенями могут делать данные о данных

Инженеры данных должны мигрировать данные из их источников и преобразовать его, что требует агрегирования данных и выполнения статистических методов для получения более высоких представлений. Ни один университетский курс не может сказать вам, как получить аналитические данные в Salesforce. Наиболее успешные инженеры данных учится на работе.

Хотя образование имеет особое место, вы узнаете много вещей при работе в реальном мире с реальными клиентами. Те, у кого есть программный фон или некоторый опыт работы в операциях или системах, могут плавно переходить к данным. Кроме того, DEVOPS и инженеры надежности на сайте обладают навыками, которые легко перекрываются с помощью ответственности данных. Это правда, что инжинировка данных требует сильного программирования фона или должна обладать критическими навыками и знаниями различных технологий, таких как SQL, Python, R и т. Д., А также следует знать о методологиях и практиках ETL. Однако все это сводится к своей любви к данным и нахождение шаблонов данных или готовность строить сложные системы и рабочие процессы.

Техника Data – это сложное навычность, требующее реального опыта для Excel. Хотя нет единого пути, чтобы стать инженером-данными, вам нужно будет иметь сильное программное обеспечение и изучать практику хранения данных. Вам также необходимо понимать статистический анализ, машинное обучение и архитектуры базы данных.

Роль данных инженерных данных пошла от создания инфраструктуры для поддержки всей команды данных и, таким образом, имеет очень важное место. Будем надеяться, что в ближайшие годы – 2021 и 20222 – мы видим больше загрузочных лагерей и другие новые программы, которые помогут новым инженерам расти в роль инженерной информации.

Оригинал: “https://dev.to/rudderstack/data-engineering-perception-vs-reality-1b2g”