Большинство людей находятся под неправильным представлением о том, что наука о данных – это алгоритмы машинного обучения. Это неправда. Наука данных – это комбинация математики, информатики и машинного обучения.
Наука данных – это исследование данных, где вы поддерживаете Datsets и получаете информацию из набора данных. Data Science использует разные части, упомянутые в шаблоне ниже, чтобы решить проблемы.
Восприятие – Попробуйте определить шаблоны с помощью планирования данных – включает в себя два шага:
- Поиск всех возможных решений
- Поиск наилучшего возможного решения среди всех решений
Что вам нужно знать, чтобы быть успешным ученым данных?
- Знание программирования
- Моделирование и оценка данных
- Визуализация и отчетность данных
- вероятность и статистика
- Методы машинного обучения
- Знание реляционной базы данных
Начнем с некоторой основной терминологии, используемой в науке о данных:
- Наблюдения – точки данных в вашем наборе данных (строки)
- Особенности – переменные в вашем наборе данных (столбцы)
- Целевая переменная – которую вы пытаетесь предсказать
- Данные поезда – данные, из которых ваш алгоритм изучает
- Данные тестирования – данные для оценки производительности вашей модели
- Модель – набор шаблонов, извлеченных из данных
- Алгоритм – конкретный процесс машинного обучения, используемый для обучения вашей модели
Оригинал: “https://dev.to/sreepotluri/introduction-to-data-science-227b”