15 лучших бесплатных наборов данных для машинного обучения

Эта статья была первоначально опубликована по адресу: бесплатные наборы данных для обучения машины

Одним из главных характеристик в начале XXI века является выдающийся рост в размере доступных данных. За этим следует значительные улучшения вычислительной мощности, емкости хранения, а также улучшения алгоритмов и программного обеспечения для обработки данных, интерпретаций и прогнозов.

Навыки, связанные с аналитикой данных, науки о данных, машинном обучении и искусственному интеллекту, широко потребуются и хорошо ценится. Приобретение таких навыков требует значительных усилий и месяцев или лет обучения. Но не только это.

Чтобы научиться работать с данными, реализовать свой код обработки данных и понять математику, вам также нужно что-то еще: данные. Чтобы быть более точным, вам нужны соответствующие, хорошо размещенные, хорошо сбалансированные и легко понятые наборы данных.

В этой статье анализируются несколько интересных и подходящих наборов данных, которые могут использоваться при изучении науки о данных или при тестировании ваших собственных подходов.

DataSets Toy

DataSets Toy обычно (относительно) небольшие, но достаточно большие, хорошо сбалансированные наборы данных, подходящие для изучения способов реализации алгоритмов, а также для тестирования своих собственных подходов к обработке данных. Библиотеки для науки и машины и машины, как Scikit-Surve, Keras и Tensorflow содержат свои собственные наборы данных, доступные для своих пользователей. Мы упомянем, что несколько таких наборов данных, включенных в Scikit – узнайте и показать, как их использовать.

Цены на дом Бостон – одна из самых известных наборов данных для регрессии. Это доступно в Scikit – учиться. Это его основные характеристики:

Количество наблюдений: 506
Количество функций ввода: 13
Домен данных ввода: положительные реальные числа
Домен вывода данных: положительные реальные числа
Подходит для регрессии

Этот набор данных содержит данные, связанные с домами в Бостоне, подобном уровню преступности, концентрацию оксидов азотов, количество комнат, расстояния к центру занятости, налоговые ставки и т. Д. Особенность вывода – это среднее значение домов.

Чтобы использовать этот набор данных, вы должны импортировать и вызывать функцию Load_boston из Sklearn.dataseets:

>>> from sklearn.datasets import load_boston
>>> dataset = load_boston()

Теперь набор данных готов. Вы можете извлечь входы и выходы как Numpy Armays, как это:

>>> x, y = dataset['data'], dataset['target']

Вы можете проверить свои формы:

>>> x.shape, y.shape
((506, 13), (506,))

Вы также можете получить имена функций:

>>> dataset['feature_names']
array(['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
    'TAX', 'PTRATIO', 'B', 'LSTAT'], dtype='

Если вы хотите загрузить описание этого набора данных, вы можете сделать это программно с помощью набора записей [«DESS»].

Оптическое распознавание рукописных цифр является одним из самых известных наборов данных для классификации. Он используется для распознавания изображений. Его основными характеристиками являются:

Количество наблюдений: 1,797
Количество функций ввода: 64
Домен ввода данных: целые числа от 0 до 16
Домен вывода данных: целые числа от 0 до 9
Подходит для классификации

Каждая функция ввода представляет цвет (оттенок серого) одноцикселя изображения с шириной 8 px и высотой 8 px. Таким образом, 64 входных элементах определяют все пиксели для изображений. Выходы представляют правильные цифры, написанные.

Вы можете импортировать и обрабатывать этот набор данных очень похожими на предыдущий:

>>> from sklearn.datasets import load_wine
>>> dataset = load_wine()
>>> x, y = dataset['data'], dataset['target']
>>> x.shape, y.shape
((178, 13), (178,))
>>> x.min(), x.max(), y.min(), y.max()
(0.13, 1680.0, 0, 2)
>>> dataset['target_names']
array(['class_0', 'class_1', 'class_2′], dtype='

Набор данных распознавания вина также используется для классификации. Используется для распознавания класса вина, учитывая особенности, такие как количество алкоголя, магния, фенола, интенсивность цвета и т. Д. Его основными характеристиками являются:

Количество наблюдений: 178
Количество функций ввода: 13
Домен данных ввода: положительные реальные числа
Домен вывода данных: целые числа от 0 до 2
Подходит для классификации

Вы можете импортировать и обрабатывать этот набор данных, как предыдущий:

>>> from sklearn.datasets import load_wine
>>> dataset = load_wine()
>>> x, y = dataset['data'], dataset['target']
>>> x.shape, y.shape
((178, 13), (178,))
>>> x.min(), x.max(), y.min(), y.max()
(0.13, 1680.0, 0, 2)
>>> dataset['target_names']
array(['class_0', 'class_1', 'class_2′], dtype='

Растения ириса DataSet подходит для классификации, а также два предыдущих набора. Он содержит сепальские и лепестковые длины и ширины для трех классов растений. Его основными характеристиками являются:

Количество наблюдений: 150
Количество функций ввода: 4
Домен данных ввода: положительные реальные числа
Домен вывода данных: целые числа от 0 до 2
Подходит для классификации

Вы можете импортировать и обрабатывать этот набор данных, как предыдущие:

>>> from sklearn.datasets import load_iris
>>> dataset = load_iris()
>>> x, y = dataset['data'], dataset['target']
>>> x.shape, y.shape
((150, 4), (150,))
>>> x.min(), x.max(), y.min(), y.max()
(0.1, 7.9, 0, 2)
>>> dataset['target_names']
array(['setosa', 'versicolor', 'virginica'], dtype='

Реальные наборы данных

Наборы данных по реальным мирину обычно больше, чем наборы игрушек. У них часто отсутствуют данные или «мусорные» данные. Таким образом, они часто сложнее использовать и понимать. Библиотеки для науки и обучения на науке и машине содержат свои собственные наборы данных в реальном мире в дополнение к наборам игрушек. Существуют также веб-сайты, которые обеспечивают множество интересных и полезных наборов данных, таких как хранилище машин для обучения машин и интеллектуальные системы (Университет Калифорнии, Ирвин), потрясающие общественные наборы данных на Github или Kaggle.

Знаменитая база данных Mnist от рукописных цифр – одна из наборов данных, включенных в KERAS. Он содержит 60 000 изображений цифр от 0 до 9, а также 10 000 изображений для тестирования. Изображения представляют собой оттенки серого с высотами и шириной 28 px. Этот набор данных можно использовать для классификации, то есть распознавание изображений.

Вы можете загрузить эти данные такими:

>>> from keras.datasets import mnist
>>> dataset = mnist.load_data()
>>> (x_train, y_train), (x_test, y_test) = dataset

Калифорнийский жилищный набор данных включен в Scikit – учиться и в некоторой степени похожи на цены на дом Бостон. Однако этот набор данных гораздо больше. Функции ввода описывают медианные доходы жителей, домохозяйства, количество комнат и т. Д. Особенность вывода – это среднее значение дома. Его основными характеристиками являются:

Количество наблюдений: 20 640
Количество функций ввода: 8
Домен данных ввода: положительные реальные числа
Домен вывода данных: положительные реальные числа
Подходит для регрессии

20 NewsGroups Text DataSet – это текстовый классификационный набор, включенный в Scikit-Suart. Он содержит 18 846 наблюдений, то есть посты, связанные с одним из 20 классов или тем. Его основными характеристиками являются:

Количество наблюдений: 18,846
Количество функций ввода: 1
Входные данные: текст (строка)
Домен вывода данных: целые числа
Подходит для классификации

DataSet Covertypes лесов – это набор данных классификации для прогнозирования типов покрытий лесов в США. Есть семь выходных классов на выбор. Его основными характеристиками являются:

Количество наблюдений: 581 012
Количество функций ввода: 54
Домен ввода данных: целые числа
Домен вывода данных: целые числа
Подходит для классификации

Наборы приложений Google Play Store доступны на Kaggle. Они включают в себя две наборы данных. Одной из наборов данных имеет 10,841 наблюдения и 13 функций, включая имена приложений, категории, рейтинги, размеры, количество обзоров и устанавливаемых, жанров и т. Д. Другой набор относится к обзорам, связанным с приложениями. Он имеет 64 295 наблюдений и пять особенностей.

Они лицензированы в соответствии с атрибуцией Creative Commons 3.0 неордированной лицензии.

FIFA 19 Полный набор данных игрока, вероятно, будет заинтересовать вас, если вам нравятся футбольные или компьютерные игры. Он содержит различные данные, связанные с футболистами из игры FIFA 19. Этот набор данных содержит 18 207 наблюдений (один для каждого игрока) и целых 89 функций. Есть все виды данных, связанные с игроками: клубы, национальностями, позиции, репутации, возраст, заработная плата, навыки (как скорость, дриблинг, направляющие, пересечение и так далее), высота, вес и т. Д. Это также доступно на Kaggle.

Этот набор данных лицензирован в соответствии с лицензией CC By-NC-SA 4.0.

Stanford Car DataSet содержит 16 185 изображений автомобилей. Это подходит для классификации, то есть, распознавание изображений. Набор разделен на 8 144 учебных наблюдений и 8,041 тестовых наблюдений. Есть 196 классов автомобилей. Этот набор данных также можно загрузить из Kaggle.

Наборы данных Barcelona – это наборы из портала открытых данных BCN. Они также можно найти на Kaggle. На KAGGLE 17 находятся наборы данных в CC0: Public Domain License и 425 наборов данных на открытых данных BCN. Данные связаны со рождениями, смертью, населением, иммигрантами, частотами имен, качество воздуха, транспорт и т. Д.

Набор данных по допуску аспирантуры – еще один набор Kaggle, приведенный в соответствии с CC0: Государственная лицензия домена. Он имеет 500 наблюдений и девять функций. Этот набор данных может быть использован для прогнозирования вероятности допуска выпускников, учитывая свои баллы GRE и TOEFL, рейтинги университета и т. Д.

Веб-сайт Tutiempo.net предлагает большие и впечатляющие глобальные климатические наборы наборах наборах климата с параметрами климата с 1929 года, если не все страны мира. Если вы в прогнозировании погоды или климатические науки, вы должны проверить это.

Открытые данные правительства США – это веб-портал со ссылками на наборы данных, связанные с сельским хозяйством, климатом, образованием, энергетикой, финансами, здоровью, производством, безопасностью, наукой и т. Д.

Выводы

Это некоторые из множества доступных наборов данных. Там еще много. Многие публичные, некоммерческие, но и коммерческие учреждения решают опубликовать свои данные. Научные статьи иногда приходят с использованием необработанных данных.

Если вы хотите погрузиться в науку на науке и машине, вам нужно научиться работать с большим количеством данных. Тушевые наборы данных, а также некоторые другие, могут быть хорошей отправной точкой.

Тем не менее, вы всегда должны обращать внимание на лицензию и условия, при которых публикуются данные!

Спасибо за чтение.

Оригинал: “https://dev.to/duomly/15-best-free-datasets-for-machine-learning-44fb”

DataSets Toy

Реальные наборы данных

Выводы

Читайте ещё по теме: