Учебник по изучению Python Scikit

Scikit Survey

Проект Scikit-Learn выгнал в качестве Google летом кода (также известный как GSOC) проектом Дэвида Курнапо как Scikits.learn. Это получает свое название от «Scikit», отдельного третьей стороннего продления к Scipy.

Python Scikit – учиться

Scikit написан в Python (большинство из него), а некоторые его основные алгоритмы написаны в Cython для еще лучшей производительности.

Scikit-Learn используется для создания моделей, и не рекомендуется использовать его для чтения, манипулирования и суммирования данных, так как для этой цели доступны лучшие рамки.

Это открытый источник и выпущен под лицензией BSD.

Установите Scikit Learn

Scikit предполагает, что у вас есть бегущая платформа Python 2.7 или выше с Numpy (1.8.2 и выше) и Scipy (0.13.3 и выше) пакетами на вашем устройстве. Как только у нас установлены эти пакеты, мы можем продолжить установку.

Для установки PIP запустите следующую команду в терминале:

pip install scikit-learn

Если вам нравится Кондей , Вы также можете использовать CODA для установки пакета, выполните следующую команду:

conda install scikit-learn

Использование Scikit-Learn

Как только вы закончите установку, вы можете легко использовать Scikit – узнайте легко в своем коде Python, импортируя его как:

import sklearn

Scikit Узнайте набор данных загрузки

Давайте начнем с загрузки набора данных для игры. Давайте загрузим простой набор данных с именем IRIS. Это набор данных цветка, он содержит 150 наблюдений о различных измерениях цветка. Давайте посмотрим, как загрузить набор данных, используя Scikit-Suart.

# Import scikit learn
from sklearn import datasets
# Load data
iris= datasets.load_iris()
# Print shape of data to confirm data is loaded
print(iris.data.shape)

Мы печатаем форму данных для легкостей, вы также можете распечатать все данные, если хотите, чтобы запускать коды, дает вывод, как это:

Scikit Учитесь SVM – обучение и прогнозирование

Теперь мы загрузили данные, давайте попробуем изучить из него и прогнозировать новые данные. Для этого мы должны создать оценку, а затем вызовите его метод FIT.

from sklearn import svm
from sklearn import datasets
# Load dataset
iris = datasets.load_iris()
clf = svm.LinearSVC()
# learn from the data
clf.fit(iris.data, iris.target)
# predict for unseen data
clf.predict([[ 5.0,  3.6,  1.3,  0.25]])
# Parameters of model can be changed by using the attributes ending with an underscore
print(clf.coef_ )

Вот что мы получаем, когда мы запускаем этот скрипт:

Scikit Узнайте линейную регрессию

Создание различных моделей довольно просто, используя Scikit-Suart. Начнем с простого примера регрессии.

#import the model
from sklearn import linear_model
reg = linear_model.LinearRegression()
# use it to fit a data
reg.fit ([[0, 0], [1, 1], [2, 2]], [0, 1, 2])
# Let's look into the fitted data
print(reg.coef_)

Запуск модели должен вернуть точку, которая может быть нанесена на одной линии:

К-ближайший соседний классификатор

Давайте попробуем простую классификацию алгоритма. Этот классификатор использует алгоритм, основанный на шариковых деревьях для представления учебных образцов.

from sklearn import datasets
# Load dataset
iris = datasets.load_iris()
# Create and fit a nearest-neighbor classifier
from sklearn import neighbors
knn = neighbors.KNeighborsClassifier()
knn.fit(iris.data, iris.target)
# Predict and print the result
result=knn.predict([[0.1, 0.2, 0.3, 0.4]])
print(result)

Давайте запустим результаты классификатора и проверки, классификатор должен вернуться 0. Давайте попробуем пример:

K-означает кластеризацию

Это самый простой алгоритм кластеризации. Набор разделен на кластеры «К», и каждое наблюдение присваивается кластеру. Это сделано итеративно, пока кластеры не сходится.

Мы создадим одну такую модель кластеризации в следующей программе:

from sklearn import cluster, datasets
# load data
iris = datasets.load_iris()
# create clusters for k=3
k=3
k_means = cluster.KMeans(k)
# fit data
k_means.fit(iris.data)
# print results
print( k_means.labels_[::10])
print( iris.target[::10])

При запуске программы мы увидим отдельные кластеры в списке. Вот вывод для приведенного выше фрагмента кода:

Заключение

В этом руководстве мы видели, что Scikit-Learn позволяет легко работать с несколькими алгоритмами машинного обучения. Мы видели примеры регрессии, классификации и кластеризации.

Scikit-Learn все еще находится на этапе развития и разрабатывается и поддерживается добровольцами, но очень популярна в сообществе. Иди и попробуйте свои собственные примеры.