Рубрики
Без рубрики

Базовая настройка для проекта машинного обучения с Python

В этом уроке мы представляем процесс настройки базового проекта машинного обучения, используя P … Помечено машинным обучением, наукой данных, Python.

В этом уроке мы представляем процесс настройки базового проекта машинного обучения с использованием языка программирования Python.

1. Проверьте основные инструменты

Первый шаг – проверить, установлены ли у вас необходимые инструменты на вашем компьютере. Для нашей конфигурации нам нужны следующие инструменты:

  • Питон
  • пип
  • Virtualenv
  • git

Питон

Большинство проектов и библиотек машинного обучения написаны на языке программирования Python. Чтобы запустить программу, написанную на Python, нам нужно установить интерпретатор Python. Я настоятельно рекомендую установить переводчик Python 3, поскольку сообщество больше не поддерживает версию 2.

Чтобы проверить, есть ли у вас интерпретатор Python на вашем компьютере и его версия, запустите следующую команду:

$ python --version

Если интерпретатор установлен, команда печатает слово Python, за которым следует установленная версия.

пип

Python поставляется только с набором важных библиотек в своей установке по умолчанию. Тем не менее, нам нужны дополнительные инструменты и библиотеки для создания наших проектов машинного обучения. Вручную загрузку и установку этих библиотек-это задача, подверженная ошибкам, потому что нам также необходимо загрузить зависимости библиотеки и случайно установить конфликтующие версии.

Инструмент Pip решает эту проблему, автоматизируя установку библиотек и их зависимости от нашей системы. С помощью одной команды мы находим и загружаем последнюю версию библиотеки, которая нам нужна, и необходимые зависимости.

Чтобы проверить, установлен ли PIP в нашей системе, мы запускаем следующую команду:

$ pip --version

Если PIP правильно установлен, команда печатает установленную версию PIP и ее полный путь. Новые версии Python Install PIP по умолчанию.

Virtualenv

Когда мы устанавливаем новые библиотеки, PIP копирует библиотеку и ее зависимости в нашу локальную установку Python. Но когда у нас есть несколько проектов на нашем компьютере, нам может потребоваться установить разные версии одной и той же библиотеки или иметь библиотеки, которые требуют разных версий одной и той же зависимости, вызывающих конфликты между ними. Мы избегаем этой проблемы, создавая виртуальные среды под корневой папкой нашего проекта. Когда мы создаем и активируем виртуальные среды, PIP устанавливает библиотеки и их зависимости от папки виртуальной среды, сохраняя системный путь свободным от конкретных зависимостей проекта.

Для создания и управления виртуальными средами мы используем инструмент Virtualenv Анкет Чтобы проверить, установлен ли VirtualENV на вашем компьютере, запустите следующую команду:

$virtualenv --version 

Если инструмент VirtualEnv правильно установлен, команда печатает установленную версию VirtualEnv и его полный путь.

git

При разработке проекта машинного обучения мы хотим сохранить разные версии нашего кода, чтобы вернуться к предыдущей версии, если что -то пойдет не так. Тем не менее, управление различными версиями нашего кода с использованием отдельных файлов нецелесообразно и может привести нас к ошибкам и путанице. Лучшим подходом является использование инструмента управления версиями для отслеживания различных версий нашего кода. GIT – это широко используемый инструмент управления версиями, доступный бесплатно, который позволяет нам отслеживать различные версии нашего кода и сохранять их в удаленных репозиториях. Чтобы проверить, установлен ли GIT на вашем компьютере, запустите следующую команду:

$git --version

Если GIT правильно установлен, команда печатает установленную версию GIT. Если вы получите ошибку, вам нужно установить или исправить установку GIT.

Теперь, когда у вас есть важные инструменты, пришло время создать структуру нашей проекта.

2. Создать структуру проекта

Первый шаг – создать корневую папку для нашего проекта. Вы можете использовать свой диспетчер файлов операционной системы или использовать команду оболочки. Для средств, похожих на UNIX, используйте следующие команды для создания каталога, а затем перейдите в новый каталог:

$mkdir 
$cd

В рамках корневой папки проекта создайте и активируйте виртуальную среду, чтобы держать наши библиотеки и зависимости от пути нашей системы:

$virtualenv 
$source /bin/activate

Для среды Windows нам может потребоваться использовать следующую команду для активации нашей виртуальной среды:

$source /Scripts/activate

Когда мы создаем виртуальную среду, команда VirtualENV создает новую папку в корневом каталоге нашего проекта, содержащей копию интерпретатора Python, установку PIP и структуру пути для установки библиотек. Скрипт Activate настраивает переменные пути операционной системы в папку виртуальной среды, так что Python и PIP выполняются из виртуальной среды.

3. Основные библиотеки для машинного обучения

После создания виртуальной среды нам необходимо установить некоторые важные библиотеки для машинного обучения и науки о данных.

Numpy

Numpy – это оптимизированная библиотека для основных численных манипуляций. Он содержит объекты и функции для хранения массивов и матриц, для выполнения линейных операций алгебры, базовой статистики, генерации случайных чисел и численных преобразований. Чтобы установить последнюю версию Numpy в вашем проекте, запустите следующую команду:

$pip install numpy 

Панды

Панды – это библиотека манипуляций с данными. Он содержит функции и объекты для загрузки данных из многих типов источников данных в таблицы в памяти, называемые кадрами данных. С рамками данных мы можем легко индексировать и преобразовать наши данные. Чтобы установить последнюю версию Pandas, запустите следующую команду:

$pip install pandas

Matplotlib

Matplotlib – это библиотека для диаграммы и визуализации данных. Используя Matplotlib, мы создаем очень настраиваемую визуализацию данных для нашего анализа исследования данных. Чтобы установить последнюю версию Matplotlib, запустите следующую команду:

$pip install matplotlib

Морской

Seaborn – это библиотека визуализации данных, построенная на Matplotlib. Seaborn предоставляет варианты для карт стиля Matplotlib и галерею более высокого уровня. Чтобы установить последнюю версию Seaborn, запустите следующую команду:

$pip install seaborn 

Scikit-learn

Scikit-Learn-это библиотека машинного обучения, которая обеспечивает алгоритмы как для контролируемого, так и для неконтролируемого обучения. Scikit-Learn предоставляет современные реализации для алгоритмов классического машинного обучения, таких как линейная и логистическая регрессия, K-nearest-neighbors, деревья решений и машины для поддержки векторных. Чтобы установить последнюю версию Scikit-Learn, запустите следующую команду:

$pip install scikit-learn

После установки необходимых инструментов для нашего проекта интересно сохранить текущую конфигурацию проекта для последующего использования. Используя PIP, мы можем сбросить список установленных зависимостей проекта в текстовый файл, а затем использовать его для восстановления нашей конфигурации в другой среде. Чтобы сбросить установленные зависимости в текстовый файл, используйте следующую команду:

$pip freeze > requirements.txt

4. Создайте репозиторий GIT

Теперь, когда у нас есть наши основные библиотеки, пришло время создать репозиторий GIT в корневой папке нашего проекта для отслеживания версий наших файлов. Под корневой папкой проекта запустите следующую команду, чтобы инициализация нового репозитория GIT:

$git init

После инициализации репозитория интересно создать файл .gitignore и перечислить расширения и каталоги файла, которые GIT не должен отслеживать. Обычно эти игнорируемые файлы являются выходными файлами компиляторов и других инструментов или некоторой локальной конфигурации, которые не являются частью нашей работы. Сайт gitignore.io Предоставляет инструмент для генерации. Гитянские файлы с наиболее распространенными игнорируемыми расширениями и каталогами для различных языков и средств программирования. После создания файла .gitignore поместите его в корневую папку проекта.

Также интересно создать файлы readme.md и лицензии в рамках корневой папки вашего проекта. Файл readme.md должен содержать важную документацию для вашего проекта, например, инструкции для загрузки и выполнения вашего проекта. Большинство браузеров репозиторий GIT автоматически отображают содержимое readme.md при доступе к репозиторию. Файл лицензии должен описать условия для кого -то, чтобы использовать ваше программное обеспечение.

Затем нам нужно поставить наши файлы в индекс репозитория и создать наш первый коммит:

$git add .

Приведенная выше команда будет поставить каждый файл под текущей папкой в индекс. Тем не менее, он не будет выставлять файлы и каталоги, которые соответствуют записи в файле .gitignore. Также интересно проверить, правильно ли мы добавили все файлы с командой:

$git status

Если все правильно, то мы создаем наш первый коммит, используя следующую команду:

$git commit -m 'Initial commit'

Сохранение наших проектов только на нашем местном компьютере очень рискованно. Ноутбук может пострадать от несчастного случая и повредить его диски, или грабитель может украсть его. В любом случае, мы можем потерять недели или даже месяцы тяжелой работы, если наш местный репозиторий является единственным, что у нас есть. Чтобы сохранить наш проект в более безопасном месте, мы можем синхронизировать наш местный репозиторий с удаленным.

Такие услуги, как Github, Bitbucket или Gitlab, позволяют нам бесплатно хранить публичные и частные репозитории GIT. После создания пустого удаленного репозитория в одной из этих услуг мы можем добавить его в качестве удаленного в нашем местном репозитории:

$git remote add origin 

Наконец, мы можем подтолкнуть наш код в ваш удаленный репозиторий:

$git push origin master

5. Альтернативный путь

Альтернативный путь создания нашей структуры проекта – начать с создания удаленного репозитория. Используя такие сервисы, как GitHub, Bitbucket или Gitlab, мы можем сначала создать наш удаленный репозиторий и инициализировать его с помощью файлов .gitignore, readme.md и лицензии. Затем мы используем команду GIT-клона для загрузки репозитория на наш локальный компьютер:

$git clone 

Приведенная выше команда создаст зеркало удаленного репозитория в нашем локальном компьютере. Затем мы ориентируемся на корневую папку нашего проекта и следуем за остальной частью процесса, начиная с виртуальной среды и перейдя в библиотеки и установку зависимостей.

Вывод

В этом руководстве представлены основные инструменты и шаги для настройки базового проекта машинного обучения. Возможно, вам потребуется установить дополнительные инструменты и библиотеки в зависимости от ваших потребностей. Например, вы можете установить Keras или Pytorch для проектов глубокого обучения, или вам может потребоваться установить библиотеки для манипуляции с изображением или текстами. Однако с этой базовой настройкой вы можете начать загружать и изучать табличные данные и создавать мощные модели машинного обучения. Стоит упомянуть об этом, потому что мы не создаем новые проекты каждый день, вам не нужно беспокоиться о запоминании этих шагов. Вы можете вернуться к этому руководству, когда вам это нужно.

Рекомендации

Руководство по установке Python: https://wiki.python.org/moin/beginnersguide/download

Руководство по установке PIP: https://pip.pypa.io/en/stable/installing/

Руководство по установке VirtualENV https://virtualenv.pypa.io/en/latest/installation.html#via-pip

Руководство по установке GIT: https://git-cm.com/book/en/v2/getting-started-installing-git

Ссылка на Numpy: https://numpy.org/

Ссылка на панд: https://pandas.pydata.org/

Matplotlib Ссылка: https://matplotlib.org/

Ссылка на морскую сторону: https://seaborn.pydata.org/

Ссылка на Scikit-Learn: https://scikit-learn.org/stable/

Ссылка на несбалансированное лечение: https://imbalanced-learn.org/stable/

Оригинал: “https://dev.to/rodolfomendes/basic-setup-for-a-machine-learning-project-with-python-1ii1”