В этом уроке мы представляем процесс настройки базового проекта машинного обучения с использованием языка программирования Python.
1. Проверьте основные инструменты
Первый шаг – проверить, установлены ли у вас необходимые инструменты на вашем компьютере. Для нашей конфигурации нам нужны следующие инструменты:
- Питон
- пип
- Virtualenv
- git
Питон
Большинство проектов и библиотек машинного обучения написаны на языке программирования Python. Чтобы запустить программу, написанную на Python, нам нужно установить интерпретатор Python. Я настоятельно рекомендую установить переводчик Python 3, поскольку сообщество больше не поддерживает версию 2.
Чтобы проверить, есть ли у вас интерпретатор Python на вашем компьютере и его версия, запустите следующую команду:
$ python --version
Если интерпретатор установлен, команда печатает слово Python, за которым следует установленная версия.
пип
Python поставляется только с набором важных библиотек в своей установке по умолчанию. Тем не менее, нам нужны дополнительные инструменты и библиотеки для создания наших проектов машинного обучения. Вручную загрузку и установку этих библиотек-это задача, подверженная ошибкам, потому что нам также необходимо загрузить зависимости библиотеки и случайно установить конфликтующие версии.
Инструмент Pip решает эту проблему, автоматизируя установку библиотек и их зависимости от нашей системы. С помощью одной команды мы находим и загружаем последнюю версию библиотеки, которая нам нужна, и необходимые зависимости.
Чтобы проверить, установлен ли PIP в нашей системе, мы запускаем следующую команду:
$ pip --version
Если PIP правильно установлен, команда печатает установленную версию PIP и ее полный путь. Новые версии Python Install PIP по умолчанию.
Virtualenv
Когда мы устанавливаем новые библиотеки, PIP копирует библиотеку и ее зависимости в нашу локальную установку Python. Но когда у нас есть несколько проектов на нашем компьютере, нам может потребоваться установить разные версии одной и той же библиотеки или иметь библиотеки, которые требуют разных версий одной и той же зависимости, вызывающих конфликты между ними. Мы избегаем этой проблемы, создавая виртуальные среды под корневой папкой нашего проекта. Когда мы создаем и активируем виртуальные среды, PIP устанавливает библиотеки и их зависимости от папки виртуальной среды, сохраняя системный путь свободным от конкретных зависимостей проекта.
Для создания и управления виртуальными средами мы используем инструмент Virtualenv Анкет Чтобы проверить, установлен ли VirtualENV на вашем компьютере, запустите следующую команду:
$virtualenv --version
Если инструмент VirtualEnv правильно установлен, команда печатает установленную версию VirtualEnv и его полный путь.
git
При разработке проекта машинного обучения мы хотим сохранить разные версии нашего кода, чтобы вернуться к предыдущей версии, если что -то пойдет не так. Тем не менее, управление различными версиями нашего кода с использованием отдельных файлов нецелесообразно и может привести нас к ошибкам и путанице. Лучшим подходом является использование инструмента управления версиями для отслеживания различных версий нашего кода. GIT – это широко используемый инструмент управления версиями, доступный бесплатно, который позволяет нам отслеживать различные версии нашего кода и сохранять их в удаленных репозиториях. Чтобы проверить, установлен ли GIT на вашем компьютере, запустите следующую команду:
$git --version
Если GIT правильно установлен, команда печатает установленную версию GIT. Если вы получите ошибку, вам нужно установить или исправить установку GIT.
Теперь, когда у вас есть важные инструменты, пришло время создать структуру нашей проекта.
2. Создать структуру проекта
Первый шаг – создать корневую папку для нашего проекта. Вы можете использовать свой диспетчер файлов операционной системы или использовать команду оболочки. Для средств, похожих на UNIX, используйте следующие команды для создания каталога, а затем перейдите в новый каталог:
$mkdir
$cd
В рамках корневой папки проекта создайте и активируйте виртуальную среду, чтобы держать наши библиотеки и зависимости от пути нашей системы:
$virtualenv
$source/bin/activate
Для среды Windows нам может потребоваться использовать следующую команду для активации нашей виртуальной среды:
$source/Scripts/activate
Когда мы создаем виртуальную среду, команда VirtualENV создает новую папку в корневом каталоге нашего проекта, содержащей копию интерпретатора Python, установку PIP и структуру пути для установки библиотек. Скрипт Activate настраивает переменные пути операционной системы в папку виртуальной среды, так что Python и PIP выполняются из виртуальной среды.
3. Основные библиотеки для машинного обучения
После создания виртуальной среды нам необходимо установить некоторые важные библиотеки для машинного обучения и науки о данных.
Numpy
Numpy – это оптимизированная библиотека для основных численных манипуляций. Он содержит объекты и функции для хранения массивов и матриц, для выполнения линейных операций алгебры, базовой статистики, генерации случайных чисел и численных преобразований. Чтобы установить последнюю версию Numpy в вашем проекте, запустите следующую команду:
$pip install numpy
Панды
Панды – это библиотека манипуляций с данными. Он содержит функции и объекты для загрузки данных из многих типов источников данных в таблицы в памяти, называемые кадрами данных. С рамками данных мы можем легко индексировать и преобразовать наши данные. Чтобы установить последнюю версию Pandas, запустите следующую команду:
$pip install pandas
Matplotlib
Matplotlib – это библиотека для диаграммы и визуализации данных. Используя Matplotlib, мы создаем очень настраиваемую визуализацию данных для нашего анализа исследования данных. Чтобы установить последнюю версию Matplotlib, запустите следующую команду:
$pip install matplotlib
Морской
Seaborn – это библиотека визуализации данных, построенная на Matplotlib. Seaborn предоставляет варианты для карт стиля Matplotlib и галерею более высокого уровня. Чтобы установить последнюю версию Seaborn, запустите следующую команду:
$pip install seaborn
Scikit-learn
Scikit-Learn-это библиотека машинного обучения, которая обеспечивает алгоритмы как для контролируемого, так и для неконтролируемого обучения. Scikit-Learn предоставляет современные реализации для алгоритмов классического машинного обучения, таких как линейная и логистическая регрессия, K-nearest-neighbors, деревья решений и машины для поддержки векторных. Чтобы установить последнюю версию Scikit-Learn, запустите следующую команду:
$pip install scikit-learn
После установки необходимых инструментов для нашего проекта интересно сохранить текущую конфигурацию проекта для последующего использования. Используя PIP, мы можем сбросить список установленных зависимостей проекта в текстовый файл, а затем использовать его для восстановления нашей конфигурации в другой среде. Чтобы сбросить установленные зависимости в текстовый файл, используйте следующую команду:
$pip freeze > requirements.txt
4. Создайте репозиторий GIT
Теперь, когда у нас есть наши основные библиотеки, пришло время создать репозиторий GIT в корневой папке нашего проекта для отслеживания версий наших файлов. Под корневой папкой проекта запустите следующую команду, чтобы инициализация нового репозитория GIT:
$git init
После инициализации репозитория интересно создать файл .gitignore и перечислить расширения и каталоги файла, которые GIT не должен отслеживать. Обычно эти игнорируемые файлы являются выходными файлами компиляторов и других инструментов или некоторой локальной конфигурации, которые не являются частью нашей работы. Сайт gitignore.io Предоставляет инструмент для генерации. Гитянские файлы с наиболее распространенными игнорируемыми расширениями и каталогами для различных языков и средств программирования. После создания файла .gitignore поместите его в корневую папку проекта.
Также интересно создать файлы readme.md и лицензии в рамках корневой папки вашего проекта. Файл readme.md должен содержать важную документацию для вашего проекта, например, инструкции для загрузки и выполнения вашего проекта. Большинство браузеров репозиторий GIT автоматически отображают содержимое readme.md при доступе к репозиторию. Файл лицензии должен описать условия для кого -то, чтобы использовать ваше программное обеспечение.
Затем нам нужно поставить наши файлы в индекс репозитория и создать наш первый коммит:
$git add .
Приведенная выше команда будет поставить каждый файл под текущей папкой в индекс. Тем не менее, он не будет выставлять файлы и каталоги, которые соответствуют записи в файле .gitignore. Также интересно проверить, правильно ли мы добавили все файлы с командой:
$git status
Если все правильно, то мы создаем наш первый коммит, используя следующую команду:
$git commit -m 'Initial commit'
Сохранение наших проектов только на нашем местном компьютере очень рискованно. Ноутбук может пострадать от несчастного случая и повредить его диски, или грабитель может украсть его. В любом случае, мы можем потерять недели или даже месяцы тяжелой работы, если наш местный репозиторий является единственным, что у нас есть. Чтобы сохранить наш проект в более безопасном месте, мы можем синхронизировать наш местный репозиторий с удаленным.
Такие услуги, как Github, Bitbucket или Gitlab, позволяют нам бесплатно хранить публичные и частные репозитории GIT. После создания пустого удаленного репозитория в одной из этих услуг мы можем добавить его в качестве удаленного в нашем местном репозитории:
$git remote add origin
Наконец, мы можем подтолкнуть наш код в ваш удаленный репозиторий:
$git push origin master
5. Альтернативный путь
Альтернативный путь создания нашей структуры проекта – начать с создания удаленного репозитория. Используя такие сервисы, как GitHub, Bitbucket или Gitlab, мы можем сначала создать наш удаленный репозиторий и инициализировать его с помощью файлов .gitignore, readme.md и лицензии. Затем мы используем команду GIT-клона для загрузки репозитория на наш локальный компьютер:
$git clone
Приведенная выше команда создаст зеркало удаленного репозитория в нашем локальном компьютере. Затем мы ориентируемся на корневую папку нашего проекта и следуем за остальной частью процесса, начиная с виртуальной среды и перейдя в библиотеки и установку зависимостей.
Вывод
В этом руководстве представлены основные инструменты и шаги для настройки базового проекта машинного обучения. Возможно, вам потребуется установить дополнительные инструменты и библиотеки в зависимости от ваших потребностей. Например, вы можете установить Keras или Pytorch для проектов глубокого обучения, или вам может потребоваться установить библиотеки для манипуляции с изображением или текстами. Однако с этой базовой настройкой вы можете начать загружать и изучать табличные данные и создавать мощные модели машинного обучения. Стоит упомянуть об этом, потому что мы не создаем новые проекты каждый день, вам не нужно беспокоиться о запоминании этих шагов. Вы можете вернуться к этому руководству, когда вам это нужно.
Рекомендации
Руководство по установке Python: https://wiki.python.org/moin/beginnersguide/download
Руководство по установке PIP: https://pip.pypa.io/en/stable/installing/
Руководство по установке VirtualENV https://virtualenv.pypa.io/en/latest/installation.html#via-pip
Руководство по установке GIT: https://git-cm.com/book/en/v2/getting-started-installing-git
Ссылка на Numpy: https://numpy.org/
Ссылка на панд: https://pandas.pydata.org/
Matplotlib Ссылка: https://matplotlib.org/
Ссылка на морскую сторону: https://seaborn.pydata.org/
Ссылка на Scikit-Learn: https://scikit-learn.org/stable/
Ссылка на несбалансированное лечение: https://imbalanced-learn.org/stable/
Оригинал: “https://dev.to/rodolfomendes/basic-setup-for-a-machine-learning-project-with-python-1ii1”