Взломайте 40 вопросов интервью машинного обучения

Машинное обучение (ML) это будущее нашего мира. В ближайшие годы почти каждый продукт будет включать компоненты ML. Предполагается, что ML будет расти с 7,3 млрд долларов в 2020 году до 30,6 млрд долларов в 2024 году. Этот спрос на навыки ML распространяется во всей отрасли.

Интервью машинного обучения-это строгий процесс, в котором кандидаты оцениваются как для их знаний об основных концепциях, так и для понимания систем ML, реальных приложений, так и для специфических для продукта требований.

Если вы ищете карьеру в области машинного обучения, очень важно понять, что ожидается в интервью. Итак, чтобы помочь вам подготовиться, я собрал 40 вопросов интервью с 40 машин. Мы начнем с некоторых оснований, а затем перейдем к расширенным вопросам.

Сегодня мы пойдем:

Обзор интервью
Компания конкретные процессы
Вопросы новичка (10)
Промежуточные вопросы (15)
Расширенные вопросы (10)
Вопросы для конкретного продукта (5)
Чему научиться дальше

Обзор интервью

Вопросы интервью машинного обучения являются неотъемлемой частью того, чтобы стать ученым для данных, инженером машинного обучения или инженером данных. В зависимости от компании, заголовок описания работы для инженера по машинному обучению может отличаться. Вы можете ожидать увидеть такие названия, как инженер машинного обучения, ученый для данных, инженер ИИ и многое другое.

Компании, нанимающие на роли машинного обучения, проводят интервью для оценки индивидуальных способностей в различных областях. Вопросы для интервью ML, как правило, попадают в одну из этих четырех категорий.

Алгоритмы и теория ML: Как сравнивать алгоритмы, как их точно измерить
Навыки программирования: Обычно языки Python или Domain-специфики
Интерес к машинному обучению: Тенденции отрасли и ваше видение компонентов ML будущего
Вопросы для конкретного продукта или продукта: Как вы принимаете общие знания ML и применяете их к конкретным продуктам

Вопросы для интервью ML теперь в значительной степени сосредоточены на Дизайн системы Анкет В части интервью с дизайном системы ML кандидатам получают открытые проблемы ML и ожидают создания сквозной системы машинного обучения. Общие примеры-это системы рекомендаций, системы визуального понимания и системы поиска.

Чтобы узнать больше о том, как решить эти проблемы, ознакомьтесь с нашей статьей Анатомия вопроса об интервью машинного обучения

Компания конкретные процессы

Прежде чем мы перейдем к вопросам интервью с 40 топ -обучением, давайте сначала посмотрим, как сосредоточено на своих интервью.

Google ML Интервью

Интервью Google ML, обычно называемое интервью инженера машинного обучения, подчеркивает навыки алгоритмов, машинного обучения и Python.

Некоторые Общие вопросы Включите градиентный спуск, методы регуляризации/нормализации и встраивания.

Процесс интервью будет универсальный вместо того, чтобы сосредоточиться на одной конкретной команде или проекте. После того, как вы передадите интервью, они назначат вас команде, которая соответствует вашему набору навыков.

Amazon ML Интервью

Интервью Amazon ML под названием «Интервью инженера машинного обучения», в значительной степени фокусируется на инструментах электронной коммерции ML, облачных вычислениях и системах рекомендаций искусственного интеллекта.

Amazon ML инженеры Ожидается, что будут создавать системы ML и использовать модели глубокого обучения. Ученые данных Пробелы, управляемые данными, между техническими и деловыми сторонами. Ученые -исследования имеют более высокий уровень образования и работы по улучшению функций ASR, NLU и TTS.

Техническая часть интервью ML посвящена моделям ML, компромиссу и переоснащению.

Facebook ML интервью

Интервью Facebook ML состоит из вопросов общего алгоритма, дизайна ML и дизайна системы. Ожидается, что вы будете работать с алгоритмами рейтинга новостной ленты и местными рейтингами поиска. Facebook ищет инженеров, которые понимают компоненты Средняя система ML , включая развертывание.

Некоторые общие названия интервью, с которыми вы можете столкнуться, – это научный сотрудник, интервью для науки о данных или инженер по машинному обучению. Как и Amazon, они немного отличаются в своем фокусе и спросе на общие знания.

Интервью Twitter ML

Роли ученых по данным в Twitter включают в себя роли как данных, так и ученых -исследователей, которые предназначены для разных команд.

Техническая часть интервью проверяет ваше заявление и интуицию для теории ML (включая SQL и Python). Twitter ищет знания статистики, экспериментальных моделей, интуиции продукта и проектирования системы.

Вопросы новичка (10)

Теперь давайте погрузимся в 40 лучших вопросов для интервью ML. Эти вопросы разбиты на начинающие, промежуточные, продвинутые и специфичные для продукта вопросы.

1. Каков компромисс между предвзятостью и дисперсией?

Предвзятость (Насколько хорошо модель подходит для данных) относится к ошибкам из -за неточных или упрощенных предположений в вашем алгоритме ML, что приводит к переоснащению.

Дисперсия (Сколько изменений модели на основе входов) относится к ошибкам из -за сложности в вашем алгоритме ML, который генерирует чувствительность к высоким уровням различий в учебных данных и переоснащении.

Другими словами, простые модели стабильны (низкая дисперсия), но сильно предвзяты. Сложные модели склонны к переоснащению, но выражают истину модели (низкая смещение). Оптимальное сокращение ошибки требует компромисса смещения и дисперсии, чтобы избежать как высокой дисперсии, так и высокого смещения.

2. Объясните разницу между контролируемым и неконтролируемым машинным обучением.

Наблюдение за обучением Требуется обучение, помеченные данными. Другими словами, контролируемое обучение использует основную истину, что означает, что у нас есть существующие знания о наших результатах и образцах. Цель здесь состоит в том, чтобы выучить функцию, которая приближается к взаимосвязи между входами и выходами.

Неконтролируемое обучение , с другой стороны, не использует помеченные выходы. Цель здесь состоит в том, чтобы сделать вывод естественной структуры в наборе данных.

3. Каковы наиболее распространенные алгоритмы для контролируемого обучения и неконтролируемого обучения?

4. Объясните разницу между кластеризацией KNN и K-Means.

Основное отличие состоит в том, что KNN требует помеченных очков (Алгоритм классификации, контролируемое обучение), но K-Means не (Алгоритм кластеризации, неконтролируемое обучение).

Чтобы использовать K-ближайшие соседи, вы используете помеченные данные, которые вы хотите классифицировать в немеченых точке. Кластеризация K-средних принимает немеченые точки и узнает, как сгруппировать их, используя среднее расстояние между точками.

5. Какова теорема Байеса? Почему мы это используем?

Теорема Байеса – это то, как мы находим вероятность, когда знаем другие вероятности. Другими словами, это обеспечивает Задняя вероятность предварительного знания. Эта теорема является принципиальным способом расчета условных вероятностей.

В ML теорема Байеса используется в рамках вероятности, которая соответствует модели для обучающего набора данных и для задач прогнозного моделирования классификации построения (то есть наивного Байеса, Оптимальный классификатор Байеса).

6. Что такое наивные байесовские классификаторы? Почему мы их используем?

Наивные классификаторы байесов – это Сбор алгоритмов классификации . Эти классификаторы представляют собой семейство алгоритмов, которые имеют общий принцип. Наивные классификаторы байесов предполагают, что возникновение или отсутствие признака не влияют на наличие или отсутствие другой особенности.

Другими словами, мы называем это «наивным», так как предполагается, что все функции набора данных одинаково важны и независимы.

Наивные классификаторы байесов используются для классификации. Когда предположение о независимости сохраняется, их легко реализовать и приносить лучшие результаты, чем другие сложные предикторы. Они используются в системах спама, анализа текста и систем рекомендаций.

7. Объясните разницу между ошибкой типа I и типа II.

Ошибка типа I – это ложный положительный (утверждая, что что -то произошло, когда это не так), а ошибка типа II – это ложный отрицательный (Утверждая, что ничего не произошло, когда на самом деле это произошло).

8. В чем разница между дискриминационной и генеративной моделью?

Дискриминационная модель учится Различия между различными категориями данных. Генеративная модель учится Категории данных. Дискриминационные модели, как правило, работают лучше в задачах классификации.

9. Что такое параметрические модели? Дайте пример.

Параметрические модели имеют конечное количество параметров . Вам нужно только знать параметры модели, чтобы сделать прогноз данных. Общие примеры следующие: линейные SVM, линейная регрессия и логистическая регрессия.

Непараметрические модели имеют Неограниченное количество параметров предложить гибкость. Для прогнозов данных вам нужны параметры модели и состояние наблюдаемых данных. Общие примеры следующие: K-ближайшие соседи, деревья решений и тематические модели.

10. Объясните разницу между массивом и связанным списком.

Массив – это Заказанная коллекция объектов. Предполагается, что каждый элемент имеет одинаковый размер, так как весь массив хранится в смежном блоке памяти. Размер массива указан во время объявления и не может быть изменен впоследствии.

Параметры поиска массива – это линейный поиск и бинарный поиск (если он отсортирован).

Связанный список – это Серия объектов с указателями. Различные элементы хранятся в разных местах памяти, а элементы данных могут быть добавлены или удалены при желании.

Единственный параметр поиска для связанного списка – линейный.

Дополнительные вопросы для начинающих могут включать в себя:

Что важнее: производительность или точность модели? Почему?
Что за счет F1? Как это используется?
Каково проклятие размерности?
Когда мы должны использовать классификацию, а не регрессию?
Объясните глубокое обучение. Чем он отличается от других методов?
Объясните разницу между вероятностью и вероятностью.

Промежуточные вопросы (15)

Эти промежуточные вопросы принимают основные теории ML сверху и применяют их более строго.

1. Какой метод перекрестной проверки вы бы выбрали для набора данных временных рядов?

Временные ряды не распределены случайным образом, но имеют хронологический упорядочение. Вы хотите использовать что -то вроде Вперед Таким образом, вы можете моделировать на основе прошлых данных, прежде чем рассматривать будущие данные. Например:

Фол 1: Обучение [1], тест [2]
Фол 2: Обучение [1 2], тест [3]
Фол 3: Обучение [1 2 3], тест [4]
Фолк 4: Обучение [1 2 3 4], тест [5]
Склад 5: Обучение [1 2 3 4 5], тест [6]

2. Как вы выбираете классификатор на основе размера обучающего набора?

Для небольшого учебного набора модель с высоким смещением и моделями с низкой дисперсией лучше, так как она менее вероятно переоценена. Примером является наивный Байес.

Для большого учебного набора модель с низким смещением и моделями высокой дисперсии лучше, поскольку она выражает более сложные отношения. Примером является логистическая регрессия.

3. Объясните кривую ROC и AUC.

Кривая ROC – это Графическое представление производительности классификационной модели на всех порогах. Он имеет два пороговых значения: истинный положительный показатель и ложная положительная скорость.

AUC (область под кривой ROC), просто область под кривой ROC. AUC измеряет двумерную площадь под кривой ROC от (0,0) до (1,1). Он использовался в качестве метрики производительности для оценки моделей бинарной классификации.

4. Объясните LDA для неконтролируемого обучения.

Скрытие распределения дирихле (LDA) является общим методом для Тематическое моделирование Анкет Это генеративная модель для представления документов в качестве комбинации тем, каждая из которых имеет собственное распределение вероятностей.

LDA стремится проецировать особенности пространства более высокого размера на более низкое пространство. Это помогает избежать проклятия размерности.

5. Как вы убедитесь, что вы не переживаете модель?

Есть три метода, которые мы можем использовать для предотвращения переживания:

Используйте перекрестная проверка методы (такие как перекрестная проверка K-Clords)
Сохранить модель Простой (т.е. взять меньше переменных), чтобы уменьшить дисперсию
Используйте Методы регуляризации (как Лассо), которые наказывают параметры модели, которые могут вызвать переосмысление

6. В SQL, как связаны с первичными и иностранными ключами?

SQL является одним из самых популярных форматов данных, используемых в ML, поэтому вам необходимо продемонстрировать свою способность манипулировать базами данных SQL.

Иностранные ключи позволяют вам Сопоставьте и присоединяйтесь к таблицам На первичном ключе соответствующей таблицы.

Если вы столкнетесь с этим вопросом, ответьте на основную концепцию и объясните, как вы бы настроили таблицы SQL и Запрос их .

7. Какие подходы к оценке вы бы использовали для оценки эффективности модели ML?

Во -первых, вы бы разделили набор данных на обучающие и тестовые наборы. Вы также можете использовать метод перекрестной проверки для сегмента набора данных. Затем вы выберете и реализуете метрики производительности. Например, вы можете использовать матрицу путаницы, оценку F1 и точность.

Вы захотите объяснить нюансы того, как измеряется модель на основе различных параметров. Интервьюируемые, которые выделяются, принимают такие вопросы, как это шаг вперед.

8. Объясните, как обрабатывать отсутствующие или поврежденные данные в наборе данных.

Вам необходимо идентифицировать данные находить и отбросить строки/столбцы или заменить их на другие значения.

Панды Предоставляет полезные методы для выполнения этого: isnull () и Dropna () Анкет Они позволяют вам идентифицировать и отбросить поврежденные данные. fillna () Метод может использоваться для заполнения недействительных значений с заполнителями.

9. Объясните, как вы разработаете конвейер данных.

Трубопроводы данных позволяют нам принять модель науки о данных и автоматизировать или масштабировать ее. Для их размещения используются общий инструмент конвейера данных – Apache Airflow, а Google Cloud, Azure и AWS используются.

По такому вопросу, вы хотите объяснить необходимые шаги и обсудить реальный опыт, который у вас есть конвейеры по созданию данных.

Основные шаги заключаются в следующем для облачного хоста Google:

Войдите в платформу Google Cloud
Создайте вычислительный экземпляр
Получить учебное пособие от GitHub
Используйте воздушный поток для обзора трубопровода
Используйте Docker, чтобы настроить виртуальные хосты
Разработать контейнер Docker
Открытый интерфейс Airflow и запустить трубопровод ML
Запустите развернутое веб -приложение

10. Как исправить высокую дисперсию в модели?

Если модель имеет низкую дисперсию и высокую смещение, мы используем алгоритм мешков, который делит набор данных на подмножества с использованием рандомизированной выборки. Мы используем эти образцы для создания набора моделей с одним алгоритмом обучения.

Кроме того, мы можем использовать метод регуляризации, в которой более высокие коэффициенты модели оштрафованы, чтобы снизить сложность в целом.

11. Что такое гиперпараметры? Чем они отличаются от параметров модели?

Параметр модели – это переменная, которая является внутренний к модели . Значение параметра оценивается из учебных данных.

Гиперпараметр – это переменная, которая является Внешний по отношению к модели Анкет Значение не может быть оценено по данным, и они обычно используются для оценки параметров модели.

12. Вы работаете над набором данных. Как вы выбираете важные переменные?

Удалить коррелированные переменные перед выбором важных переменных
Используйте случайный лес и диаграмма важности переменной сюжета
Используйте регрессию Лассо
Используйте линейную регрессию для выбора переменных на основе значений P
Используйте прямое выбор, пошаговый выбор и Обратный выбор

13. Как вы выбираете, какой алгоритм использовать для набора данных?

Выбор алгоритма ML зависит от Тип данных обсуждаемый. Деловые требования необходимы для выбора алгоритма, а также создание модели, поэтому при ответе на этот вопрос объясните, что вам нужна дополнительная информация.

Например, если ваши данные организуют линейно, линейная регрессия была бы хорошим алгоритмом для использования. Или, если данные состоит из нелинейных взаимодействий, лучше всего подойдет алгоритм пакета или повышение. Или, если вы работаете с изображениями, нейронная сеть была бы лучшей.

Узнайте больше о 10 мл -алгоритмы для науки о данных за 5 минут

14. Каковы преимущества и недостатки использования нейронных сетей?

15. Каков метод по умолчанию для разделения на деревьях решений?

Метод по умолчанию – Индекс Джини , который является мерой примеси конкретного узла. По сути, он вычисляет вероятность конкретной функции, которая классифицируется неправильно. Когда элементы связаны одним классом, мы называем это «чистым».

Вы также можете использовать случайный лес, но индекс GINI предпочтительнее, потому что он не вычислительно интенсивный и не включает в себя функции логарифма.

Дополнительные промежуточные вопросы могут включать в себя:

Что такое преобразование коробки-кокса?
Проблема с водой
Объясните преимущества и недостатки деревьев решений.
Какова проблема взрыва в градиенте при использовании метода распространения обратного распространения?
Что такое матрица путаницы? Почему вам это нужно?

Расширенные вопросы (10)

Эти расширенные вопросы применяют ваши знания к конкретным компонентам ML и расширяют базовые, чтобы думать о реальных приложениях. Эти навыки обычно требуют кодирования, а не просто теории.

1. Вам дают набор данных с отсутствующими значениями, которые распространяются вдоль 1 стандартного отклонения от медианы. Какой процент данных останется незатронутым?

Данные распространяются по медиане, поэтому мы можем предположить, что мы работаем с нормальное распределение . Это означает, что приблизительно 68% данных лежит при 1 стандартном отклонении от среднего. Итак, вокруг 32% данных не затронуты.

2. Вам говорят, что ваша регрессионная модель страдает от мультиколлинеарности. Как подтвердить это правда и создать лучшую модель?

Вы должны создать корреляционную матрицу для идентификации и удаления переменных с корреляцией выше 75%. Имейте в виду, что наш порог здесь субъективен.

Вы также можете рассчитать VIF (коэффициент инфляции дисперсии) Чтобы проверить наличие мультиколлинеарности. Значение VIF больше или равное 4 предполагает, что не существует мультиколлинеарности. Значение меньше или равное 10 говорит нам, что существуют серьезные проблемы с мультиколлинеарностью.

Вы не можете просто удалить переменные, поэтому вы должны использовать наказанную регрессионную модель или добавить случайный шум в коррелированных переменных, но этот подход менее идеален.

Айс интервью машинного обучения с мышлением высокого уровня.

Этот интерактивный курс помогает вам построить навыки проектирования системы ML и рассказывать о некоторых из самых популярных проблем с интервью в крупных технологических компаниях. В конце концов вы сможете провести интервью с машинным обучением и произвести впечатление на свою способность думать о системах на высоком уровне.

Грокинг интервью машинного обучения

3. Почему XGBOOST работает лучше, чем SVM?

XGBOOS – это Метод ансамбля Это использует много деревьев. Это означает, что он улучшается, когда он повторяется.

SVM – это Линейный сепаратор Анкет Таким образом, если наши данные не являются линейно разделяемыми, SVM требует ядра, чтобы доставить данные в состояние, где их можно разделить. Это может ограничить нас, так как нет идеального ядра для каждого данного набора данных.

4. Вы строите модель случайного леса с 10 000 деревьев. Ошибка обучения на 0,00, но ошибка проверки составляет 34,23. Объясните, что пошло не так.

Ваша модель, вероятно, переполнен Анкет Ошибка обучения 0,00 означает, что классификатор имеет имитированные модели учебных данных. Это означает, что они недоступны для наших невидимых данных, возвращая более высокую ошибку.

При использовании случайного леса это произойдет, если мы будем использовать большое количество деревьев.

5. Объясните этапы построения модели ML.

Это в значительной степени будет зависеть от модели, так что вы можете задать уточняющие вопросы. Но в целом процесс выглядит следующим образом:

Понять бизнес -модель и конечную цель
Соберите получение данных
Сделайте очистку данных
Основной анализ данных
Используйте алгоритмы машинного обучения для разработки модели
Используйте неизвестный набор данных, чтобы проверить точность

6. Каково отзыв, специфичность и точность матрицы путаницы ниже?

TP/True Positive: случай был положительным, и он был предсказан как положительный
TN/True Oftion: случай был отрицательным, и он был предсказан как отрицательный
FN/False Oftion: случай был положительным, но он был предсказан как отрицательный
FP/False Positive: случай был отрицательным, но он был предсказан как положительный

Отзывать%
Специфичность%
Точность%

Объяснение:

Remeply//50.2%

Специфичность//50.3 %

Precision/(TP +/.2%

7. Для NLP, какова основная цель использования модели Encoder-Decoder?

Мы используем модель Encoder-Decoder для генерации выходной последовательности на основе входной последовательности.

Что делает модель-энкодер-декодер настолько мощной, так это то, что декодер использует окончательное состояние энкодера в качестве начального состояния. Это дает декодеру доступ к информации, которую энкодер извлек из входной последовательности.

8. Для глубокого обучения с помощью TensorFlow, какое значение требуется в качестве вклада для оценки оценки?

Требуется метрика потери. В выполнении модели с TensorFlow мы используем Оценки объект для организации обучения, оценки и прогнозирования.

Оценки Объект инициализируется одним необходимым аргументом, называемым режимом. Режим может занять одно из трех значений:

Tf.Stimator. Режим. ТРЕНИРОВАТЬСЯ
Tf.Stimator. Режим. Оценка
Tf.Stimator. Режим. ПРЕДСКАЗЫВАТЬ

Аргументы ключевого слова, необходимые для инициализации Оценки будет отличаться в зависимости от режима.

9. При использовании Scikit-learn, правда ли, что нам нужно масштабировать наши значения функций, когда они сильно различаются?

Да. Большинство алгоритмов машинного обучения используют евклидовое расстояние в качестве метрик для измерения расстояния между двумя точками данных. Если диапазон значений сильно отличается, результат одного и того же изменения в различных функциях будет очень разным.

10. Ваш набор данных имеет 50 переменных, но 8 переменных имеют отсутствующие значения выше 30%. Как вы обращаетесь к этому?

Есть три общих подхода, которые вы могли бы использовать:

Просто удалите их (не идеально)
Назначьте уникальную категорию отсутствующим значениям, чтобы увидеть, есть ли тенденция, генерирующая эту проблему
Проверьте распределение с целевой переменной. Если шаблон найден, сохраните пропущенные значения, назначьте их новой категории и удалите другие.

Дополнительные расширенные вопросы могут включать в себя:

Вы должны оценить регрессионную модель, основанную на R², скорректированной R² и толерантности. Каковы ваши критерии?
Для k-средних или KNN, почему мы используем евклидовое расстояние на расстоянии Манхэттена?
Объясните разницу между нормальным мягким краем SVM и SVM с линейным ядром.

Вопросы для конкретного продукта (5)

Компании хотят видеть, что вы можете применить концепции ML к своим реальным продуктам и командам. Вы можете ожидать вопросов о продуктах на основе ML компании и даже потребуется для их самостоятельно.

1. Как бы вы внедрили систему рекомендаций для наших пользователей?

Многие вопросы интервью ML включают в себя внедрение моделей к конкретным проблемам организации. Чтобы хорошо ответить на этот вопрос, вам нужно заранее исследовать компанию. Прочитайте о драйверах дохода и пользовательской базе.

ВАЖНО: Используйте такие вопросы, чтобы продемонстрировать свои навыки проектирования системы! Вам необходимо набросить решение с требованиями, метриками, генерацией данных обучения и рейтингом.

Грокинг интервью машинного обучения Подробно задает этот вопрос, используя систему рекомендаций Netflix.

Общие шаги для настройки системы рекомендаций следующие:

Установите проблему, задавая вопросы
Понять требования к масштабе и задержке
Определите метрики как для онлайн, так и для офлайн -тестирования
Обсудите архитектуру системы (как будут течь данные)
Обсудить генерацию обучающих данных
Определение инженерии функции (какие актеры вовлечены)
Обсудить модельное обучение и алгоритмы
Предложите, как вы масштабируете и улучшитесь после его развертывания (то есть проблемы, которые вы можете предсказать)

2. Как вы думаете, что самые ценные данные в нашем бизнесе?

Это проверяет ваши знания о бизнесе/отрасли. Он также проверяет, как вы коррелировали данные с результатами бизнеса и применяют их к потребностям конкретной компании. Вам нужно исследовать бизнес -модель организации. Обязательно задайте вопросы, чтобы уточнить вопрос дальше, прежде чем прыгнуть.

Некоторые общие ответы могут быть:

Качественные данные, которые понимаются командами ML, полезны для масштабирования и правильных прогнозов
Данные, которые рассказывают нам о том, чего хочет клиент, необходимы для всех бизнес -решений
Лучшее управление данными может увеличить свой годовой доход
Типы данных, наиболее ценные для компании, – это данные клиента, ИТ -данные и внутренние финансовые данные

3. Как бы вы структурировали процесс выбора AD для системы прогнозирования AD?

Основная цель компонента выбора рекламы – сузить набор объявлений, которые имеют отношение к данному запросу. В системе, основанной на поиске, компонент выбора рекламы отвечает за получение главных соответствующих объявлений из базы данных ADS в соответствии с контекстом пользователя и запроса.

В системе, основанной на каналах, компонент выбора рекламы выберет ведущую k соответствующую рекламу, основанную больше на интересах пользователей, чем на поисковых терминах.

Вот общее решение этого вопроса. Скажем, мы используем воронку на основе моделирования. Было бы иметь смысл структурировать процесс отбора AD на этих трех этапах:

Фаза 1: Быстрый выбор рекламы для данного запроса и пользовательского контекста в соответствии с критериями выбора
Фаза 2: Оцените эти выбранные объявления на основе простого и быстрого алгоритма, чтобы обрезать рекламу.
Фаза 3: Примените модель машинного обучения на обрезанной рекламе, чтобы выбрать верхнюю.

4. Каковы архитектурные компоненты для системы на основе кормов?

Опять же, этот вопрос в значительной степени зависит от рассматриваемой организации. Сначала вы захотите задать уточняющие вопросы о системе, чтобы убедиться, что вы удовлетворяете всем ее потребностям. Вы можете говорить в гипотезе, чтобы оставить место для неточности.

Я объясню это с помощью системы кормов Twitter, чтобы дать вам представление о том, как подходить к такой проблеме. Это будет включать в себя:

Выбор твита: Пул твитов пользователя пересылается компонентам Ранка
Генерация данных обучения: положительный и отрицательный Примеры обучения
Ранкер: Для прогнозирования вероятности участия

5. Что вы думаете о GPT-3? Как вы думаете, мы можем его использовать?

Этот вопрос издает ваши инвестиции в отрасль и вы видите, как применять новые технологии. GPT-3-это новая модель генерации языка, которая может генерировать человеческий текст.

Есть много перспектив на GPT-3, так что некоторые читают о том, как он используется для демонстрации критического мышления следующего поколения. Проверьте Топ-20 использования CPT-3 от Openai Анкет

Некоторые общие ответы могут быть:

Улучшение чат -ботов и Автоматизация обслуживания клиентов
Улучшение поисковых систем с помощью NLP
Тренировочное обучение и презентации для постоянного обучения
Улучшение кода JSX
Упрощение дизайна UI/UX

Дополнительные вопросы могут включать:

Разработать систему прогнозирования рекламы для нашей компании.
Каковы метрики для рейтинга поиска?
Что вы думаете о нашем текущем процессе данных?
Опишите свой исследовательский опыт в области машинного обучения.
Напишите запрос в SQL, чтобы измерить количество рекламы, которые были просмотрены в моменты по сравнению с новостным каналом.
Как вы думаете, квантовые вычисления повлияют на ML в этой организации?
Какой из наших нынешних продуктов может извлечь выгоду из компонентов ML?

Чему научиться дальше

Поздравляю! Теперь вы узнали 40 лучших вопросов, с которыми вы столкнетесь в интервью машинного обучения. Есть еще многое, чтобы научиться укреплять свои знания и получить практический дизайн системы, Python и все инструменты ML.

Обязательно ознакомьтесь с дополнительными вопросами, которые я указал в конце каждого раздела.

Чтобы перейти прямо в большую практику, ознакомьтесь с курсом образования Грокинг интервью машинного обучения Анкет Вы узнаете, как разрабатывать системы с нуля и разрабатывать способность высокого уровня думать о системах ML. Это идеальное место, чтобы вывести ваши навыки ML на следующий уровень и выделиться из конкурса .

Счастливого обучения!

Другие полезные образовательные курсы для инженеров ML:

Продолжить чтение о машинном обучении

Оригинал: “https://dev.to/educative/crack-the-top-40-machine-learning-interview-questions-1e2c”

Обзор интервью

Компания конкретные процессы

Google ML Интервью

Amazon ML Интервью

Facebook ML интервью

Интервью Twitter ML

Вопросы новичка (10)

1. Каков компромисс между предвзятостью и дисперсией?

2. Объясните разницу между контролируемым и неконтролируемым машинным обучением.

3. Каковы наиболее распространенные алгоритмы для контролируемого обучения и неконтролируемого обучения?

4. Объясните разницу между кластеризацией KNN и K-Means.

5. Какова теорема Байеса? Почему мы это используем?

6. Что такое наивные байесовские классификаторы? Почему мы их используем?

7. Объясните разницу между ошибкой типа I и типа II.

8. В чем разница между дискриминационной и генеративной моделью?

9. Что такое параметрические модели? Дайте пример.

10. Объясните разницу между массивом и связанным списком.

Промежуточные вопросы (15)

1. Какой метод перекрестной проверки вы бы выбрали для набора данных временных рядов?

2. Как вы выбираете классификатор на основе размера обучающего набора?

3. Объясните кривую ROC и AUC.

4. Объясните LDA для неконтролируемого обучения.

5. Как вы убедитесь, что вы не переживаете модель?

6. В SQL, как связаны с первичными и иностранными ключами?

7. Какие подходы к оценке вы бы использовали для оценки эффективности модели ML?

8. Объясните, как обрабатывать отсутствующие или поврежденные данные в наборе данных.

9. Объясните, как вы разработаете конвейер данных.

10. Как исправить высокую дисперсию в модели?

11. Что такое гиперпараметры? Чем они отличаются от параметров модели?

12. Вы работаете над набором данных. Как вы выбираете важные переменные?

13. Как вы выбираете, какой алгоритм использовать для набора данных?

14. Каковы преимущества и недостатки использования нейронных сетей?

15. Каков метод по умолчанию для разделения на деревьях решений?

Расширенные вопросы (10)

2. Вам говорят, что ваша регрессионная модель страдает от мультиколлинеарности. Как подтвердить это правда и создать лучшую модель?

Айс интервью машинного обучения с мышлением высокого уровня.

3. Почему XGBOOST работает лучше, чем SVM?

4. Вы строите модель случайного леса с 10 000 деревьев. Ошибка обучения на 0,00, но ошибка проверки составляет 34,23. Объясните, что пошло не так.

5. Объясните этапы построения модели ML.

6. Каково отзыв, специфичность и точность матрицы путаницы ниже?

7. Для NLP, какова основная цель использования модели Encoder-Decoder?

8. Для глубокого обучения с помощью TensorFlow, какое значение требуется в качестве вклада для оценки оценки?

9. При использовании Scikit-learn, правда ли, что нам нужно масштабировать наши значения функций, когда они сильно различаются?

10. Ваш набор данных имеет 50 переменных, но 8 переменных имеют отсутствующие значения выше 30%. Как вы обращаетесь к этому?

Вопросы для конкретного продукта (5)

1. Как бы вы внедрили систему рекомендаций для наших пользователей?

2. Как вы думаете, что самые ценные данные в нашем бизнесе?

3. Как бы вы структурировали процесс выбора AD для системы прогнозирования AD?

4. Каковы архитектурные компоненты для системы на основе кормов?

5. Что вы думаете о GPT-3? Как вы думаете, мы можем его использовать?

Чему научиться дальше

Продолжить чтение о машинном обучении

Читайте ещё по теме: