Выборка загрузки в Python

Автор оригинала: Pankaj Kumar.

Это учебное пособие по отбора проб наступления в Python. В этом руководстве мы узнаем, что такое загрузка, а затем посмотрим, как это реализовать.

Давайте начнем.

Что такое выборка загрузки?

Определение выборки загрузки выглядит следующим образом:

В статистике выборка Bootstrap – это метод, который включает в себя чертеж данных образца, несколько раз с заменой от источника данных для оценки параметра популяции.

Это в основном означает, что выборка Bootstrap – это техника, использующая, с которой вы можете оценить такие параметры, как среднее для целой популяции, без явного рассмотрения каждой и любой точки данных в популяции.

Вместо того, чтобы смотреть на всему населению, мы смотрим на несколько подмножеств всех одинаковых размеров, взятых из населения.

Например, если ваш размер населения – 1000. Затем найти среднее, вместо того, чтобы рассмотреть все 1000 записей, которые вы можете взять 50 образцов размера 4 каждый и рассчитать среднее значение для каждого образца. Таким образом, вы будете принимать в среднем 200 записей (50×4) выбран случайным образом.

Аналогичная стратегия используется исследователями рынка для проведения исследований в огромном населении.

Как реализовать выборку загрузки в Python?

Теперь давайте посмотрим, как реализовать выборку загрузки в Python.

Мы будем генерировать случайные данные с предопределенным средним значением. Для этого мы собираемся использовать Numpy Module в Python.

Давайте начнем, импортируя необходимые модули.

1. Импортируйте необходимые модули.

Модули, которые нам нужны:

Осевать
Случайный

Чтобы импортировать эти модули, используйте:

import numpy as np
import random

На следующем шаге нам нужно создать случайные данные. Давайте сделаем это, используя Numpy Module.

2. Создание случайных данных

Давайте сгенерим нормальное распределение со средним из 300 и с 1000 Записи.

Код для этого приведен ниже:

x = np.random.normal(loc= 300.0, size=1000)

Мы можем рассчитать среднее значение этих данных, используя:

print (np.mean(x))

Выход:

300.01293472373254

Обратите внимание, что это фактическое среднее средство населения.

3. Используйте выборку Bootstrap, чтобы оценить среднее значение

Давайте создадим 50 образцов размера 4 каждый, чтобы оценить среднее значение.

Код для этого есть:

sample_mean = []

for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

Список образец_mean будет содержать среднее для всех 50 образцов. Для оценки среднего населения нам нужно рассчитать среднее для образец_mean Отказ

Вы можете сделать это, используя:

print(np.mean(sample_mean))

Выход:

300.07261467146867

Теперь, если мы снова запустим код в этом разделе, то мы получим другой вывод. Это потому, что каждый раз, когда мы запускаем код, мы будем генерировать новые образцы. Однако каждый раз, когда вывод будет близок к фактическому средству (300).

При запуске кода в этом разделе снова мы получаем следующий вывод:

299.99137705245636

Запустив его снова, мы получаем:

300.13411004148315

Заполните код для реализации выборки загрузки в Python

Вот полный код для этого руководства:

import numpy as np
import random

x = np.random.normal(loc= 300.0, size=1000)
print(np.mean(x))

sample_mean = []
for i in range(50):
  y = random.sample(x.tolist(), 4)
  avg = np.mean(y)
  sample_mean.append(avg)

print(np.mean(sample_mean))

Заключение

В этом руководстве было о проб начальной загрузки в Python. Мы узнали, как оценить среднее население, создав меньшие образцы. Это очень полезно в мире машинного обучения, чтобы избежать перенапряжения. Надеюсь, вы веселились с нами!