Рубрики
Без рубрики

Часть 2: Гипотеза тестирование образцов на основе пропорции

В первой части этой серии я представил концепцию тестирования гипотез и описал различие … Tagged DataScience, Python.

В первой части этой серии я представил концепцию тестирования гипотез и описал различные элементы, которые входят в использование различных тестов. Это закончилось чит-листом, чтобы помочь вам выбрать, какой тест использовать на основе данных, которые вы тестируете.

В этом втором посте я расскажу более подробно о На основе пропорции образцы.

Если какой -либо из терминов Нулевая гипотеза , Альтернативная гипотеза , P-значение Новые для вас, я бы посоветовал просмотреть первую часть этой серии, прежде чем двигаться дальше.

Что такое выборка на основе пропорции?

В этих случаях мы заинтересованы в проверке пропорций. Например, 17% образца соответствует некоторому профилю, а остальное – нет. Это может быть тест, сравнивающий одну выборку с некоторым ожидаемым значением или сравнение двух разных образцов.

Примечание: Эти тесты действительны только тогда, когда есть Только два возможные варианты; и если вероятность одного варианта – P , тогда вероятность другого должна быть (1 – P) Анкет

Требования к качеству образца

Для этих тестов требуются следующие правила выборки:

Случайный Выборка должна быть случайной выборкой со всей популяции
Нормальный Выборка должна отражать распределение базовой популяции. Для этих испытаний хорошее правило, что: с учетом размера выборки N приведенной доли выборки P, тогда как NP, так и N (1-P) должны быть не менее 10, например: если образец обнаруживает, что 80% проблем были разрешены через 5 дней, а 20% не были, тогда в этом образе, по крайней мере, 10 вопросов, решенных в течение 5 дней, и, по крайней мере, 10 выпусков, решаемые за более чем 5 дней.
Независимый Выборка должна быть независимой – для этих тестов хорошее правило, что размер выборки составляет менее 10% от общей численности населения.

Образцы кода для тестов на основе пропорций

Обратите внимание, что все эти образцы кода Доступно на GitHub . Они используют популярное Statsmodels Библиотека для выполнения тестов.

1-образец Z-критерий

Сравните долю в выборке с ожидаемым значением

Здесь у нас есть образец, и мы хотим увидеть, превышает ли некоторая доля этой выборки/меньше/не отличается от некоторого ожидаемого значения испытаний.

В этом примере:

  • Мы ожидаем пройти более 80% тестов, поэтому наша нулевая гипотеза: 80% тестов проходят
  • Наша альтернативная гипотеза: Более 80% тестов проходят
  • Мы пробовали 500 тестов и нашли 410 пройден
  • Мы используем Z-критерий 1 выборки, чтобы проверить, позволяет ли образец принять или отклонить нулевую гипотезу

Чтобы рассчитать значение p в Python:

from statsmodels.stats.proportion import proportions_ztest

# can we assume anything from our sample
significance = 0.05

# our sample - 82% are good
sample_success = 410
sample_size = 500

# our Ho is  80%
null_hypothesis = 0.80

# check our sample against Ho for Ha > Ho
# for Ha < Ho use alternative='smaller'
# for Ha != Ho use alternative='two-sided'
stat, p_value = proportions_ztest(count=sample_success, nobs=sample_size, value=null_hypothesis, alternative='larger')

# report
print('z_stat: %0.3f, p_value: %0.3f' % (stat, p_value))

if p_value > significance:
   print ("Fail to reject the null hypothesis - we have nothing else to say")
else:
   print ("Reject the null hypothesis - suggest the alternative hypothesis is true")

2-образец Z-критерий

Сравните пропорции между 2 образцами

Здесь у нас есть два образца, определяемые пропорцией, и мы хотим посмотреть, сможем ли мы сделать утверждение о том, превышают ли общие пропорции одной из базовых популяций/меньше/отличаются от другого.

В этом примере мы хотим сравнить две разные группы населения, чтобы увидеть, как их тесты связаны друг с другом:

  • У нас есть два образца – A и B. Наша нулевая гипотеза заключается в том, что Пропорции из двух популяций то же
  • Наша альтернативная гипотеза заключается в том, что Пропорции из двух популяций разные
  • Из одной популяции мы выбрали 500 тестов и обнаружили 410
  • Из другой популяции мы выбрали 400 тестов и обнаружили 379
  • Мы используем Z-критерий с двумя образцами, чтобы проверить, позволяет ли образец принять или отклонить нулевую гипотезу

Чтобы рассчитать значение p в Python:

from statsmodels.stats.proportion import proportions_ztest
import numpy as np

# can we assume anything from our sample
significance = 0.025

# our samples - 82% are good in one, and ~79% are good in the other
# note - the samples do not need to be the same size
sample_success_a, sample_size_a = (410, 500)
sample_success_b, sample_size_b = (379, 400)

# check our sample against Ho for Ha != Ho
successes = np.array([sample_success_a, sample_success_b])
samples = np.array([sample_size_, sample_size_b])

# note, no need for a Ho value here - it's derived from the other parameters
stat, p_value = proportions_ztest(count=successes, nobs=samples,  alternative='two-sided')

# report
print('z_stat: %0.3f, p_value: %0.3f' % (stat, p_value))

if p_value > significance:
   print ("Fail to reject the null hypothesis - we have nothing else to say")
else:
   print ("Reject the null hypothesis - suggest the alternative hypothesis is true")

В следующем посте я сосредоточусь на тестировании гипотезы на основе средних образцов.

  • ЧАСТЬ Я: Введение в тестирование гипотез
  • Часть III: Гипотеза тестирование образцов на основе среднего уровня
  • Часть IV: Гипотеза тестирование образцов на основе частоты

Оригинал: “https://dev.to/sonalake/part-2-hypothesis-testing-of-proportion-based-samples-1ik2”