В первой части этой серии я представил концепцию тестирования гипотез и описал различные элементы, которые входят в использование различных тестов. Это закончилось чит-листом, чтобы помочь вам выбрать, какой тест использовать на основе данных, которые вы тестируете.
В этом втором посте я расскажу более подробно о На основе пропорции образцы.
Если какой -либо из терминов Нулевая гипотеза , Альтернативная гипотеза , P-значение Новые для вас, я бы посоветовал просмотреть первую часть этой серии, прежде чем двигаться дальше.
Что такое выборка на основе пропорции?
В этих случаях мы заинтересованы в проверке пропорций. Например, 17% образца соответствует некоторому профилю, а остальное – нет. Это может быть тест, сравнивающий одну выборку с некоторым ожидаемым значением или сравнение двух разных образцов.
Примечание: Эти тесты действительны только тогда, когда есть Только два возможные варианты; и если вероятность одного варианта – P , тогда вероятность другого должна быть (1 – P) Анкет
Требования к качеству образца
Для этих тестов требуются следующие правила выборки:
Случайный | Выборка должна быть случайной выборкой со всей популяции |
Нормальный | Выборка должна отражать распределение базовой популяции. Для этих испытаний хорошее правило, что: с учетом размера выборки N приведенной доли выборки P, тогда как NP, так и N (1-P) должны быть не менее 10, например: если образец обнаруживает, что 80% проблем были разрешены через 5 дней, а 20% не были, тогда в этом образе, по крайней мере, 10 вопросов, решенных в течение 5 дней, и, по крайней мере, 10 выпусков, решаемые за более чем 5 дней. |
Независимый | Выборка должна быть независимой – для этих тестов хорошее правило, что размер выборки составляет менее 10% от общей численности населения. |
Образцы кода для тестов на основе пропорций
Обратите внимание, что все эти образцы кода Доступно на GitHub . Они используют популярное Statsmodels Библиотека для выполнения тестов.
1-образец Z-критерий
Сравните долю в выборке с ожидаемым значением
Здесь у нас есть образец, и мы хотим увидеть, превышает ли некоторая доля этой выборки/меньше/не отличается от некоторого ожидаемого значения испытаний.
В этом примере:
- Мы ожидаем пройти более 80% тестов, поэтому наша нулевая гипотеза: 80% тестов проходят
- Наша альтернативная гипотеза: Более 80% тестов проходят
- Мы пробовали 500 тестов и нашли 410 пройден
- Мы используем Z-критерий 1 выборки, чтобы проверить, позволяет ли образец принять или отклонить нулевую гипотезу
Чтобы рассчитать значение p в Python:
from statsmodels.stats.proportion import proportions_ztest # can we assume anything from our sample significance = 0.05 # our sample - 82% are good sample_success = 410 sample_size = 500 # our Ho is 80% null_hypothesis = 0.80 # check our sample against Ho for Ha > Ho # for Ha < Ho use alternative='smaller' # for Ha != Ho use alternative='two-sided' stat, p_value = proportions_ztest(count=sample_success, nobs=sample_size, value=null_hypothesis, alternative='larger') # report print('z_stat: %0.3f, p_value: %0.3f' % (stat, p_value)) if p_value > significance: print ("Fail to reject the null hypothesis - we have nothing else to say") else: print ("Reject the null hypothesis - suggest the alternative hypothesis is true")
2-образец Z-критерий
Сравните пропорции между 2 образцами
Здесь у нас есть два образца, определяемые пропорцией, и мы хотим посмотреть, сможем ли мы сделать утверждение о том, превышают ли общие пропорции одной из базовых популяций/меньше/отличаются от другого.
В этом примере мы хотим сравнить две разные группы населения, чтобы увидеть, как их тесты связаны друг с другом:
- У нас есть два образца – A и B. Наша нулевая гипотеза заключается в том, что Пропорции из двух популяций то же
- Наша альтернативная гипотеза заключается в том, что Пропорции из двух популяций разные
- Из одной популяции мы выбрали 500 тестов и обнаружили 410
- Из другой популяции мы выбрали 400 тестов и обнаружили 379
- Мы используем Z-критерий с двумя образцами, чтобы проверить, позволяет ли образец принять или отклонить нулевую гипотезу
Чтобы рассчитать значение p в Python:
from statsmodels.stats.proportion import proportions_ztest import numpy as np # can we assume anything from our sample significance = 0.025 # our samples - 82% are good in one, and ~79% are good in the other # note - the samples do not need to be the same size sample_success_a, sample_size_a = (410, 500) sample_success_b, sample_size_b = (379, 400) # check our sample against Ho for Ha != Ho successes = np.array([sample_success_a, sample_success_b]) samples = np.array([sample_size_, sample_size_b]) # note, no need for a Ho value here - it's derived from the other parameters stat, p_value = proportions_ztest(count=successes, nobs=samples, alternative='two-sided') # report print('z_stat: %0.3f, p_value: %0.3f' % (stat, p_value)) if p_value > significance: print ("Fail to reject the null hypothesis - we have nothing else to say") else: print ("Reject the null hypothesis - suggest the alternative hypothesis is true")
В следующем посте я сосредоточусь на тестировании гипотезы на основе средних образцов.
- ЧАСТЬ Я: Введение в тестирование гипотез
- Часть III: Гипотеза тестирование образцов на основе среднего уровня
- Часть IV: Гипотеза тестирование образцов на основе частоты
Оригинал: “https://dev.to/sonalake/part-2-hypothesis-testing-of-proportion-based-samples-1ik2”