Визуализация желаемых шагов распределение – используя теорему центрального предела
На прошлой неделе, когда я посмотрел на данные о своих шагах, я заметил, что данные были очень распространены.
Показывая распространение в данных шагов
Хотя я чувствовал себя относительно довольным средними шагами, которые я выполнял за день, данные были слишком распространены – то есть стандартное отклонение ( σ) был 3435,38. Это предполагает, что 68% данных шагов были проведены между 7305,65 и 14177,25 этапами. У меня даже были дни, когда общее количество шагов было значительно ниже 5000, и поэтому я хотел получить свои данные, чтобы имитировать распределение, где стандартное отклонение будет более низким значением, что данные о шагах не будут такими же распределенными, как в настоящее время Анкет
Как предполагает теорема «Центральный предел», я решил взять) независимые случайные выборы из набора данных Steps. Я бы повторил этот процесс 5 раз), с самого начала, поэтому дал мне 5 набор данных с 5 независимыми случайными образцами в каждом наборе. Далее я найду среднее значение из каждого 5 независимых случайных наборов данных, и, наконец, я узнаю среднее значение. Затем я бы провели один и тот же эксперимент еще два раза, но на этот раз увеличивая случайные образцы до 20), а затем до 100)
Определение функций
def random_steps_array(name_of_array, n , iterations): for i in range(iterations): name_of_array.append(df.steps.sample(n, random_state = i, replace = True)) def sample_means(name_of_array, sample_mean): for i in range(len(name_of_array)): sample_mean.append(name_of_array[i].mean())
random_steps_array Функция будет обрабатывать случайную выборку и итерации, а также Sample_means Массив примет среднему из случайных образцов.
Экспериментируя с 5 итерациями, где 20 100
i. В
array_5 = [] mean_array\_5 = [] random_steps_array(array_5, 5, 5) sample_means(array_5, mean_array_5 )
Случайные образцы 5 независимых случайных переменных были сохранены в Array_5 Средства случайных переменных были сохранены в mean_array_5
Распределение выборки средних образцов в
При только пять итерациях из 5 независимых случайных выборок среднее значение выборки было немного дальше от фактического среднего значения 10741,45. Тем не менее, принятое распределение было теперь менее распределенным, и стандартная ошибка среднего значения или (a.k.a. Стандартное отклонение распределения отбора проб образца средств – (S.E) было 1650.
II В
Среднее среднее значение выборки было намного ближе к фактическому среднему значению, когда я запустил 20 итераций для случайного размера выборки 5 элементов.
Распределение выборки средних образцов в
Уже когда число итераций увеличилось, у меня есть больший набор случайных выборок. Таким образом, давая мне среднее значение, которое приближалось к моему фактическому среднему значению, и стандартная ошибка среднего (SE) снизилась до 561,72. В идеале, это тот вид визуализации, который я хотел бы иметь своего набора данных, где данные не очень распространены.
iii. В
Наконец, на графике было еще менее распространено со стандартной ошибкой среднего (SE) при 259,27.
Распределение выборки средних образцов в
Спред был почти похож на то, что делал набор данных при 20 итерациях, но среднее значение выборки (10838,78) было намного ближе к фактическому среднему значению 10741,45.
Таким образом, со следующим экспериментом я смог визуализировать желаемый график, также я получил несколько рабочих знаний с теоремой центрального предела.
Оригинал: “https://dev.to/saral/visualizing-desired-steps-distribution-using-the-central-limit-theorem-7pn”