Рубрики
Без рубрики

Визуализация желаемых шагов распределение – используя теорему центрального предела

Визуализация желаемых шагов распределение – с использованием теоремы центрального предела … Tagged с помощью Dataanalysis, Python, DataVisualization.

Визуализация желаемых шагов распределение – используя теорему центрального предела

На прошлой неделе, когда я посмотрел на данные о своих шагах, я заметил, что данные были очень распространены.

Показывая распространение в данных шагов

Хотя я чувствовал себя относительно довольным средними шагами, которые я выполнял за день, данные были слишком распространены – то есть стандартное отклонение ( σ) был 3435,38. Это предполагает, что 68% данных шагов были проведены между 7305,65 и 14177,25 этапами. У меня даже были дни, когда общее количество шагов было значительно ниже 5000, и поэтому я хотел получить свои данные, чтобы имитировать распределение, где стандартное отклонение будет более низким значением, что данные о шагах не будут такими же распределенными, как в настоящее время Анкет

Как предполагает теорема «Центральный предел», я решил взять) независимые случайные выборы из набора данных Steps. Я бы повторил этот процесс 5 раз), с самого начала, поэтому дал мне 5 набор данных с 5 независимыми случайными образцами в каждом наборе. Далее я найду среднее значение из каждого 5 независимых случайных наборов данных, и, наконец, я узнаю среднее значение. Затем я бы провели один и тот же эксперимент еще два раза, но на этот раз увеличивая случайные образцы до 20), а затем до 100)

Определение функций

def random_steps_array(name_of_array, n , iterations):
    for i in range(iterations): 
        name_of_array.append(df.steps.sample(n, random_state = i,   
                              replace = True))

def sample_means(name_of_array, sample_mean):
    for i in range(len(name_of_array)):     
        sample_mean.append(name_of_array[i].mean())

random_steps_array Функция будет обрабатывать случайную выборку и итерации, а также Sample_means Массив примет среднему из случайных образцов.

Экспериментируя с 5 итерациями, где 20 100

i. В

array_5 = []
mean_array\_5 = []
random_steps_array(array_5, 5, 5)
sample_means(array_5, mean_array_5 )

Случайные образцы 5 независимых случайных переменных были сохранены в Array_5 Средства случайных переменных были сохранены в mean_array_5

Распределение выборки средних образцов в

При только пять итерациях из 5 независимых случайных выборок среднее значение выборки было немного дальше от фактического среднего значения 10741,45. Тем не менее, принятое распределение было теперь менее распределенным, и стандартная ошибка среднего значения или (a.k.a. Стандартное отклонение распределения отбора проб образца средств – (S.E) было 1650.

II В

Среднее среднее значение выборки было намного ближе к фактическому среднему значению, когда я запустил 20 итераций для случайного размера выборки 5 элементов.

Распределение выборки средних образцов в

Уже когда число итераций увеличилось, у меня есть больший набор случайных выборок. Таким образом, давая мне среднее значение, которое приближалось к моему фактическому среднему значению, и стандартная ошибка среднего (SE) снизилась до 561,72. В идеале, это тот вид визуализации, который я хотел бы иметь своего набора данных, где данные не очень распространены.

iii. В

Наконец, на графике было еще менее распространено со стандартной ошибкой среднего (SE) при 259,27.

Распределение выборки средних образцов в

Спред был почти похож на то, что делал набор данных при 20 итерациях, но среднее значение выборки (10838,78) было намного ближе к фактическому среднему значению 10741,45.

Таким образом, со следующим экспериментом я смог визуализировать желаемый график, также я получил несколько рабочих знаний с теоремой центрального предела.

Оригинал: “https://dev.to/saral/visualizing-desired-steps-distribution-using-the-central-limit-theorem-7pn”