Распределение данных и дискретизации I

Статистика (5 частей серии)

В предыдущей серии мы много разговаривали в Исследующий анализ данных и как как Данные ученый У нас есть много инструментов в нашем распоряжении, чтобы проанализировать и синтезировать наши данные.

В эпоху Большие данные Это из-за размера и характера данных, необходимость отбора проб избыточно. Но наоборот, из-за различного качества данных: потребность в выборке все еще распространена.

Лифятная сторона – население Предполагается следовать неизвестному распределению. Правая сторона образец с эмпирическим распределением. Процесс подбора данных с левой стороны на правую сторону называется Отбор проб И что является серьезной проблемой в науке о данных.

Случайная выборка и смещение образца

А образец Это подмножество данных из более крупного набора данных, статистики называют этот более крупный набор данных население Отказ

Случайная выборка это процесс, в котором каждый доступный член выборки населения имеет равный шанс быть выбранным для образца на каждом розыгрыше.

Отбор проб можно сделать С заменой , в котором наблюдения возвращаются в популяцию после каждого розыгрыша на возможное будущее всполнение. Или это можно сделать Без замены , в этом случае наблюдения после выбранных, недоступны для будущих рисунков.

Что такое образец смещения?

Это происходит, когда образец вытянутый из население был нарисован в неранду, что привело к другому распределению по сравнению с его население Отказ

Предвзятость

Статистическая смесь относится к измерениям или ошибкам отбора проб, которые являются систематическими и изготовлены путем измерения или процесса выборки. Существует большая разница между Ошибка от предвзятости а также Ошибка из-за случайного шанса Отказ

Как бороться с предвзятом? – Случайный выбор

В настоящее время существуют различные методы для достижения репрезентативности, но в основе всех них лежит случайная выборка. Случайная выборка не всегда легко. Правильное определение Доступное население это ключ.

В Стратифицированная выборка Население разделено на Стратас И случайные образцы взяты из каждого из них.

Критерий отбора

Предмет отбора относится к практике выборочно выбора данных, сознательно или неосознанно – таким образом, что приводит к выводу, который вводит в заблуждение или эфемеру.

Выбор смещения возникает, когда вы Данные Snooping Имея обширная охота на узоры внутри данных, которые соответствуют вашему использованию.

Поскольку повторный обзор больших наборов данных является ключевым ценностным предложением в науке данных, предвзятость отбора – это то, о чем беспокоиться. Форма предвзятости отбора того, что ученый данных должен иметь дело, называется Огромный поиск эффект Отказ

Если вы неоднократно запускаете разные модели и задайте разные вопросы с большим набором данных, вы обязаны найти что-то интересное. Но это результат, который вы нашли по-настоящему что-то интересное, или это шанс выброса?

Как бороться с этим эффектом? Ответ с использованием Holdout Set а иногда больше, чем One Holdout Set проверять против.

Распределение отбора проб статистики

Термин Распределение отбора проб статистики относится к распределению некоторого образца статистики по многим образцам, нарисованным из той же популяции.

Большая часть классической статистики связана с созданием выводов от Маленький Образцы к Очень большой численность населения.

Как правило, образец обращается с целью чего-либо измерения (с образцом статистики) или моделирование чего-либо (с моделей статистической или машинной обучения). Поскольку наша оценка или модель основаны на образец , это может быть в ошибке, это может быть разным, если бы мы нарисовали Различный образец . Поэтому мы заинтересованы в том, насколько это отличается, ключевой проблемой является Изменность отбора проб Отказ

Примечание : Важно различать распределение отдельных точек данных, известных как распределение данных, а также распределение статистики образца, известное как распределение выборки.

Распределение Образец статистики Такие, как среднее значение, вероятно, будет более регулярным и в форме колокола, чем распределение самих данных. Чем больше образца статистика основана, тем больше это верно. Также, Чем больше образец, более узкий распределение статистики образца.

Из открытого набора данных- Качество вина , Мы принимаем три образца из этих данных: образец 1000 значений, образец из 1000 средств из 5 значений, а также образец 1000 средств 20 значений.

# Taking a Sample Data
sample_data = pd.DataFrame({
'total sulfur dioxide': data['total sulfur dioxide'].sample(1000), 'type': 'Data',
})

# Taking a mean of statistic for 5 samples

sample_mean_05 = pd.DataFrame({
    'total sulfur dioxide' : [data['total sulfur dioxide'].sample(5).mean() for _ in range(1000)],
    'type': 'Mean of 5'
})

# Taking mean of statistic for 20 samples

sample_mean_20 = pd.DataFrame({
    'total sulfur dioxide' : [data['total sulfur dioxide'].sample(20).mean() for _ in range(1000)],
    'type': 'Mean of 20'
})

results = pd.concat([sample_data, sample_mean_05, sample_mean_20])

g = sns.FacetGrid(results, col='type', col_wrap=1, height=2, aspect=2) 
g.map(plt.hist, 'total sulfur dioxide', range=[0, 100], bins=40)
g.set_axis_labels('fixed acidity', 'Count') 
g.set_titles('{col_name}')

Приведенный выше код создает FacetGrid, состоящий из трех гистограмм, первое из которых является распределение данных, а второе и третьему распределению отбора проб.

Феномен, который мы только что описали, называется Центральная предельная теорема Отказ Он говорит, что средства, нарисованные из нескольких образцов, будут напоминать знакомую в форме колоколльной обычной кривой.

Центральная предельная теорема позволяет формулы нормальной аппроксимации, такие как T-распределение, которое будет использоваться при расчете распределения выборки для вывода, то есть доверительных интервалов и испытаний гипотеза.

Стандартная ошибка

Стандартная ошибка представляет собой одну метрику, которая суммирует изменчивость в распределении выборки для статистики. Стандартная ошибка может быть оценена с использованием статистики на основе стандартного отклонения S значений образца и размер выборки n Отказ

В качестве размера выборки увеличивается, стандартная ошибка уменьшается, что соответствует тому, что наблюдалось на вышеуказанном рисунке.

Подход к измерению стандартной ошибки:

Образец из доступного распределения населения
Для каждого образца рассчитайте статистику (например, Среднее Несомненно
Рассчитайте стандартное отклонение статистики от шага 2. Используя это как оценка стандартной ошибки.

На практике этот подход сбора новых образцов для оценки стандартной ошибки обычно не выполнимо. К счастью, оказывается, что не нужно рисовать новые образцы; Вместо этого вы можете использовать Bootstrap повторяется Отказ

В современной статистике Bootstrap Стал стандартным способом оценить стандартную ошибку.

Таким образом, это завершает часть – I, где я разговаривал на дихотомию данных образца/населения, различные типы смещений в образцах (образец смещения), способы смягчения смещения в наших данных, центральную предельную теорему и стандартную ошибку.

Плавник

Статистика (5 частей серии)

Оригинал: “https://dev.to/kushalvala/data-and-sampling-distributions-i-5g0k”