Рубрики
Без рубрики

Распределение Пуассона – формула для расчета распределения вероятностей

Автор оригинала: Pier Paolo Ippolito.

Распределение вероятностей играет важную роль в нашей повседневной жизни. Мы обычно используем их при попытке суммировать и получать представления от различных форм данных.

Из-за этого они довольно важная тема в таких областях, как математика, информатика, статистика и наука о данных.

Есть два основных типа данных: Численное (Например, целые числа и плавать), а Категорично (Например, строки текста).

Численные данные также могут быть в одной из двух форм:

  • Дискретный: Эта форма данных может просто сделать ограниченное количество значений (например, количество одежды, которое у нас есть). Мы можем выводить вероятность массы функций из дискретных данных.
  • Непрерывно: С другой стороны, непрерывные данные используются для описания более абстрактных концепций, таких как вес/расстояние, которое может принимать любую дробную или реальную ценность. От непрерывных данных мы можем вывести функции плотности вероятности.

Вероятность массы функций могут дать нам вероятность того, что переменная равна определенному значению. С другой стороны, значения функций плотности вероятности не представляют вероятностей самостоятельно, но вместо этого сначала необходимо интегрировать (в пределах рассматриваемого диапазона).

Что такое распределение Пуассона?

Распределения Пуассона обычно используются в течение двух основных целей:

  • Прогнозируя, сколько раз событие состоится в выбранном периоде времени. Эта техника может использоваться для различных приложений анализа риска, таких как оценка цен на страхование дома.
  • Оценка вероятности того, что событие может возникнуть, учитывая, как часто это произошло в прошлом (например, насколько вероятно, что в ближайшие два месяца будет вырезан питание).

Распределения Пуассона будем уверены в среднем времени между возникновением разных событий. Однако они не могут сказать нам точный момент, которое может произойти событие (поскольку процессы обычно имеют стохастическое поведение).

Линейные против нелинейных систем

Натуральные системы могут быть разделены на две основные категории: линейный и нелинейный (стохастический) Отказ

В линейных системах причинами всегда предшествует их эффекту, который создает сильный эффект приоритета времени.

Но это не вместо этого не содержит, если говорить о нелинейных системах, так как небольшие изменения в начальных условиях системы могут привести к непредсказуемым результатам.

Учитывая, насколько сложным и хаотичным нашим реальным миром является, большинство процессов лучше описаны с использованием нелинейных систем, хотя иногда возможны линейные приближения.

Дистрибутивы Poisson могут быть смоделированы с использованием выражения на рисунке ниже, где λ используется для представляют ожидаемое количество событий, которые могут проходить в рассматриваемом времени.

Основные характеристики, которые описывают процессы Пуассона:

  1. Два события не могут проходить одновременно.
  2. Средняя скорость между событием происшествия является общей константой.
  3. События независимы друг от друга (если кто-то происходит, это не имеет никакого влияния на вероятность того, что может произойти другое событие).
  4. События могут проходить любое количество раз (в рамках рассматриваемого времени).

Пример распределения Пуассона

На рисунке ниже вы можете увидеть, насколько изменено ожидаемое количество событий (λ), которое может происходить в период, может изменить распределение Пуассона. Изображение ниже было смоделировано, используя этот код Python:

import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# n = number of events, lambd = expected number of events 
# which can take place in a period
for lambd in range(2, 12, 2):
    n = np.arange(0, 9)
    poisson = stats.poisson.pmf(n, lambd)
    plt.plot(n, poisson, '-o', label="λ = {:f}".format(lambd))
    plt.xlabel('Number of Events', fontsize=12)
    plt.ylabel('Probability', fontsize=12)
    plt.title("Poisson Distribution varying λ")
    plt.legend()
    plt.savefig('name.png')

Приближая посмотрите на это симуляцию, мы можем обнаружить следующие шаблоны:

  • В каждом из разных случаев число, присвоенное λ, соответствует пику распределения, которое затем отстает от движения дальше от пика.
  • Чем больше событий, которые ожидаются во время моделирования, тем больше ожидаемая область под кривой распределения будет.

Этот тип моделирования может, например, быть использован для попытки уменьшить время очередя, когда ходить по магазинам в супермаркет.

Владелец может создать запись о том, сколько клиентов посещает магазин в разное время и в разные дни недели, чтобы затем соответствовать этим данным в распределение Пуассона.

Таким образом, было бы намного проще определить, сколько кассиров должно работать в разное время дня/недели, чтобы улучшить опыт клиента.

Обертывание

Если вы заинтересованы в обучении больше о приложениях распределений в стохастических настройках, дополнительная информация доступна здесь Отказ

Я надеюсь, что вам понравилось эту статью, спасибо за чтение!

Свяжитесь со мной

Если вы хотите продолжать обновлять своими последними статьями и проектами Следуй за мной на среднем и подписаться на мой Список рассылки Отказ Это некоторые из моих контактов: