Важность визуализации данных - квартета AnsCombe

Четыре набора данных, которые одурачивают линейную модель регрессии, если они построены.

Квартет AnsCombe Может быть определен как группа из четырех наборов данных, которые являются почти идентично в простой описательной статистике , но в наборе данных есть некоторые особенности, которые дураки регрессионная модель если построен. У них очень разные распределения и появляются иначе Когда построены на рассеивающие участки.

Это было построено в 1973 году статистикой Фрэнсис Анскомб Чтобы проиллюстрировать важность построение графов Перед анализом и моделей здания и влияние других Наблюдения от статистических свойств . Есть эти четыре участки набора данных, которые имеют почти те же статистические наблюдения , который обеспечивает же статистическую информацию, которая включает дисперсия и Среднее Из всех X, Y очков во всех четырех наборах наборах.

Это рассказывает нам о важности визуализации данных перед применением различных алгоритмов там для создания моделей из них, которые предполагают, что функции данных должны быть нанесены на границу, чтобы увидеть распределение образцов, которые могут помочь вам идентифицировать различные аномалии, присутствующие в данные, такие как выбросы, разнообразие данных, линейная отделимость данных и т. Д. Кроме того, линейная регрессия может быть считаться только подходящей для Данные с линейными отношениями и не способен обращаться с любыми другими видами наборов данных. Эти четыре участки могут быть определены следующим образом:

Статистическая информация для всех этих четырех наборов данных примерно аналогична и может быть вычислена следующим образом:

Когда эти модели нанесены на графике разброса, все наборы данных генерируют другой вид сюжета, который не интерпретируется любым алгоритмом регрессии, который одурачен этими особенностями и видно следующим образом:

Четыре наборов данных могут быть описаны как:

Dataset 1: Это подходит Модель линейной регрессии довольно хорошо.
Dataset 2: Это не могло соответствовать Модель линейной регрессии на данные достаточно хорошо, как данные нелинейны.
Dataset 3: показывает Выбросы участвует в наборе данных, который не может быть обработан по линейной регрессии
Dataset 4: показывает Выбросы участвует в наборе данных, который не может быть обработан по линейной регрессии

Вывод:

Мы описали четыре набора данных, которые были намеренно созданы для описания важности визуализации данных и того, как любой алгоритм регрессии может быть одурачен тем же. Следовательно, все важные функции в наборе данных должны быть визуализированы перед реализацией любого алгоритма машинного обучения на них, которые помогут сделать хорошую пригодную модель.

Спасибо за чтение. Вы можете найти мою другую Машинное обучение Похожие сообщения здесь Отказ

Я надеюсь, что этот пост был полезным. Я ценю обратную связь и конструктивную критику. Если вы хотите поговорить об этой статье или другим связанным темам, вы можете бросить мне текст здесь или в LinkedIn Отказ

Предположения в линейной регрессии вы можете не знать.

Спарш Гупта · Июл 16 · 5 мин

Самые распространенные функции потери в машинном обучении

Спарш Гупта · Июль 9 · 5 мин читать

Оригинал: “https://dev.to/imsparsh/importance-of-data-visualization-anscombe-s-quartet-way-5693”