Автор оригинала: FreeCodeCapm Team.
Алекс Олтеану
Ученый данные расследут
Стоит ли смотреть фильм? Ну, есть много факторов, таких как директор, актеры и бюджет фильма. Большинство из нас основывают наше решение от обзора, короткого трейлера или просто путем проверки рейтинга фильма.
Есть несколько веских причин, по которым вы хотели бы избежать чтения отзывов, или смотреть трейлер, хотя они приносят гораздо больше информации, чем рейтинг.
Во-первых, вы можете полностью избежать спойлеров, независимо от того, насколько мало. Я это понимаю!
Во-вторых, может быть, вы хотите, чтобы не был неоследовательный опыт просмотра этого фильма. Обычно это относится только к отзывам, которые посыпаются кадрами, как «Это фильм о сложности вселенной» или «Этот фильм действительно не о любви». Как только эти кадры кодируются в вашей краткосрочной памяти, очень трудно остановить их от вмешательства в свой собственный опыт фильма.
Еще одна веская причина в том, что если вы устали или поспешили, вы можете не захотеть прочитать обзор, не говоря уже о просмотре 2-минутного прицепа.
Таким образом, числовой рейтинг фильма, похоже, является хорошим решением в довольно нескольких ситуациях, для довольно нескольких человек.
Эта статья направлена на рекомендацию Один веб-сайт Чтобы быстро получить точный рейтинг фильма и предлагает надежную, приводимувую к ней аргументацию данных.
Критерии для «лучшего»
Сделать такую рекомендацию, как понравилось, что «это лучшее место для поиска рейтинга фильма», который является оценочным утверждением, отдыхая на некоторых критериях, используемых для определения того, что лучше, что хуже или худшее, а что лучше всего , в таком случае. Для моей рекомендации я буду использовать один один критерий: нормальное распределение.
Лучшее место для поиска рейтинга фильма – увидеть, чьи рейтинги распределены в шаблон который напоминает больше всего или идентичен, шаблон нормального распределения, который является это: придается набор значений, лежащих в определенном интервале, большинство из них в середине его, а также немногие другие на этих временных интервалах Отказ Вообще, вот как обычно выглядит нормальное (также называемое гауссово) распределение:
Что за обоснование этого критерия? Ну из моего собственного опыта, состоящего из нескольких сотен фильмов, я могу сказать, что я видел:
- несколько выдающихся, которые я смотрел несколько раз
- Пара, которые были действительно ужасающими, и заставили меня сожалеть о том, что время, потраченное на него
- И целая куча средних, для большинства из которых я даже не могу больше вспомнить сюжет.
Я верю, что Большинство Люди – будь то критики, кинофильи или просто регулярные кабинеты – имели аналогичный опыт.
Если рейтинги фильма действительно высказывают качество фильма, то мы должны увидеть тот же рисунок для обоих.
Учитывая, что большинство из нас оценивают основную часть фильмов в качестве среднего качества, мы должны увидеть тот же рисунок, когда мы анализируем рейтинги фильма. Подобная логика применяется для плохих и хороших фильмов.
Если вы еще не убедили, что между узорами должна быть такая переписка, подумайте о распределении рейтингов для одного фильма. Как многие люди оценивают фильм, это не прыжка веры, чтобы предположить, что чаще всего будет много из них с аналогичными предпочтениями. Они, как правило, соглашаются, что фильм – это либо плохой, средний или хороший (я буду оценить позже эти качественные значения). Также будет несколько других, кто оценивает фильм одним из двух двух качественных ценностей.
Если мы визуализируем распределение всех рейтингов для индивидуального фильма, мы, скорее всего, увидим, что один разные формы кластера в одной из областей, соответствующих низкому, среднему среднему или высотому рейтингу.
Предоставляемые большинство фильмов считаются среднем, кластер вокруг средней площади имеет наибольшую вероятность возникновения, а два других кластера имеют меньшую (но все еще значительную) вероятность. (Обратите внимание, что все эти вероятности могут быть определены в принципе, но это потребует много данных, и будет иметь возможность превратить эту статью в книгу.)
Наименее вероятно, будет равномерным распространением, в котором нет кластеров, и предпочтения людей почти одинаково разделены на три качественные значения.
Учитывая эти вероятности, распределение рейтингов для достаточно большого выборочного образца фильмов должно быть одним из тупых кластеров в средней области, граничив с помощью баров снижения высоты (частоты), напоминающей, таким образом, нормальное распределение.
Если вы нашли все это трудно понять, рассмотрите эту иллюстрацию:
IMDB, гнилые помидоры, Фаннданго или метацерит?
Теперь, когда у нас есть критерий для работы, давайте погрузимся в данные.
Существует много сайтов, которые придумали свои собственные рейтинги фильма. Я выбрал только четыре, в основном основываясь на их популярности, чтобы я мог получить рейтинги для фильмов с приемлемым количеством голосов. Счастливые победители IMDB , Фаннданго , Гнилые помидоры и Metacritic Отказ
За последние два я сосредоточился только на своих знаковых типах рейтинга – а именно Томатометр и Метаскоре – в основном потому, что они более видимы для пользователя на каждой из веб-сайтов (что означает, что он быстрее их найти). Они также разделяются на двух других веб-сайтах (метаспион передается на IMDB и томатометр на Fandango). Помимо этих знаковых рейтингов, оба веб-сайта также имеют менее распространенный тип рейтинга, где только пользователи получают вклад.
Я собирал рейтинги для некоторых из самых проголосовых и рассмотренных фильмов в 2016 и 2017 годах. Очищенный набор данных имеет рейтинги для 214 фильмов и можно скачать из Этот Github Repo Отказ
Я не собирал рейтинги для фильмов, выпущенных до 2016 года, просто потому, что небольшое изменение произошло в системе рейтинга Fandango вскоре после Анализ Уолта Хикки , который я буду ссылаться на позже в этой статье.
Я знаю, что работа с небольшим образцом является рискованным, но, по крайней мере, это компенсируется, получая самые последние снимки распределений рейтингов.
Перед построением и интерпретацией распределений позвольте мне определить качественные значения, которые я использовал ранее: на масштабе от 0 до 10, A плохой Фильм где-то от 0 до 3, средний один от 3 до 7 и а Хорошо один от 7 до 10.
Пожалуйста, обратите внимание на различие между качеством и количеством количества. Чтобы сохранить это заметным в дальнейшем, я буду ссылаться на рейтинги (количество) как низкое, среднее или высокое. Как и прежде, качество фильма выражено как плохое, среднее или хорошее. Если вы беспокоитесь о «среднем» сроком, не одинаковом, потому что я позабочусь избегать любой двусмысленности.
Теперь давайте посмотрим на распределение:
На простом взгляде можно заметить, что метаспион Гистограмма (Это то, что называется этот вид графа), наиболее близко напоминает нормальное распределение. Он имеет толстый кластер в средней области, состоящую из баров нерегулярных высот, что делает верх ни тупой, ни острым.
Тем не менее, они более многочисленны и выше, чем бары в каждой из двух других областей, которые снижаются высотой к крайностям, более или менее постепенно. Все это четко указывает на то, что большинство метасовм имеют среднее значение, которое в значительной степени, что мы ищем.
В случае IMDB основная часть распределения также имеет в средней области, но есть очевидный перекос на высочайшие средние значения. Область высоких рейтингов выглядит похоже на то, что, как можно было бы увидеть для нормального распределения В этой части гистограммы. Однако поразительная особенность заключается в том, что площадь, представляющая низкие рейтинги фильма, полностью пуста, что повышает большой знак вопроса.
Изначально я положил вину на небольшой образец, думая, что больше будет делать больше справедливости в IMDB. К счастью, я смог найти Готовый набор данных на Kaggle Содержащие рейтинги IMDB для 4917 различных фильмов. К моему серьезному удивлению распределение выглядело так:
Форма распределения выглядит почти так же, как и для образца с 214 фильмами, за исключением территории низких рейтингов, что в этом случае слабо заселена 46 фильмами (из 4917). Основная часть ценностей все еще в средней области, которая делает рейтинг IMDB, который стоит учитывать дальше для рекомендации, хотя явно трудно соперничать с метазонным, с этим перекосом.
Во всяком случае, что действительно здорово в этом результате, заключается в том, что он может быть использован в качестве сильного аргумента для поддержки тезиса о том, что образца 214-кино является довольно представительным для всего населения. Другими словами, теперь существует большая уверенность в том, что результаты этого анализа будут одинаковыми – или, по крайней мере, аналогичным – к результатам, достигнутым, если были проанализированы абсолютно все рейтинги фильма со всех четырех веб-сайтов.
С этим повышенной уверенностью давайте перейдем к изучению распределения рейтингов Фаннданго, что, кажется, не сильно изменилось, так как анализ Хикки. Перекос по-прежнему заметно к более высокой части спектра рейтинга фильма, где проживают большинство рейтингов. Район для нижней половины средних рейтингов полностью пуста, как и один для низких рейтингов. Может быть легко сделать вывод, что распределение довольно далеко от уборки моего критерия. Следовательно, я не буду учитывать это дальше для возможной рекомендации.
(Я обещаю, что мучения прокрутки в ближайшее время закончится. Гораздо легче сравнить дистрибутивы Если они размещены рядом с другой, а не разбросаны по всей статье.)
Наконец, распределение томатометра неожиданно равномерно, и будет выглядеть даже более плотным в различной стратегии биннинга (стратегия биндинга определяется общее количество баров и их диапазонов; вы можете играть с этими двумя параметрами, когда вы генерируете гистограмму) Отказ
Это распределение не легко интерпретировать в контексте, потому что томатометр это не классический рейтинг, а скорее представляет процент критиков, которые дали положительный обзор фильма. Это делает его непригодным для качественных качественных качественных качественных, потому что это делает фильмы хорошо, либо плохо. Во всяком случае, я думаю, что он до сих пор до сих пор до сих пор сводится к тому же нормальному распределению, причем большинство фильмов, имеющих умеренную разницу между количеством положительных обзоров и негативными (оказывающие многие рейтинги 30% – 70% положительных отзывов), а также Несколько фильмов, имеющих значительно большую разницу, так или иначе.
Учитывая последнее рассмотрение и форму распределения, томатометр не соответствует моему критерию. Это мог бы Будьте тем, что более крупный образец сделает это больше справедливости, но даже так, если бы я должен был порекомендовать, я бы сделал это с некоторыми резервами из-за расплывной позитивной или отрицательной рейтинговой системы.
На данный момент анализа я мог бы сказать, что, глядя на распределения, моя рекомендация – это метазобель.
Тем не менее, распределение IMDB, по-видимому, также стоит рассмотрение, особенно если вы немного настроить рейтинговые интервалы для трех качественных категорий (интервалы, которые я определил себя, более или менее произвольно). С этой точки зрения, рекомендую метазобель, в основном, визуальное обследование явно недостаточно.
Итак, я постараюсь разделить между этими двумя двумя, используя количественный метод.
Идея состоит в том, чтобы использовать переменную Fandango в качестве отрицательной ссылки, а затем определить, какую переменную, из рейтинга IMDB и метазоли, наименее связана с ним (я вызываю эти переменные, потому что они могут принимать разные значения – например, метазоли является переменным, потому что она принимает разные значения, в зависимости от фильма).
Я просто вычислю некоторых коэффициентов корреляции, и переменная с наименьшим значением будет моей рекомендацией (я объясню, как эти корреляционные коэффициенты работают). Но до этого позвольте мне кратко оправдать выбор переменной Fandango в качестве негативной ссылки.
Пользователи Фаннданго любят фильмы слишком много
Одна из причин этого выбора состоит в том, что распределение рейтингов фильмов Фаннданго является самого дальнего из того, что из нормального, имеющего этот очевидный перекос на более высокую часть спектра рейтингов фильма.
Другая причина – облако подозрений вокруг Фаннданго, оставленного Анализ Уолта Хикки Отказ В октябре 2015 года он также был озадачен подобным распределением, и обнаружил, что на сайте Фаннданго числовые рейтинги всегда были округлены до следующей высокой половины звезды, а не до ближайшего (например, рейтинг 4,1 среднего для фильма были округлены до 4,5 звезд вместо 4.0).
Команда Fandango исправила смещенную рейтинговую систему и сообщила Hikkey, что логика рейтинга была скорее «Glitch программного обеспечения» на своем веб-сайте, указывая на беспристрастную систему в своем мобильном приложении. (Подробнее об этом на Статья Hikkey .) Регулировка изменила некоторые статистические параметры для лучшего, но недостаточно, чтобы убедить меня не работать с переменной Fandango в качестве негативной ссылки.
Вот как выглядит изменение:
Теперь, давайте увеличить на Fandango:
Между метазольным и рейтингом IMDB, который наименее коррелирует с рейтингом Fandango?
Наименее связано с рейтингом Fandango – это метазобель. У этого есть Pearson’s R Значение 0,38 по отношению к fandango, а рейтинг IMDB имеет значение 0,63.
Теперь позвольте мне объяснить все это.
В качестве двух переменных изменяется, принимая разные значения, они коррелируют, если есть шаблон, соответствующий обоим изменениям. Измерение корреляция Просто означает измерение степени, в которой есть такой рисунок.
Один из способов выполнения этой меры – вычислить R Pearson’s R. Если значение составляет +1,0, это означает, что есть идеальная положительная корреляция, а если она –1.0, это означает, что есть идеальная отрицательная корреляция.
Степень, к которому переменные коррелируют уменьшение, по мере приближения Repeates Regins 0, как от отрицательной, так и положительной стороны.
Давайте лучше визуализировать это:
Теперь, чтобы поставить абстракцию выше в контекст, если сравнивать значения для двух типов рейтинга – скажем, Fandango и IMDB – мы можем определить степень, в которой есть шаблон, соответствующий обоим изменениям.
Учитывая коэффициенты корреляции, только что упомянутые, существует рисунок между Fandango и IMDB в большей степени, чем для fandango и метазоли. Оба коэффициента являются положительными, и, как таковой корреляции, как говорят, является положительным, что означает, что по мере того, как рейтинги Fandango поднимаются, оценки IMDB, как правило, поднимаются, больше, чем метаки.
Положите по-разному, для любого данного рейтинга фильма на Fandango, более вероятно, что метаспион будет более разным от него, чем рейтинг IMDB.
Вердикт: используйте метализмы Metacritic
В целом, я рекомендую проверять метазонный, когда вы ищете рейтинг фильма. Вот как это работает, и его нисходящие.
В двух словах, метастассор – это средневзвешенное среднее количество отзывов, исходящих из известных критиков. Метакритная команда читает обзоры и присваивает каждый счет 0-100, который затем учитывает вес, в основном на основе качества и источника обзора. Вы можете найти больше о своей рейтинговой системе здесь Отказ
Теперь я просто хочу указать несколько пониженных положений метастанда:
- Коэффициенты весового веса являются конфиденциальными, поэтому вы не увидите степень, в которой каждый обзор считается в метазолле.
- У вас будет грубое время нахождение метаскорем для менее известных фильмов, которые появились до 1999 года, был создан Metacrited год.
- Некоторые последние фильмы, основной язык которых не английский, даже не перечислены на метаcritic. Например, румынские фильмы Две билеты в лотерею (2016) и Восточный бизнес (2016) не перечислены на метаcritic, пока они на IMDB, с рейтингами.
Еще несколько слов
Подводя итог, в этой статье я сделал единую рекомендацию о том, где искать рейтинг фильма. Я рекомендовал метаскоре, основываясь на двух аргументах: его распределение напоминает наиболее нормальный, и он наименее коррелирует с рейтингом Fandango.
Все количественные и визуальные элементы изделия воспроизводимы в Python, как показано здесь Отказ
Спасибо за прочтение! И счастливого кино идущего!