объясните простыми словами что такое ловушка байеса

Простое объяснение теоремы Байеса

Подробно теорема Байеса излагается в отдельной статье. Это замечательная работа, но в ней 15 000 слов. В этом же переводе статьи от Kalid Azad кратко объясняется самая суть теоремы.

Разберемся в методе

В статье, на которую дана ссылка в начале этого эссе, разбирается метод диагностики (маммограмма), выявляющий рак груди. Рассмотрим этот метод подробно.

Болеют (1%)Не болеют (99%)Положительный результат метода80%9,6%Отрицательный результат метода20%90,4%

Как работать с этим данными?

Насколько метод точен?

Теперь разберем положительный результат теста. Какова вероятность того, что человек действительно болен: 80%, 90%, 1%?

вероятность события = исходы события / все возможные исходы

То есть положительный результат маммограммы значит только то, что вероятность наличия заболевания – 7,8%, а не 80% (последняя величина — это лишь предполагаемая точность метода). Такой результат кажется поначалу непонятным и странным, но нужно учесть: метод дает ложноположительный результат в 9,6% случаев (а это довольно много), поэтому в выборке будет много ложноположительных результатов. Для редкого заболевания большинство положительных результатов будут ложноположительными.

Давайте пробежимся глазами по таблице и попробуем интуитивно ухватить смысл теоремы. Если у нас есть 100 человек, только у одного из них есть заболевание (1%). У этого человека с 80% вероятностью метод даст положительный результат. Из оставшихся 99% у 10% будут положительные результаты, что дает нам, грубо говоря, 10 ложноположительных исходов из 100. Если мы рассмотрим все положительные результаты, то только 1 из 11 будет верным. Таким образом, если получен положительный результат, вероятность заболевания составляет 1/11.

Выше мы посчитали, что эта вероятность равна 7,8%, т.е. число на самом деле ближе к 1/13, однако здесь с помощью простого рассуждения нам удалось найти приблизительную оценку без калькулятора.

Теорема Байеса

Теперь опишем ход наших мыслей формулой, которая и называется теоремой Байеса. Эта теорема позволяет исправить результаты исследования в соответствии с искажением, которое вносят ложноположительные результаты:

объясните простыми словами что такое ловушка байеса. Смотреть фото объясните простыми словами что такое ловушка байеса. Смотреть картинку объясните простыми словами что такое ловушка байеса. Картинка про объясните простыми словами что такое ловушка байеса. Фото объясните простыми словами что такое ловушка байеса

объясните простыми словами что такое ловушка байеса. Смотреть фото объясните простыми словами что такое ловушка байеса. Смотреть картинку объясните простыми словами что такое ловушка байеса. Картинка про объясните простыми словами что такое ловушка байеса. Фото объясните простыми словами что такое ловушка байеса

Pr(X) – это константа нормализации. Она сослужила нам хорошую службу: без нее положительный исход испытаний дал бы нам 80% вероятность события.
Pr(X) – это вероятность любого положительного результата, будет ли это настоящий положительный результат при исследовании больных (1%) или ложноположительный при исследовании здоровых людей (99%).

В нашем примере Pr(X) – довольно большое число, потому что велика вероятность ложноположительных результатов.

Pr(X) создает результат 7,8%, который на первый взгляд кажется противоречащим здравому смыслу.

Смысл теоремы

Мы проводим испытания, чтоб выяснить истинное положение вещей. Если наши испытания совершенны и точны, тогда вероятности испытаний и вероятности событий совпадут. Все положительные результаты будут действительно положительными, а отрицательные — отрицательными. Но мы живем в реальном мире. И в нашем мире испытания дают неверные результаты. Теорема Байеса учитывает искаженные результаты, исправляет ошибки, воссоздает генеральную совокупность и находит вероятность истинного положительного результата.

Спам-фильтр

Теорема Байеса удачно применяется в спам-фильтрах.

объясните простыми словами что такое ловушка байеса. Смотреть фото объясните простыми словами что такое ловушка байеса. Смотреть картинку объясните простыми словами что такое ловушка байеса. Картинка про объясните простыми словами что такое ловушка байеса. Фото объясните простыми словами что такое ловушка байеса

Фильтр берет в расчет результаты испытаний (содержание в письме определенных слов) и предсказывает, содержит ли письмо спам. Всем понятно, что, например, слово «виагра» чаще встречается в спаме, чем в обычных письмах.

Фильтр спама на основе черного списка обладает недостатками — он часто выдает ложноположительные результаты.

Спам-фильтр на основе теоремы Байеса использует взвешенный и разумный подход: он работает с вероятностями. Когда мы анализируем слова в письме, мы можем рассчитать вероятность того, что письмо — это спам, а не принимать решения по типу «да/нет». Если вероятность того, что письмо содержит спам, равна 99%, то письмо и вправду является таковым.

Со временем фильтр тренируется на все большей выборке и обновляет вероятности. Так, продвинутые фильтры, созданные на основе теоремы Байеса, проверяют множество слов подряд и используют их в качестве данных.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *