Правило Байеса простыми словами¶

Коротко

Правило Байеса — это способ обновлять свою уверенность, когда приходят новые данные: вы начинаете с того, во что верили раньше, и аккуратно поправляете это свежим фактом. Главная идея в том, что новый сигнал нужно взвешивать с учётом того, насколько событие вообще редкое. Именно поэтому даже очень точный тест на редкую болезнь может давать на удивление много ложных срабатываний. Если научиться держать в голове базовую ставку, вы перестанете попадаться на этой ловушке — и заодно поймёте, как мыслят спам-фильтры и антифрод-системы.

В прошлом уроке мы говорили, что ИИ почти всегда действует в условиях неопределённости и оперирует не «да/нет», а шансами. Теперь разберём главный инструмент, который позволяет эти шансы пересчитывать по мере поступления данных. Звучит академично, но на деле это очень житейская вещь.

Интуиция: вы и так думаете по Байесу¶

Представьте: вы выглянули в окно и увидели мокрый асфальт. Скорее всего, был дождь — это первое объяснение. Но если вы знаете, что каждое утро под окнами проезжает поливальная машина, ваша уверенность в «дожде» сразу падает. Вы взяли новый факт (мокрый асфальт) и наложили его на то, что знали раньше (про машину). Это и есть байесовское мышление.

Суть правила Байеса в одной фразе: новые данные не заменяют прежние знания, а уточняют их. Вы не выбрасываете всё, что знали, при каждом новом сигнале — вы сдвигаете оценку в нужную сторону, и насколько сильно сдвигать, зависит от двух вещей: насколько сигнал убедителен и насколько событие правдоподобно само по себе.

Алиса работает похоже. Когда вы говорите «поставь будильник на семь», она не уверена на сто процентов, что расслышала именно «семь», а не «семьдесят» или «восемь». Она держит несколько гипотез с разными шансами и выбирает ту, что лучше всего согласуется и со звуком, и с тем, что люди обычно просят.

Априорная и апостериорная вероятность¶

Введём два аккуратных термина — без них дальше будет неудобно.

Априорная вероятность — это ваша уверенность в чём-то до того, как пришёл новый факт. По-простому: что вы думали раньше, на старте. В примере с асфальтом априорная вероятность дождя — это насколько часто у вас вообще идут дожди по утрам.

Апостериорная вероятность — это обновлённая уверенность после того, как вы учли новый факт. То есть ваш пересмотренный взгляд на ситуацию.

Правило Байеса — это и есть мостик от первого ко второму. Вы берёте априорную оценку, добавляете свежие данные и получаете апостериорную. А дальше, если придёт ещё один факт, сегодняшняя апостериорная оценка станет вашей новой априорной — и цикл повторится. Так знание накапливается шаг за шагом.

Важно

Слова «априорная» и «апостериорная» пугают только на вид. Достаточно запомнить: априорная — «что было до», апостериорная — «что стало после». Всё остальное — просто аккуратный пересчёт между этими двумя точками.

Базовая ставка: почему её опасно забывать¶

А вот теперь — самое практичное понятие урока.

Базовая ставка (base rate) — это насколько событие распространено в принципе, до всякой дополнительной информации. Какая доля людей в популяции болеет редкой болезнью. Какая доля банковских операций оказывается мошеннической. Какая доля писем в почте — спам.

Типичная человеческая ошибка — игнорировать базовую ставку и судить только по «силе» нового сигнала. Психологи называют это ошибкой базовой ставки: мы видим тревожный признак и сразу делаем вывод, забывая спросить, а насколько редким было событие изначально.

Покажем на цифрах, почему это критично. Возьмём антифрод банка. Подавляющее большинство операций по карте — честные: вы платите в магазине, на Wildberries или Ozon, переводите деньги родным. Мошенничество — редкость. Допустим, система видит подозрительный платёж и помечает его как опасный. Даже если её «чутьё» неплохое, среди множества честных операций обязательно найдутся такие, что случайно похожи на мошеннические. Поскольку честных операций в тысячи раз больше, эти случайные совпадения могут численно перевесить настоящие мошенничества. Вот почему антифрод не блокирует карту намертво при первом же сигнале, а чаще присылает запрос на подтверждение: один сигнал при низкой базовой ставке — это ещё не приговор.

Классический сюжет: «точный» тест на редкую болезнь¶

Это самый известный пример байесовской логики, и он отлично ложится на медицинский скрининг. Разберём словами, а потом — на простых числах.

Представьте массовое обследование на редкое заболевание. Тест называют «точным»: он почти всегда правильно находит болезнь у больного и редко ошибается на здоровом. Звучит надёжно. Но болезнь — редкая, и здесь начинается самое интересное.

Здоровых людей в популяции огромное большинство. Даже если тест ошибается на здоровых очень редко, этих здоровых так много, что небольшая доля ошибок в абсолютных числах даёт заметную кучу ложноположительных результатов — это когда тест говорит «болен», а человек на самом деле здоров. И вот эта куча ложных тревог может оказаться больше, чем число действительно больных. Получается парадокс: тест точный, но если он сказал вам «положительно», реальная вероятность болезни может быть совсем не такой пугающей, как кажется.

Ключ к разгадке — та самая базовая ставка. Положительный результат нужно взвешивать не в вакууме, а на фоне того, как редка болезнь. Именно это и делает правило Байеса.

Упражнение: насколько вероятна болезнь при положительном тесте?

Давайте посчитаем — но без формул, на «натуральных частотах». Это самый честный способ всё увидеть. Возьмём 1000 человек и зададим простые, круглые условия.

Условия:

Болезнь редкая: ею болеет 1 человек из 1000 (базовая ставка — 0,1%).
Тест находит болезнь у больного почти всегда — будем считать, что у нашего единственного больного тест сработает положительно.
У здоровых тест ошибается в 5% случаев (даёт ложное «положительно»).

Шаг 1. Сколько вообще больных. Из 1000 человек болен 1. Остальные 999 — здоровы.

Шаг 2. Сколько положительных тестов у больных. Наш 1 больной получает положительный тест. Итого: 1 «верное» срабатывание.

Шаг 3. Сколько положительных тестов у здоровых. Из 999 здоровых тест ошибётся у 5%. Это примерно 50 человек. Итого: около 50 ложноположительных.

Шаг 4. Собираем всех, у кого тест положительный. Всего положительных результатов: 1 + 50 = 51 человек. Но реально болен из них только 1.

Ответ. Вероятность, что человек с положительным тестом действительно болен, — примерно 1 из 51, то есть около 2%. Не 95%, как многие интуитивно решают, глядя на «точность» теста. Болезнь стала вероятнее, чем была до теста (было 0,1%, стало ~2% — рост в двадцать раз), но всё ещё далека от уверенности. Поэтому после такого скрининга врач назначает уточняющее обследование, а не ставит диагноз сразу. Вот так базовая ставка переворачивает наивный вывод.

Где это встречается в ИИ и сервисах вокруг нас¶

Байесовская логика — не музейный экспонат, она работает прямо сейчас:

Антифрод банков и платёжных сервисов. Редкое мошенничество среди массы честных операций — ровно та же структура, что и редкая болезнь. Система обновляет оценку риска по каждому новому признаку платежа.
Голосовые помощники. Алиса взвешивает, что вы сказали, с учётом того, какие запросы вообще типичны.
Рекомендации и поиск. Сервисы вроде Кинопоиска, VK или Яндекс.Музыки пересматривают догадку о ваших вкусах после каждого вашего действия — это тоже обновление уверенности по новым данным.
Медицинские скрининги. Любой массовый тест на редкое состояние обязан учитывать базовую ставку, иначе ложные тревоги захлестнут результат.

Общий принцип везде один: начни с того, что знаешь о частоте события, и аккуратно поправляй это каждым новым сигналом.

Пример: как это бережёт ваши нервы

Вам приходит SMS: «По вашей карте подозрительная операция». Тревожно. Но вспомните базовую ставку: честных операций в тысячи раз больше, чем мошеннических, поэтому один автоматический сигнал — это ещё не доказательство взлома. Разумная реакция — не паниковать, а проверить факт по официальному каналу банка (приложение, Госуслуги, телефон с обратной стороны карты). Байесовское мышление здесь буквально работает как защита от поспешных выводов — и, кстати, от телефонных мошенников, которые на этой панике и играют.

Мостик к следующему уроку¶

Если правило Байеса умеет обновлять уверенность по одному факту, то что будет, если фактов много сразу? Например, в письме не одно подозрительное слово, а десяток. Как сложить все эти улики вместе? Ровно на этом построен наивный байесовский классификатор — основа классических спам-фильтров. О нём — в следующем уроке, где мы из интуиции соберём рабочий механизм.

Проверьте себя¶

Короткий тест по уроку: выберите ответ и нажмите «Проверить» — увидите счёт и разбор.

Частые вопросы¶

Что такое правило Байеса простыми словами?

Это способ обновлять свою уверенность при появлении новых данных. Вы берёте то, во что верили раньше (априорную оценку), учитываете свежий факт и получаете уточнённую оценку (апостериорную). Главное — не забывать, насколько событие редкое само по себе.

Почему точный тест на редкую болезнь часто ошибается?

Из-за базовой ставки. Здоровых людей очень много, поэтому даже маленькая доля ошибок на здоровых даёт большое число ложных тревог в абсолютных числах. Эта куча ложноположительных может перевесить горстку реально больных, и тогда положительный результат означает болезнь с куда меньшей вероятностью, чем кажется.

Чем отличается априорная вероятность от апостериорной?

Априорная — это уверенность до получения нового факта, ваш взгляд на старте. Апостериорная — обновлённая уверенность после того, как факт учтён. Правило Байеса — это и есть переход от первой ко второй.

Что такое базовая ставка и почему её важно учитывать?

Базовая ставка — это насколько событие распространено в принципе, без дополнительной информации (доля больных, доля мошеннических операций, доля спама). Если её игнорировать и судить только по «силе» сигнала, легко сделать неверный вывод и переоценить редкое событие.

В курсе: ← Назад: Неопределённость и шансы: как ИИ принимает решения · Дальше: Наивный Байес: как работает спам-фильтр →

Авторы курса: Герман Коваленко (основатель ENGRAM) и Сергей Добров.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно