Правило Байеса простыми словами¶
Коротко
Правило Байеса — это способ обновлять свою уверенность, когда приходят новые данные: вы начинаете с того, во что верили раньше, и аккуратно поправляете это свежим фактом. Главная идея в том, что новый сигнал нужно взвешивать с учётом того, насколько событие вообще редкое. Именно поэтому даже очень точный тест на редкую болезнь может давать на удивление много ложных срабатываний. Если научиться держать в голове базовую ставку, вы перестанете попадаться на этой ловушке — и заодно поймёте, как мыслят спам-фильтры и антифрод-системы.
В прошлом уроке мы говорили, что ИИ почти всегда действует в условиях неопределённости и оперирует не «да/нет», а шансами. Теперь разберём главный инструмент, который позволяет эти шансы пересчитывать по мере поступления данных. Звучит академично, но на деле это очень житейская вещь.
Интуиция: вы и так думаете по Байесу¶
Представьте: вы выглянули в окно и увидели мокрый асфальт. Скорее всего, был дождь — это первое объяснение. Но если вы знаете, что каждое утро под окнами проезжает поливальная машина, ваша уверенность в «дожде» сразу падает. Вы взяли новый факт (мокрый асфальт) и наложили его на то, что знали раньше (про машину). Это и есть байесовское мышление.
Суть правила Байеса в одной фразе: новые данные не заменяют прежние знания, а уточняют их. Вы не выбрасываете всё, что знали, при каждом новом сигнале — вы сдвигаете оценку в нужную сторону, и насколько сильно сдвигать, зависит от двух вещей: насколько сигнал убедителен и насколько событие правдоподобно само по себе.
Алиса работает похоже. Когда вы говорите «поставь будильник на семь», она не уверена на сто процентов, что расслышала именно «семь», а не «семьдесят» или «восемь». Она держит несколько гипотез с разными шансами и выбирает ту, что лучше всего согласуется и со звуком, и с тем, что люди обычно просят.
Априорная и апостериорная вероятность¶
Введём два аккуратных термина — без них дальше будет неудобно.
Априорная вероятность — это ваша уверенность в чём-то до того, как пришёл новый факт. По-простому: что вы думали раньше, на старте. В примере с асфальтом априорная вероятность дождя — это насколько часто у вас вообще идут дожди по утрам.
Апостериорная вероятность — это обновлённая уверенность после того, как вы учли новый факт. То есть ваш пересмотренный взгляд на ситуацию.
Правило Байеса — это и есть мостик от первого ко второму. Вы берёте априорную оценку, добавляете свежие данные и получаете апостериорную. А дальше, если придёт ещё один факт, сегодняшняя апостериорная оценка станет вашей новой априорной — и цикл повторится. Так знание накапливается шаг за шагом.
Важно
Слова «априорная» и «апостериорная» пугают только на вид. Достаточно запомнить: априорная — «что было до», апостериорная — «что стало после». Всё остальное — просто аккуратный пересчёт между этими двумя точками.
Базовая ставка: почему её опасно забывать¶
А вот теперь — самое практичное понятие урока.
Базовая ставка (base rate) — это насколько событие распространено в принципе, до всякой дополнительной информации. Какая доля людей в популяции болеет редкой болезнью. Какая доля банковских операций оказывается мошеннической. Какая доля писем в почте — спам.
Типичная человеческая ошибка — игнорировать базовую ставку и судить только по «силе» нового сигнала. Психологи называют это ошибкой базовой ставки: мы видим тревожный признак и сразу делаем вывод, забывая спросить, а насколько редким было событие изначально.
Покажем на цифрах, почему это критично. Возьмём антифрод банка. Подавляющее большинство операций по карте — честные: вы платите в магазине, на Wildberries или Ozon, переводите деньги родным. Мошенничество — редкость. Допустим, система видит подозрительный платёж и помечает его как опасный. Даже если её «чутьё» неплохое, среди множества честных операций обязательно найдутся такие, что случайно похожи на мошеннические. Поскольку честных операций в тысячи раз больше, эти случайные совпадения могут численно перевесить настоящие мошенничества. Вот почему антифрод не блокирует карту намертво при первом же сигнале, а чаще присылает запрос на подтверждение: один сигнал при низкой базовой ставке — это ещё не приговор.
Классический сюжет: «точный» тест на редкую болезнь¶
Это самый известный пример байесовской логики, и он отлично ложится на медицинский скрининг. Разберём словами, а потом — на простых числах.
Представьте массовое обследование на редкое заболевание. Тест называют «точным»: он почти всегда правильно находит болезнь у больного и редко ошибается на здоровом. Звучит надёжно. Но болезнь — редкая, и здесь начинается самое интересное.
Здоровых людей в популяции огромное большинство. Даже если тест ошибается на здоровых очень редко, этих здоровых так много, что небольшая доля ошибок в абсолютных числах даёт заметную кучу ложноположительных результатов — это когда тест говорит «болен», а человек на самом деле здоров. И вот эта куча ложных тревог может оказаться больше, чем число действительно больных. Получается парадокс: тест точный, но если он сказал вам «положительно», реальная вероятность болезни может быть совсем не такой пугающей, как кажется.
Ключ к разгадке — та самая базовая ставка. Положительный результат нужно взвешивать не в вакууме, а на фоне того, как редка болезнь. Именно это и делает правило Байеса.
Упражнение: насколько вероятна болезнь при положительном тесте?
Давайте посчитаем — но без формул, на «натуральных частотах». Это самый честный способ всё увидеть. Возьмём 1000 человек и зададим простые, круглые условия.
Условия:
- Болезнь редкая: ею болеет 1 человек из 1000 (базовая ставка — 0,1%).
- Тест находит болезнь у больного почти всегда — будем считать, что у нашего единственного больного тест сработает положительно.
- У здоровых тест ошибается в 5% случаев (даёт ложное «положительно»).
Шаг 1. Сколько вообще больных. Из 1000 человек болен 1. Остальные 999 — здоровы.
Шаг 2. Сколько положительных тестов у больных. Наш 1 больной получает положительный тест. Итого: 1 «верное» срабатывание.
Шаг 3. Сколько положительных тестов у здоровых. Из 999 здоровых тест ошибётся у 5%. Это примерно 50 человек. Итого: около 50 ложноположительных.
Шаг 4. Собираем всех, у кого тест положительный. Всего положительных результатов: 1 + 50 = 51 человек. Но реально болен из них только 1.
Ответ. Вероятность, что человек с положительным тестом действительно болен, — примерно 1 из 51, то есть около 2%. Не 95%, как многие интуитивно решают, глядя на «точность» теста. Болезнь стала вероятнее, чем была до теста (было 0,1%, стало ~2% — рост в двадцать раз), но всё ещё далека от уверенности. Поэтому после такого скрининга врач назначает уточняющее обследование, а не ставит диагноз сразу. Вот так базовая ставка переворачивает наивный вывод.
Где это встречается в ИИ и сервисах вокруг нас¶
Байесовская логика — не музейный экспонат, она работает прямо сейчас:
- Антифрод банков и платёжных сервисов. Редкое мошенничество среди массы честных операций — ровно та же структура, что и редкая болезнь. Система обновляет оценку риска по каждому новому признаку платежа.
- Голосовые помощники. Алиса взвешивает, что вы сказали, с учётом того, какие запросы вообще типичны.
- Рекомендации и поиск. Сервисы вроде Кинопоиска, VK или Яндекс.Музыки пересматривают догадку о ваших вкусах после каждого вашего действия — это тоже обновление уверенности по новым данным.
- Медицинские скрининги. Любой массовый тест на редкое состояние обязан учитывать базовую ставку, иначе ложные тревоги захлестнут результат.
Общий принцип везде один: начни с того, что знаешь о частоте события, и аккуратно поправляй это каждым новым сигналом.
Пример: как это бережёт ваши нервы
Вам приходит SMS: «По вашей карте подозрительная операция». Тревожно. Но вспомните базовую ставку: честных операций в тысячи раз больше, чем мошеннических, поэтому один автоматический сигнал — это ещё не доказательство взлома. Разумная реакция — не паниковать, а проверить факт по официальному каналу банка (приложение, Госуслуги, телефон с обратной стороны карты). Байесовское мышление здесь буквально работает как защита от поспешных выводов — и, кстати, от телефонных мошенников, которые на этой панике и играют.
Мостик к следующему уроку¶
Если правило Байеса умеет обновлять уверенность по одному факту, то что будет, если фактов много сразу? Например, в письме не одно подозрительное слово, а десяток. Как сложить все эти улики вместе? Ровно на этом построен наивный байесовский классификатор — основа классических спам-фильтров. О нём — в следующем уроке, где мы из интуиции соберём рабочий механизм.
Проверьте себя¶
Короткий тест по уроку: выберите ответ и нажмите «Проверить» — увидите счёт и разбор.
Частые вопросы¶
Что такое правило Байеса простыми словами?
Это способ обновлять свою уверенность при появлении новых данных. Вы берёте то, во что верили раньше (априорную оценку), учитываете свежий факт и получаете уточнённую оценку (апостериорную). Главное — не забывать, насколько событие редкое само по себе.
Почему точный тест на редкую болезнь часто ошибается?
Из-за базовой ставки. Здоровых людей очень много, поэтому даже маленькая доля ошибок на здоровых даёт большое число ложных тревог в абсолютных числах. Эта куча ложноположительных может перевесить горстку реально больных, и тогда положительный результат означает болезнь с куда меньшей вероятностью, чем кажется.
Чем отличается априорная вероятность от апостериорной?
Априорная — это уверенность до получения нового факта, ваш взгляд на старте. Апостериорная — обновлённая уверенность после того, как факт учтён. Правило Байеса — это и есть переход от первой ко второй.
Что такое базовая ставка и почему её важно учитывать?
Базовая ставка — это насколько событие распространено в принципе, без дополнительной информации (доля больных, доля мошеннических операций, доля спама). Если её игнорировать и судить только по «силе» сигнала, легко сделать неверный вывод и переоценить редкое событие.
В курсе: ← Назад: Неопределённость и шансы: как ИИ принимает решения · Дальше: Наивный Байес: как работает спам-фильтр →
Авторы курса: Герман Коваленко (основатель ENGRAM) и Сергей Добров.
Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.
Зарегистрироваться бесплатноENGRAM запоминает ваши встречи, документы и переписку и мгновенно находит ответ со ссылкой на источник. Ваша вторая память на базе ИИ. Данные в России, старт бесплатный.
Зарегистрироваться бесплатно