Виды машинного обучения: с учителем, без учителя, с подкреплением¶

Коротко

Машинное обучение делится на три больших семейства: с учителем, без учителя и с подкреплением — и выбор зависит от того, какие у вас данные и какую задачу вы решаете. Обучение с учителем учится на примерах с готовыми ответами, обучение без учителя само ищет структуру в данных, а обучение с подкреплением учится методом проб, наград и ошибок. Во всех трёх случаях главное топливо — данные, а главный риск — модель, которая хорошо помнит старое, но плохо справляется с новым.

Что значит «машина учится»¶

В прошлых главах ИИ действовал по правилам, которые задавал человек: перебирал ходы в шахматах, считал вероятности спама. Машинное обучение — это другой подход: вместо того чтобы прописывать правила вручную, мы показываем программе много примеров и позволяем ей самой нащупать закономерность.

Представьте, что учите ребёнка отличать кошку от собаки. Вы не диктуете список признаков — вы показываете животных и называете их, а ребёнок сам выстраивает нужные критерии. Модель работает похоже: смотрит на данные и подстраивает свои внутренние «настройки», чтобы всё реже ошибаться.

Дальше всё упирается в один вопрос: есть ли у нас правильные ответы заранее? От него и зависит, какой из трёх видов обучения подойдёт.

Обучение с учителем: учимся на готовых ответах¶

Обучение с учителем (supervised learning) — это когда у нас есть примеры вместе с правильными ответами, и модель учится связывать одно с другим. Слово «учитель» здесь условное: роль учителя играют сами размеченные данные.

Разметка — это и есть проставление правильных ответов к примерам. Например, к тысячам банковских операций заранее приписали метку «мошенническая» или «обычная». Модель изучает эти примеры и учится предсказывать метку для новых, ещё не виденных операций.

Внутри обучения с учителем есть два типа задач:

Классификация — предсказать категорию. Спам или не спам, мошенничество или норма, доброкачественная родинка или подозрительная. Ответ выбирается из конечного списка вариантов.
Регрессия — предсказать число. Сколько будет стоить квартира, какой завтра будет спрос, сколько минут займёт доставка. Ответ — это значение на числовой шкале.

Пример: антифрод и медицина

Когда вы платите картой, банковский антифрод за доли секунды решает, похожа ли операция на мошенничество. Модель обучена на множестве прошлых транзакций, размеченных как честные или подозрительные, — это классификация. Похожим образом устроена помощь врачу: модель, обученную на снимках с известными диагнозами, можно попросить выделить участки, на которые стоит обратить внимание. Диагноз ставит специалист, ИИ лишь подсказывает, где присмотреться.

Обучение без учителя: ищем структуру сами¶

Обучение без учителя (unsupervised learning) применяют, когда правильных ответов нет вообще. Никто не размечал данные — есть просто большой массив, и мы хотим, чтобы машина сама нашла в нём закономерности и группы.

Самая частая задача здесь — кластеризация: разбить объекты на группы так, чтобы внутри группы они были похожи, а между группами — различались. При этом мы заранее не знаем, что это будут за группы; их «характер» проявляется уже после.

Пример: сегменты покупателей на Wildberries и Ozon

У маркетплейсов вроде Wildberries и Ozon — миллионы клиентов, и заранее никто не наклеил на них ярлыки. Алгоритм может сам сгруппировать покупателей по поведению: кто-то заказывает часто и помалу, кто-то редко, но крупно, кто-то приходит только на распродажи. Эти группы никто не задавал руками — модель выделила их из данных, а маркетинг уже решает, что предложить каждому сегменту.

Важно

У обучения без учителя нет «правильного» ответа, с которым можно сверить результат. Поэтому оценивать его сложнее: одни и те же данные можно разбить на группы по-разному, и какое разбиение полезнее — решает уже человек, исходя из задачи.

Обучение с подкреплением: учимся через награду¶

Обучение с подкреплением (reinforcement learning) устроено иначе. Здесь есть агент — программа, которая действует в некоторой среде и получает за свои действия награду или штраф. Готовых ответов ей не дают; она нащупывает удачную стратегию методом проб и ошибок, стараясь набрать больше награды.

Аналогия простая: так дрессируют животное. За нужное поведение — лакомство, за ненужное — ничего. Правила питомцу не объясняют словами — он сам понимает, что приносит награду.

Где это работает:

Игры. Агент играет сам с собой множество партий и учится выигрывать: награда — победа, штраф — поражение.
Роботы и беспилотники. Действие — повернуть, затормозить, взять предмет; награда — за аккуратно и безопасно выполненную задачу.
Оптимизация рекомендаций и процессов. Систему настраивают так, чтобы она подбирала показ контента или распределение ресурсов под нужный результат.

Пример: от шахмат до складских роботов

Классический образ — шахматы. Гарри Каспаров, чемпион родом из СССР, в своё время сражался с шахматным компьютером, который перебирал ходы по заданным правилам. Современные игровые системы учатся иначе — с подкреплением: играют огромное число партий против самих себя и запоминают, какие ходы чаще ведут к победе. Тот же принцип помогает складским роботам и беспилотным автомобилям: каждое удачное действие подкрепляется наградой, и поведение со временем становится увереннее.

Данные — это топливо¶

У всех трёх видов обучения есть общий знаменатель: данные. Без них модель учиться не на чем. Данные для машинного обучения — как топливо для двигателя: чем оно качественнее, тем дальше вы уедете. Важно не только количество, но и качество:

Если данные неполные или однобокие, модель переймёт этот перекос. Обучите антифрод только на операциях из одного региона — и в другом он начнёт ошибаться.
Если в данных есть скрытая предвзятость, модель её усвоит и будет воспроизводить. Подробнее об этом — в уроке про этику ИИ и приватность данных.
В России работа с данными регулируется законом, в частности 152-ФЗ «О персональных данных», поэтому собирать и использовать их нужно аккуратно и законно.

Переобучение: когда модель «зубрит»¶

Главная ловушка машинного обучения — переобучение (overfitting). Это когда модель слишком плотно подстроилась под учебные примеры: она прекрасно помнит то, на чём училась, но теряется на новых данных.

Аналогия — студент, который вызубрил конкретные билеты, но не понял предмет. На знакомых вопросах он отвечает блестяще, а стоит чуть переформулировать — и он плывёт. Полезная модель должна не запоминать примеры, а улавливать общую закономерность.

Поэтому модель всегда проверяют на новых данных, которых она не видела при обучении. Часть примеров намеренно откладывают только для проверки. Если на отложенных данных результат резко хуже, чем на учебных, — это тревожный сигнал переобучения.

Важно

Хороший результат на учебных данных сам по себе ничего не доказывает. Доверять модели можно только после того, как она показала себя на примерах, которых раньше не встречала.

Как выбрать вид обучения¶

Короткая подсказка, с чего начать:

Вопрос к задаче	Подходящий вид
Есть примеры с правильными ответами (метками)?	Обучение с учителем
Ответов нет, нужно найти группы или структуру?	Обучение без учителя
Нужно выработать стратегию через действия и награду?	Обучение с подкреплением

На практике границы бывают размытыми, а в больших системах виды нередко сочетают. Но для старта эта развилка по данным — самый надёжный ориентир.

Упражнение¶

Упражнение: распределите задачи по типу обучения

Перед вами пять российских задач. Определите, какой вид обучения подходит каждой: с учителем, без учителя или с подкреплением. Сначала подумайте сами, потом разверните разбор.

Банк по истории операций предсказывает, мошенническая ли новая транзакция.
Маркетплейс делит миллионы покупателей на группы по поведению, не зная заранее, какие это будут группы.
Складской робот учится аккуратно брать товары, получая «плюс» за удачное действие.
Сервис недвижимости предсказывает цену квартиры по её параметрам.
Из массива заявок нужно выделить похожие обращения, чтобы понять частые темы.

Разбор:

С учителем (классификация): есть размеченные примеры — операции уже помечены как честные или мошеннические.
Без учителя (кластеризация): правильных ответов нет, модель сама ищет группы в данных.
С подкреплением: агент действует и учится на наградах за удачные действия.
С учителем (регрессия): предсказываем число — цену — по примерам с известными ценами.
Без учителя: меток нет, задача — самостоятельно сгруппировать похожие обращения.

Заметили закономерность? Всё решает один вопрос: есть ли готовые ответы, и если нет — ищем мы структуру или вырабатываем стратегию.

Проверьте себя¶

Короткий тест по уроку: выберите ответ и нажмите «Проверить» — увидите счёт и разбор.

Частые вопросы¶

Чем обучение с учителем отличается от обучения без учителя?

Разница в наличии правильных ответов. В обучении с учителем данные размечены — у каждого примера есть метка, и модель учится её предсказывать. В обучении без учителя меток нет, и модель сама ищет в данных структуру и группы. Грубо говоря, в первом случае мы говорим модели, что есть что, а во втором — просим разобраться без подсказок.

Что такое разметка данных и зачем она нужна?

Разметка — это проставление правильных ответов к примерам: какая операция мошенническая, что изображено на снимке, к какой категории относится письмо. Без неё невозможно обучение с учителем. Разметка обычно требует ручного труда, поэтому хорошие размеченные данные — ценный и недешёвый ресурс.

Почему модель нельзя проверять на тех же данных, на которых она училась?

Потому что на учебных данных модель может просто их «помнить», а не понимать закономерность, — это и есть переобучение. Чтобы оценить реальную пользу, часть примеров откладывают и проверяют модель на них — на данных, которых она при обучении не видела. Только так понятно, справится ли она с новыми случаями.

Какой вид машинного обучения встречается чаще всего?

На практике чаще всего применяют обучение с учителем: оно решает понятные задачи классификации и прогноза чисел, а результат легко проверить. Обучение без учителя помогает исследовать данные и находить в них структуру. Обучение с подкреплением мощное, но требовательное к ресурсам, поэтому его берут там, где нужна стратегия: в играх, робототехнике, оптимизации.

В курсе: ← Назад: Наивный Байес: как работает спам-фильтр · Дальше: Метод ближайших соседей простыми словами →

Авторы курса: Герман Коваленко (основатель ENGRAM) и Сергей Добров.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно