Глубокое обучение и большие языковые модели (LLM)¶

Коротко

Глубокое обучение — это нейросети с большим числом слоёв, способные сами находить сложные закономерности в данных. Для картинок чаще используют свёрточные сети, для текста — трансформеры. На трансформерах построены большие языковые модели вроде YandexGPT и GigaChat: по сути они просто предсказывают следующее слово, но делают это так хорошо, что выглядят умными. Из-за этого же устройства они иногда уверенно выдумывают факты — это называют галлюцинациями.

В прошлых уроках мы разобрали, как устроена нейросеть и как она учится. Теперь соберём всё вместе и поднимемся до тех моделей, о которых сегодня говорят все: распознавание лиц, генерация картинок, чат-боты. За ними стоит несколько простых идей, и в этом уроке мы пройдём их по порядку.

Что значит «глубокое» обучение¶

Глубокое обучение — это машинное обучение на нейросетях, где между входом и выходом стоит много слоёв нейронов (отсюда «глубина»). Чем больше слоёв, тем более сложные зависимости сеть способна уловить.

Зачем нужна глубина, проще понять на примере. Представьте, что сеть распознаёт фотографию. Первые слои замечают самое простое — границы, пятна света и тени. Следующие складывают из них детали: уголки, дуги, текстуры. Слои поглубже узнают уже части объектов — глаз, колесо, лист. И только верхние слои собирают из этого целое: «лицо», «автомобиль», «дерево».

Ключевая мысль: раньше человек-инженер вручную придумывал, какие признаки важны. В глубоком обучении сеть сама выстраивает эту лестницу признаков — от простого к сложному. Нужно лишь дать ей много данных и дать время поучиться через знакомый нам градиентный спуск.

Важно

«Глубокое» — это не про ум, а про количество слоёв. Глубокая сеть не «понимает» картинку или текст как человек. Она находит статистические закономерности, но делает это настолько тщательно, что результат часто неотличим от осмысленного.

Свёрточные сети: зрение для машины¶

Когда речь идёт об изображениях, обычная полносвязная сеть работает плохо: в одной фотографии миллионы пикселей, и связать каждый с каждым — слишком дорого. Здесь помогает свёрточная сеть (CNN) — это нейросеть, которая обрабатывает картинку небольшими окнами, выискивая в них повторяющиеся узоры независимо от того, где они находятся на изображении.

Аналогия простая. Вместо того чтобы смотреть на всю картинку разом, сеть берёт маленький «трафарет» и скользит им по изображению, проверяя: есть ли тут вертикальная линия? а тут переход цвета? Один и тот же трафарет применяется ко всем участкам, поэтому сеть узнаёт нужный узор хоть в углу, хоть в центре кадра. Таких трафаретов много, и с глубиной они становятся всё сложнее.

Где это работает в реальной жизни:

Беспилотники Яндекса распознают пешеходов, разметку и знаки.
FacePay в московском метро сверяет лицо на турникете с профилем.
Антифрод-системы банков и сервисы вроде Wildberries и Ozon автоматически проверяют фото товаров и документов.
Кинопоиск и фотосервисы группируют кадры по тому, что на них изображено.

То же зрение работает и в обратную сторону — на генерацию. Сервисы вроде Шедеврума (Яндекс) и Kandinsky (Сбер) рисуют картинку по текстовому описанию, опираясь на закономерности, выученные на огромном количестве изображений.

Трансформеры: как машина работает с текстом¶

С текстом своя сложность: важен порядок и связи между словами, иногда далёкими друг от друга. В предложении «Банк, в который я зашёл утром, был закрыт» слово «закрыт» относится к «банк», хотя между ними много других слов.

Долгое время сети читали текст строго слово за словом и плохо удерживали такие длинные связи. Прорыв дал трансформер — архитектура нейросети, которая смотрит сразу на всё предложение и для каждого слова решает, на какие другие слова обращать внимание. Этот механизм так и называют — «внимание».

Грубая аналогия: читая фразу, вы подсвечиваете маркером те слова, что важны для понимания текущего. Трансформер делает это автоматически и для всех слов одновременно, поэтому он быстрый и хорошо ловит смысл. Именно трансформеры стоят за современным машинным переводом (например, в Яндекс Переводчике) и за голосовыми помощниками вроде Алисы.

Большие языковые модели (LLM)¶

Большая языковая модель (LLM) — это очень крупный трансформер, обученный на гигантских объёмах текста с одной простой целью: предсказывать следующее слово. Буквально: модель видит начало фразы и угадывает, что идёт дальше.

Звучит скромно, но именно из этой задачи рождается всё остальное. Чтобы хорошо угадывать продолжение миллиардов разных текстов, модели приходится «впитать» грамматику, факты, стиль и логику рассуждений. Когда вы задаёте вопрос YandexGPT или GigaChat, модель не достаёт готовый ответ из базы — она слово за словом достраивает наиболее вероятное продолжение вашего запроса.

Почему такие модели вдруг стали такими способными? Сыграли три вещи:

Что выросло	Что это дало
Объём данных	Модель видела почти все виды текстов и тем
Размер модели (число параметров)	Больше «памяти» под закономерности и нюансы
Вычислительные мощности	Возможность обучать такие модели за разумное время

В какой-то момент простого увеличения размера оказалось достаточно, чтобы модели начали уверенно поддерживать диалог, писать код и пересказывать тексты. В России на этом подходе построены YandexGPT и GigaChat (Сбер), которые помогают в поиске, поддержке клиентов и работе с документами.

Пример: как LLM помогает в поддержке

Представьте интернет-магазин, куда пишут сотни клиентов. LLM читает обращение «Где мой заказ и можно ли поменять размер?» и сразу формулирует вежливый ответ в нужном тоне. Она не просто ищет ключевые слова, как старые шаблонные боты, а понимает смысл и отвечает связно. Оператору остаётся только проверить и отправить — или подключиться к сложным случаям.

Почему LLM выдумывают: галлюцинации¶

У этого устройства есть обратная сторона. Раз модель всегда достраивает правдоподобное продолжение, она может выдать текст, который звучит уверенно и гладко, но на деле неверен. Это явление называют галлюцинацией — модель «придумывает» факт, ссылку или цитату, которых не существует.

Важно понять причину. LLM не знает, где правда, а где нет. Её задача — складность, а не достоверность. Если в обучающих текстах не было точного ответа, модель всё равно выдаст что-то связное, потому что молчать она не умеет. Поэтому она может перепутать даты, приписать кому-то чужие слова или сослаться на несуществующий документ.

Отсюда практические выводы для новичка:

Не воспринимайте ответ LLM как проверенный факт, особенно если речь о цифрах, законах или именах.
Чем уже и специфичнее вопрос, тем выше риск выдумки.
Самый надёжный сценарий — когда модель отвечает по конкретным документам и показывает, откуда взяла ответ.

Свой ИИ на ваших данных

Чтобы LLM не выдумывала, её ответы стоит «заземлить» на реальные документы вашей компании. ENGRAM делает именно это: помощник отвечает на основе ваших регламентов и базы знаний, даёт ссылку на источник, а данные остаются в российском контуре — это удобно с точки зрения 152-ФЗ. Так вы получаете и удобство чат-бота, и проверяемость.

Как это связано с тем, что мы уже знаем¶

Стоит остановиться и увидеть общую картину. Все «магические» модели — это та же нейросеть из урока 5.1, обученная тем же градиентным спуском, только большая и с удачной архитектурой под задачу. Никакого отдельного «разума» внутри нет — есть статистика, помноженная на масштаб.

Полезно вспомнить и шахматы. В уроке про игры компьютер обыгрывал человека перебором ходов — это была узкая система под одну задачу. Когда-то даже Гарри Каспаров уступил машине в шахматах, но та машина не умела больше ничего. Современные LLM, наоборот, универсальны и берутся за множество задач сразу — и в этом их сила, и источник их ошибок.

Упражнение: подберите архитектуру под задачу

Сопоставьте задачу с тем, что обычно используют для её решения.

Распознать дорожный знак на фото с камеры беспилотника.
Сгенерировать связный ответ на вопрос клиента в чате.
Перевести текст с русского на английский.

Варианты: свёрточная сеть (CNN) · большая языковая модель (LLM) · трансформер.

Разбор:

→ CNN. Это работа с изображением: ищем визуальные узоры независимо от их положения в кадре. Классическая задача для свёрточной сети.
→ LLM. Нужен связный текст-ответ в диалоге — это профиль большой языковой модели вроде YandexGPT или GigaChat.
→ трансформер. Перевод — это работа с последовательностью слов и связями между ними; именно для этого придумали механизм внимания. (LLM тоже умеют переводить — ведь они построены на трансформерах, так что и такой ответ корректен.)

Если вы заметили, что границы размыты и одна архитектура «прорастает» в другую, — вы поняли главное. Трансформер лежит и в основе LLM, а идеи свёрток и внимания сегодня свободно сочетаются.

Проверьте себя¶

Короткий тест по уроку: выберите ответ и нажмите «Проверить» — увидите счёт и разбор.

Частые вопросы¶

Чем глубокое обучение отличается от обычного машинного обучения?

Глубокое обучение — это частный случай машинного обучения, где используются нейросети с большим числом слоёв. Главное отличие в том, что такая сеть сама выстраивает признаки от простых к сложным, тогда как в более простых методах признаки часто задаёт человек. О видах обучения можно почитать в уроке 4.1.

LLM действительно понимает то, что пишет?

Нет, не в человеческом смысле. Модель предсказывает наиболее вероятное продолжение текста на основе закономерностей из обучающих данных. Результат бывает очень осмысленным, но за ним стоит статистика, а не понимание или личный опыт. Именно поэтому модель и не осознаёт, когда ошибается.

Можно ли полностью убрать галлюцинации?

Совсем убрать сложно — это следствие самой природы LLM. Но риск сильно снижается, если модель отвечает по проверенным документам и показывает источник, а человек перепроверяет важные факты. Такой подход «ответа со ссылкой» делает использование LLM безопаснее для рабочих задач.

В чём разница между свёрточной сетью и трансформером?

Свёрточные сети заточены под изображения: они ищут локальные визуальные узоры. Трансформеры заточены под последовательности, прежде всего текст: они оценивают связи между элементами через механизм внимания. Это разные инструменты под разные типы данных, хотя современные модели всё чаще их комбинируют.

В курсе: ← Назад: Как обучается нейросеть: градиентный спуск и обратное распространение · Дальше: Можно ли предсказать будущее ИИ →

Авторы курса: Герман Коваленко (основатель ENGRAM) и Сергей Добров.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно