Обзор ключевых моделей LLM: от GPT до российских нейросетей¶

Когда говорят про нейросети вроде ChatGPT, часто имеют в виду целый класс технологий - большие языковые модели (Large Language Models, LLM). Это не одна конкретная программа, а множество разных моделей, каждая со своей архитектурой, размером и специализацией. Чтобы не потеряться в этом многообразии, нужен понятный путеводитель. В этой статье мы собрали ключевые LLM, которые сформировали эту область, от классических BERT и GPT до свежих открытых моделей вроде Falcon и LLaMA, а также отметили российские разработки, доступные для применения.

Хронология развития языковых моделей¶

Эволюция LLM - это история роста размеров, улучшения методов обучения и расширения возможностей. Все началось с относительно компактных моделей, которые учились предсказывать следующее слово в тексте или восстанавливать пропущенные фрагменты.

2018-2019: Зарождение эпохи. Выход BERT от Google стал прорывом, показав силу двунаправленного обучения контексту. Примерно в это же время OpenAI представила GPT и GPT-2, доказав, что большие модели, обученные на огромных данных, могут генерировать связный текст без узкой специализации. Эти работы заложили основу для всех последующих разработок.

2020: Масштабирование. Дебют GPT-3 с 175 миллиардами параметров показал, насколько мощными могут быть few-shot learning (обучение с несколькими примерами) и инженерная настройка промптов. Модель продемонстрировала, что гигантский масштаб сам по себе дает новые качества.

2021-2022: Специализация и оптимизация. Исследователи стали не просто увеличивать модели, а искать более эффективные пути. Появились модели, оптимизированные под конкретные задачи: код (Codex, AlphaCode), диалог (LaMDA), многоязычие (BLOOM, mT0). Концепция Chinchilla доказала: иногда лучше обучить модель поменьше, но на большем объеме данных.

2023: Год открытых и доступных моделей. Тренд сместился в сторону сообщества. Meta выпустила семейство LLaMA - относительно компактные, но мощные модели, которые можно дообучать на своем железе. Появились Falcon от Института инновационных технологий ОАЭ, MPT от MosaicML - все они открыты для коммерческого использования. Это дало толчок развитию локальных развертываний и кастомизации.

Ключевые модели и их особенности¶

В таблице ниже собраны наиболее значимые модели, их размеры и основное назначение. Это живая коллекция, которая постоянно пополняется.

Модель	Дата выхода	Размер (млрд. параметров)	Чекпоинты / Ссылка	Краткое описание
BERT	Октябрь 2018	-	GitHub	Классическая модель от Google для понимания контекста. Основа многих коммерческих решений.
GPT-3	Май 2020	175	-	Легендарная модель от OpenAI, показавшая силу масштабирования. Заложила основу для ChatGPT.
BLOOM	Ноябрь 2022	176	Hugging Face	Открытая многоязычная модель, созданная международным консорциумом BigScience.
LLaMA	Февраль 2023	7, 13, 33, 65	GitHub	Семейство эффективных базовых моделей от Meta. Стало стандартом для кастомизации и исследований.
Falcon LLM	Май 2023	7, 40	Hugging Face	Мощная открытая модель (40B) от Института инновационных технологий ОАЭ. Конкурент LLaMA.
MPT-7B	Май 2023	7	GitHub	Модель от MosaicML с увеличенным контекстом и поддержкой инструментов.
StarCoder	Май 2023	15	Hugging Face	Современная LLM, специализированная для генерации и работы с кодом.
GPT-4	Март 2023	-	-	Новейшая мультимодальная модель от OpenAI с улучшенными reasoning-способностями.
PaLM 2	Май 2023	-	-	Модель от Google с улучшенными многоязычными и логическими возможностями.
ChatGPT	Ноябрь 2022	-	-	Диалоговая надстройка (на основе GPT), задавшая новый стандарт взаимодействия с ИИ.

Специализированные и нишевые модели¶

Помимо универсальных «рабочих лошадок», появляется все больше моделей, заточенных под конкретные области. Это позволяет добиться большей точности и эффективности в узких задачах.

Для медицины: Med-PaLM 2 от Google демонстрирует уровень эксперта в ответах на медицинские вопросы.
Для финансов: BloombergGPT (50B параметров) обучена на огромном массиве финансовых данных и новостей.
Для науки: Galactica была задумана как модель для помощи в научных исследованиях, хотя и вызвала споры.
Для работы с кодом: Помимо StarCoder, стоит отметить семейство CodeGen от Salesforce, CodeT5+ и Replit Code. Эти модели понимают синтаксис, генерируют и комментируют код.
Для диалоговых систем: LaMDA (Google), Sparrow (DeepMind) и Open Assistant (открытый проект) разрабатывались специально для ведения безопасных и осмысленных диалогов.

Российский контекст: какие модели доступны здесь и сейчас¶

Для русскоязычных разработчиков и бизнесов критически важна не только мощность модели, но и ее доступность с точки зрения законодательства, инфраструктуры и поддержки русского языка.

Открытые международные модели: Модели вроде LLaMA, Falcon, BLOOM или MPT можно легально загрузить и запустить на своем оборудовании или в облаке, совместимом с российскими реалиями. Их можно дообучать (fine-tune) на корпоративных данных или русскоязычных датасетах для улучшения качества.
Российские разработки: Ведущие IT-компании России активно развивают свои LLM:
- YandexGPT от Яндекса интегрирована в Алису и облачные сервисы (Yandex Cloud). Компания активно развивает это направление.
- GigaChat от Сбера - многофункциональная нейросеть, доступная через API и собственные приложения. Одна из самых развитых отечественных LLM на момент написания статьи.
- Ранние и исследовательские модели: Такие как ruGPT-3 от Сбера или Парусин (модель от Объединенного института ядерных исследований и МГУ) также внесли вклад в развитие русскоязычного NLP.

Выбор между локальным развертыванием открытой модели (больше контроля, конфиденциальность) и использованием API российской или зарубежной модели (меньше затрат на инфраструктуру) зависит от конкретных задач, бюджета и требований к данным.

Как выбрать модель для своего проекта?¶

При выборе LLM задайте себе несколько практических вопросов:

Задача: Нужен диалоговый ассистент, генератор текстов, аналитик данных или программист-помощник? Под каждую цель есть свои специализированные модели.
Язык: Насколько важна глубокая работа с русским языком? Для сложных задач на русском стоит рассмотреть fine-tuning открытых моделей или API российских разработок.
Бюджет и инфраструктура: Есть ли возможность развернуть модель на своих серверах (требует мощных GPU) или предпочтительнее использовать облачный API с оплатой за запросы?
Конфиденциальность: Можно ли отправлять данные во внешнее API или они должны обрабатываться исключительно внутри периметра компании?
Гибкость: Планируете ли вы дообучать модель под свои уникальные данные? Открытые модели (LLaMA, Falcon) дают такую возможность, облачные API - обычно нет.

Начинать эксперименты лучше с относительно небольших открытых моделей (например, LLaMA 7B или Falcon 7B), чтобы оценить их потенциал для вашего кейса без огромных затрат.

Данный обзор составлен на основе открытых источников, включая Papers with Code и исследование Zhao et al. (2023). Мир LLM развивается стремительно, и этот список будет пополняться новыми значимыми именами.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно