Промпт-инжиниринг / Введение в промптинг

Настройки LLM: температура, top_p, длина и штрафы¶

Когда вы общаетесь с большой языковой моделью (LLM) через API или интерфейс, вы получаете не просто "ответ". Вы получаете результат, который можно тонко настраивать, как звук на профессиональном микшере. Эти "крутилки" и "ползунки" - ключевые параметры генерации - позволяют управлять креативностью, точностью, длиной и стилем текста. Понимание их - это фундамент промпт-инжиниринга. Давайте разберем основные из них, которые доступны в большинстве моделей, включая популярные в России GigaChat от Сбера или YandexGPT.

Температура: контроль над креативностью и предсказуемостью¶

Представьте, что модель выбирает каждое следующее слово из списка кандидатов, у каждого из которых своя "вероятность" быть правильным. Температура - это параметр, который "разогревает" или "остужает" этот выбор.

Низкая температура (например, 0.1-0.3): Модель становится консервативной и выбирает самый очевидный, вероятный вариант. Ответы будут точными, последовательными и предсказуемыми. Идеально для задач, где нужна фактологическая точность: ответы на вопросы, извлечение данных, техническое описание.
Высокая температура (например, 0.7-1.0): Модель "разогревается" и начинает рисковать, рассматривая менее очевидные варианты. Это приводит к более неожиданным, разнообразным и креативным результатам. Используйте для генерации идей, написания художественных текстов, стихов или диалогов.

Простое правило: Для бухгалтерского отчета - низкая температура. Для сценария рекламного ролика - высокая.

Top_p: альтернативный способ управления разнообразием¶

Этот параметр, известный как сэмплирование ядра (nucleus sampling), работает в паре с температурой, но по другому принципу. Вместо регулировки "разогрева" он задает порог вероятности. Модель рассматривает только те варианты следующего слова, совокупная вероятность которых не превышает заданный процент top_p.

Низкое значение top_p (например, 0.1): Модель будет выбирать только из очень узкого круга самых вероятных вариантов. Ответы будут очень сфокусированными и детерминированными.
Высокое значение top_p (например, 0.9): Модель может выбирать из широкого пула вариантов, включая менее вероятные, что увеличивает разнообразие.

Важное замечание: Обычно настраивают либо температуру, либо top_p, но не оба одновременно, так как их эффекты могут пересекаться. Стандартная рекомендация - использовать один из них, оставив второй по умолчанию.

Максимальная длина (max_tokens): стоп-кран для генерации¶

Этот параметр ограничивает количество токенов (частей слов, примерно 0.75 токена на слово), которое модель может сгенерировать в ответе. Это не просто ограничение объема, а инструмент контроля.

Контроль затрат: Генерация токенов - это основная статья расходов при работе с коммерческими API. Жесткое ограничение длины помогает не получить неожиданный счет.
Предотвращение "болтливости": Модель может начать уходить в тангенсы или бесконечно развивать мысль. max_tokens обрезает этот процесс.
Структурирование вывода: Если вам нужен ответ ровно в 5 предложений или список из 7 пунктов, можно подобрать значение длины, которое соответствует задаче.

Стоп-последовательности: точное указание, где остановиться¶

Более изящный способ контроля длины - задать стоп-последовательность. Это слово или фраза, при появлении которых модель немедленно прекращает генерацию.

Промпт:

Перечисли 5 преимуществ удаленной работы. Список:

Ответ модели (со стоп-последовательностью "6."):

1. Гибкий график.
2. Экономия времени на дорогу.
3. Повышение концентрации.
4. Снижение операционных расходов для компании.
5. Возможность работать из любой локации.

Как только модель "думает" написать "6.", она останавливается. Это полезно для генерации списков, ответов в определенном формате (например, до слова "Вывод:") или для диалоговых сценариев.

Штраф за частоту и наличие: борьба с зацикливанием¶

Модели иногда могут "заедать на одной пластинке", повторяя одни и те же слова или фразы. Для борьбы с этим есть два схожих, но разных инструмента.

Штраф за частоту (frequency penalty): Штрафует токен пропорционально тому, сколько раз он уже встречался в тексте. Чем чаще слово повторялось, тем сильнее штраф на его следующее использование. Эффективно "разбивает" словесные повторы.
Штраф за наличие (presence penalty): Штрафует сам факт повторного появления токена, независимо от того, сколько раз он уже был использован. Появилось слово второй раз - штраф фиксированный, появилось десятый раз - штраф тот же. Это помогает модели переключаться на новые темы и концепции, повышая разнообразие лексики.

Практический совет: Как и с температурой/top_p, начните с настройки одного из этих штрафов. Если текст получается излишне повторяющимся, попробуйте постепенно увеличивать presence penalty. Для более жесткой борьбы с конкретными словами-паразитами можно экспериментировать с frequency penalty.

Общие рекомендации по настройке¶

Экспериментируйте по одному параметру. Меняйте что-то одно (температуру ИЛИ top_p, frequency penalty ИЛИ presence penalty), чтобы четко видеть эффект.
Тестируйте на реальных задачах. Оптимальные настройки для написания технической документации и креативного сторителлинга будут разными.
Помните о версии модели. Результаты и "чувствительность" к настройкам могут отличаться между GPT-4, Claude, GigaChat или более старыми версиями одной и той же модели. То, что работало вчера, может дать иной результат после обновления.
Начинайте с умеренных значений. Вместо того чтобы сразу выставлять температуру в 1.0, попробуйте 0.7. Вместо большого штрафа начните с небольшого увеличения.

Грамотная настройка этих параметров превращает диалог с нейросетью из лотереи в управляемый процесс, где вы получаете именно тот тип текста, который вам нужен для бизнеса или проекта.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно