Directional Stimulus Prompting: как направлять нейросети подсказками¶

Когда вы просите нейросеть написать текст, она часто выдает что-то общее и предсказуемое. Но что, если можно незаметно направлять ее рассуждения, подкидывая специальные "стимулы" прямо в запрос? Именно это и делает техника Directional Stimulus Prompting (DSP) - она учит небольшую модель-помощника генерировать такие направляющие подсказки, которые заставляют основную большую модель (вроде GPT-4 или YandexGPT) выдавать именно тот результат, который нужен вам.

Исследователи из Стэнфорда (Li et al., 2023) предложили использовать не просто статичные инструкции в промпте, а динамические, умные подсказки. Их генерирует отдельная небольшая модель, которую предварительно обучают с помощью reinforcement learning (обучения с подкреплением). Ее задача - анализировать ваш запрос и добавлять в него скрытые "ключевые слова" или фразы-стимулы, которые незаметно для пользователя смещают фокус большой модели в нужную сторону.

DSP

Источник изображения: Li и др., (2023)

Представьте, что вы хотите получить от нейросети не просто краткое содержание статьи, а резюме, сфокусированное строго на финансовых рисках. Обычный запрос может дать общий пересказ. Но если модель-помощник добавит в ваш запрос невидимый стимул вроде "акцент на цифры, волатильность, угрозы бюджету", то основная модель подсознательно сконцентрируется на этой теме. Это похоже на то, как опытный наставник задает ученику наводящие вопросы, чтобы тот сам пришел к правильному выводу.

Как работает направляющая стимуляция¶

Архитектура обычно включает две модели: 1. Большая основная модель (Black-box LLM): например, GPT-4, GigaChat или любая другая мощная нейросеть, которую вы используете как "движок" для генерации текста. Ее параметры не меняются. 2. Небольшая модель языковой политики (Small Policy LM): это легковесная, часто дообученная модель (например, на базе T5 или GPT-Neo), чья единственная задача - создавать те самые направляющие стимулы. Она оптимизируется с помощью RL, чтобы ее подсказки максимизировали качество итогового ответа большой модели (например, его соответствие теме, полноту, стиль).

Процесс выглядит так: * Вы формулируете исходный запрос (например, "Суммаризируй статью"). * Модель политики анализирует его и вашу дополнительную инструкцию ("сфокусируйся на технических аспектах") и генерирует компактный стимул - несколько слов или короткую фразу. * Этот стимул незаметно встраивается в финальный промпт для большой модели. * Большая модель, обрабатывая уже модифицированный запрос, выдает ответ, который бессознательно смещен в нужном направлении.

Ключевое преимущество в том, что основную, дорогую и сложную модель не нужно дообучать или fine-tune'ить под каждую конкретную задачу. Вся "магия" управления ложится на маленькую и дешевую в эксплуатации модель-помощник.

Пример применения и потенциал¶

Хотя полные рабочие примеры из статьи пока не везде опубликованы, принцип можно проиллюстрировать на гипотетическом сценарии. Допустим, вы аналитик и вам нужно из набора новостей о компании быстро вычленить только информацию, касающуюся санкционных рисков.

Промпт (без DSP):

Проанализируй предоставленные тексты новостей и выдели ключевые моменты.

Промпт (с DSP, где модель-помощник добавила стимул):

Проанализируй предоставленные тексты новостей и выдели ключевые моменты. [Фокус: правовые ограничения, последствия для поставок, юридические риски]

Во втором случае большая модель с гораздо большей вероятностью проигнорирует общие финансовые показатели и сконцентрируется именно на аспектах, связанных с санкциями, потому что получила четкий, хоть и закамуфлированный, ориентир.

В российском контексте подобные техники могут быть особенно полезны для тонкой настройки ответов локальных моделей (таких как GigaChat или YandexGPT) под узкие бизнес-задачи: например, для автоматического составления отчетов с акцентом на определенные регионы, отрасли или типы данных, что критично для аналитики в быстро меняющихся условиях.

Техника Directional Stimulus Prompting открывает путь к более экономному и целевому управлению поведением сложных нейросетей. Вместо того чтобы искать идеальный статичный промпт, мы можем делегировать эту работу небольшой AI-помощнице, которая будет адаптировать запрос "на лету", делая взаимодействие с большими языковыми моделями более предсказуемым и эффективным.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно