Generated Knowledge Prompting: как нейросеть сама генерирует знания¶

Когда нейросеть ошибается в вопросах на общие знания, это часто происходит не из-за глупости, а из-за отсутствия нужного "контекста" в промпте. Одна из продвинутых техник - заставить модель саму сгенерировать этот контекст, прежде чем давать окончательный ответ. Этот метод, известный как Generated Knowledge Prompting, особенно полезен для задач, где требуется здравый смысл или фактологическая точность.

Как работает техника Generated Knowledge Prompting¶

Идея проста, но эффективна. Вместо того чтобы сразу задавать модели сложный вопрос, мы разбиваем процесс на два этапа. Сначала мы просим нейросеть сгенерировать несколько релевантных фактов или "знаний" по теме вопроса. Затем мы предоставляем эти сгенерированные знания вместе с исходным вопросом, чтобы модель дала более обоснованный и точный ответ. Это похоже на то, как человек, готовясь к ответу, сначала вспоминает или ищет нужную информацию.

GENKNOW

Источник изображения: Liu et al. 2022

Возьмем классический пример, где многие модели ошибаются. Спросим напрямую: "Часть игры в гольф - пытаться набрать больше очков, чем другие. Да или нет?". Модель, не задумываясь, может ответить "Да", потому что для многих игр это верно. Но для гольфа это не так.

Промпт:

Part of golf is trying to get a higher point total than others. Yes or No?

Ответ модели:

Yes.

Чтобы исправить это, применим технику генерации знаний. Сначала создадим промпт, который попросит модель сформулировать факты о гольфе, используя шаблон из исследования.

Промпт:

Input: Greece is larger than mexico.
Knowledge: Greece is approximately 131,957 sq km, while Mexico is approximately 1,964,375 sq km, making Mexico 1,389% larger than Greece.

Input: Glasses always fog up.
Knowledge: Condensation occurs on eyeglass lenses when water vapor from your sweat, breath, and ambient humidity lands on a cold surface, cools, and then changes into tiny drops of liquid, forming a film that you see as fog. Your lenses will be relatively cool compared to your breath, especially when the outside air is cold.

Input: A fish is capable of thinking.
Knowledge: Fish are more intelligent than they appear. In many areas, such as memory, their cognitive powers match or exceed those of ’higher’ vertebrates including non-human primates. Fish’s long-term memories help them keep track of complex social relationships.

Input: A common effect of smoking lots of cigarettes in one’s lifetime is a higher than normal chance of getting lung cancer.
Knowledge: Those who consistently averaged less than one cigarette per day over their lifetime had nine times the risk of dying from lung cancer than never smokers. Among people who smoked between one and 10 cigarettes per day, the risk of dying from lung cancer was nearly 12 times higher than that of never smokers.

Input: A rock is the same size as a pebble.
Knowledge: A pebble is a clast of rock with a particle size of 4 to 64 millimetres based on the Udden-Wentworth scale of sedimentology. Pebbles are generally considered larger than granules (2 to 4 millimetres diameter) and smaller than cobbles (64 to 256 millimetres diameter).

Input: Part of golf is trying to get a higher point total than others.
Knowledge:

Модель, следуя шаблону, генерирует факты. Вот пример двух таких "знаний":

Знание 1:

The objective of golf is to play a set of holes in the least number of strokes. A round of golf typically consists of 18 holes. Each hole is played once in the round on a standard golf course. Each stroke is counted as one point, and the total number of strokes is used to determine the winner of the game.

Знание 2:

Golf is a precision club-and-ball sport in which competing players (or golfers) use many types of clubs to hit balls into a series of holes on a course using the fewest number of strokes. The goal is to complete the course with the lowest score, which is calculated by adding up the total number of strokes taken on each hole. The player with the lowest score wins the game.

Интеграция знаний для получения финального ответа¶

Теперь у нас есть факты. Следующий шаг - передать их обратно модели вместе с исходным вопросом, сформулировав запрос на объяснение и ответ.

Промпт:

Question: Part of golf is trying to get a higher point total than others. Yes or No?

Knowledge: The objective of golf is to play a set of holes in the least number of strokes. A round of golf typically consists of 18 holes. Each hole is played once in the round on a standard golf course. Each stroke is counted as one point, and the total number of strokes is used to determine the winner of the game.

Explain and Answer:

Ответ 1 (очень высокая уверенность):

No, the objective of golf is not to get a higher point total than others. Rather, the objective is to play a set of holes in the least number of strokes. The total number of strokes is used to determine the winner of the game, not the total number of points.

А вот ответ на основе второго сгенерированного знания. Обратите внимание, как меняется тон и уверенность ответа в зависимости от формулировки самого "знания".

Промпт:

Question: Part of golf is trying to get a higher point total than others. Yes or No?

Knowledge: Golf is a precision club-and-ball sport in which competing players (or golfers) use many types of clubs to hit balls into a series of holes on a course using the fewest number of strokes. The goal is to complete the course with the lowest score, which is calculated by adding up the total number of strokes taken on each hole. The player with the lowest score wins the game.

Explain and Answer:

Ответ 2 (уверенность намного ниже):

Yes, part of golf is trying to get a higher point total than others. Each player tries to complete the course with the lowest score, which is calculated by adding up the total number of strokes taken on each hole. The player with the lowest score wins the game.

Этот пример показывает важную деталь: качество и формулировка сгенерированных знаний напрямую влияют на итоговый ответ. Первое знание четко противопоставляет "наименьшее количество ударов" и "больше очков", что ведет к правильному и уверенному "Нет". Второе знание, хотя и содержит верную информацию, акцентирует "низший счёт", что может запутать модель и привести к менее уверенному или даже ошибочному выводу.

Практическое применение и нюансы¶

В реальных задачах, например при проверке фактов в бизнес-отчете или создании обучающих материалов, эту технику можно использовать для повышения достоверности ответов. В российском контексте вы можете применять ее с доступными моделями, такими как YandexGPT или GigaChat, для анализа отраслевых документов, где важна точность терминов.

Как видно из примера, для получения надежного результата недостаточно просто сгенерировать одно знание. В оригинальном исследовании Liu et al. 2022 модель генерирует множество вариантов знаний, а затем агрегирует ответы, что повышает стабильность. Также критически важно проверять и, если нужно, слегка корректировать сгенерированные факты перед их интеграцией, чтобы избежать распространения ошибок.

Итог: Generated Knowledge Prompting - это мощный инструмент для решения сложных задач, требующих фактологической базы. Он превращает нейросеть из "угадывателя" в более вдумчивого "аналитика", который сначала собирает информацию, а потом делает вывод.

Попробуйте ENGRAM на своих данных

Нейросеть на ваших встречах, документах и переписке: отвечает со ссылкой на источник. Это ваша вторая память на базе ИИ. Данные хранятся в России, старт бесплатный.

Зарегистрироваться бесплатно