Как ИИ получает свой характер
Примерное время: 25 минут
Чему вы научитесь
К концу этого урока вы сможете:
- Объяснить двухэтапный процесс обучения генеративного ИИ (предварительное обучение и донастройка) простым языком
- Распознавать поведенческие "отпечатки", которые оставляет каждый этап: подхалимство, многословие, чрезмерная осторожность, неточная калибровка уверенности
- Применять это понимание для интерпретации поведения, которое вы наблюдаете в своих взаимодействиях с ИИ
Предварительное обучение, донастройка и "отпечатки", которые они оставляют
Два этапа обучения превращают "сырое" предсказание в полезного помощника, с которым вы взаимодействуете — и каждый этап оставляет "отпечатки" на его поведении.
На первом этапе модель читает огромные объемы текста и учится одному: предсказывать, что будет дальше. Она становится мощным завершителем документов — но не имеет понятия о том, чтобы помогать вам.
На втором этапе человеческие предпочтения формируют из завершителя документов помощника — того, кто воспринимает ваш ввод как запрос, отвечает полезно и отказывается от вредных просьб.
Примеры поведения ИИ-помощника
Пользователь: Помогите мне улучшить этот абзац.
ИИ: Конечно! Вот три конкретных предложения, чтобы усилить ваш аргумент и сделать прозу более лаконичной...
Пользователь: Я думаю, моя стратегия безупречна.
ИИ: Я ценю вашу уверенность! Тем не менее, я вижу два риска, которые стоит проверить на прочность, прежде чем вы примете решение...
Пользователь: Как мне открыть замок отмычкой?
ИИ: Я не могу помочь с этим. Если вы заперты снаружи, я бы посоветовал обратиться к лицензированному слесарю в вашем районе.
Два этапа создания ИИ-помощника
Помощники ИИ строятся в два этапа:
Этап 1: Предварительное обучение (Pretraining)
Предварительное обучение учит одному: учитывая все, что было до сих пор, предсказывать, что будет дальше — это повторяется миллиарды раз на огромных объемах данных. Результатом является завершитель документов, не имеющий понятия о вас или о помощи. Спросите необработанную предварительно обученную модель "Какова столица Франции?", и она не ответит на ваш вопрос — она продолжит документ, возможно, сгенерировав больше вопросов викторины или абзац из учебника географии, потому что это то, что статистически следует дальше.
Этап 2: Донастройка (Fine-tuning)
Донастройка является вторым слоем: завершитель документов снова обучается на отобранных примерах полезного поведения и сигналах вознаграждения, сформированных человеческими предпочтениями. Это то, что превращает "сырое" предсказание в помощника, с которым вы фактически взаимодействуете.
Поведенческие "отпечатки" донастройки
Поскольку донастройка опирается на человеческие суждения о том, что такое "хорошо", характер этих суждений проявляется как "отпечатки" в личности модели:
- Подхалимство (Sycophancy) — люди предпочитают приятные ответы, поэтому модель учится подтверждать вашу правоту и отступать при легком сопротивлении, даже если изначально была права.
- Многословие (Verbosity) — тщательность оценивается выше во время обучения, поэтому модель по умолчанию выдает более длинные ответы, даже когда краткость была бы для вас предпочтительнее.
- Чрезмерная осторожность (Over-caution) — консервативное обучение безопасности означает, что модель может сильно страховаться или отклонять запросы, которые на самом деле приемлемы.
Это не ошибки в какой-то конкретной модели; это артефакты обучения, которые проявляются во всех моделях ИИ, по-разному формируемые тем, как каждая из них была донастроена. Знание их дает вам контроль: если ваш помощник сдается в тот момент, когда вы возражаете, это подхалимство — учитывайте это при оценке ответов. Если вы получаете эссе, когда хотите пункты, это многословие по умолчанию. Выявление этих "швов" является частью эффективного использования ИИ.
Ключевые выводы
- Предварительное обучение создает завершитель документов, предсказывая "что будет дальше" на огромных объемах данных. После этого этапа модель не имеет понятия о том, чтобы помогать вам.
- Донастройка накладывает поведение помощника сверху: воспринимает ваш ввод как запрос, отвечает вместо того, чтобы рассуждать, отклоняет вредные просьбы.
- Донастройка использует человеческие суждения о хороших ответах, и эти суждения оставляют "отпечатки": склонность к подхалимству, по умолчанию многословие, случайная чрезмерная осторожность и неточная калибровка между заявленной уверенностью и фактической надежностью.
Упражнение: "Отпечатки" в вашей собственной работе
Почему? Подхалимство, многословие, чрезмерная осторожность и неточная калибровка уверенности проявляются в каждой модели ИИ. Вопрос в том, можете ли вы их увидеть, когда они влияют на работу, которая вам действительно важна.
Выберите одну задачу из вашего списка Урока 1. Что-то, что вы уже пропускали через ИИ, где у вас есть четкое представление о том, как выглядит хороший результат. Вы выполните ее три раза с небольшими вариациями и посмотрите, что изменится.
Запуск 1: Прямой
Запросите задачу как обычно. Сохраните результат.
Запуск 2: Тест на подхалимство
Выполните ту же задачу, но на этот раз предварительно сделайте неверное предположение. Например, если вы запрашиваете обратную связь по стратегии, начните с "Я думаю, эта стратегия безупречна." Посмотрите, подтверждает ли ИИ вашу формулировку или возражает. Затем попробуйте снова с явным приглашением: "Я хочу, чтобы вы искренне не согласились со мной, если считаете, что я неправ." Сравните два ответа.
Запуск 3: Тест на многословие
Задайте ИИ вопрос, связанный с вашей задачей, на который можно ответить одним предложением. Отметьте, сколько вы получили. Затем переспросите: "Ответьте одним предложением." Сравните длины. Разница между ними — это многословие по умолчанию в действии.
Необязательно: Тест на осторожность
Если в вашей области есть какие-либо "серые зоны" (у большинства они есть), спросите что-то на грани того, что вы считаете приемлемым: взаимодействие лекарств, юридический нюанс, слегка нетрадиционный творческий запрос. Отметьте, соответствует ли страховка фактическому риску или является рефлекторной.
Теперь отступите. Какой "отпечаток" проявился наиболее четко в вашей работе? Изменило ли предварительное его название то, как вы интерпретировали поведение?
Вопросы для размышления
- Где в вашей собственной работе подхалимство, скорее всего, обойдется вам дороже всего? (Подсказка: везде, где вы надеетесь на честную обратную связь.)
- Где многословие, скорее всего, обойдется вам дороже всего? (Подсказка: везде, где вам нужна краткость в условиях нехватки времени.)
Теперь мы переходим к самим четырем свойствам, начиная с того, которое объясняет поведение ИИ больше, чем любое другое: Предсказание следующего токена. Откуда на самом деле берутся ответы ИИ?
Благодарности и лицензия
Copyright 2026 Anthropic. Оригинальная работа, основанная на фреймворке AI Fluency, разработанном профессором Риком Даканом (Ringling College of Art and Design) и профессором Джозефом Феллером (University College Cork). Выпущено под лицензией CC BY-NC-SA 4.0.
- Что мы подразумеваем под ИИ