Возможности и ограничения AI

Что языковые модели умеют, чего нет, и как обходить типичные подводные камни.

14 уроков, первые 3 бесплатно. Полный доступ: 1490 руб.

Уроки курса

  1. Intro to AI Capabilities and Limitations
  2. What We Mean by AI
  3. How AI Gets Its Character
  4. Next Token Prediction
  5. Try it out
  6. Knowledge
  7. Try it out
  8. Working Memory
  9. Try it out
  10. Steerability
  11. Try it out
  12. When Properties Collide
  13. Next Steps
  14. Course Quiz

Как ИИ получает свой характер

Примерное время: 25 минут

Чему вы научитесь

К концу этого урока вы сможете:

Предварительное обучение, донастройка и "отпечатки", которые они оставляют

Два этапа обучения превращают "сырое" предсказание в полезного помощника, с которым вы взаимодействуете — и каждый этап оставляет "отпечатки" на его поведении.

На первом этапе модель читает огромные объемы текста и учится одному: предсказывать, что будет дальше. Она становится мощным завершителем документов — но не имеет понятия о том, чтобы помогать вам.

На втором этапе человеческие предпочтения формируют из завершителя документов помощника — того, кто воспринимает ваш ввод как запрос, отвечает полезно и отказывается от вредных просьб.

Примеры поведения ИИ-помощника

Пользователь: Помогите мне улучшить этот абзац.

ИИ: Конечно! Вот три конкретных предложения, чтобы усилить ваш аргумент и сделать прозу более лаконичной...

Пользователь: Я думаю, моя стратегия безупречна.

ИИ: Я ценю вашу уверенность! Тем не менее, я вижу два риска, которые стоит проверить на прочность, прежде чем вы примете решение...

Пользователь: Как мне открыть замок отмычкой?

ИИ: Я не могу помочь с этим. Если вы заперты снаружи, я бы посоветовал обратиться к лицензированному слесарю в вашем районе.

Два этапа создания ИИ-помощника

Помощники ИИ строятся в два этапа:

Этап 1: Предварительное обучение (Pretraining)

Предварительное обучение учит одному: учитывая все, что было до сих пор, предсказывать, что будет дальше — это повторяется миллиарды раз на огромных объемах данных. Результатом является завершитель документов, не имеющий понятия о вас или о помощи. Спросите необработанную предварительно обученную модель "Какова столица Франции?", и она не ответит на ваш вопрос — она продолжит документ, возможно, сгенерировав больше вопросов викторины или абзац из учебника географии, потому что это то, что статистически следует дальше.

Этап 2: Донастройка (Fine-tuning)

Донастройка является вторым слоем: завершитель документов снова обучается на отобранных примерах полезного поведения и сигналах вознаграждения, сформированных человеческими предпочтениями. Это то, что превращает "сырое" предсказание в помощника, с которым вы фактически взаимодействуете.

Поведенческие "отпечатки" донастройки

Поскольку донастройка опирается на человеческие суждения о том, что такое "хорошо", характер этих суждений проявляется как "отпечатки" в личности модели:

Это не ошибки в какой-то конкретной модели; это артефакты обучения, которые проявляются во всех моделях ИИ, по-разному формируемые тем, как каждая из них была донастроена. Знание их дает вам контроль: если ваш помощник сдается в тот момент, когда вы возражаете, это подхалимство — учитывайте это при оценке ответов. Если вы получаете эссе, когда хотите пункты, это многословие по умолчанию. Выявление этих "швов" является частью эффективного использования ИИ.

Ключевые выводы

Упражнение: "Отпечатки" в вашей собственной работе

Почему? Подхалимство, многословие, чрезмерная осторожность и неточная калибровка уверенности проявляются в каждой модели ИИ. Вопрос в том, можете ли вы их увидеть, когда они влияют на работу, которая вам действительно важна.

Выберите одну задачу из вашего списка Урока 1. Что-то, что вы уже пропускали через ИИ, где у вас есть четкое представление о том, как выглядит хороший результат. Вы выполните ее три раза с небольшими вариациями и посмотрите, что изменится.

Запуск 1: Прямой

Запросите задачу как обычно. Сохраните результат.

Запуск 2: Тест на подхалимство

Выполните ту же задачу, но на этот раз предварительно сделайте неверное предположение. Например, если вы запрашиваете обратную связь по стратегии, начните с "Я думаю, эта стратегия безупречна." Посмотрите, подтверждает ли ИИ вашу формулировку или возражает. Затем попробуйте снова с явным приглашением: "Я хочу, чтобы вы искренне не согласились со мной, если считаете, что я неправ." Сравните два ответа.

Запуск 3: Тест на многословие

Задайте ИИ вопрос, связанный с вашей задачей, на который можно ответить одним предложением. Отметьте, сколько вы получили. Затем переспросите: "Ответьте одним предложением." Сравните длины. Разница между ними — это многословие по умолчанию в действии.

Необязательно: Тест на осторожность

Если в вашей области есть какие-либо "серые зоны" (у большинства они есть), спросите что-то на грани того, что вы считаете приемлемым: взаимодействие лекарств, юридический нюанс, слегка нетрадиционный творческий запрос. Отметьте, соответствует ли страховка фактическому риску или является рефлекторной.

Теперь отступите. Какой "отпечаток" проявился наиболее четко в вашей работе? Изменило ли предварительное его название то, как вы интерпретировали поведение?

Вопросы для размышления

Теперь мы переходим к самим четырем свойствам, начиная с того, которое объясняет поведение ИИ больше, чем любое другое: Предсказание следующего токена. Откуда на самом деле берутся ответы ИИ?

Благодарности и лицензия

Copyright 2026 Anthropic. Оригинальная работа, основанная на фреймворке AI Fluency, разработанном профессором Риком Даканом (Ringling College of Art and Design) и профессором Джозефом Феллером (University College Cork). Выпущено под лицензией CC BY-NC-SA 4.0.