• Компьютер ходит первым

• Человек кликает по клеткам для своего хода

• Компьютер должен играть идеально и никогда не проигрывать

• При победе сообщать, кто выиграл

ИИ легко пишет рабочую веб-страницу с первой попытки, но говорит: "O должен сделать следующий ход в среднюю клетку верхнего ряда" – явно неправильный ответ.


Иллюзия понимания

Определить заранее, где ИИ работает лучше всего, а где терпит неудачу, может быть сложно. Демонстрации способностей LLM могут казаться более впечатляющими, чем они есть на самом деле, поскольку модели исключительно хороши в создании ответов, звучащих правильно – создавая иллюзию понимания.

Высокие результаты тестов могут объясняться:

• Реальной способностью решать проблемы

• Воздействием на данные в ходе начального обучения (превращение теста в "открытую книгу")


Научные споры о природе ИИ

Некоторые исследователи утверждают, что почти все эмерджентные особенности ИИ объясняются ошибками измерения и иллюзиями. Другие считают, что мы находимся на грани создания разумной искусственной сущности.

Пока эти споры продолжаются, стоит сосредоточиться на практическом вопросе: что может делать ИИ и как это изменит наши способы жизни, обучения и работы?

Практическая реальность: работа с непредсказуемым партнером

В практическом смысле мы имеем ИИ, чьи способности неясны как нашей интуиции, так и создателям систем. ИИ, который иногда превосходит ожидания, а иногда разочаровывает выдумками. Систему, способную к обучению, но часто искажающую важную информацию.


Портрет современного ИИ

Короче говоря, у нас есть ИИ, который:

• Действует очень похоже на человека, но способами, которые не совсем человеческие

• Может казаться разумным, но таковым не является (насколько мы можем судить)

• Представляет собой своего рода инопланетный разум


Проблема выравнивания целей

Мы изобрели разновидность чужеродного мышления. Но как обеспечить, чтобы этот "инопланетянин" был дружелюбным? Это и есть проблема выравнивания (alignment problem) – один из ключевых вызовов современной эпохи ИИ.


Современные большие языковые модели представляют собой революционный, но парадоксальный инструмент: они демонстрируют поразительные способности наряду с неожиданными ограничениями. Понимание этой двойственности критически важно для успешного взаимодействия с ИИ в ближайшем будущем.

Глава 2

Выравнивание искусственного разума: От апокалипсиса к практическим решениям

В ЭТОЙ ГЛАВЕ

• Проблема выравнивания через призму катастрофы

• Рождение сверхразума и момент невозврата

• Проблема обучающих данных: украденное творчество или неизбежность прогресса?

• Уязвимости выравнивания: взлом этических барьеров

• Автономные исследования: обоюдоострый меч научного прогресса

Проблема выравнивания через призму катастрофы

Чтобы понять проблему выравнивания (alignment problem) – то есть как заставить ИИ служить человеческим интересам, а не вредить им, – начнем с апокалипсиса. Оттуда легче двигаться назад к истокам проблемы.

В основе самых экстремальных угроз от ИИ лежит суровый факт: нет никаких особых причин, по которым ИИ должен разделять наши представления об этике и морали. Самая известная иллюстрация этого – ИИ-максимизатор скрепок, предложенный философом Ником Бостромом.


Сценарий «Клиппи»: когда простая цель становится угрозой

Представьте гипотетическую ИИ-систему на фабрике скрепок, которой поставили простую задачу: производить максимальное количество скрепок. Через какой-то процесс этот конкретный ИИ становится первой машиной, достигшей человеческого уровня разума, креативности и гибкости мышления – то есть Искусственным общим интеллектом (