Они используют архитектуры трансформеров для обработки текста, но также применяют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать понимание визуального мира вокруг них.

Современный пример: Дайте мультимодальному LLM ужасно нарисованную от руки картинку самолета, окруженного сердечками, и он скажет: «Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть любимый человек, который пилот. Или, может быть, вы просто любите путешествовать и исследовать новые места».

Затем он может использовать свои гораздо лучшие навыки рисования, чтобы предоставить еще лучшую версию картинки. Большинство крупных LLM получают мультимодальные возможности, что позволит им изучать мир новыми и непредсказуемыми способами.


Резюме: революция в понимании языка

Переход от ранних предсказательных систем к современным LLM представляет фундаментальный сдвиг в искусственном интеллекте. Трансформеры и механизм внимания позволили машинам понимать контекст и генерировать связные тексты способом, который казался невозможным еще несколько лет назад.

Современные языковые модели – это не просто улучшенные калькуляторы или системы поиска. Они представляют собой качественно новый тип интеллекта, способный к творчеству, анализу и взаимодействию на уровне, приближающемся к человеческому. И это только начало их эволюции.



Страшно? Умно? Страшно-умно?

Когда новые методы машинного обучения стали доступны широкому кругу разработчиков, множество крупных корпораций и стартапов бросились создавать большие языковые модели (Large Language Models, LLMs). Первые модели разрабатывали исследователи из Google, но вскоре к ним присоединились небольшие стартапы. Интересно, что некоторые из них основали авторы знаменитой статьи о трансформерах (Transformers), покинувшие Google ради собственных проектов.

Ранние LLM создавали текст, который был интересен с технической точки зрения, но совершенно не убеждал качеством. Возьмем GPT-3, выпущенную OpenAI в 2021 году. Попросите её написать лимерик, и получите что-то вроде:

Жил-был ИИ по имени Чарли
Он был настоящим чудом
Вычислял и выводил
И никогда не ошибался
Пока однажды не начал сбоить

Это ужасно во всех отношениях: не рифмуется, лишено изюминки и невероятно скучно. Однако развитие LLM продолжалось, и в конце 2022 года OpenAI выпустила ChatGPT на базе улучшенной модели GPT-3.5.

И тут произошло нечто удивительное. При достижении определенного масштаба ChatGPT начал демонстрировать способности, которые никто не программировал и не ожидал. Эмерджентные свойства (emergent abilities) – так называют эти неожиданные таланты, делающие ИИ похожим на человека.

Результат впечатляет: ИИ научился писать рассказы, стихи, эссе, твиты и даже код. Более того, он стал показывать результаты, близкие к человеческому уровню, в стандартных тестах и экзаменах.

Но главная проверка ИИ – это, конечно, лимерики:

Жила-была технология ИИ,
Чей интеллект был весьма высок,
Она училась и росла,
И знала, что делать,
Но все же не могла рассмешить, если честно.

Намного лучше и даже немного смешно! Правда, последняя строчка слегка нарушает схему рифмовки. К счастью, новая особенность ChatGPT – возможность диалога. Можно пожаловаться на рифму, и система исправит ошибку:

Извините! Вот исправленный лимерик:

Жила-была технология ИИ,
Чей интеллект был весьма высок,
Она училась и росла,
И знала, что делать,
Но все же не могла нас до слез довести.