Источники данных для обучения

Многие ИИ-компании держат в секрете исходные тексты, на которых тренируются, называемые корпусами тренировки, но типичный пример тренировочных данных в основном состоит из текста, взятого из интернета, книг общественного достояния и исследовательских статей, и различных других бесплатных источников контента, которые исследователи могут найти.


Изучение этих источников в деталях выявляет странные материалы:

Вся база данных электронных писем Enron, закрытой за корпоративное мошенничество, используется как часть тренировочного материала для многих ИИ просто потому, что была сделана свободно доступной

Огромное количество любительских романтических романов включено в тренировочные данные, поскольку интернет полон писателей-любителей

Поиск высококачественного контента для тренировочного материала стал главной темой в разработке ИИ, поскольку жаждущие информации ИИ-компании исчерпывают хорошие, бесплатные источники. Одна оценка предполагает, что высококачественные данные, такие как онлайн-книги и академические статьи, будут исчерпаны к 2026 году.


Правовые и этические вопросы

Вероятно, большинство тренировочных данных ИИ содержит информацию, защищенную авторским правом, такую как книги, используемые без разрешения, случайно или намеренно. Правовые последствия этого пока неясны.

Поскольку данные используются для создания весов, а не непосредственно копируются в системы ИИ, некоторые эксперты считают это выходящим за рамки стандартного закона об авторском праве. В ближайшие годы эти вопросы, вероятно, будут решены судами, но создают облако неопределенности над этой ранней стадией тренировки ИИ.


Проблемы обучения без фильтров

Из-за разнообразия источников данных обучение не всегда хорошо. ИИ может также изучать предрассудки, ошибки и ложь из данных, которые он видит. Сразу после предтренировки ИИ также не обязательно производит результаты, которые люди ожидали бы в ответ на запрос.

Потенциально хуже то, что у него нет этических границ, и он был бы счастлив дать совет о том, как растратить деньги, совершить убийство или преследовать кого-то онлайн. LLM в этом предтренированном режиме просто отражают то, на чем они были тренированы, как зеркало, без применения суждения.


Тонкая настройка и человеческая обратная связь

После изучения всех текстовых примеров в предтренировке многие LLM проходят дальнейшее улучшение во второй стадии, называемой тонкой настройкой (fine-tuning).

Один важный подход к тонкой настройке – привлечение людей в процесс, который ранее был в основном автоматизированным. ИИ-компании нанимают работников – некоторых высокооплачиваемых экспертов, других низкооплачиваемых контрактных работников в англоговорящих странах, таких как Кения – читать ответы ИИ и оценивать их по различным характеристикам.

В некоторых случаях это может быть оценка результатов на точность, в других – отсеивание жестоких или порнографических ответов. Эта обратная связь затем используется для дополнительной тренировки, тонкой настройки производительности ИИ в соответствии с предпочтениями человека.

Этот процесс называется Обучение с подкреплением на основе человеческой обратной связи (Reinforcement Learning from Human Feedback, RLHF), обеспечивающее дополнительное обучение, которое усиливает хорошие ответы и сокращает плохие.


Мультимодальные возможности

LLM учатся работать с изображениями, получая способность как «видеть», так и создавать картинки. Эти мультимодальные LLM объединяют силы языковых моделей и генераторов изображений.