Обучающие данные — это набор примеров, которые модель машинного обучения изучает, чтобы освоить определённую задачу. Каждый пример обычно сочетает входные данные с ожидаемым результатом: например, электронное письмо с меткой «спам» или «не спам», предложение с указанием его языка или изображение с объектом, который на нём изображён. Во время обучения модель корректирует свои внутренние параметры, чтобы её предсказания соответствовали закономерностям в данных, — именно набор данных во многом определяет, чему модель научится (а чему нет).
Как работают обучающие данные
В обучении с учителем — самом распространённом подходе — каждый пример сопровождается правильным ответом. Например, набор отзывов о товарах может быть размечен как «положительный» или «отрицательный», и модель учится сопоставлять новые отзывы с этими категориями, находя статистические закономерности, которые их различают. Данные разделяются на обучающую выборку, используемую для настройки модели, валидационную — для её тонкой настройки, и отложенную тестовую — для оценки того, насколько хорошо модель справится с примерами, которые она раньше не видела.
Другие парадигмы опираются на иные форматы данных. Обучение без учителя использует необработанные входные данные без меток, часто для выявления структуры — например, кластеров или тем. Самообучение формирует метки из самих данных — именно так большинство крупных языковых моделей проходит предварительное обучение на огромных текстовых корпусах. Масштаб, сбалансированность и репрезентативность набора данных напрямую влияют на то, к чему модель сможет обобщать.
Почему это важно
Обучающие данные — главный фактор, определяющий поведение модели, зачастую важнее выбора алгоритма. Если данные предвзяты, скудны или нерепрезентативны, модель воспроизведёт — а иногда и усилит — эти недостатки. Вопросы конфиденциальности, авторского права и согласия также относятся к уровню данных, поскольку модель может запомнить и воспроизвести конфиденциальные фрагменты из обучающей выборки. По этим причинам курирование данных, их документация и оценка стали неотъемлемой частью ответственной разработки ИИ.
Основные типы обучающих данных
- Размеченные данные — каждый пример снабжён аннотацией, созданной человеком или сгенерированной машиной; используются для задач обучения с учителем, таких как классификация и обнаружение объектов.
- Незмеченные данные — необработанные входные данные без аннотаций; используются для обучения без учителя и самообучения.
- Синтетические данные — примеры, сгенерированные симуляторами или другими моделями; полезны, когда реальных данных мало или они чувствительны.
- Инструкционные и предпочтительные данные — подсказки в паре с идеальными ответами или пары выходных данных, ранжированные по качеству; используются для согласования моделей с намерениями человека.
- Оценочные бенчмарки — курируемые тестовые наборы для измерения возможностей модели; они не используются для настройки её параметров.
Для более глубокого изучения вопросов построения наборов данных и их влияния полезными отправными точками станут глава «Data Quality» из книги Data-Centric AI и таблицы лидеров Papers with Code.