Что такое обучающие данные?

Обучающие данные — это примеры, на которых учится модель машинного обучения. Узнайте, что считается обучающими данными, как они формируют поведение модели и почему важно их качество.

Обучающие данные — это набор примеров, которые модель машинного обучения изучает, чтобы освоить определённую задачу. Каждый пример обычно сочетает входные данные с ожидаемым результатом: например, электронное письмо с меткой «спам» или «не спам», предложение с указанием его языка или изображение с объектом, который на нём изображён. Во время обучения модель корректирует свои внутренние параметры, чтобы её предсказания соответствовали закономерностям в данных, — именно набор данных во многом определяет, чему модель научится (а чему нет).

Как работают обучающие данные

В обучении с учителем — самом распространённом подходе — каждый пример сопровождается правильным ответом. Например, набор отзывов о товарах может быть размечен как «положительный» или «отрицательный», и модель учится сопоставлять новые отзывы с этими категориями, находя статистические закономерности, которые их различают. Данные разделяются на обучающую выборку, используемую для настройки модели, валидационную — для её тонкой настройки, и отложенную тестовую — для оценки того, насколько хорошо модель справится с примерами, которые она раньше не видела.

Другие парадигмы опираются на иные форматы данных. Обучение без учителя использует необработанные входные данные без меток, часто для выявления структуры — например, кластеров или тем. Самообучение формирует метки из самих данных — именно так большинство крупных языковых моделей проходит предварительное обучение на огромных текстовых корпусах. Масштаб, сбалансированность и репрезентативность набора данных напрямую влияют на то, к чему модель сможет обобщать.

Почему это важно

Обучающие данные — главный фактор, определяющий поведение модели, зачастую важнее выбора алгоритма. Если данные предвзяты, скудны или нерепрезентативны, модель воспроизведёт — а иногда и усилит — эти недостатки. Вопросы конфиденциальности, авторского права и согласия также относятся к уровню данных, поскольку модель может запомнить и воспроизвести конфиденциальные фрагменты из обучающей выборки. По этим причинам курирование данных, их документация и оценка стали неотъемлемой частью ответственной разработки ИИ.

Основные типы обучающих данных

  • Размеченные данные — каждый пример снабжён аннотацией, созданной человеком или сгенерированной машиной; используются для задач обучения с учителем, таких как классификация и обнаружение объектов.
  • Незмеченные данные — необработанные входные данные без аннотаций; используются для обучения без учителя и самообучения.
  • Синтетические данные — примеры, сгенерированные симуляторами или другими моделями; полезны, когда реальных данных мало или они чувствительны.
  • Инструкционные и предпочтительные данные — подсказки в паре с идеальными ответами или пары выходных данных, ранжированные по качеству; используются для согласования моделей с намерениями человека.
  • Оценочные бенчмарки — курируемые тестовые наборы для измерения возможностей модели; они не используются для настройки её параметров.

Для более глубокого изучения вопросов построения наборов данных и их влияния полезными отправными точками станут глава «Data Quality» из книги Data-Centric AI и таблицы лидеров Papers with Code.

Вам также может понравиться

Похожие статьи

Что такое синтетические данные?

Синтетические данные — это сгенерированная алгоритмами информация, которая отражает статистические закономерности реальных данных, не раскрывая реальных записей. Узнайте, как они создаются и почему это важно.

Читать далее →

Что такое переобучение?

Переобучение происходит, когда модель машинного обучения запоминает обучающие данные вместо того, чтобы выявлять обобщаемые закономерности, что ухудшает её работу на новых данных.

Читать далее →

Что такое инференс в ИИ? | Глоссарий HyperStore

Инференс в ИИ — это процесс запуска обученной модели на новых входных данных для получения результата, например предсказания, классификации или сгенерированного текста. Это этап развёртывания, на котором модель применяет знания, полученные во время обучения, к реальным данным.

Читать далее →