telegram
Александр Иванов
4 Июня 2022
Распознавание

Что такое сбор данных? И почему это важно для обучения моделей искусственного интеллекта?

На пальцах рассказываем об особенностях процесса сбора данных, в чем он заключается и почему действительно так важен для ИИ.

Собирать данные для ИИ - что это значит?

Сбор данных — это первый шаг в процессе создания набора данных для использования в обучении машинному обучению и компьютерному зрению. Качественный сбор данных необходим для успеха в решении поставленной задачи: качество модели ИИ может быть таким же хорошим, как и качество набора данных, на котором она обучена.

Например, предположим, что мы хотим обучить модель ИИ компьютерного зрения распознавать изображения разных пород собак. Для этого нам потребуется собрать надежный набор данных изображений для каждой породы, которую мы хотим распознать. После получения каждое изображение должно быть помечено правильной категорией. Изображениям также может потребоваться постобработка, например обрезка или изменение размера, чтобы подготовить их к использованию в обучении.

При сборе данных мы должны помнить о следующих правилах:

Для достижения наилучших результатов набор данных должен иметь примерно сбалансированную выборку изображений из каждой категории. Например, если мы хотим распознать 10 разных пород собак, изображения каждой породы должны занимать примерно 10% в наборе данных.
Очень важно получить разнообразный образец каждой категории. Например, в компьютерном зрении один и тот же объект может сильно отличаться от изображения к изображению в зависимости от таких факторов, как угол, размер, условия освещения, фон и т. д.
После сбора данных их необходимо разделить на три набора: обучающий набор, валидационный (для проверке на самой моделе) набор и тестовый набор:
Учебный набор используется для первоначального обучения и подгонки модели.
Набор проверки используется для настройки различных частей конфигурации модели (известных как гиперпараметры).
Тестовый набор используется для оценки производительности модели на свежих, невидимых данных, чтобы дать представление о том, как она будет работать в реальном мире.

Данные должны быть случайным образом разделены на каждый из наборов, чтобы обеспечить адекватное представление у ИИ о каждой категории в процессе обучения. Обучающий набор обычно составляет от 60 до 80 % от общего размера набора данных, оставляя 10–20 % для каждого из проверочных и тестовых наборов.

Мы в NeuroCore предоставляем инструменты и оказываем услуги для сбора данных, разметки и обучения ИИ.

Расскажите нам о своём проекте

Отправляя это, вы соглашаетесь с нашей политикой конфиденциальности