Segment Anything Model без иллюзий: почему авторазметка работает не всегда

В области машинного обучения регулярно появляются новые универсальные модели, претендующие на роль «стандарта по умолчанию». Одной из таких технологий стала Segment Anything Model (SAM) и её производные — модели, способные автоматически сегментировать объекты на изображениях с минимальным пользовательским вводом.

Появление таких решений сформировало завышенные ожидания: создаётся впечатление, что классическая ручная разметка вскоре утратит актуальность, а подготовка датасетов сведётся к запуску универсальной модели поверх исходных данных. На практике же эффективность такого подхода сильно зависит от типа задачи, структуры объектов и требований к качеству разметки.

В нашей прошлой статье про разметку видео с трекингом (Multi-Object Tracking) мы уже касались темы предразметки. Давайте вспомним два ключевых сценария:

Сценарий 1: Клиент предоставляет свою предразметку
Вы уже использовали свою модель для детекции объектов и теперь вам нужно, чтобы живые люди исправили ошибки: поправили кривые боксы, удалили ложные срабатывания и, например, выстроили правильные треки между объектами.
Стоимость: Оценивается как работа по верификации и исправлению. Это дешевле, чем разметка с нуля, но итоговая цена сильно зависит от качества вашей модели. Если ошибок много, экономия может оказаться мнимой.

Сценарий 2: Мы делаем предразметку своими силами
У вас есть только "сырое" видео, но вы хотите ускорить процесс за счет наших технологий.
Стоимость: Оценивается как комплексная услуга, включающая в себя затраты на ML-разработку. Это дороже, чем просто исправление, но может дать более качественный результат на старте и, как следствие, сэкономить время на ручной доработке.

Основной вопрос остается прежним: не окажется ли стоимость (предразметка + исправление) выше, чем стоимость классической ручной разметки?

С появлением мощных моделей вроде SAM этот вопрос стал еще острее. Давайте на реальных кейсах разберемся, где проходит та самая черта, за которой авторазметка из помощника превращается во вредителя.

Когда авторазметка — зло? Кейс с кустами

Рассмотрим практическую задачу. Для проекта беспилотного транспорта требовалось разметить сотни снимков агропромышленной территории. На каждом изображении — десятки, а иногда и сотни кустарников, и каждый объект должен быть размечен отдельным полигоном с высокой точностью.

Ожидание со стороны заказчика выглядело логично:

«У вас есть SAM — давайте используем авторазметку, а затем разметчики лишь немного скорректируют результат. Это должно быть быстрее и заметно дешевле ручной работы».

Мы протестировали этот подход на реальных данных — и столкнулись с типичными ограничениями универсальной авторазметки.

Во-первых, возникла проблема с разделением объектов. Ветви и кроны кустов на снимках часто переплетались, границы объектов были размыты. Модель не могла корректно отделить один куст от другого и объединяла несколько объектов в один крупный полигон, непригодный для обучения модели беспилотника
Во-вторых, качество масок оказалось нестабильным. Вместо аккуратных контуров авторазметка генерировала большое количество пересекающихся и избыточных сегментов. В результате разметчику приходилось не исправлять результат модели, а полностью удалять автоматическую разметку и выполнять работу заново вручную.
Наконец, экономика процесса оказалась отрицательной. Время, затраченное на очистку и переразметку данных после авторазметки, превысило время классической ручной разметки. Ожидаемая экономия трансформировалась в дополнительные затраты.

Важно подчеркнуть: заказчик настаивал на использовании авторазметки, но не располагал моделью, способной адекватно работать с такими данными. Причина здесь не в конкретной реализации SAM, а в самой природе задачи — она требует контекстного понимания структуры объектов и их взаимного расположения, с чем современные универсальные модели сегментации пока справляются плохо.

Когда авторазметка — зло.jpg

Инсайт №1: Авторазметка бесполезна (и даже вредна), если ваши объекты:

Сильно перекрывают друг друга.
Имеют нечеткие, сливающиеся с фоном или друг с другом границы.
Требуют экспертного знания для их разделения (например, отличить один вид растения от другого по едва заметным признакам).

Когда авторазметка — добро: кейс с камнями и умным подходом

Другой проект был принципиально иным по своей природе. Требовалось разметить тысячи изображений с камнями, где каждый объект нужно было выделить отдельным bounding box. С точки зрения структуры данных задача выглядела почти идеальной для автоматизации: объекты дискретные, хорошо отделены от фона, с относительно стабильной формой.

Первая итерация, однако, показала типичную проблему неконтролируемой предразметки. Заказчик предоставил данные, размеченные его базовой моделью детекции. При первичном анализе стало очевидно, что качество такой предразметки создает больше проблем, чем пользы:

модель нередко ставила по два–три бокса на один и тот же камень;
пропускала объекты нестандартной формы;
генерировала ложные срабатывания в местах, где камней не было вовсе.

В результате значительная часть времени команды уходила не на собственно разметку, а на очистку датасета от ошибок модели. На этом этапе проект выглядел как очередной пример того, как авторазметка не оправдывает ожиданий.

Ключевой перелом произошел при переходе к итеративному процессу с участием человека — подходу human-in-the-loop. Заказчик начал системно дообучать свою модель на данных, которые мы вручную исправляли.

Процесс выстроился следующим образом. Мы брали первую, наиболее «шумную» партию данных, очищали её и передавали заказчику корректный датасет. На его основе модель дообучалась. Следующая партия «сырых» изображений уже проходила предразметку обновленной версией модели — и качество результатов заметно росло. Ошибок становилось меньше, скорость верификации увеличивалась, а исправленные данные снова использовались для следующего цикла обучения.

Так сформировался устойчивый контур human-in-the-loop, в котором человек и модель усиливали друг друга. Авторазметка перестала быть источником шума и превратилась в рабочий инструмент, эффективность которого росла с каждой итерацией.

Инсайт №2: Авторазметка эффективна, если:

Объекты четкие, с хорошо различимыми границами (как камни).
Вы готовы выстроить итеративный процесс (human-in-the-loop), дообучая модель на исправленных человеком данных.

Объемы данных достаточно велики, чтобы оправдать первоначальные затраты на настройку этого цикла.

Так что же, SAM — это просто хайп?

Нет. SAM и подобные модели — это фантастический технологический скачок. Они невероятно ускоряют разметку в правильных руках и на правильных задачах. Они могут быть частью пайплайна по трекингу объектов на видео или частью умного инструмента для разметчика, но они не являются универсальным решением.

Важно помнить, что генерация данных (как в кейсе с ямами на дорогах, где мы генерировали синтетику для увеличения выборки) и автоматическая разметка — это разные вещи. В первом случае мы создаем новые данные, во втором — пытаемся аннотировать существующие.

Вывод для заказчика прост: не поддавайтесь на хайп. Вместо того чтобы требовать от подрядчика «использовать SAM», задайте ему другой вопрос: «Какой самый эффективный и экономически выгодный способ разметить мои конкретные данные?»

Опытный подрядчик, как и мы, всегда начнет с анализа вашей задачи, проведет тесты на небольшом объеме данных и честно скажет, где авторазметка сэкономит вам деньги, а где ручной труд опытного разметчика будет и быстрее, и дешевле.

Есть сложная задача по разметке данных и вы не знаете, с какой стороны к ней подойти?

Оставьте заявку в форме ниже. Мы проведем пилотный проект, протестируем разные подходы и предложим пайплайн, который действительно работает.