Когда речь заходит о разметке данных, экономика более-менее ясна: она строится вокруг производительности разметчика, измеряемой в KPI (количестве аннотаций в час). Но как оценить задачу, где стандартный тест не провести? Сбор данных для ML — это terra incognita для многих заказчиков, где цена не всегда очевидна, а подводные камни могут с легкостью потопить ваш бюджет.
В NeuroCore мы убеждены, что даже в такой сложной области, как сбор данных, должна быть прозрачность. Давайте разберем основные виды сбора и покажем, как формируется их стоимость на самом деле.
Вид 1: Парсинг (сбор данных из открытых источников)
Суть задачи: найти и скачать из интернета изображения или видео по заданным критериям.
Казалось бы, все просто. Но главная ошибка здесь — оценивать задачу по объему источника. Если вы нашли сайт с миллионом фотографий кошек, это не значит, что вы получите миллион фотографий для вашего датасета.
Как мы в NeuroCore подходим к оценке:
- Анализ источника: находим потенциальные источники (сайты, форумы, соцсети) и оцениваем их общий объем.
- Вычисление «коэффициента брака» — ключевой этап. Мы берем ваше ТЗ и начинаем отсеивать все, что не подходит.
Пример: вам нужен датасет из 10 000 фото лиц с дефектом коже в виде акне. Мы находим источник, где есть 20 000 таких фото. Но в вашем техническом задании указано: «разрешение не ниже Full HD, фото лица без очков и перекрытий волосами проблемных зон на коже». Мы анализируем выборку и выясняем, что 50% изображений не соответствуют этим критериям. Итого: из 20 000 исходных фото мы получаем только 10 000 целевых. Вот этот «чистый» объем и является основой для оценки.
Факторы, влияющие на цену данных:
- Доступность источника: чем сложнее, уникальнее и недоступнее источник, тем выше цена. Сбор общедоступных фото лиц не может стоить столько же, сколько поиск редких медицинских снимков из закрытых баз.
- Сложность ТЗ: Чем больше у вас строгих критериев (разрешение, ракурс, освещение, отсутствие посторонних объектов), тем выше будет «коэффициент брака» и, соответственно, стоимость каждого целевого изображения.
- Итоговая цена при парсинге зависит не от того, сколько данных мы скачаем, а от того, сколько полезных данных мы сможем найти и отфильтровать для вас.

Вид 2: Генерация, съемка (создание данных с нуля)
Суть задачи: организовать и провести съемку фото или видео по вашему сценарию.
Здесь экономика строится не на поиске, а на производстве. Ключевые переменные — время и люди.
Как мы в NeuroCore подходим к оценке:
- Определение KPI: на пилотном проекте мы замеряем, сколько единиц контента (например, видео) команда может произвести за один час.
- Расчет часовой ставки команды: суммируем ставки всех участников, задействованных в процессе (актеры, операторы, координаторы).
- Формирование цены за единицу: делим общую часовую ставку команды на часовую производительность (KPI).
Разберем реальный пример:
Нам заказали 100 видеороликов с имитацией драк. Задача делилась на 3 класса драк (по количеству участников): 1х1, 3х1, 3х3. В ходе тестов мы выяснили, что скорость съемки составляет 6,5 видео в час.

Рассчитаем стоимость для самого простого класса — «Драка 1 на 1»:
- Команда: 2 актера + 1 оператор = 3 человека.
- Часовая ставка: допустим, каждый специалист стоит 600 рублей/час. Итого, общая ставка команды — 1800 рублей в час.
- Стоимость 1 видео: делим общую ставку на производительность: 1800 руб. / 6,5 видео = ~277 рублей за одно видео.
- Стоимость партии: если вам нужно 33 таких видео, цена составит: ~277 * 33 = 9 138 рублей.
Цена на классы «3 на 1» и «3 на 3» будет выше, так как потребует больше актеров и увеличит общую часовую ставку команды.
Факторы, влияющие на цену:
- Логистика: аренда локаций, реквизит, транспорт — все это закладывается в стоимость.
- Сложность сценария: чем сложнее требования к постановке, тем ниже будет часовая производительность и выше цена за единицу.
Главный совет заказчику датасета
Сбор данных — сложный процесс с множеством переменных. Если вы сомневаетесь в оценке, которую вам предоставили, или видите в коммерческом предложении «воду» вместо расчетов — задавайте прямые вопросы:
«Как вы рассчитывали процент брака для сбора?»
«Какую производительность в час вы закладываете для создания данных?»
«Что входит в часовую ставку команды?»
Опытный и честный подрядчик всегда сможет обосновать свою оценку, укажет на потенциальные риски и даже скажет, если задачу выполнить невозможно. С профессионалами вы можете быть уверены, что за вас все спросят, уточнят и посвятят во все сложности процесса.
Читайте другие статьи из нашей серии:
- Как правильно составить ТЗ на разметку, чтобы вас поняли с первого раза
- Разметка данных: купить, собрать своими силами или отдать на аутсорс?
- Как оценить стоимость датасета и избежать ошибок: пошаговое руководство для заказчика
Хотите больше инсайдов из мира данных? Подписывайтесь на наш Телеграм-канал!
Нужен уникальный датасет?
Доверьте сбор данных команде, которая подходит к оценке прозрачно и профессионально.
[Получите бесплатную консультацию и расчет стоимости вашего проекта]
