Представьте: вы запускаете амбициозный ИИ-проект. Для обучения модели нужны нестандартные данные — видео с редкими сценариями, изображения уникальных объектов или аудиозаписи, полученные в особых условиях.
Вы находите подрядчика, утверждаете смету, стартуете. А через пару месяцев выясняется, что нужный объём данных собрать практически невозможно: локации требуют согласований, реквизит обходится неожиданно дорого, а сама съёмка регулярно привлекает внимание служб безопасности и местных органов — просто потому, что процесс изначально не был продуман с точки зрения реального «полевого» исполнения.
Это не абстрактный сценарий и не редкое исключение, а типичная ситуация для проектов, где этап «полевого» сбора данных был недооценён на старте. В этой статье на реальных кейсах разбираем, на что обращать внимание при выборе подрядчика и почему тщательная проработка процесса на раннем этапе напрямую влияет на успех всего ML-проекта.
Почему сбор данных для ML почти всегда сложнее, чем кажется на старте
Когда речь заходит о сборе данных с участием респондентов или поиском объектов в реальном мире, оценка проекта превращается из простого подсчета часов в комплексное исследование. Как мы уже писали в нашей статье о видах сбора данных и их стоимости, цена зависит от множества факторов. Но при «полевом» сборе появляются новые, не всегда очевидные переменные.
Опытный подрядчик выявляет критические переменные ещё до старта проекта. Его задача — не формально принять техническое задание, а провести собственный предварительный анализ: проверить допущения, оценить реализуемость сценариев сбора данных и при необходимости предложить обоснованные корректировки.
Кейсы по сбору данных, которые сделали нас сильнее
Кейс 1: Маски для антифрода, или «дьявол в деталях ТЗ»
К нам обратился клиент с задачей по сбору данных для системы биометрической верификации. Цель — научить модель отличать живого человека от попыток обмана (атак). В техническом задании, среди прочего, была строчка: «Записать видео с использованием синтетических масок для имитации mask-атак».
- Поверхностный подход: неопытный подрядчик мог бы оценить это как покупку обычных карнавальных масок и час работы актера.
- Как поступили мы: слово «синтетические» нас насторожило. Мы провели ресерч и выяснили, что для реалистичного тестирования систем антифрода используются гиперреалистичные силиконовые маски, которые практически неотличимы от человеческого лица. Те самые, что используют в кино.

Появились нюансы:
- Стоимость: одна такая маска стоит от 200 000 рублей.
- Сроки: изготовление оптовой партии из 30 масок занимает около полугода.
Таким образом, одна маленькая строчка в ТЗ превращала проект в дорогостоящее и длительное мероприятие. Мы своевременно сообщили об этом клиенту, и он смог скорректировать свои ожидания и бюджет, избежав простоя и непредвиденных расходов.
Кейс 2: Сбор данных по автомобильным номерам и закон убывающей отдачи
Еще один нестандартный проект в нашей практике. Задача: собрать по 10 000 уникальных фото автомобильных номеров (ГРЗ) в четырех странах: Узбекистане, Таджикистане, Абхазии и Южной Осетии.
- Поверхностный подход: умножить стоимость сбора одного фото на 40 000.
- Как поступили мы: прежде чем составлять смету, мы проанализировали задачу на предмет реальности реализации.

Итоги анализа:
- Узбекистан (~3,05 млн транспортных средств).
Сбор 10 000 уникальных номеров не оказывает заметного влияния на рынок и не требует экстремального охвата. Достаточный автопарк, высокая плотность движения и разнообразие регионов делают задачу реализуемой в разумные сроки и бюджет. - Таджикистан (~500 000 транспортных средств).
Доля требуемых данных существенно выше, чем в Узбекистане. Проект требует более тщательной географии съёмки и контроля дублей, но при правильной организации сбор остаётся возможным. - Абхазия (оценочно 18–25 тыс. транспортных средств).
Запрос на 10 000 уникальных номеров означает необходимость зафиксировать почти половину всего автопарка страны. На практике это приводит к резкому росту стоимости, высокой вероятности повторов и организационным ограничениям. Проект становится экономически нецелесообразным. - Южная Осетия (оценочно 1,8–3 тыс. транспортных средств).
Объём автопарка физически меньше требуемого количества уникальных номеров. Выполнение задачи в заявленном виде невозможно вне зависимости от бюджета и сроков.
Мы также учли закон убывающей отдачи (последнюю тысячи номеров придется «вылавливать», что экспоненциально увеличивает стоимость) и риск дубликатов с уже имеющейся у клиента базой. В итоге мы представили клиенту честный анализ, объяснив, почему его ТЗ нереализуемо, и предложили альтернативные стратегии.
Такой уровень предварительного анализа перед стартом работ — это то, что отделяет профессиональное исполнение задач по сбору данных от авантюры.
Больше подобных разборов и инсайтов из мира данных мы публикуем в нашем Telegram-канале. Подписывайтесь, чтобы быть в курсе!
Кейс 3: Сбор данных "на грани" и юридические риски
Для проекта по детекции оружия нам нужно было собрать видео с людьми, несущими макеты оружия в общественных местах: парках, торговых и бизнес-центрах.
Что могло пойти не так? Всё. И оно пошло. В ходе сбора данных:
- Съёмочную группу регулярно останавливали сотрудники Росгвардии для проверок.
- К процессу съёмки возникали вопросы у прохожих и посетителей — приходилось объяснять, что и зачем мы делаем.
- В некоторых местах по поводу съёмки вызывали полицию, и команде приходилось подтверждать законность работ.
Но проект не провалился. Мы были готовы к этим ситуациям: у команды были на руках необходимые документы, сертификаты, а менеджер проекта был проинструктирован, как вести диалог с правоохранительными органами и гражданами, чтобы быстро и безболезненно разрешать конфликтные ситуации. Подрядчик, который не учитывает такие «негативные сценарии», рискует не просто сорвать сроки, а создать серьезные юридические проблемы и для себя, и для клиента.
Кейс 4: Сбор датасета по имитации драки, или почему айтишники — плохие актеры
Ещё один показательный пример — сбор видеоданных с драками. Первую попытку съёмок команда предприняла своими силами, без привлечения профильных специалистов. В результате сцены выглядели неестественно: движения были наигранными, динамика — далёкой от реальных конфликтов, а часть эпизодов выглядела скорее постановочно. Модель, обученная на таком датасете, не смогла бы корректно работать в реальных условиях.
Как мы решили проблему? Мы нашли профессиональный бойцовский клуб и договорились о сотрудничестве. Спортсмены, обладающие реальным опытом и поставленной техникой, смогли воссоздать десятки реалистичных сценариев. Датасет получился «бомбовским», потому что в нем была настоящая динамика, а не неуклюжая пародия.
Вывод для заказчика: при выборе подрядчика важно оценивать не только его формальный опыт, но и способность собрать команду, релевантную конкретной задаче.
Ключевой вопрос — насколько исполнители соответствуют сценарию сбора данных. Если требуется зафиксировать реальные процессы на строительной площадке, подрядчик должен привлекать людей с практическим строительным опытом, а не случайных участников. Именно подрядчик отвечает за корректный подбор исполнителей и реалистичность сценариев — от этого напрямую зависит качество датасета и работоспособность будущей модели.
Чек-лист по выбору подрядчика для «полевого» сбора
- Проработка деталей. Исполнитель задает вопросы по ТЗ, просчитывает стоимость реквизита, логистики и других «побочных» трат.
- Оценка компетенций. Он не просто нанимает людей с улицы, а подбирает команду, чей опыт релевантен задаче (как в кейсе с бойцами).
- Анализ рисков. Он просчитывает не только логистику, но и юридические, репутационные и социальные риски (как в кейсе с оружием).
- Прозрачность. Он готов показать вам детальный пайплайн работы до подписания договора. Если подрядчик не может внятно объяснить, как он собирается выполнять задачу, он не может гарантировать результат.
- Готовность сказать «нет». Лучший партнер — не тот, кто на все соглашается, а тот, кто честно скажет: «Это невозможно» или «Это будет стоить в пять раз дороже, и вот почему».
Тщательная проработка проекта перед его началом — это не пустая трата времени, а страховка от провала. Выбирая подрядчика, вы выбираете не просто «руки», а экспертизу, аналитический подход и умение решать проблемы на месте.
Нужно собрать специфические данные для вашего проекта? Давайте обсудим вашу задачу. Мы проведем предварительный анализ, оценим все риски и предложим рабочий план, который приведет к результату, а не к разочарованию. Свяжитесь с нами, чтобы начать.
Узнать, как мы работаем с данными | Оставить заявку на сбор данных
