Сборбиометрическихданныхдлябанка:реальныйкейс,реальныевызовыирешения

Реальный кейс сбора биометрических данных для банков: от антиспуфинга и сложного ТЗ до проблем с программным обеспечением, рекрутингом и пайплайном съёмки.

сбор биометрии для банковской сферы кейс.jpg

В мире, где цифровая безопасность становится всё более хрупкой, технологии биометрической аутентификации выходят на передний план. Однако для их корректной работы требуются огромные массивы качественных данных.

В этой статье разбираем практический кейс по сбору биометрических данных для банковского IT-интегратора и показываем, как выстраиваются такие проекты на практике.

Цель проекта: собрать датасет видео для обучения и тестирования нейросети, предназначенной для борьбы со спуфингом. 

Спуфинг (от англ. spoofing — «подмена») — это тип атаки, при которой мошенник пытается выдать себя за другого человека, например, показывая камере фотографию или видео вместо живого лица, чтобы обмануть систему аутентификации.

Невероятно комплексное ТЗ и первый взгляд на задачу

После изучения технического задания стало ясно: проект будет настоящим вызовом. Клиент разработал собственное веб-приложение для сбора данных, а от нас требовалось организовать съемку респондентов с учетом множества строгих критериев.

Исходные требования к сбору данных:

  • Длительность сессии: съемка одного человека занимала от 5 до 8 часов.
  • Методология: каждый участник проходил через 18 различных сценариев съемки.
  • Разнообразие устройств: мы использовали десятки смартфонов, ноутбуков и веб-камер разных производителей, моделей и операционных систем.
  • Инклюзивность датасета: требовалось строгое соблюдение гендерного (50/50), расового и возрастного разнообразия.
  • Метаданные: для каждой записи мы фиксировали возраст, расу, модель устройства, ОС, версию браузера и другие параметры.

как мы собирали датасет биометрия для банка.jpg
Мы провели пилотные тесты, согласовали бюджет и параметры проекта. После паузы, связанной с внутренними процессами заказчика, работы были возобновлены в конце ноября. На этом этапе проект перешёл из стадии планирования в активную фазу, где ряд проектных рисков проявился уже в ходе реальной эксплуатации.

Вызовы и решения: как мы адаптировались к реальности

Проекты такого масштаба редко идут строго по плану. Ниже мы делимся ключевыми вызовами и нашими методами их решения.

1. Нестабильное ПО заказчика и брак оборудования

Согласно ТЗ, сбор данных должен был вестись через веб-интерфейс заказчика. На этапе предварительных тестов система работала корректно, однако в рабочем контуре — при использовании большого количества устройств, браузеров и операционных систем — поведение ПО стало нестабильным.

Съемочная команда регулярно сталкивалась с ложными срабатываниями, например сообщениями вида «обнаружено не живое лицо» при корректном выполнении сценария респондентом. Это приводило к остановке сессий, повторным прогонам и прямым потерям времени. Дополнительно в ходе проекта заказчик инициировал включение в датасет новой модели смартфона, что потребовало оперативной адаптации процесса.

Решение.
Если сбор данных критически зависит от программного обеспечения или оборудования на стороне заказчика, эти риски необходимо учитывать на этапе планирования. Мы рекомендуем заранее фиксировать ответственность сторон и допущения по стабильности клиентского ПО в договоре, а также закладывать временные и ресурсные резервы.

Чем больше устройств, браузеров и операционных систем участвует в проекте, тем выше вероятность нестабильной работы ПО. Поэтому перед стартом важно тестировать решение на максимально широком и близком к реальности наборе конфигураций и заранее быть готовыми к корректировкам в процессе сбора данных.

2. Смена пайплайна и отказ от «идеального» плана

Изначально мы разработали, как нам казалось, идеальный пайплайн: передвижная съемочная станция на базе автомобиля. Это давало бы мобильность, разнообразие локаций и независимость от графика респондентов. Но суровая реальность внесла коррективы. 

Проанализировав затраты, мы учли:

  • Ноябрь — месяц дождей и грязи.
  • Высокая стоимость оборудования (около 1 млн. рублей), за которое мы несли ответственность.
  • Риск потратить большую часть времени на дорогу, а не на съемки.
  • Непредсказуемая явка респондентов.
  • Сложность удержания человека в машине на 5-8 часов.

Стало очевидно, что план с автомобилем нерентабелен и слишком рискован. В итоге мы арендовали офис, где и провели весь проект.

Решение: для сложных сборов данных всегда разрабатывайте несколько пайплайнов — основной и резервный. Идея с авто была хороша как способ ускорить процесс, но офисный вариант оказался более надежным и предсказуемым. Гибкость и готовность отказаться от первоначальной красивой идеи в пользу прагматичного решения — ключ к успеху.

3. Поиск людей и магия «сарафанного радио»

Задача заказчика: обеспечить разнообразие по полу, расе и возрасту — оказалась самой сложной. С европеоидной расой проблем не было, но найти и замотивировать людей старше 45 лет — настоящий квест. Они неохотно откликались на рекламу и с недоверием относились к предложениям. Явка срывалась: бывали дни, когда съемочная команда сидела без работы, потому что никто не приезжал.

Мы протестировали несколько стандартных каналов рекрутинга, включая размещение объявлений в сообществах по подбору актеров массовки, однако отклик оказался значительно ниже ожидаемого и не позволял обеспечить нужные темпы набора.

Эффективным оказался альтернативный подход — привлечение участников через личные рекомендации ("сарафанное радио"). Один из респондентов, принявших участие в съемке, по нашей просьбе порекомендовал проект своему окружению, что позволило быстро масштабировать набор и закрыть необходимые возрастные группы.

Вывод: при массовом и длительном сборе данных наиболее устойчиво работает рекомендательный канал. Он особенно эффективен для аудиторий, которые слабо реагируют на рекламные объявления. Для привлечения труднодоступных групп важно заранее закладывать повышенную мотивацию и быть готовыми использовать нетиповые каналы рекрутинга.

4. Наблюдение: человеческий фактор и производительность поколений

Мы предполагали, что участникам старшего возраста потребуется больше времени на освоение интерфейса и сценариев съемки. На практике картина оказалась обратной. Два респондента в возрасте около 50 лет прошли полный цикл съемок менее чем за пять часов, показав высокую автономность: после краткого инструктажа они уверенно выполняли все этапы без дополнительного сопровождения.

В то же время часть участников в возрасте около 18 лет требовала постоянной поддержки со стороны команды на протяжении всего съемочного дня. Итоговая статистика по проекту показала, что респонденты моложе 40 лет в среднем тратили больше времени на выполнение сценариев.


Хотите больше реальных кейсов и антикейсов про сбор и разметку данных? Подписывайтесь на наш Телеграм-канал!


Решение: не стоит недооценивать важность "человеческого фактора" при планировании и расчете времени съемок. Производительность одного исполнителя (в данном случае — респондента) — ключевой показатель для оценки сроков и стоимости проекта. Не полагайтесь на стереотипы о поколениях — реальность может вас удивить. Делайте поправку на возможные отклонения в скорости работы, чтобы не подвести заказчика.

Результаты команды NeuroCore по проекту

Мы собрали датасет из более чем 4000 видеозаписей с участием людей от 18 до 50+ лет — с тем уровнем разнообразия, сценариев и метаданных, который изначально требовался заказчику. Проект несколько раз менял траекторию, сроки сдвигались, отдельные решения приходилось пересматривать на ходу, но ключевое условие было неизменным: данные должны быть пригодны для реального обучения и тестирования антиспуфинг-модели, а не «для отчёта».

Этот проект наглядно показал простую вещь: сбор биометрических данных — это не вспомогательный этап и не логистика. Это самостоятельная инженерная задача, где цена ошибки измеряется не количеством часов, а тем, будет ли модель работать в продакшене. Здесь нельзя идти по шаблону, опираться на предположения или надеяться, что «как-нибудь соберётся».

Если вам нужен датасет, который выдержит проверку реальными сценариями и нагрузкой, — мы умеем выстраивать такие проекты. Без магии, но с пониманием, где ломаются планы и как довести процесс до рабочих данных. Готовы обсудить задачу и честно оценить, что потребуется, чтобы она заработала.

Оставьте заявку в форме ниже | Читать про услугу | Задать вопрос в Тг

 

Читайтетакже

Item 1 of 4

Создадим проект мечты вместе

Напишите нам в Telegram о подробностях вашего проекта, и мы проведем бесплатную консультацию по автоматизации вашего бизнеса
Наверх