У камер наблюдения есть проблема с идентификацией, вызванная внутренним противоречием между полезностью и конфиденциальностью. Поскольку эти мощные маленькие устройства появились, казалось бы, повсюду, использование инструментов машинного обучения автоматизировало анализ видеоконтента в массовом масштабе, но с усилением массового наблюдения в настоящее время нет юридически обязательных правил, ограничивающих вторжение в частную жизнь.
Камеры слежения могут многое — они стали умнее и в высшей степени компетентны, чем их призраки зернистых изображений прошлого, частый «геройский инструмент» в криминальных СМИ. («Взгляните на маленькое размытое синее пятнышко в правом углу этого густонаселенного угла — мы поймали его!») Теперь видеонаблюдение может помочь чиновникам здравоохранения измерить долю людей в масках, позволить транспортным отделам контролировать плотность и поток людей. транспортных средств, велосипедов и пешеходов, а также предоставить предприятиям лучшее понимание поведения покупателей. Но почему конфиденциальность осталась слабой запоздалой мыслью?
Статус-кво заключается в том, чтобы модифицировать видео с размытыми лицами или черными ящиками. Это не только не позволяет аналитикам задавать некоторые настоящие вопросы (например, Носят ли люди маски?), но и не всегда работает; система может пропустить некоторые лица и оставить их неразмытыми для всеобщего обозрения. Недовольные таким статус-кво, исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) в сотрудничестве с другими учреждениями разработали систему, которая лучше гарантирует конфиденциальность видеозаписей с камер наблюдения . Система, получившая название «Privid», позволяет аналитикам отправлять запросы видеоданных и добавляет немного шума .(дополнительные данные) к конечному результату, чтобы гарантировать, что человек не может быть идентифицирован. Система основана на формальном определении конфиденциальности — «дифференциальной конфиденциальности», — которое позволяет получить доступ к сводной статистике о личных данных без раскрытия информации, позволяющей установить личность.
Как правило, аналитики имеют доступ ко всему видео и могут делать с ним все, что захотят, но Privid следит за тем, чтобы видео не было бесплатным буфетом. Честные аналитики могут получить доступ к необходимой им информации, но этот доступ достаточно ограничен, чтобы злонамеренные аналитики не могли сделать с ней слишком много. Для этого вместо того, чтобы запускать код для всего видео за один раз, Privid разбивает видео на небольшие фрагменты и запускает код обработки для каждого фрагмента. Вместо того, чтобы получать результаты от каждой части, сегменты объединяются, и добавляется этот дополнительный шум. (Есть также информация о границе погрешности, которую вы собираетесь получить в своем результате — возможно, погрешность в 2 процента, учитывая добавление дополнительных зашумленных данных).
Например, код может выводить количество людей, наблюдаемых в каждом фрагменте видео, а агрегирование может быть «суммой» для подсчета общего количества людей с масками для лица или «средним» для оценки плотности скопления людей.
Privid позволяет аналитикам использовать свои собственные глубокие нейронные сети , которые сегодня являются обычным явлением для видеоаналитики. Это дает аналитикам возможность задавать вопросы, на которые разработчики Privid не рассчитывали. По множеству видео и запросов Privid был точен в пределах от 79 до 99 процентов от не частной системы.
Privid вводит новое понятие «конфиденциальности на основе продолжительности», которое формулирует определение конфиденциальности от ее обеспечения — с запутыванием, если ваша цель конфиденциальности состоит в том, чтобы защитить всех людей, механизм обеспечения должен проделать некоторую работу, чтобы найти людей, которых нужно защитить., что он может или не может делать идеально. Благодаря этому механизму вам не нужно указывать все полностью, и вы не скрываете больше информации, чем нужно.
Допустим, у нас есть видео с видом на улицу. Два аналитика, Алиса и Боб, оба утверждают, что хотят подсчитать количество людей, проходящих мимо каждый час, поэтому они отправляют модуль обработки видео и запрашивают суммирование.
Первым аналитиком является отдел городского планирования, который надеется использовать эту информацию для понимания характера пешеходного движения и планирования городских тротуаров. Их модель подсчитывает количество людей и выводит это количество для каждого фрагмента видео.
Другой аналитик злонамерен. Они надеются идентифицировать каждый раз, когда «Чарли» проходит мимо камеры. Их модель ищет только лицо Чарли и выводит большое число, если Чарли присутствует (то есть «сигнал», который они пытаются извлечь), или ноль в противном случае. Они надеются, что сумма будет отличной от нуля, если Чарли будет присутствовать.
С точки зрения Privid эти два запроса выглядят одинаково. Трудно достоверно определить, что их модели могут делать внутри или для чего аналитик надеется использовать данные. Вот где появляется шум. Privid выполняет оба запроса и добавляет одинаковое количество шума для каждого. В первом случае, поскольку Алиса считала всех людей, этот шум лишь незначительно повлияет на результат, но, скорее всего, не повлияет на полезность.
Во втором случае, поскольку Боб искал определенный сигнал (Чарли был виден только несколько фрагментов), шума достаточно, чтобы они не узнали, был Чарли там или нет. Если они видят ненулевой результат, это может быть потому, что Чарли действительно был там, или потому, что модель выводит «ноль», но шум сделал его ненулевым. Программе не нужно было ничего знать о том, когда и где появился Чарли, системе просто нужно было знать приблизительную верхнюю границу того, как долго Чарли может появиться, что легче указать, чем выяснить точное местонахождение, на которое опираются предыдущие методы. .
Задача состоит в том, чтобы определить, сколько шума нужно добавить — Privid хочет добавить ровно столько, чтобы скрыть всех, но не настолько, чтобы это было бесполезно для аналитиков. Добавление шума к данным и настойчивые запросы через временные окна означают, что ваш результат не будет таким точным, как мог бы быть, но результаты по-прежнему полезны, обеспечивая лучшую конфиденциальность .
Дополнительная информация: Privid: практические запросы видеоаналитики с сохранением конфиденциальности, arXiv:2106.12083 [cs.CR] doi.org/10.48550/arXiv.2106.12083
Будьте в курсе в удобном формате, присоединяйтесь: TG-канал и ВК
Бесплатная служба распространения новостей для научных организаций и стартапов
hello@technovery.com