Распознавание взаимодействий: новое поколение видеоаналитики
08.02.2011
В Оксфордском университете создан экспериментальный программный продукт, который может стать предтечей нового поколения систем интеллектуального видеоанализа. Центральная сущность новой системы -- "взаимодействие". Самообучающийся машинный интеллект с успехом выделяет на видео рукопожатия, удары по рукам (жест, который сопровождается словами "дай пять!"), объятия и поцелуи.
Технология распознавания взаимодействий создана в ходе исследований по машинному зрению и автоматическому анализу содержания больших объемов видеозаписей. Извлекать информацию предполагается из телепередач, записей с YouTube и архивов систем видеонаблюдения.
Алонсо Патрон-Перес, глава департамента инженерных наук Оксфордского университета и куратор видеоаналитических разработок, подчеркивает, что именно действия и деятельность должны быть центральным объектом видеоаналитики.
Он указывает, что технология обнаружения межличностных взаимодействий обладает огромным числом потенциальных сфер применения: от быстрого поиска поцелуев и рукопожатий на любительском видео до генерации потоков данных в системах управления информацией в сфере физической безопасности.
Технология выделения взаимодействий была разработана Патроном-Пересом, доктором Яном Рейдом, доктором Марцином Маршалеком и профессором Эндрю Циссерманом. Созданное ими программное обеспечение основано на алгоритмах компьютерного зрения и машинного обучения.
Процесс обучения компьютера распознаванию взаимодействий начинается с обнаружения и детектирования людей в кадре. Программа "тренировалась" на разном тестовом видео -- различные сцены классифицировались учеными вручную, а софт запоминал характерные особенности каждой сцены. Судя по всему, обучение происходит по методу Байеса, подобно тому, как обучаются спам-фильтры, или при использовании алгоритмов нейронных сетей.
Когда машинному интеллекту известны характерные признаки межличностных взаимодействий, выделять их среди видео не составляет труда. После определения местоположения в кадре людей анализируются различные характерные признаки актов коммуникации -- например, положение головы и относительные движения частей тела. На основании этих данных программа принимает решение о регистрации акта взаимодействия.
Ученые не сообщают о вероятности правильного определения события. Оценить его умозрительно очень сложно. С другой стороны, в обучаемых подобным образом системах сегодня нет ничего фантастического или даже необычного. Сложно другое -- получить первичные данные для анализа, определить виды характерных признаков того или иного социального акта. Но для этого надо решить задачу более низкого уровня -- программа должна научиться достоверно определять, каким пикселам кадра соответствуют какие части тела. На современном уровне развития кибернетики, при сегодняшних вычислительных мощностях все эти задачи вполне решаемы.