Новая версия технологии идентификации голоса GritTec’s Speaker-ID
13.05.2009
Компания "ГритТек" ("ГритТек лаборатория") анонсировала новую версию своей технологии автоматической текстонезависимой голосовой идентификации. Эта технология предназначена для идентификации неизвестной аудиозаписи в отложенном режиме путем парного сравнения с образцами записей голосов "известных дикторов", то есть людей, данные о которых известны.
В новой версии изменения коснулись модуля вычисления вероятности наблюдений и модулей построения и оценки ошибок 1-го (FRR) и 2-го (FAR) рода. В частности, в алгоритмической части была изменена оценка вероятности наблюдений на основе максимизации вероятности наблюдений по S-состояниям. В модуле построения ошибок (FRR, FAR) изменена технология построения FAR и ее оценка в режиме идентификации.
Были изменены структуры, используемые при описании образца аудиозаписи "диктора": структура модели голоса (voice model); структура модели ошибок (FAR, FRR, ERR); структура модели "диктора", состоящая из структур модели голоса, модели ошибок и модели окружающих шумов и канальных искажений. Так, в структуре модели голоса было оптимизировано статистическое описание смешанных Гауссовых моделей (GMM) с учетом S-состояний и вероятности перехода между ними.
Компания "ГритТек" будет поставлять технологию голосовой идентификации на рынок биометрии под маркой GritTec’s Speaker-ID в виде коммерческой версии системы голосовой идентификации для небольшого объема баз данных (не более 5-10 тысяч образцов аудиозаписей известных "дикторов") и разработчикам в виде пакета библиотек SDK.
В настоящее время прототип системы GritTec’s Speaker-ID прошел предварительные испытания в офисных условиях и на специализированных звуковых базах записей телефонных фонограмм. В ближайшее время пакет библиотек SDK новой версии GritTec’s Speaker-ID и ее демонстрационная версия будут доступны разработчикам.