Розпізнавання диктора за голосом

Розпізнавання мовлення

Технологія розпізнавання диктора за голосом

Розпізнавання мовлення

Розпізнавання мови

Розпізнавання голосу

Розпізнавання диктора

Пошук ключових слів

Програма розпізнавання

Дати відповідь на запитання чиїм голосом вимовлено той чи інших сегмент мовленнєвого сигналу є загальною постановкою задачі розпізнавання диктора, тобто користувача інформаційних мовленнєвих систем.

чи потрібно ідентифікувати голос деякого диктора, або верифікувати, чи даний голос належить конкретному диктору;
чи наперед відомо, що говорить диктор;
чи вказано, якою мовою говорить диктор;
чи допускається те, що диктор може бути не відомим для системи;
чи достатньо вказати певну групу осіб, куди входить диктор;
які ще метадані стосовно диктора потрібно видобути з мовлення;
які властивості каналу передачі мовленнєвого сигналу (мікрофон, телефон, ефір тощо).

Відмінність ідентифікації від верифікації полягає у тому, що при ідентифікації вказується чий голосом ми чуємо, тоді як при верифікації потрібно переконатися, що чуємо голос певної особи, а не якоїсь іншої. Так при транскрибуванні засідань ми вказуємо, чиєму голосу належить той або інший фрагмент фонограми, і це робиться засобами ідентифікації диктора. А при створенні голосових "замќів" для захисту інформації відбувається верифікація.

Вважається, що задача верифікації складніша, оскільки необхідно якимось чином змоделювати всіх дикторів окрім одного. Втім, якщо при ідентифікації ми не обмежуємо коло дикторів, то тут теж з’являється необхідність моделювати невідомих для системи дикторів.

При вирішенні задач розпізнавання диктора формується так званий усномовний файл (паспорт) диктора як індивідуально, так і для груп осіб - кооперативу дикторів. Причому склад кооперативу може задаватися експертом або визначатися автоматично методами кластеризації.

Усномовний паспорт диктора формується засобами навчання/самонавчання розпізнаванню за навчальною вибіркою. Чим більша навчальна вибірка і чим ширше представлено у вибірці фонетичне розмаїття, тим кращі шанси впізнати диктора за голосом. Можливе формування паспорта диктора як з урахуванням фонемності, так і шляхом злиття усіх фонем в одну більш ускладнену акустичну модель.

Інколи при розпізнаванні цікавлять метадані, що стосуються диктора: його стать, вік, емоційний та фізичний стан.