Ukrainian Speech & Language Resources & Software
English | Українською
Розпізнавання мовлення |
Технологія розпізнавання диктора за голосом
|
|
Дати відповідь на запитання чиїм голосом вимовлено той чи інших сегмент мовленнєвого сигналу є загальною постановкою задачі розпізнавання диктора, тобто користувача інформаційних мовленнєвих систем.
Відмінність ідентифікації від верифікації полягає у тому, що при ідентифікації вказується чий голосом ми чуємо, тоді як при верифікації потрібно переконатися, що чуємо голос певної особи, а не якоїсь іншої. Так при транскрибуванні засідань ми вказуємо, чиєму голосу належить той або інший фрагмент фонограми, і це робиться засобами ідентифікації диктора. А при створенні голосових "замќів" для захисту інформації відбувається верифікація. Вважається, що задача верифікації складніша, оскільки необхідно якимось чином змоделювати всіх дикторів окрім одного. Втім, якщо при ідентифікації ми не обмежуємо коло дикторів, то тут теж з’являється необхідність моделювати невідомих для системи дикторів. При вирішенні задач розпізнавання диктора формується так званий усномовний файл (паспорт) диктора як індивідуально, так і для груп осіб - кооперативу дикторів. Причому склад кооперативу може задаватися експертом або визначатися автоматично методами кластеризації. Усномовний паспорт диктора формується засобами навчання/самонавчання розпізнаванню за навчальною вибіркою. Чим більша навчальна вибірка і чим ширше представлено у вибірці фонетичне розмаїття, тим кращі шанси впізнати диктора за голосом. Можливе формування паспорта диктора як з урахуванням фонемності, так і шляхом злиття усіх фонем в одну більш ускладнену акустичну модель. Інколи при розпізнаванні цікавлять метадані, що стосуються диктора: його стать, вік, емоційний та фізичний стан. |