Métodos de reconocimiento de locutor

by admin

Métodos de reconocimiento de locutor

el reconocimiento del hablante es el problema de la computadora de establecer la identidad de un altavoz con características de la voz. Es diferente de reconocimiento de voz, donde el objetivo es identificar las palabras que se dicen. Un ejemplo de la tecnología de reconocimiento de locutor es la construcción de la seguridad, donde una puerta sólo se abre cuando una persona dada habla por el micrófono. Varios métodos se pueden utilizar para realizar esta tarea.

estimación de frecuencia

La señal hablada tiene un componente de ruido desconocido, tales como ruido de fondo y el ruido del equipo de audio. métodos de estimación de frecuencia estiman que el componente de ruido mediante el uso de técnicas tales como la resolución de vectores propios, un tipo de matemáticas importantes en la física y la ingeniería; restando el ruido de la entrada para obtener una aproximación a la señal de interés; y la descomposición de la señal como una suma de componentes de frecuencia complejos. El hecho más importante de este método es que la voz libre de ruido de un hablante determinado se reduce a una representación más manejable: la intensidad de la voz en un par de componentes de frecuencia (que resultan ser las más intensas.) Este método funciona bien cuando ruido de fondo es un problema y cuando las palabras pronunciadas cuando el sistema fue entrenado puede no ser exactamente las mismas palabras pronunciadas cuando se trata de autenticar el altavoz.

Modelos ocultos de Markov

Un modelo de Markov oculto siempre está en uno de un conjunto de estados, pero el estado actual no es visible para el observador. Dicho modelo está constantemente haciendo transiciones desde el estado actual al siguiente en tasas, y con probabilidades, determinado por los parámetros del modelo. Al hacer una transición, el modelo puede emitir una salida con una probabilidad conocida. La misma salida puede ser generada por una transición de estados múltiples, con diferentes probabilidades. En el caso particular de reconocimiento del hablante, un modelo oculto de Markov emite salidas que representan los fonemas con probabilidades que dependen de la secuencia previa de estados visitados. Un altavoz decir una secuencia de fonemas (es decir, hablando) se corresponde con el modelo de visitar una secuencia de estados y que emite salidas correspondientes a los mismos fonemas. Este método funciona bien para autenticar el altavoz haciéndole pronunciar una secuencia de palabras que forman frases completas.

Reconocimiento de patrones

Esta técnica, entre las más complejas ser utilizado para el reconocimiento del hablante, compara dos flujos de voz: el uno habla la persona que autenticada durante el entrenamiento del sistema, y ​​el uno habla la persona que desconoce que está intentando obtener acceso. El hablante pronuncia las mismas palabras cuando la formación del sistema y, más tarde, cuando se trata de probar su identidad. El equipo alinea el flujo de sonido de formación con la que se acaba obtenido (para dar cuenta de las pequeñas variaciones en el ritmo y los retrasos en la toma de palabra). Entonces, el ordenador discretiza cada una de las dos corrientes como una secuencia de tramas y calcula la probabilidad de que cada par de marcos de dicho por el mismo hablante mediante la ejecución a través de un perceptrón de múltiples capas - un tipo particular de red neuronal entrenada para esta tarea. Este método funciona bien en condiciones de bajo nivel de ruido, y cuando el altavoz está pronunciando exactamente las mismas palabras utiliza para entrenar el sistema.

ETIQUETA: