Nuevo marco para el reconocimiento automático de voz
[ad_1]
Investigadores de la Universidad de Ciencia y Tecnología de Hong Kong y WeBank han desarrollado un marco efectivo llamado preentrenamiento fonético-semántico (PSP) que muestra su fortaleza sobre conjuntos de datos de voz sintéticos y altamente ruidosos.
El marco de preentrenamiento fonético-semántico (PSP) ayuda a recuperar palabras mal clasificadas y supera al reconocimiento automático de voz (ASR). El modelo convierte las salidas del modelo acústico (AM) directamente en una oración con su información de contexto completa. Los investigadores desarrollaron un marco que puede ayudar a los modelos de lenguaje (LM) a recuperarse con precisión de las salidas ruidosas de AM. El marco de PSP permite que el modelo mejore a través de un programa de capacitación previa llamado Plan de estudios consciente del ruido, que introduce lentamente nuevas habilidades, primero con tareas simples y luego progresando gradualmente hacia tareas complejas.
"La robustez es un desafío de larga data para ASR", dijo Xueyang Wu, del Departamento de Ciencias de la Computación e Ingeniería de la Universidad de Ciencia y Tecnología de Hong Kong. “Queremos aumentar la solidez del sistema ASR de China a bajo costo.” El método tradicional entrena los modelos acústicos y de voz que componen ASR y requiere grandes cantidades de datos específicos de ruido, lo que resulta en un proceso costoso y lento. "Los modelos de aprendizaje tradicionales no son resistentes a las salidas ruidosas del modelo acústico, especialmente para las palabras polifónicas chinas con pronunciación idéntica", dijo Wu. "Si la primera pasada de decodificación del modelo de aprendizaje es incorrecta, es extremadamente difícil que la segunda pasada lo corrija".
El investigador entrena al convertidor en dos etapas: 1) donde los investigadores entrenan previamente un convertidor de teléfono a palabra en una secuencia de teléfono limpia convertida solo a partir de datos de texto sin etiquetar para reducir el tiempo de anotación. En esta fase, el modelo inicializa los parámetros básicos para unir secuencias fonéticas con palabras. 2) La segunda etapa se conoce como aprendizaje autosupervisado, el transductor aprende de datos más complejos generados por técnicas y funciones de entrenamiento autosupervisado. Por lo tanto, el conversor de teléfono a palabra resultante se ajusta con datos de voz reales. El método tradicional entrena los modelos acústicos y de voz que incluyen ASR y requiere grandes cantidades de datos específicos del ruido, lo que resulta en un proceso costoso y lento.
"La parte más importante de nuestro método propuesto, el aprendizaje del plan de estudios consciente del ruido, simula el mecanismo por el cual los humanos reconocen una oración del habla en voz alta", dijo Wu. Los investigadores tienen como objetivo desarrollar métodos de preentrenamiento de PSP más efectivos con conjuntos de datos no emparejados más grandes para maximizar la efectividad del preentrenamiento para LM resistente al ruido.
Haga clic aquí para ver el trabajo de investigación publicado
[ad_2]
Deja una respuesta