¿Puede el aprendizaje audiovisual no etiquetado mejorar el modelo de reconocimiento de voz?


Investigadores del MIT han desarrollado una técnica novedosa para analizar datos de audio e imagen sin etiquetar, mejorando los modelos de aprendizaje automático para el reconocimiento de voz y de objetos.

¿Puede el aprendizaje audiovisual no etiquetado mejorar el modelo de reconocimiento de voz?

Las personas a menudo adquieren conocimientos a través del aprendizaje autosupervisado debido a señales de seguimiento inadecuadas. El aprendizaje autosupervisado es la base de un primer modelo que utiliza datos no etiquetados. El ajuste fino se puede lograr mediante el aprendizaje supervisado o el aprendizaje por refuerzo para tareas específicas.

Los investigadores del MIT e IBM Watson Artificial Learning (AI) Lab han desarrollado un nuevo método para analizar datos de audio e imágenes sin etiquetar, mejorando los modelos de aprendizaje automático para el reconocimiento de voz y el reconocimiento de objetos. El trabajo reúne arquitecturas de aprendizaje autosupervisado y combina el aprendizaje contrastivo y el modelado de datos enmascarados. El objetivo es escalar tareas de aprendizaje automático como la clasificación de eventos en diferentes formatos de datos sin anotación. Este enfoque imita la comprensión y la percepción humanas. La técnica contrastiva de autocodificador audiovisual enmascarado (CAV-MAE), una red neuronal, aprende representaciones latentes a partir de datos acústicos y visuales.

Índice del contenido

Un enfoque conjunto y coordinado

CAV-MAE utiliza "aprendizaje por predicción" y "aprendizaje por comparación". El modelado de datos enmascarados enmascara parte de la entrada audiovisual, que luego es procesada por codificadores separados antes de ser reconstruida por un codificador/descodificador común. El modelo se entrena en función de la diferencia entre los datos originales y los reconstruidos. Si bien es posible que este enfoque no capture completamente las asociaciones de video y audio, el aprendizaje contrastivo lo complementa al aprovecharlas. Sin embargo, es posible que sea necesario restaurar algunos detalles específicos de la modalidad, como el fondo del video.

Los investigadores evaluaron CAV-MAE, su método sin pérdida de contraste o un codificador automático enmascarado, y otros métodos que utilizan conjuntos de datos estándar. Las tareas incluyeron investigación audiovisual y clasificación de eventos audiovisuales. La recuperación implicó encontrar componentes audiovisuales faltantes, mientras que la clasificación de eventos identificó acciones o sonidos en los datos. El aprendizaje contrastivo y el modelado de datos enmascarados se complementan entre sí. CAV-MAE supera las técnicas de clasificación de eventos anteriores en un 2 % y combina los modelos con los cálculos a nivel de la industria. Funciona de manera similar a los modelos con solo una pérdida de contraste. La integración de datos multimodales en CAV-MAE mejora la representación de modalidades individuales y la clasificación de eventos de solo audio. La información multimodal sirve como un impulso de "etiqueta suave", que respalda tareas como distinguir entre guitarras eléctricas y acústicas.

Traemos el aprendizaje audiovisual autosupervisado a nuestro mundo

Los investigadores ven en CAV-MAE un avance significativo para las aplicaciones que avanzan hacia la multimodalidad y la fusión audiovisual. Prevén un uso futuro en el reconocimiento de acciones para deportes, educación, entretenimiento, automoción y seguridad pública, con posibles extensiones a otras modalidades. Aunque actualmente se limita a datos audiovisuales, el equipo tiene como objetivo utilizar el aprendizaje multimodal para imitar las habilidades humanas en el desarrollo de IA y explorar otras modalidades.

Si quieres conocer otros artículos parecidos a ¿Puede el aprendizaje audiovisual no etiquetado mejorar el modelo de reconocimiento de voz? puedes visitar la categoría Electrónica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir