¿Puede el aprendizaje audiovisual no etiquetado mejorar el modelo de reconocimiento de voz?
Investigadores del MIT han desarrollado una técnica novedosa para analizar datos de audio e imagen sin etiquetar, mejorando los modelos de aprendizaje automático para el reconocimiento de voz y de objetos.
Las personas a menudo adquieren conocimientos a través del aprendizaje autosupervisado debido a señales de seguimiento inadecuadas. El aprendizaje autosupervisado es la base de un primer modelo que utiliza datos no etiquetados. El ajuste fino se puede lograr mediante el aprendizaje supervisado o el aprendizaje por refuerzo para tareas específicas.
Los investigadores del MIT e IBM Watson Artificial Learning (AI) Lab han desarrollado un nuevo método para analizar datos de audio e imágenes sin etiquetar, mejorando los modelos de aprendizaje automático para el reconocimiento de voz y el reconocimiento de objetos. El trabajo reúne arquitecturas de aprendizaje autosupervisado y combina el aprendizaje contrastivo y el modelado de datos enmascarados. El objetivo es escalar tareas de aprendizaje automático como la clasificación de eventos en diferentes formatos de datos sin anotación. Este enfoque imita la comprensión y la percepción humanas. La técnica contrastiva de autocodificador audiovisual enmascarado (CAV-MAE), una red neuronal, aprende representaciones latentes a partir de datos acústicos y visuales.
Un enfoque conjunto y coordinado
CAV-MAE utiliza "aprendizaje por predicción" y "aprendizaje por comparación". El modelado de datos enmascarados enmascara parte de la entrada audiovisual, que luego es procesada por codificadores separados antes de ser reconstruida por un codificador/descodificador común. El modelo se entrena en función de la diferencia entre los datos originales y los reconstruidos. Si bien es posible que este enfoque no capture completamente las asociaciones de video y audio, el aprendizaje contrastivo lo complementa al aprovecharlas. Sin embargo, es posible que sea necesario restaurar algunos detalles específicos de la modalidad, como el fondo del video.
Los investigadores evaluaron CAV-MAE, su método sin pérdida de contraste o un codificador automático enmascarado, y otros métodos que utilizan conjuntos de datos estándar. Las tareas incluyeron investigación audiovisual y clasificación de eventos audiovisuales. La recuperación implicó encontrar componentes audiovisuales faltantes, mientras que la clasificación de eventos identificó acciones o sonidos en los datos. El aprendizaje contrastivo y el modelado de datos enmascarados se complementan entre sí. CAV-MAE supera las técnicas de clasificación de eventos anteriores en un 2 % y combina los modelos con los cálculos a nivel de la industria. Funciona de manera similar a los modelos con solo una pérdida de contraste. La integración de datos multimodales en CAV-MAE mejora la representación de modalidades individuales y la clasificación de eventos de solo audio. La información multimodal sirve como un impulso de "etiqueta suave", que respalda tareas como distinguir entre guitarras eléctricas y acústicas.
Traemos el aprendizaje audiovisual autosupervisado a nuestro mundo
Los investigadores ven en CAV-MAE un avance significativo para las aplicaciones que avanzan hacia la multimodalidad y la fusión audiovisual. Prevén un uso futuro en el reconocimiento de acciones para deportes, educación, entretenimiento, automoción y seguridad pública, con posibles extensiones a otras modalidades. Aunque actualmente se limita a datos audiovisuales, el equipo tiene como objetivo utilizar el aprendizaje multimodal para imitar las habilidades humanas en el desarrollo de IA y explorar otras modalidades.
Si quieres conocer otros artículos parecidos a ¿Puede el aprendizaje audiovisual no etiquetado mejorar el modelo de reconocimiento de voz? puedes visitar la categoría Electrónica.
Deja una respuesta