La combinación de visión y lenguaje podría ser clave para una IA más poderosa - TechCrunch

[ad_1]

Dependiendo de la teoría de la inteligencia a la que se suscriba, lograr una IA de "nivel humano" requiere un sistema que tenga múltiples modalidades, p. B. sonido, imagen y texto: se puede usar para discutir sobre el mundo. Por ejemplo, si se muestra una imagen de un camión volcado y una patrulla de policía en una carretera nevada, una IA a nivel humano podría concluir que las condiciones peligrosas de la carretera causaron un accidente. O caminarían sobre un robot cuando se les pidiera que sacaran una lata de refresco del refrigerador, navegando entre personas, muebles y mascotas para recuperar la lata y colocarla al alcance del solicitante.

La IA actual se queda corta. Sin embargo, una nueva investigación muestra signos de progreso alentador, desde robots que pueden descifrar pasos para cumplir con comandos básicos (por ejemplo, "Toma una botella de agua") hasta sistemas de generación de texto que aprenden de las explicaciones. En esta edición renovada de Deep Science, nuestra serie semanal sobre los últimos avances en IA y el campo científico más amplio, informamos sobre el trabajo de DeepMind, Google y OpenAI que avanza a pasos agigantados hacia sistemas que transforman el mundo, si no lo comprenden perfectamente, pueden . Resuelva tareas difíciles como generar imágenes con una robustez impresionante.

Laboratorio de investigación de IA El DALL-E mejorado de OpenAI, DALL-E 2, es, con diferencia, el proyecto más impresionante que ha surgido de las profundidades de un laboratorio de investigación de IA. Como escribe mi colega Devin Coldewey, mientras que el DALL-E original demostró una notable capacidad para crear imágenes que coincidan prácticamente con cualquier indicación (por ejemplo, "un perro con boina"), DALL-E 2 va un paso más allá. Las imágenes producidas son mucho más detalladas y DALL-E 2 puede reemplazar de manera inteligente un área específica en una imagen, por ejemplo, insertando una mesa en una foto de un piso de mármol con los reflejos apropiados.

OpenAI DALL-E 2

Un ejemplo de los tipos de imágenes que DALL-E 2 puede producir.

DALL-E 2 recibió la mayor atención esta semana. Pero el jueves, los investigadores de Google detallaron un sistema de comprensión visual igualmente impresionante llamado Visually-Driven Prosody for Text-to-Speech (VDTTS) en una publicación en el blog de IA de Google. VDTTS puede producir un discurso de sincronización de labios con un sonido realista cuando solo hay cuadros de texto y video del hablante.

Si bien no es un sustituto perfecto para el diálogo grabado, el discurso generado por VDTTS sigue siendo bastante bueno, con una expresividad y sincronización convincentemente similares a las humanas. Google prevé que algún día se usará en un estudio para reemplazar el audio original que puede haber sido grabado en condiciones ruidosas.

Por supuesto, la comprensión visual es solo un paso hacia una IA más poderosa. Otro componente es la comprensión del lenguaje, que va a la zaga en muchos aspectos, incluso descontando los bien documentados problemas de toxicidad y sesgo de la IA. Como ejemplo evidente, un sistema de vanguardia propiedad de Google, Pathways Language Model (PaLM), almacenó el 40% de los datos utilizados para "entrenarlo", según una publicación, lo que llevó a PaLM a plagiar texto hasta el código de avisos de derechos de autor. fragmentos

Afortunadamente, DeepMind, el laboratorio de inteligencia artificial respaldado por Alphabet, se encuentra entre las técnicas de investigación para abordar esto. En un nuevo estudio, los investigadores de DeepMind examinan si los sistemas de lenguaje de IA, que aprenden a generar texto a partir de muchos ejemplos de texto existente (piense en libros y redes sociales), podrían beneficiarse Explicaciones estos textos. Después de anotar docenas de tareas de lenguaje (p. ej., "Responda estas preguntas observando si la segunda oración es una paráfrasis apropiada de la primera oración metafórica") con explicaciones (p. ej., "Los ojos de David no eran literalmente dagas, es una metáfora que se usa para sugieren que David estaba mirando a Paul.") y evaluando el rendimiento de varios sistemas en ellos, el equipo de DeepMind descubrió que los ejemplos en realidad mejoran el rendimiento de los sistemas.

El enfoque de DeepMind, si se hace popular entre la comunidad académica, algún día podría aplicarse en robótica, formando los componentes básicos de un robot que responda a indicaciones vagas (por ejemplo, "tirar la basura") sin instrucciones paso a paso. - Puede entender instrucciones paso a paso. El nuevo proyecto de Google, Do As I Can, Not As I Say, ofrece una visión de ese futuro, aunque con importantes advertencias.

Do As I Can, Not As I Say, una colaboración entre Robotics en Google y el equipo de Everyday Robotics en el laboratorio X de Alphabet, busca condicionar un sistema de lenguaje de IA para sugerir acciones que sean "factibles" para un robot y "contextualmente apropiadas". son cuando se les asigna una tarea arbitraria. El robot actúa como las "manos y los ojos" del sistema de lenguaje, mientras que el sistema proporciona conocimiento semántico de alto nivel sobre la tarea; la teoría sostiene que el sistema de lenguaje codifica una gran cantidad de conocimiento útil para el robot.

robótica de Google

Autor de la foto: Robótica en Google

Un sistema llamado SayCan selecciona qué habilidad debe realizar el robot en respuesta a un comando, teniendo en cuenta (1) la probabilidad de que una habilidad en particular sea útil y (2) la posibilidad de realizar con éxito esa habilidad. Por ejemplo, si alguien dice: "Derramé mi coca cola, ¿puedes traerme algo para limpiar?" SayCan puede indicarle al robot que busque una esponja, la recoja y se la lleve a la persona que la pidió.

SayCan está limitado por el hardware de robótica: en más de una ocasión, el equipo de investigación observó que el robot que eligieron para realizar experimentos dejó caer objetos accidentalmente. Aún así, junto con el trabajo de DALL-E 2 y DeepMind en la comprensión del contexto, es un ejemplo de cómo los sistemas de IA, cuando se combinan, pueden acercarnos mucho más a uno. chico de los Supersónicos Futuro.

[ad_2]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir