Esta semana en IA: las grandes empresas tecnológicas están apostando miles de millones en herramientas de aprendizaje automático


Mantenerse al día con una industria tan acelerada como la IA es un gran desafío. Hasta que una IA pueda hacerlo por usted, aquí hay un resumen útil de las historias de la semana pasada en el mundo del aprendizaje automático, así como investigaciones y experimentos notables que no hemos cubierto solos.

En caso de que aún no fuera obvio, el panorama competitivo en IA, especialmente en la subárea de IA generativa, está al rojo vivo. Y se está poniendo más caliente. Esta semana, Dropbox lanzó su primer fondo de riesgo corporativo, Dropbox Ventures, que, según la compañía, se centrará en las nuevas empresas que crean productos impulsados ​​por IA que están "dando forma al futuro del trabajo". Para no quedarse atrás, AWS lanzó un programa de $100 millones para financiar iniciativas de IA generativa impulsadas por sus socios y clientes.

Por supuesto, se gasta mucho dinero en el campo de la IA. Salesforce Ventures, la división de capital de riesgo de Salesforce, planea invertir $500 millones en nuevas empresas que desarrollan tecnologías de inteligencia artificial generativa. Workday aumentó recientemente su fondo de capital de riesgo existente en $ 250 millones para respaldar específicamente las nuevas empresas de inteligencia artificial y aprendizaje automático. Y Accenture y PwC han anunciado planes para invertir $ 3 mil millones y $ 1 mil millones, respectivamente, en IA.

Pero uno se pregunta si el dinero es la solución a los desafíos pendientes en el área de la IA.

En un panel de discusión revelador durante una conferencia de Bloomberg en San Francisco esta semana, Meredith Whittaker, presidenta de la aplicación de mensajería segura Signal, argumentó que la tecnología subyacente a algunas de las aplicaciones de inteligencia artificial más populares de la actualidad se está volviendo peligrosamente opaca. Dio el ejemplo de alguien que va a un banco y pide un préstamo.

A esta persona se le puede negar el crédito y "no tener idea de que existe un sistema". [the] "Volviendo, probablemente impulsado por una API de Microsoft que determinó que no soy solvente en función de la selección de redes sociales", dijo Whittaker. "nunca lo sabré [because] No hay ningún mecanismo para que yo sepa eso”.

No se trata de la capital. Más bien, se debe a la actual jerarquía de poder, dice Whittaker.

"He estado en la mesa durante unos 15, 20 años. Tengo estado en la mesa. Sentarse a la mesa sin electricidad no es nada”, continuó.

Por supuesto, lograr un cambio estructural es mucho más difícil que buscar dinero, especialmente cuando el cambio estructural no necesariamente beneficia a quienes están en el poder. Y Whittaker advierte de lo que podría pasar si no hay suficiente resistencia.

A medida que se acelera el progreso en la IA, también lo hace el impacto social, y continuaremos abriendo un "camino lleno de exageraciones hacia la IA", dijo, "donde ese poder se arraiga y se naturaliza bajo la apariencia de la inteligencia y nosotros". " El punto [of having] muy, muy poca agencia sobre nuestras vidas individuales y colectivas”.

El debería Dale un respiro a la industria. ¿Es realmente el caso? voluntad es otro asunto Es probable que escuchemos eso cuando suba al escenario en Disrupt en septiembre.

Aquí están los otros titulares notables de IA en los últimos días:

  • La IA de DeepMind controla los robots: DeepMind afirma haber desarrollado un modelo de IA llamado RoboCat que puede realizar una variedad de tareas en diferentes modelos de brazos robóticos. Eso por sí solo no es particularmente nuevo. Pero DeepMind afirma que el modelo es el primero en poder resolver y adaptarse a múltiples tareas utilizando diferentes robots del mundo real.
  • Los robots aprenden de YouTube: Hablando de robots, esta semana Deepak Pathak, profesor asistente en el CMU Robotics Institute, presentó VRB (Vision-Robotics Bridge), un sistema de IA diseñado para entrenar sistemas robóticos mediante la observación de una grabación de un ser humano. El robot busca información importante, incluidos los puntos de contacto y la trayectoria, y luego intenta realizar la tarea.
  • Otter se une al juego del chatbot: El servicio de transcripción automatizada Otter anunció esta semana un nuevo chatbot impulsado por IA que permite a los asistentes hacer preguntas durante y después de una reunión y ayudarlos a colaborar con sus compañeros de equipo.
  • La UE pide una regulación de la IA: Los reguladores europeos se encuentran en una encrucijada sobre cómo se debe regular la IA y, en última instancia, usarla comercial y no comercialmente en la región. Esta semana, el grupo de consumidores más grande de la UE, la Organización Europea de Consumidores (BEUC), presentó su propia posición: deje de dar largas y "inicie investigaciones urgentes sobre los riesgos de la IA generativa ahora", dijo.
  • Vimeo presenta características impulsadas por IA: Esta semana, Vimeo anunció un conjunto de herramientas impulsadas por IA diseñadas para ayudar a los usuarios a crear guiones, grabar imágenes con un teleprompter incorporado y eliminar pausas largas e inconsistencias no deseadas como "ahs" y "umms" de las imágenes.
  • Capital para voces sintéticas: ElevenLabs, la plataforma viral de creación de voz sintética impulsada por IA, ha recaudado 19 millones de dólares en una nueva ronda de financiación. ElevenLabs cobró velocidad bastante rápido después de su lanzamiento a fines de enero. Pero la publicidad no siempre ha sido positiva, especialmente cuando los malos actores comenzaron a explotar la plataforma para sus propios fines.
  • Convertir audio a texto: Gladia, una startup francesa de IA, ha lanzado una plataforma que utiliza el modelo de transcripción Whisper de OpenAI para convertir cualquier dato de audio en texto casi en tiempo real a través de una API. Gladia promete transcribir una hora de audio por $ 0,61, y el proceso de transcripción demora alrededor de 60 segundos.
  • El arnés se basa en la IA generativa: Harness, una startup que crea un conjunto de herramientas para ayudar a los desarrolladores a trabajar de manera más eficiente, esta semana agregó un poco de IA a su plataforma. Ahora Harness puede corregir automáticamente errores de compilación e implementación, encontrar y corregir vulnerabilidades de seguridad y hacer sugerencias para controlar los costos de la nube.
Índice del contenido

Otro aprendizaje automático

Esta semana, CVPR estuvo en Vancouver, Canadá, y desearía haber ido porque las charlas y los artículos se ven muy interesantes. Si solo puede ver uno, mire el discurso de apertura de Yejin Choi sobre las posibilidades, imposibilidades y paradojas de la IA.

Autor de la foto: CVPR/YouTube

El profesor de la UW y beneficiario de MacArthur Genius primero abordó algunas limitaciones inesperadas de los modelos más potentes de la actualidad. En particular, GPT-4 es realmente malo en la multiplicación. Sorprendentemente, no encuentra correctamente el producto de dos números de tres dígitos, aunque con un poco de persuasión puede hacerlo el 95% de las veces. ¿Por qué es importante que un modelo de lenguaje no pueda hacer matemáticas? Porque todo el mercado de IA se basa actualmente en la idea de que los modelos de lenguaje se pueden transferir fácilmente a muchas tareas interesantes, incluidas cosas como impuestos o contabilidad. El argumento de Choi fue que debemos buscar los límites de la IA y trabajar hacia adentro, y no al revés, ya que esto nos dice más sobre sus capacidades.

Las otras partes de su presentación fueron igualmente interesantes y estimulantes. Puedes verlo completo aquí.

Rod Brooks, presentado como "The Hype Hunter", compartió una historia interesante sobre algunos de los conceptos básicos del aprendizaje automático, ¡conceptos que solo parecen nuevos porque la mayoría de las personas que los usan no estaban presentes cuando se inventaron! Mirando hacia atrás a lo largo de las décadas, se dirige a McCulloch, Minsky e incluso a Hebb, y muestra cómo las ideas siguieron siendo relevantes mucho más allá de su tiempo. Es un recordatorio útil de que el aprendizaje automático es un campo que ha estado sobre los hombros de gigantes hasta bien entrada la era de la posguerra.

Se han enviado y presentado muchos, muchos artículos en el CVPR y es reduccionista centrarse solo en los ganadores del premio, pero este es un resumen de noticias y no una revisión exhaustiva de la literatura. Esto es lo que los jueces de la conferencia consideraron más interesante:

Autor de la foto: AI2

VISPROG de los investigadores de AI2 es un tipo de metamodelo que realiza tareas complejas de manipulación visual utilizando una caja de herramientas de código multipropósito. Digamos que tiene una imagen de un oso grizzly en un poco de hierba (como se muestra); puede decirle que simplemente "reemplace el oso con un oso polar en la nieve" y comenzará a funcionar. Identifica las partes de la imagen, las separa visualmente, busca y encuentra o genera un reemplazo adecuado, y vuelve a ensamblar inteligentemente el todo sin requerir ninguna entrada adicional por parte del usuario. La interfaz de usuario "mejorada" de Blade Runner está empezando a verse muy aburrida. Y esa es solo una de sus muchas opciones.

La "Conducción autónoma planificada" de un grupo de investigación chino de varias agencias intenta unificar las diferentes partes del enfoque más fragmentario que hemos adoptado para los automóviles autónomos. Por lo general, existe algún tipo de proceso paso a paso de “percepción, predicción y planificación”, cada uno de los cuales puede tener una serie de subtareas (por ejemplo, segmentación de personas, identificación de obstáculos, etc.). Su modelo intenta juntar todo esto en un solo modelo, similar a los modelos multimodales que vemos que pueden usar texto, audio o imágenes como entrada y salida. De manera similar, este modelo simplifica un poco las complejas interdependencias de una pila de conducción autónoma moderna.

DynIBaR demuestra una forma robusta y de alta calidad de interactuar con video utilizando "campos de radiación neuronal dinámicos" o NeRF. Una comprensión profunda de los objetos en el video permite cosas como la estabilización, los movimientos del carro y otras cosas que generalmente no espera que sean posibles cuando el video ya se grabó. De nuevo... "mejorar". Ese es definitivamente el tipo de cosas para las que Apple te contrata y luego lo reconoce en la próxima WWDC.

Es posible que recuerde DreamBooth de un poco antes de este año cuando la página del proyecto se puso en línea. Es el mejor sistema hasta la fecha para crear deepfakes. Por supuesto, hacer este tipo de operación de imagen es valioso y poderoso, sin mencionar la diversión, e investigadores como Google están trabajando para que sea más fluido y realista. Consecuencias... tal vez más tarde.

El premio al Mejor Trabajo Estudiantil se otorga a un método de comparación y ajuste de mallas o nubes de puntos 3D. Para ser honesto, es demasiado técnico para mí explicarlo, pero es una característica de percepción importante en el mundo real, y las mejoras son bienvenidas. Consulte el documento aquí para obtener ejemplos y más información.

Solo dos pepitas más: Intel presentó este interesante modelo, LDM3D, para generar imágenes 3D 360 como entornos virtuales. Entonces, si está en el metaverso y dice: "Llévenos a una ruina cubierta de maleza en la jungla", simplemente creará una nueva cuando sea necesario.

Y Meta lanzó una herramienta de síntesis de voz llamada Voicebox que es muy buena para extraer características de las voces y reproducirlas incluso cuando la entrada no es limpia. Por lo general, para la replicación de voz necesita una buena cantidad y variedad de grabaciones de voz limpias, pero Voicebox lo hace mejor que muchos, con menos datos (piense en 2 segundos). Afortunadamente, mantienen a ese genio en la botella por ahora. Para aquellos que piensan que es posible que sea necesario clonar su voz, consulten Acapela.

Si quieres conocer otros artículos parecidos a Esta semana en IA: las grandes empresas tecnológicas están apostando miles de millones en herramientas de aprendizaje automático puedes visitar la categoría Noticias.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir