Desde hace tiempo los informáticos están trabajando en perfeccionar la Inteligencia Artificial (IA) que generan imágenes a partir de texto. Quieren que la IA entienda mejor el lenguaje humano, y para ello le están enseñando a «ver» qué significan las palabras y las frases. Pero, ¿qué tiene que ver una silla en forma de aguacate?
El pronóstico es claro: la Inteligencia Artificial va a poder entender tanto texto como imágenes. Para ello, los investigadores están intentando que los sistemas lingüísticos de IA comprendan mejor los conceptos cotidianos que los humanos utilizamos para dar sentido a las cosas. Ahora se lanzaron dos nuevos modelos de aprendizaje profundo —algoritmos que emulan el enfoque de aprendizaje que los seres humanos utilizan para obtener ciertos tipos de conocimiento— que están a punto de lograrlo.
Para probar la capacidad de los nuevos modelos de trabajar con conceptos novedosos, los investigadores le dieron descripciones de objetos que pensaban que no había visto antes, como «un sillón en forma de aguacate» y «una ilustración de un rábano daikon bebé con un tutú paseando a un perro». En ambos casos, la IA generó imágenes que combinaban estos conceptos de forma digna de ser aplaudida. Los sillones, en particular, se parecen a sillas y aguacates.
«Lo que más me ha sorprendido es que el modelo puede tomar dos conceptos no relacionados y juntarlos de forma que resulte en algo más o menos funcional», dijo a la revista Technology Review del Instituto de Tecnología de Massachussets (MIT, por sus siglas en inglés), Aditya Ramesh, que trabajó en uno de los nuevos modelos. Los investigadores aseguran que la verdadera prueba es ver hasta dónde se puede empujar a la IA fuera de su zona de confort.
¿Cómo entiende las palabras e imágenes la Inteligencia Artificial?
En 2020 la empresa estadounidense de investigación de IA OpenAI presentó el modelo de aprendizaje profundo GPT-3, que podía ser entrenado para utilizar el lenguaje de diversas maneras, simplemente lanzándole grandes cantidades de texto. Poco después, demostró que cambiando el texto por píxeles, podía utilizarse para completar imágenes a medio terminar. GPT-3 imita la forma en que los humanos utilizan las palabras; Image GPT-3 predice lo que vemos.
Ahora OpenAI amplió el GPT-3 para que comprenda mejor los conceptos cotidianos, sus dos nuevas tecnologías se llaman DALL-E y CLIP (Contrastive Language-Image Pre-training), según publicó Technology Review.
¿Cómo funciona CLIP?
Aprende a reconocer imágenes no a partir de ejemplos etiquetados en un conjunto de datos —como hacen la mayoría de los modelos de IA—, sino a partir de imágenes y sus subtítulos tomados de Internet. Es decir, esta IA aprende a identificar qué hay en una imagen a partir de una descripción —»el gato está comiendo un plátano»—, y no de una etiqueta de una sola palabra —como «gato» o «plátano»—. Lo asombroso de CLIP es que aprende a relacionar una gran variedad de objetos con sus nombres y con palabras que los describen, lo que le permite identificar objetos en imágenes que no le fueron dadas durante su entrenamiento.
¿Cómo funciona DALL-E?
En lugar de reconocer imágenes, DALL-E «las dibuja». Este modelo es una versión más pequeña de GPT-3 que también se ha entrenado con texto-imagen tomados de Internet. En Techonology Review explican que si se le da un título corto, como «un cuadro de un carpincho sentado en un campo al amanecer» o «una vista transversal de una nuez», DALL-E genera muchas imágenes que coinciden con la descripción: docenas de carpinchos de todas las formas y tamaños delante de fondos naranjas y amarillos; fila tras fila de nueces (aunque no todas en sección transversal). Aunque las tecnologías no son perfectas y cometen errores, estos desarrollos significan un avance en un campo que desde hace tiempo tiene el reto de convertir texto en imágenes.