Columna de Opinión de Julio Hurtado: “DALL·E la inteligencia artificial que crea imágenes a partir del texto descriptivo”

Por

Julio Hurtado*

17 OCTUBRE 2022

Twitter Facebook Whatsapp LinkedIn Email

¿Qué es DALL·E?

DALL·E (2021) y su versión más reciente DALL·E2 (2022), cuyo nombre referencia al famoso surrealista español, es un sistema de inteligencia artificial “text to image”, es decir, un algoritmo capaz de crear imágenes digitales originales y fotorrealistas utilizando como entrada un texto descriptivo. Recientemente se han hecho populares algunos algoritmos de este tipo, como DALL·E (OpenIA), Imagen (Google), Stable Diffusion (Stability) y Midjourney entre otros.

DALL·E es una versión de GPT-3 de acceso público que ha sido entrenada con un conjunto de datos imagen/texto, y posee más de 12 mil millones de parámetros, y como resultado, es sorprendentemente capaz de crear una o varias alternativas de imagen a partir de un texto dado, representando en ella múltiples aspectos estéticos y culturales de lo que dicha imagen representa.

¿Cómo funciona?

Para su funcionamiento, DALL·E utiliza un proceso llamado “difusión”. En su fase de entrenamiento estos sistemas extraen progresivamente información de una imagen hasta obtener sólo “ruido”. Con ello logran detectar y extraer los parámetros que permiten que una imagen sea reconocible.

Para su función generativa, el proceso comienza con un patrón de puntos aleatorios, y el algoritmo altera gradualmente ese patrón hasta lograr como resultado una imagen válida, es decir, una imagen en la que se reconocen aspectos específicos. DALL·E no crea imágenes a partir de la nada, sino que es capaz de producir variantes posibles basadas en el aprendizaje extraído de las imágenes empleadas en su entrenamiento.

Debates críticos

Junto a las múltiples aplicaciones que estas técnicas de inteligencia artificial permiten, como crear nuevas alternativas, automatizar parámetros de edición y simular estilos a partir de una imagen de entrada, surgen debates de su uso respecto a la autoría de las imágenes producidas con estos sistemas, posibles infracciones de derechos de autor, su uso malicioso en contextos de desinformación y los “silos” de creatividad, es decir la repetición funcional de los modelos de representación visual codificados en los set de entrenamiento, marginando con ello nuevos paradigmas inherentes a la diversidad de la creatividad humana.

Otro aspecto controversial son los sesgos que estos sistemas heredarían de los datos utilizados para su entrenamiento. Algunos de estos estereotipos se aprecian en las imágenes resultantes donde para “trabajadores” aparecen mayormente hombres y para “asistentes de vuelo” mayormente mujeres. Estos sesgos no son propios del modelo, sino del contenido generado por nosotros, las personas.

Algunas de las preguntas y desafíos que estas nuevas tecnologías instalan son objeto de estudio para el Instituto Milenio Fundamentos de los Datos, que realiza investigación de frontera y multidisciplinaria en torno a los problemas fundamentales en materia de datos tanto en su origen como en su uso e impacto social, para lo cual reúne a expertos en ciencias de la computación, estadística, ciencias políticas y comunicaciones.

Entre los muchos campos de aplicación de estas tecnologías se encuentran educación, por ejemplo, para ilustrar y explicar conceptos; en arte y creatividad como herramienta de lluvia de ideas o como parte del flujo de trabajo para la ideación artística; en marketing, para generar variaciones sobre un tema o “colocar” personas y elementos en determinados contextos más fácilmente que con las herramientas existentes; en arquitectura, inmuebles y diseño como parte de un flujo de trabajo más amplio para la ideación del diseño; e incluso en investigación, para ilustrar y explicar conceptos científicos.

* Diseñador de Experiencia de Usuarios de Innovación del Instituto Milenio Fundamentos de los Datos.

Más sobre:Opinión Tecnología Inteligencia artificial imágenes imagen texto DALL∙E Columna