Después de haber presentado en los capítulos anteriores qué es la IA y qué son los modelos de lenguaje (LLM), vamos a centrarnos a partir de ahora en cómo podemos utilizar esta tecnología para crear contenido gráfico. Sin duda ha sido la posibilidad de crear imágenes a partir de texto lo que ha puesto a la inteligencia artificial generativa en el foco mediático y social y lo que ha dado lugar a más debates.
Vamos pues a presentar algunas herramientas a disposición de los creadores de contenidos, explicando sus características. Y en este punto debemos también asumir una de las principales limitaciones de esta serie de artículos: dada la velocidad a la que se suceden los avances en el campo de la IA generativa, es muy difícil abarcarlo todo y mantenerse al día. Es muy probable que en el momento en el que estás leyendo este texto ya hayan aparecido otras herramientas más avanzadas o que estas mismas hayan incorporado nuevas funcionalidades o mejorado sus capacidades. No obstante, sirvan estos ejemplos como punto de partida para tu propio camino de investigación y descubrimiento de las aplicaciones que mejor se adapten a tus necesidades creativas.
Herramientas de generación de imágenes
OpenAI y Dall-E3
Empezaremos hablando de Dall-E. Esta herramienta desarrollada por OpenAI (la misma empresa que desarrolla ChatGPT) se presentó en 2021 y actualmente está en su versión 3.
Dall-E 3 utiliza un modelo de aprendizaje profundo basado en la arquitectura GPT-3 (Generative Pre-trained Transformer 3), conocido por su comprensión del lenguaje natural, y funciona de manera sencilla: los usuarios proporcionamos una descripción textual y la IA genera una imagen que se ajusta a esa descripción. Además, está integrado de forma nativa en ChatGPT, lo que nos permite colaborar con él para refinar sus descripciones y obtener imágenes aún más precisas y personalizadas.
Dall-E 3 se ha entrenado utilizando un conjunto de datos compuesto por pares de texto e imágenes. Sin embargo los detalles exactos de este conjunto de datos no se han revelado oficialmente, lo que ha dado lugar a acusaciones de apropiación indebida de material con derechos de autor, abriendo un debate legal y social que aún no se ha cerrado.
Adobe y Firefly
Por su parte, la empresa Adobe ha desarrollado un modelo de IA generativa denominado Firefly que ha integrado progresivamente en su suite de software para creativos. Con Firefly se pueden crear imágenes a partir de descripciones de texto, pero su verdadero potencial está en la edición personalizada: dada su integración con Photoshop e Illustrator, se puede utilizar Firefly para aplicar cambios personalizados por zonas, agregar filtros y rellenos (generative fill) o ajustar detalles según las necesidades creativas. Así, la propuesta de Adobe es de las que mejor combina la potencia de la inteligencia artificial con la creatividad humana.
Midjourney
Midjourney es seguramente la herramienta más popular para la generación de imágenes mediante inteligencia artificial. Es un servicio desarrollado por un laboratorio de investigación independiente y se presentó en 2023.
Aunque comenzó siendo una herramienta gratuita, la necesidad de sostener una infraestructura tecnológica suficiente para dar soporte a su creciente base de usuarios la llevó a implantar un modelo de pago por suscripción. El acceso a Midjourney, por el momento, debe hacerse a través de la red social Discord.
Para generar imágenes, este modelo de IA utiliza tecnología basada en redes generativas adversarias (GAN). Estas GANs constan de dos redes neuronales: un «generador» y un «discriminador» que trabajan juntos para crear la visualización del input de texto introducido por el usuario. Midjourney se ha destacado por la generación de imágenes hiperrealistas, lo que ha dado lugar a polémicas sobre los límites éticos de la creación generativa.
Hemos dejado fuera de esta breve presentación a Stable Diffusion de Stability.ai, una herramienta open source muy potente sobre la que escribiremos con mayor profundidad en próximos capítulos. Y también dedicaremos espacio al prometedor campo de la generación de vídeo a partir de texto.