Copiar enlace

La inteligencia artificial avanza a un ritmo vertiginoso, ofreciendo novedosas soluciones, muchas de las cuales ya hemos adoptado como algo cotidiano. Y una de las tecnologías que parece predestinada a convertirse en una herramienta más que presente en nuestro día a día son las IA generadoras de imágenes. Sistemas capaces de crear imágenes realistas o ilustraciones a partir de descripciones escritas por sus usuarios.

El protagonismo que estos modelos están cobrando ha ido in crescendo y, lejos de detenerse, continúa aumentando. Así mismo, su complejidad y su capacidad de comprensión y ejecución también han evolucionado, pasando de unos sencillos prototipos iniciales a modelos con resultados más que precisos.

Estas inteligencias artificiales son capaces de lograr un entendimiento profundo del lenguaje escrito, generando imágenes que se ajusten a la descripción indicada. Toda una revolución que democratiza la creación de imágenes e ilustraciones, acercando el diseño a todo el mundo, independientemente de sus habilidades artísticas.

Cuáles son las mejores IA generadoras de imágenes

Si todavía no conoces estas herramientas o si solamente has oído hablar de unas pocas, te traemos un listado, ordenado alfabéticamente, de las IA generadoras de imágenes más sonadas actualmente:

Craiyon

Anteriormente conocido como Dalle-mini, Craiyon es un generador de código abierto de OpenAI que fue creado por Boris Dayma y Pedro Cuenca.

Esta herramienta es gratuita, pero más lenta que otras como Dreamstudio. No obstante, Craiyon te ofrece de forma automática varios resultados (9 concretamente), no es necesario establecer de forma directa que quieres más de un resultado. Así mismo, funciona mejor al introducir frases sencillas, puesto que su sistema no es tan sofisticado como otros y todavía no cuenta con una inmensa capacidad de comprensión.

Sin embargo, llega a entender distintos idiomas, aunque con el que mejor funciona es el inglés. Por lo que, aunque pueda comprender ciertas palabras o frases en castellano, si buscas resultados más óptimos te recomendamos introducir tu descripción en inglés.

craiyon

Panel de Craiyon

Actualmente, Craiyon se encuentra aumentando el número de servidores para poder ofrecer un mejor y más veloz servicio. Por otra parte, debido al alto coste que supone tener activos los ordenadores y sistemas para que funciona, así como su mantenimiento, este se financia incluyendo anuncios en la web de la herramienta.

Dalle-2

Se trata de la primera IA generadora de imágenes de la que hablamos en Marketing4eCommerce, allá por abril de 2022. Como su propio nombre indica, es la segunda versión del sistema desarrollado por la compañía de investigación y desarrollo de inteligencia artificial OpenAI, siendo la primera Dalle-1. Este primer modelo fue lanzado a principios de 2021, mientras que un mejorado Dalle-2 se presentó al público en enero de 2022.

Dalle-2 funciona como un «sistema neuronal» capaz de analizar en profundidad un texto. Estas neuronas pueden relacionar el sujeto (por ejemplo «teddy bears»), la acción («mixing sparkling chemicals as mad scientist») y el estilo artístico («as digital art»). Además, el sistema no genera una única propuesta, sino que es capaz de ofrecer múltiples opciones.

Así mismo, los cambios que integró este modelo con respecto a Dalle-1, fueron mejoras en la calidad y resolución de las imágenes, en la comprensión de los textos y dos nuevas funcionalidades: la edición y el versionado.

  • Edición: brinda la posibilidad de incluir nuevos objetos o elementos en la composición, substituir otros y ampliar las imágenes añadiendo más contexto. Además, el programa tiene en cuenta luces, sombras, texturas y reflejos, otorgando una rica experiencia de edición.
  • Versionado: permite crear nuevos diseños que reinterpreten otros ya existentes, pudiendo variar aspectos como los ángulos y perspectivas, entre otros.
dalle-1 y dalle-2

Imagen generada con Dalle-1 (izquierda) e imágenes generadas con Dalle-2 (derecha)

Así mismo, la herramienta ha ido añadiendo mejoras y funciones con el tiempo, permitiendo una experiencia de creación y edición más completa. Su funcionamiento es muy intuitivo, puedes comenzar creando una imagen de cero introduciendo una descripción en el cajón de texto, u optar por subir una de tu dispositivo y editarla. Aunque las obras que Dalle-2 genere serán cuadradas, puedes variar su formato durante la edición.

Por su parte, el panel del editor solo cuenta con cinco opciones, pero estas son suficientes para obtener grandes resultados.

  • Select: con ella podrás mover el marco que señala en qué espacio de la imagen o externo a esta quieres realizar acciones.
  • Pan: para desplazarte por el lienzo en blanco que se presenta alrededor de la imagen.
  • Eraser: un borrador que permite seleccionar partes de la imagen para modificarlas.
  • Add generation frame: permite continuar creando a partir de una imagen, generando más contexto y ampliando sus límites originales.
  • Upload image: sirve para subir una nueva imagen de tu dispositivo.
Vista del panel de edición de Dalle-2

Panel de edición de Dalle-2

Actualmente, Dalle-2 se encuentra disponible para todo el mundo. ¿A qué esperas para comenzar a crear?

Dalle-3

La nueva y mejorada versión de Dalle-2, la IA generadora de imágenes desarrollada por OpenAI, es la más reciente de nuestro listado. El principal avance de Dalle-3 con respecto a su antecesora (y a otras IA) es que entiende mejor y de forma mucho más completa las descripciones de texto que los usuarios introducen para generar las imágenes. De este modo, aprender prompt engineering, es decir, aprender a hacer descripciones precisas para poder conseguir los resultados que buscan mediante la IA, ya no es tan necesario. Eso sí, recuerda que cuanto más preciso sea tu prompt, más lo será tu obra.

Así mismo, las imágenes que generes con Dalle-3 serán tuyas, no necesitas permiso de OpenAI para imprimirlas, venderlas o utilizarlas. Esta IA está integrada de forma nativa en los planes de pago ChatGPT, fusionando las capacidades de ambas herramientas.

No obstante, es posible disfrutar de Dalle-3 de forma gratuita, ya que Microsoft la ha integrado en el chatbot de Bing (ahora llamado Copilot).

Captura de pantalla del panel de Chat Bing a través del que utilizar Dalle-3

Panel de Chat Bing a través del que utilizar Dalle-3

Para ello tan solo hay que acceder al buscador de Bing, pasar a Copilot y pedirle que cree la imagen que desees. La herramienta generará un máximo de cuatro imágenes de cada vez (a veces hace solo tres), y te permitirá descargar todas las que quieras. Además, una vez cree las obras, te sugerirá nuevas indicaciones que puedes utilizar para completar o modificar tus imágenes.

Imagen generada con Dalle-3 de un castor con una corona de margaritas construyendo una presa con ramas y troncos en un río junto a una cascada

Imagen generada con Dalle-3 en Bing bajo la descripción «Crea la imagen de un castor con una corona hecha de margaritas construyendo una presa con ramas y troncos en medio de un río que desemboca en una cascada»

Otra característica muy útil de Dalle-3 es su capacidad para incluir palabras o frases a las imágenes. Aunque cabe señalar que, por ahora, esta función a veces no escribe correctamente algunas palabras. Un avance que sí ha mostrado es que ya es capaz de escribir en español, cuando antes solo lo hacía en inglés, aunque tu petición no fuese en ese idioma.

Imagen generada con Dalle-3 de un cartel en el que aparece el paisaje de un río en un bosque y un castor con una corona de margaritas guiñando el ojo y sonriendo, sobre él aparece la frase 'cuida los bosques'

Imagen con texto generada con Dalle-3 en Bing bajo la descripción «Crea la imagen de un cartel en el que aparezca el paisaje de un río en un bosque y un castor con una corona de margaritas guiñando el ojo y sonriendo, sobre él aparece la frase ‘cuida los bosques»

Dreamstudio

La quinta herramienta de nuestro listado es la creada por Stability AI, una comunidad formada por más de 140.000 desarrolladores. Dreamstudio se basa en el modelo de generación de imágenes de código abierto nombrado como Stable Diffusion.

Lo que diferencia a Dreamstudio de otras IA generadoras de imágenes son dos puntos, principalmente. El primero es que todo el mundo puede acceder a ella comenzando por una primera prueba gratuita. Una vez agotadas las imágenes gratis, se debe pagar una recarga mínima de 10 libras para continuar usándola. Así mismo, las imágenes se generan bajo una licencia que permite su uso tanto comercial como no comercial. El segundo es que esta no se trata de un modelo cerrado, además desde Stability AI animan a los usuarios a realizar revisiones públicas y aportar mejoras que impulsen y potencien la herramienta.

Así mismo, Dreamstudio ofrece un amplio abanico de parámetros que puedes modificar para ajustar el resultado a tu gusto:

  • Estilo artístico de la obra.
  • Seleccionar el ancho y el alto de la imagen.
  • Número de imágenes generadas.
  • «Prompt strenght»: cuanto más alto sea el valor que indiques, mayor será el grado de similitud entre tu descripción y la imagen final.
  • Número de pasos que se dedicarán a la creación.
  • Modelo bajo el que trabajará la herramienta.

No obstante, dependiendo de la configuración que establezcas, esto consumirá más o menos créditos de imagen. Por lo que deberás estar atento para no agotar el límite de imágenes gratuitas.

ejemplo de uso dreamstudio

Panel de Dreamstudio

Así mismo, desde hace no mucho esta IA también permite editar las obras que generes con ella o las imágenes que subas desde tu dispositivo. Desde Stability AI continúan trabajando en Dreamstudio, lanzando nuevos modelos (como el SDXL que actualmente se encuentra en fase beta), y realizando mejoras, con las que se pretende que la herramienta continúe aprendiendo y se disminuyan los posibles resultados adversos derivados de los malos significados, estigmas o connotaciones negativas ligados al lenguaje y cómo lo empleamos.

Firefly

Para poder utilizar la IA generadora de imágenes desarrollada por Adobe debes cumplir dos requisitos: tener más de 18 años y una cuenta en Adobe. Esta herramienta ha sido entrenada con conjuntos de datos de licencia abierta y Adobe Stock, en colaboración con NVIDIA, empresa tecnológica estadounidense especializada en la creación de unidades de pensamiento gráfico. El que Firefly haya sido diseñada de este modo sería una garantía, en principio, para evitar problemas relativos a los derechos de autor.

Cuenta con un plan gratuito y uno de pago, con el primero dispondrás de 25 créditos mensuales y con el segundo 100. Utilizar esta IA es sencillo, podremos generar imágenes a partir de una descripción escrita y, por supuesto, ajustar parámetros como el estilo, color, dimensiones, iluminación o composición de la imagen.

Otra característica relevante de Firefly es la variedad de posibilidades que presenta. No solo podrás crear obras de cero, sino que también tendrás la opción de añadir objetos o ampliar la imagen tomando en consideración el contexto inicial, de modo que todo quede armónico; crear efectos de texto; variaciones de color, etc.

Así mismo, Adobe está trabajando en nuevas funciones como el modelaje 3D o la generación imágenes a partir de bocetos propios, sin necesidad de texto. 

Interfaz del panel de creación de Firefly de Adobe, una de las IA generadoras de imágenes más populares

Panel de Firefly

Para acceder a Firefly puedes hacerlo desde su plataforma web, pero, además, está integrada en el paquete beta de creación de contenidos Adobe Express.

Hotpot (AI Art Maker)

Hotpot reúne diversas soluciones y asistentes de IA y software para diseño gráfico, edición y escritura. Su premisa es ayudar a las personas a crear composiciones, diseños e imágenes a través de herramientas y plantillas atractivas y sencillas que faciliten la edición y creación. Pero, de todas las herramientas que ofrece, la que nos interesa para este ranking es AI Art Maker.

Esta IA generadora de imágenes funciona de manera similar a las anteriores. Lo principal es introducir un texto descriptivo que el programa procesará para convertirlo en una imagen. Además de esto, puedes ajustar criterios como el estilo pictórico, el tamaño de la imagen, si quieres diferentes resultados, etc.

Al igual que Craiyon, se toma más tiempo que otras opciones del listado a la hora de crear las imágenes y sus resultados también son algo más simples. El tiempo medio de espera es de 20 segundos a 2 minutos, pero la propia página advierte que, en caso de haber mucho tráfico en la web, las creaciones gratuitas pueden tardar 2 o 3 horas en crearse.

Imagen creada con la IA generadora de imágenes Hotpot

Imagen generada con AI Art Maker bajo la descripción «A cookie cow»

Si quieres que su velocidad de carga aumente, puedes comprar créditos, lo cual también te permitirá hacer un uso comercial de las imágenes que generes. Las opciones de compra ofrecen planes de pago de una sola vez, mensuales o anuales.

Midjourney

Midjourney es un pequeño laboratorio de investigación independiente que busca abrir nuevos caminos y expandir la creatividad humana. Actualmente cuenta con 11 miembros y un conjunto de asesores.

Para poder hacer uso de su IA generadora de imágenes puedes probar una demo o comenzar la experiencia completa. En ambos casos será necesario que accedas con una cuenta de Discord, y podrás acceder mediante Midjourney Bot o la plataforma web. Una vez que comiences a disfrutar de la herramienta, contarás con un límite de imágenes gratuitas (unas 25 aproximadamente). Cuando pases ese límite deberás escoger una de las tarifas que ofertan para poder continuar haciendo uso de Midjourney.

Cada vez que introduzcas un texto se generarán 4 opciones de imágenes, lo cual suele tardar un minuto, una media de tiempo más que razonable. Tras esto, aparecerán dos filas de botones, los cuales podrás usar para ampliar las imágenes y para editarlas a tu gusto.

Imagen creada con la IA generadora de imágenes Midjourney que muestra una casa en el campo, tras ella se ven montañas y un cielo nuboso, y ante esta un sendero enmarcado por un campo de girasoles

Imagen generada con Midjourney por el ususario «Mooji0046» bajo la descripción «Traditional landscape painting of a sunflower field in full bloom leading to a secluded farmhouse, with a clear blue sky and distant rolling hills, rich in color and detail»

Nightcafe

Nightcafe fue creada por Angus Russell en noviembre de 2019 en Sydney, y con el paso de los años ha ido perfeccionándose hasta llegar a más de 5 millones de usuarios. Su nombre deriva de la obra de Vincent Van Gogh «El café de noche».

Además de generar imágenes acordes a un texto descriptivo, esta herramienta ofrece la opción de compartirlas con la comunidad, de modo que puedas presumir de la obra que Nightcafe y tú habéis creado.

Imagen generada con Nightcafe en la que se muestra un oso blanco formado por nubes durmiendo en un cielo azul

Imagen generada con Nightcafe bajo la descripción «Sleeping bear of cloud»

La plataforma te ofrece 5 créditos gratuitos, con cada imagen que generes gastarás un crédito. Una vez tengas tu diseño, podrás compartirlo para que otros usuarios puedan disfrutar de él e inspirarse.

StableDiffusion Web

Sí, en efecto, esta herramienta también se basa en el mismo modelo (Stable Diffusion) en que lo hace Dreamstudio. Aunque en sus inicios era totalmente gratuita y no pedía ningún registro para poder usarse, ahora deberás crear una cuenta para poder hacer uso de ella. El plan que se te aplicará por defecto es el gratuito, con el que tendrás 10 créditos que se restablecerán cada 24 horas. Para conseguir mayor cantidad de créditos y mejores condiciones puedes suscribirte a uno de los dos planes de pago.

En cuanto a su funcionamiento, además de introducir el prompt, podrás seleccionar uno de sus 18 estilos (o ninguno), determinar la relación de aspecto y si quieres generar una, dos o cuatro imágenes (esta última opción es exclusiva para suscriptores). Al igual que las herramientas anteriores, es muy rápida, creando imágenes en cuestión de segundos.

Algo a tener en cuenta en esta IA es que solo guardará las imágenes que generes durante siete días, así que te recomendamos que las descargues lo antes posible para no perderlas.

Imagen del panel de creación de la IA generadora de imágenes StableDiffusion Web en la que se ve la obra "Un oso de peluche rosa con armadura medieval", con estilo barroco y relación de aspecto 1:1

Stable Diffusion XL

Al igual que el caso anterior, este modelo también ha sido creado por Stability AI y es de los lanzamientos más recientes de nuestro top. Se trata de una versión mejorada de Stable Diffusion 2.0 que, al igual que otros productos de la desarrolladora, es de código abierto.

Stable Diffusion XL se ha entrenado con 3 veces más parámetros que sus predecesores. Esto le otorga mayor capacidad de comprensión e interpretación, permitiéndole entender mucho mejor las instrucciones que se le dan. Entre las mejoras que introduce Stable Diffusion XL, podemos destacar las siguientes:

  • Nuevas texturas, estilos y mejoras para crear manos y rostros más realistas y bien definidos.
  • Incorporación de texto verdaderamente legible y entendible en las imágenes.
  • Amplio rango de perspectivas.
  • Colores con más saturación.
  • Fusión de tonos para generar sombras, brillos y contrastes más realistas.

A diferencia de otros modelos del listado, este no cuenta con una web propia donde poder utilizarlo, sino que se ha integrado en Dreamstudio. También es posible probarlo en la web de Stability AI Clipdrop de forma gratuita o descargar la API e instalarlo en un ordenador. Así mismo, se ha anunciado su disponibilidad en SageMaker y Bedrock de Amazon Web Services.

Al utilizarlo en Clipdrop, se nos permite introducir algunos ajustes a la hora de crear nuestra imagen. En primer lugar, podemos seleccionar un estilo artístico de entre 14 posibles, o determinar que no queremos ninguno en concreto. También se nos permite determinar las dimensiones y proporciones de la obra, y el «prompt negativo» (una descripción de aspectos o elementos que queremos que la IA evite al generar la obra).

Imagen generada desde Clipdrop con Stable Diffusion XL

Imagen generada con Stable Diffusion XL bajo la descripción «a happy elf wearing clothes made of flowers dances on a mushroom with a dragonfly» y con el estilo «Fantasy Art»

Stable Doodle

Y, para cerrar nuestro top, volvemos a toparnos con una IA desarrollada por Stability AI y basada en su modelo Stable Diffusion. No obstante, Stable Doodle ha sido creada a partir de una versión mejorada de este modelo combinada con T21-Adapter, una solución de control condicional.

El rasgo diferencial principal de Stable Doodle es que permite generar imágenes a partir de bocetos dibujados por el usuario. Además, es gratuita y puedes escoger entre registrarte en la herramienta o no. Eso sí, si no creas una cuenta tendrás una limitación diaria de unos 5 usos.

Esta tecnología es capaz de realizar un análisis del contorno del dibujo y crear una imagen con resultado profesional. Así mismo, el boceto se acompaña de una pequeña descripción o indicaciones escritas, que deberán ser introducidas en inglés. También es posible escoger entre 14 estilos artísticos para aplicarlos a tu obra y conseguir resultados más precisos.

El panel de resultados de Stable Doodle muestra el boceto que dibujamos y las 3 imágenes que la IA ha generado a partir de este

Panel de resultados de Stable Doodle

Una vez cubiertos todos los campos necesarios, la IA generará tres imágenes y dará la posibilidad de descargarlas todas en alta definición. Los diseños que descargues presentarán una pequeña marca de agua en la esquina inferior derecha, para señalar que han sido creados con esta inteligencia artificial.

Imagen de una serpiente sosteniendo un paraguas mientras llueve generada creada con la IA generadora de imágenes Stable Doodle

Imagen generada con Stable Doodle bajo la descripción «a snake holding an umbrella while it is raining and puddles form on the ground»

Cómo crear buenos prompts

Lograr que la IA plasme las ideas que flotan en nuestra mente puede ser una tarea complicada al principio, pero es cuestión de práctica y de mejorar nuestras habilidades comunicativas.

La correcta construcción sintáctica es muy relevante. Igual que para hacernos entender entre nosotros debemos estructurar y ordenar debidamente nuestras oraciones, para lograr mejores resultados con estas herramientas también. Por otra parte, ten en cuenta que todo lo que no especifiques será un elemento sobre el que la IA tendrá licencia creativa. A veces puede resultar interesante, pero otras puede provocar que los resultados no sean los deseados. Por ello, será fundamental tener claro qué queremos y cómo expresarlo.

Así mismo, además de describir los elementos que componen la escena, también deberás aportar contexto y especificaciones de estilo, color, técnica pictórica, etc. Por ejemplo, no es lo mismo pedir a la IA que cree una imagen de «un dragón amarillo hecho de nubes» que «un sonriente dragón amarillo hecho de nubes flotando sobre un jardín de cerezos en flor. El dragón está de frente, en el centro de la imagen y se le ve el cuerpo entero. La luz es cálida, colores pastel, estilo pixar, alta definición».

Por otra parte, recuerda la importancia de indicarle a la herramienta la proporción de las imágenes. Algunas cuentan con opciones manuales, otras no son flexibles con este aspecto y a otras puede indicársele en el propio prompt.

Imagen creada con la IA generadora de imágenes DALL-E3 en GPT4 de un sonriente dragón amarillo hecho de nubes sobre un jardín de cerezos

Imagen generada con Dalle-3 en GPT4 bajo la descripción: «crea una imagen rectangular, más ancha que alta, de un dragón amarillo sonriente hecho de nubes flotando sobre un jardín de cerezos en flor. El dragón está de frente, en el centro de la imagen y se le ve el cuerpo entero. La luz es cálida, colores pastel, estilo pixar, alta definición»

Así mismo, es importante señalar que muchas IAs entienden mejor el inglés que el resto de idiomas. Por lo que traducir los prompts puede ser una forma de conseguir resultados más acertados.

Por último, nos gustaría demostrar lo mucho que han avanzado estas herramientas en cuanto a la calidad de las obras que generan. Para ello, hemos cogido la antigua imagen de portada de este artículo y la hemos subido a GPT4 para pedirle que, con Dalle-3, generase una nueva versión, con más detalle y un estilo más realista.

Le hemos dado las siguientes indicaciones: «Voy a adjuntarte una imagen en la que se ve a un pequeño mono sentado junto a una máquina de escribir. ¿Puedes reinterpretarla para crear una versión más moderna, profesional y de calidad? Me gustaría que tuviese un estilo realista, que resultase simpática y agradable. También quiero que el papel que salga de la máquina de escribir, en vez de un texto, muestre un dibujo, representando las IAs generadoras de imágenes a partir de texto».

A la izquierda vemos una imagen generada con Dreamstudio en septiembre de 2022 bajo la descripción «A monkey typing on a typewriter, oil painting». A la derecha vemos una nueva versión de esta imagen, creada con Dalle-3 en GPT4 en febrero de 2024, bajo las indicaciones «Voy a adjuntarte una imagen en la que se ve a un pequeño mono sentado junto a una máquina de escribir. ¿Puedes reinterpretarla para crear una versión más moderna, profesional y de calidad? Me gustaría que tuviese un estilo realista, que resultase simpática y agradable. También quiero que el papel que salga de la máquina de escribir, en vez de un texto, muestre un dibujo, representando las IAs generadoras de imágenes a partir de texto»

Izquierda: imagen generada con Dreamstudio en septiembre de 2022 bajo la descripción «A monkey typing on a typewriter, oil painting» / Derecha: nueva versión creada con Dalle-3 en GPT4 en febrero de 2024

Como ves, el resultado es mucho más profesional, los trazos son más precisos, la recreación del mono y de la máquina de escribir es más acertada y realista, se añaden elementos de fondo que completan la escena y los colores y contrastes son más vibrantes.

Foto: generada a través de GPT4

 

Mantente informado de las noticias más relevantes en nuestro canal de Telegram