MEGACOMPARATIVA: MidJourney 5.2 vs Dall-e 3 vs Firefly 2

Si nunca te has preguntado cuál es la mejor IA generativa text-to-image, sigue así: lo estás haciendo muy bien.

En caso contrario, esta megacomparativa cambiará tu vida para siempre (al menos durante una o dos semanas).

Las novedades de OpenAI y Adobe nos han obligado a conocer cuál es la mejor IA del momento, y todo apunta a que peligra el trono de Midjourney.

La metodología ha sido la siguiente:

Creación de los prompts con text-to-text (chatgpt) sin supervisión.
Las imágenes no se revisan ni se corrigen resultados.
No se le da a la IA ningun parámetro adicional más que el formato de la imágen.
Puntuaremos y daremos feedback a cada imágen generada.
Daremos una nota final y un veredicto.

¡Allá vamos!

/1/ FOTOGRAFÍA HIPERREALISTA

Un retrato hiperrealista de una joven en sus últimos años de la veintena con pecas, ojos verdes y cabello castaño rizado.

prompt: a hyperrealistic portrait of a young woman in her late 20s with freckles, green eyes, and curly brown hair.

Midjourney y SD tienden a representar a la gente como “demasiado guapa”, lo que hace que las imágenes resulten menos creíbles.

En cuanto a los detalles, solo en la zona de los ojos parece más “pintado”. Las proporciones de la cara pueden resultar confusas. La iluminación es muy cinemática; sería adecuada si la chica pareciera más real.

Parece que la fotografía hyperrealista no es lo suyo.

Es un dibujinchi

Un resultado realmente sorprendente. Supongo que Firefly se basa en Adobe Stock, porque parece una foto, y puede que realmente lo sea. Solo le encuentro unos fallos mínimos: algo extraño en el pelo y un collar y pendientes poco definidos que se podrían corregir fácilmente.

/2/ TEXTO

Ilustración de un anuncio publicitario exterior ubicado en una calle concurrida con 'DIRECCIÓN CREATIVA'.

prompt: Illustration of an outdoor advertising banner placed on a busy street with 'DIRECCIÓN CREATIVA'

Ni cerca. Inteligible.

Parecía que sí, pero casi. Aún así, el resultado es alucinante. Es maravilloso ver cómo han evolucionado los textos en Dall-e desde que está integrado en un modelo de lenguaje como ChatGPT. Sería relativamente sencillo añadirle la ‘C’ y la tilde.

Game-changer de manual.

Terrible.

/3/ FOTOGRAFÍA GASTRO

Un plato con espaguetis a la boloñesa, coronados con queso parmesano recién rallado, sobre una mesa rústica de madera con una copa de vino tinto y un trozo de pan de al lado.

A high-resolution image of a plate with spaghetti bolognese, topped with freshly grated parmesan cheese, on a rustic wooden table with a glass of red wine and a piece of garlic bread on the side

La boloñesa parece real; la composición y la iluminación son cálidas y agradables.

Midjourney opta por el “binge-drinking” y le añade dos copas de vino.

En la foto gastro, a veces hay migas, queso esparcido por la mesa y rellenos, ya que Midjourney parece sufrir de horror vacui.

Resulta extraño que los espaguetis estén tan ordenados.

Dall-e y la fotografía no se llevan bien.

La iluminación hace que parezca muy realista. Sin embargo, hay elementos que parecen estar un poco sobresaturados, como el pan de la derecha. La copa presenta un error en el tallo, aunque su iluminación parece estar bien integrada.

Sorprende la ausencia de migas, lo que, para mí, la convierte en la ganadora indiscutible: “winner winner boloñesa dinner”.

/4/ FOTOGRAFÍA DE PRODUCTO

Fotografía de un frasco de perfume que evoca el encanto del Caribe.

prompt: photograph of a perfume bottle channeling the Caribbean charm.

La imagen es estéticamente agradable.

Sin embargo, la sombra no luce realista, el frasco carece de definición clara y, al tener elementos tan grandes encima, su apariencia resulta poco creíble.

Lo que más sorprende es lo bien que está el texto. Además ha sido el propio chatGP quién ha dado el título. Algunas letras no lucen perfectamente y el subtítulo aparece algo borroso.

La composición es adecuada, y ese efecto que simula dunas de arena a través de una especie de tela está logrado con éxito.

Sin embargo, la flor no parece estar completamente integrada en la escena.

A pesar de los detalles mencionados, el resultado general es muy positivo.

Al igual que en Midjourney, la imagen en sí no está mal, pero la falta de etiqueta con el texto altera la percepción, haciéndola pasar de creíble a menos convincente.

Además, la flor en el frasco no parece estar bien integrada.

/5/ ILUSTRACIÓN ARTÍSTICA

Un póster al estilo psicodélico de los años 60 que presenta un Maneki-Neko en 3D como un misterioso técnico de laboratorio como sujeto principal, que recuerda a Breaking Bad

prompt: A 1960s psychedelic-style poster featuring a 3D Maneki-Neko as a mysterious lab technician as the main subject, reminiscent of Breaking Bad.

El fondo tiene poca definición y hay errores en los objetos. Sin embargo, la mano está perfectamente representada. La imagen tiene un tono más oscuro y parece tener una textura similar a una impresión en papel, lo que la hace más creíble. Esto podría exagerarse.

Podría convertirse en un buen póster.

Ha interpretado el maneki neko de una manera muy literal.

La textura de la cabeza me recuerda a algún cuadro de Ana Barriga. Que le haya puesto ese cuerpo de persona me parece extraño, paree un señor con una máscara.

Un fondo poco definido. La cabeza es bastante divertida aunque tengo la sensación de que todo está poco definido.

No parece un misterioso técnico de laboratorio.

/6/ ILUSTRACIÓN DISNEY-PIXAR

El Capitolio con influencias artísticas de Disney-Pixar. En primer plano, un personaje en el estilo de disfraz de búfalo, vestido con un atuendo que recuerda al de EE.UU.

prompt: The Capitol with artistic influences from Disney-Pixar. In the foreground, a generic character inspired by the buffalo costume style, dressed in an outfit reminiscent of the U.S.

¡Claro! Aquí te dejo una versión más divertida:

“¿Pixar? ¡Más bien Pix-far! Y esas manos… parece que tuvieron un pequeño percance con el lápiz mágico. Además, ¿dónde se escondió el título? ¡Seguro se fue de vacaciones!”

¿Qué te parece?

El becario humano: mal 🙁

Teorizando para un proyecto con chatgpt se creo un concepto visual que se reforzaría con copys.

El texto no se ve bien en esta ocasión pero en otras lo clava, se podría editar fácilmente.

Me gusta mucho.

Firefly no facilita la creación de imágenes en formato 9:16

No se parece en nada a la imágen del tío del asalto al Capitolio. Tampoco a Pixar. No vale.

/7/ Arquitectura Generativa

Un modelo 3D de un edificio residencial innovador y ecológico con paneles solares, techos verdes y un diseño moderno y elegante.

prompt: a 3D model of an innovative, eco-friendly residential building with solar panels, green roofs, and a modern, sleek design.

Los píxeles están poco definidos, especialmente en la vegetación y los paneles solares. No soy arquitecto, pero la forma no me convence demasiado.

Algunos píxeles poco definidos. Parece una imágen de un juego tipo Sim City.

Parece demasiado “dibujo”

/8/ PERSONAJE 3D

Una animación 3D de un personaje de dibujos animados con estilo punk, con cabello verde neón puntiagudo, una chaqueta de cuero negro adornada con parches coloridos, jeans de mezclilla rasgados y botas de combate.

A 3D animation of a punk-styled cartoon character with neon green spiky hair, a black leather jacket adorned with colorful patches, ripped denim jeans, and combat boots.

Parece de una peli de animación de serie Z del año 2050.

Tiene imperfecciones pero me encanta.

Más infantil, un punkie family friendly.

Compro.

No pude ingresar el prompt completo. Personalmente, no me agrada en absoluto; la calidad me recuerda a la versión anterior de Dall-e.

/9/ IMPRESIONISTA

Un retrato de una joven mujer en estilo impresionista, con pinceladas suaves y fluidas y una paleta de colores primaverales.

prompt: a portrait of a young woman in an Impressionist style, with soft, flowing brush strokes and a palette of spring colors.

Aquí Midjourney no decepciona: Bella y algodonada, una ilustración perfecta para una tarjeta de boda albanesa.

Impresionista no es.

Impresionista lo que es impresionista no parece. Se asemeja más al estilo Niji con empastes que parecen de acrílico en lugar de óleo. Las pinceladas son cortas y anchas.

Podría ser la imágen que te viene cuando compras un marco barato.

Es un buen mal cuadro impresionista. Presenta pequeñas pinceladas cuadradas y áreas que parecen haber sido realizadas con espátula.

Una mezcla inusual que no termina de funcionar

/10/ PAISAJE ILUSTRADO

Un detallado paisaje virtual de un tranquilo jardín japonés en otoño, con un estanque de koi, un pequeño puente de madera y árboles con follaje colorido.

prompt: a detailed virtual landscape of a serene Japanese garden in autumn, with a koi pond, a small wooden bridge, and trees with colorful foliage.

Existen errores de composición; el puente parece corto. La iluminación y los reflejos están bien logrados, aunque parece que la imagen no tiene un punto focal claro. Además, no hay carpas koi presentes.

La luz, la composición y el reflejo del agua me resultan muy confusos. La niebla entre los árboles le añade algo de intensidad, pero aún así no logra “cautivarme”. Hay algunos errores en los koi, pero está bien. Aprecio lo distintos que son los árboles y lo bien definidos que están el puente y la casita.

Parece un dibujo de un cuento cualquiera. No vale.

/+/ LAS NOTAS

prompt: Ilustración 3D de un número [6'5,8,4] en morado claro, diseñado para parecerse a un hinchable pero también a una escultura artística, adornado con un patrón inspirado en los años 80, y situado prominentemente en una elegante galería de arte

prompt: A illustration of a number [6'5,8,4] in light purple, designed to resemble an inflatable yet also an artistic sculpture, adorned with an 80s-inspired retro pattern, and placed prominently in a chic art gallery setting

bad

Texto

regu

Interface amigable

Fotografía

good

Ilustración

Control sobre el output / Originalidad

bad

Fotografía

regu

Interface amigable

good

Ilustración

Texto

Control sobre el output.

Integración con modelo de lenguaje GPT4

bad

Texto

Ilustración

regu

Control sobre el output

good

Foto realista de producto.

Interface sencilla

Foto Hiperrealista brutal

/// VEREDICTO

3D de Salvador Dalí sosteniendo un trofeo triunfalmente. En el fondo, hay una representación simbólica del 'medio camino'. También hay una luciérnaga aturdida presente en la escena.

prompt: 3D representation of Salvador Dalí holding a trophy triumphantly. In the background, there's a symbolic representation of the 'mid-journey'. There's also a dazed firefly present in the scene.

BRONCE 🥉

Firefly suspende en casi todo, menos en fotografía, donde da una terrible paliza a los demás.

El hiperrealismo de personas es sencillamente fantástico, hasta el punto de estar cerca de ser indistinguible de una foto real. Supongo que es porque ha aprendido de muchas fotos. La interfaz es muy sencilla, y quizá experimentando con las opciones se hubiesen conseguido mejores resultados.

Dado que es la que menos conozco, no consideraría válida esta evaluación, solo orientativa.

PLATA 🥈

Midjourney es la herramienta con la que he trabajado los últimos meses junto a SD y me siento cómodo utilizándola. Consigo fácilmente muchas de las imágenes que tengo en mente e incluso las que no imagino. Tiene muchas opciones que te permiten controlar el resultado y dar consistencia a las imágenes. Las fotos de la comparativa hubiesen sido mucho mejores ajustando un poco las instrucciones.

Se puede decir que ha hecho lo que esperaba.

ORO 🥇

Dall-e me ha sorprendido tanto que me ha dado una nueva perspectiva de cómo debe de ser una IA multimodal. Me explico y doy un poco de contexto:

Dall-e fue la primera IA generativa text-to-image que usé y, aunque en su momento nos sorprendió, obviamente la calidad era básica. Luego descubrí Stable Diffusion y Midjourney, que eran técnicamente superiores, y me olvidé de Dall-e. O eso creía.

La semana pasada se presentó Dall-e 3 y, como tenía dudas por mi experiencia previa con Dall-e 2, no lo había probado hasta hacer esta comparativa. Lo impresionante es que trabajar con ChatGPT hace que, en lugar de darle instrucciones técnicas, puedes pedirle las imágenes como si hablaras con alguien. Hablar con la herramienta es una gran ventaja, ya que puedes crear todo tipo de imágenes fácilmente y en poco tiempo. Personalmente, ya usaba herramientas de texto para dar las instrucciones, pero tenía que copiar y pegar y usar otra herramienta.

CONCLUSIONES 💡

Las herramientas que solo se basan en texto o solo en imágenes (text-to-text, text-to-image y el guau-to-miau) ya están quedando atrás.

Las herramientas que quieran destacar deben aprender del modelo de OpenAI e integrar todas las formas de interacción en su interfaz: texto, imagen, vídeo, sonido, voz, gritos, suspiros, lo que sea… Las que no lo hagan, quedarán obsoletas.

La integración de Dall-e con GPT4 ha sido un gran acierto y ha hecho que haya reconsiderado todo el trabajo de los últimos meses.

Por supuesto esto no es una análisis objetivo ni pretende serlo. SSi no estás de acuerdo con lo que se dice aquí, comparte tus opiniones indignadas y foribundas en todas tus redes sociales.

¡Hasta la próxima comparativa definitiva!

¡Y suscríbete a la Newsletter!

What Is a Creative Content Factory? The Future of AI-Powered Content Production

Every marketing team is running into the same problem. Content demand keeps growing, but production capacity doesn’t. Brands

VTech launches on TV ‘Farm School: My First Field Trip.’

Today, the integration of human intelligence and artificial intelligence has evolved from a futuristic concept into a tangible reality. The lines between the human mind and the machine’s potential grow blurrier by the day, and it’s within this shifting landscape that OYSTERS emerges—an agency defined by an AI-First approach, placing artificial intelligence at the heart of everything we do.