Cuatro meses después volvemos a llamar a revisión a las IA generativas de imágen más populares. En este tiempo solo hemos visto una gran actualización, la de Midjourney a su modelo V.6.
La metodología ha sido la siguiente:
- Creación de los prompts con text-to-text (chatgpt) sin supervisión.
- Las imágenes no se revisan ni se corrigen resultados.
- No se le da a la IA ningun parámetro adicional más que el formato de la imágen.
- Puntuaremos y daremos feedback a cada imágen generada.
- Daremos una nota final y un veredicto.
¡Allá vamos!
/1/ FOTOGRAFÍA HIPERREALISTA
Midjourney sigue representando a las personas como «demasiado guapas» lo que les quita realismo. Aún así en la versión v6 se ha visto un gran avance en cuanto a composición y detalle. Aunque esta imagen parece un poco lavada sin duda MJ sería mi opción para foto hiperrealista.
Dall-e 3 sigue sin crear imágenes realistas de calidad. Es un muñeco.
Firefly tiene un database enorme de Adobe Stock, lo que hace que las imágenes sean casi indistinguibles de la realidad. Aún así lo clasifico por detrás de Midjourney por su falta de versatilidad, un retrato realista es muy fácil de conseguir, si quieres algo más concreto te costará conseguirlo.
/2/ MOCKUP
Todo lo que está alrededor del mupi está bien creado y una vez más Midjourney demuestra su gran capacidad para crear imágenes fotográficas.
Por otro lado lo que se ve dentro del mupi es inteligible.
Aunque esta imagen parece un poco más 3D, Dall-e suele ofrecer buenos resultados a la hora de crear mockups aunque a veces con poca precisión en el texto, aunque nada que no se pueda corregir con un poco de edición.
4 meses después,, Adobe Firefly no ha avanzado nada en este campo.
/3/ FOTOGRAFÍA GASTRO
Imagen muy realista, parecen hamburgesas de verdad aunque el reflejo de la mesa parece muy exagerado (se podría corregir). La profundidad de campo y el fondo están logrados. Buen resultado.
Muy 3D, poco natural, alimentos con formas raras. Dall-e suspende en casi todo relacionado con la fotografía.
No parece muy realista, aunque el resultado es mejor que Dall-e sigue sin ser un producto comercializable. Los ingredientes y la lechuga parecen de plastico.
/4/ FOTOGRAFÍA DE PRODUCTO
Midjourney vuelve a destacar plasmando fotográficamente la realidad. El frasco de la colonia es un poco extraño y la naranja roja también. La composición no pone el producto en el centro y el texto no es legible.
Aunque no parece una imagen muy realista, tanto la composición como el texto están logrados No me parece un resultado perfecto pero se podría mejorar. La composión está muy bien, quitaría a los señores sentados.
Imagen bastante realista con errores de bulto. El color naranja dentro del frasco y la falta de etiqueta y texto es lo que más «canta».
/5/ ILUSTRACIÓN ARTÍSTICA
No me encanta pero aprueba, el fondo está muy conseguido pero la expresión del gato no mucho. No parece una ilustración como tal aunque es lo que se le ha pedido.
Muy muñeco pero vistoso. Pone la torre de Londres cuando el prompt se indica que debe de ser Birgmingham. Dall-e sigue siendo la referencia a la hora de crear ilustración y 3D.
Mal, parece de una generación anterior de GenAI.
/6/ texto
Aunque ha dado un gran paso adelante en la generación se tiene poco control sobre lo que genera y comete errores como comerse letras. No le pedí que apareciesen ostras pero las puso porque le pareció conveniente.
Muy buen resultado. Un notable alto para dall-e.
Adobe tiene una herramienta específica para generar texto, pero te limita a unas tipografías y formatos concretos, lo que hace es rellenar textos pre-existentes y los resultados no son buenos. Si se lo pides a Firefly, como podéis observar no hace ni caso.
/7/ Arquitectura
Bastante buen resultado aunque la textura del cemento es un poco extraña. Está logrado el interior aunque con no demasiada definición que se podría mejorar upscalando y con inpaintng.
Mejor de lo que me esperaba en cuanto a realismo. Un pasito por debajo de Midjourney con la desventaja de no tener herramientas de edición generativa para mejorar el resultado.
Parece una maqueta. No está mal pero tampoco bien.
/8/ PERSONAJE 3D
El coche parece un poco desproporcionado pero el conjunto de la imagen está bastante conseguida. Acudiría a Midjourney si quisiese tener mucho control sobre la imagen con elementos concretos.
Muy guay, aunque el muñeco en sí no es de mi gusto, el resto de la composicón está muy lograda. Sigue pareciendo 3D pero un buen 3D.
Mal. Muy mal. Ni es estilo 3D y el delorean lo ha representado como un UFO.
/9/ ilustración. Sticker art.
Sorprendentes resultados en ilustración. Estilo moderno y urbano, que es lo que se le pide. No es muy «sticker» pero demuestra las nuevas capacidades de Midjourney para crear ilustraciones pintonas.
Cumple con el prompt. Dall-e es una buena herramienta para crear ilustraciones aunque en ocasiones peca de falta de originalidad.
Terrible.
/10/ FOTOGRAFÍA URBANA
Esta imagen en concreto es un poco rara pero Midjourney es ahora mismo la herramienta a la que acudir si quieres crear fotografía. Es la más realista de las tres.
A dall-e no le puedes pedir mucho en fotografía, esto es lo mejor que puedes conseguir.
A pesar de que la modelo está conseguida (excepto el error en el brazo-barandilla) la iluminación es extraña y el fondo no parece realista. Tal vez cambiando la iluminación podría conseguirse mejores resultados pero soy escéptico.
/+/ LAS NOTAS
bad
Nada
regu
Interface amigable
Texto
good
Ilustración
3D
Fotografía
Control sobre el output / Originalidad
bad
Fotografía
regu
Interface amigable
good
Ilustración
Texto
3D
Control sobre el output.
Entendimiento contextual.
bad
Texto
Ilustración
regu
Control sobre el output
good
Foto realista de producto.
Interface sencilla
Foto Hiperrealista en retratos.
/// VEREDICTO
BRONCE 🥉
Firefly suspende en casi todo menos en fotografía. No hay cambios significativos.
PLATA 🥈
La versión 6 de Midjourney ha mejorado mucho en cuanto a realismo fotográfico. En ocasiones sigue siendo difícil que «entienda» lo que le pides pero gracias a sus herramientras y comandos es relativamente sencillo tener un control sobre los resultados. Ha mejorado también en la generación de texto pero no lo suficiente como para ser confiable. Buen progreso aunque aún no es una herramienta perfecta.
PLATA 🥈
Dall-e sigue siendo mi herramienta favorita por el hecho de ser multimodal. Para crear conceptos visuales es perfecto pero tiene sus limitaciones en el control del outoput. No es una herramienta creada para generar contenido masivo.
CONCLUSIONES 💡
Midjourney ha dado un pasito hacia adelante pero no suficiente, creo que tarde o temprano se quedará obsoleta si no integran un LLM lo que convertiría a la propia herramienta en otra cosa.
No se ve evolución en dall-e, su rendimiento fotográfico sigue siendo bajo y sigue destacando en análisis contextual.
Sigo sin usar Firefly para casi nada porque con las dos herramientas anteriores no lo veo útil. Sólo lo usaría si necesitase un retrato realista en plano cerrado.
Por supuesto esto no es una análisis objetivo ni pretende serlo. SSi no estás de acuerdo con lo que se dice aquí, comparte tus opiniones indignadas y foribundas en todas tus redes sociales.
¡Hasta la próxima comparativa definitiva!
¡Y suscríbete a la Newsletter!