Si nunca te has preguntado cuál es la mejor IA generativa text-to-image, sigue así: lo estás haciendo muy bien.
En caso contrario, esta megacomparativa cambiará tu vida para siempre (al menos durante una o dos semanas).
Las novedades de OpenAI y Adobe nos han obligado a conocer cuál es la mejor IA del momento, y todo apunta a que peligra el trono de Midjourney.
La metodología ha sido la siguiente:
- Creación de los prompts con text-to-text (chatgpt) sin supervisión.
- Las imágenes no se revisan ni se corrigen resultados.
- No se le da a la IA ningun parámetro adicional más que el formato de la imágen.
- Puntuaremos y daremos feedback a cada imágen generada.
- Daremos una nota final y un veredicto.
¡Allá vamos!
/1/ FOTOGRAFÍA HIPERREALISTA
Midjourney y SD tienden a representar a la gente como « demasiado guapa », lo que hace que las imágenes resulten menos creíbles.
En cuanto a los detalles, solo en la zona de los ojos parece más « pintado ». Las proporciones de la cara pueden resultar confusas. La iluminación es muy cinemática; sería adecuada si la chica pareciera más real.
Parece que la fotografía hyperrealista no es lo suyo.
Es un dibujinchi
Un resultado realmente sorprendente. Supongo que Firefly se basa en Adobe Stock, porque parece una foto, y puede que realmente lo sea. Solo le encuentro unos fallos mínimos: algo extraño en el pelo y un collar y pendientes poco definidos que se podrían corregir fácilmente.
/2/ TEXTO
Ni cerca. Inteligible.
Parecía que sí, pero casi. Aún así, el resultado es alucinante. Es maravilloso ver cómo han evolucionado los textos en Dall-e desde que está integrado en un modelo de lenguaje como ChatGPT. Sería relativamente sencillo añadirle la ‘C’ y la tilde.
Game-changer de manual.
Terrible.
/3/ FOTOGRAFÍA GASTRO
La boloñesa parece real; la composición y la iluminación son cálidas y agradables.
Midjourney opta por el « binge-drinking » y le añade dos copas de vino.
En la foto gastro, a veces hay migas, queso esparcido por la mesa y rellenos, ya que Midjourney parece sufrir de horror vacui.
Resulta extraño que los espaguetis estén tan ordenados.
Dall-e y la fotografía no se llevan bien.
La iluminación hace que parezca muy realista. Sin embargo, hay elementos que parecen estar un poco sobresaturados, como el pan de la derecha. La copa presenta un error en el tallo, aunque su iluminación parece estar bien integrada.
Sorprende la ausencia de migas, lo que, para mí, la convierte en la ganadora indiscutible: « winner winner boloñesa dinner ».
/4/ FOTOGRAFÍA DE PRODUCTO
La imagen es estéticamente agradable.
Sin embargo, la sombra no luce realista, el frasco carece de definición clara y, al tener elementos tan grandes encima, su apariencia resulta poco creíble.
Lo que más sorprende es lo bien que está el texto. Además ha sido el propio chatGP quién ha dado el título. Algunas letras no lucen perfectamente y el subtítulo aparece algo borroso.
La composición es adecuada, y ese efecto que simula dunas de arena a través de una especie de tela está logrado con éxito.
Sin embargo, la flor no parece estar completamente integrada en la escena.
A pesar de los detalles mencionados, el resultado general es muy positivo.
Al igual que en Midjourney, la imagen en sí no está mal, pero la falta de etiqueta con el texto altera la percepción, haciéndola pasar de creíble a menos convincente.
Además, la flor en el frasco no parece estar bien integrada.
/5/ ILUSTRACIÓN ARTÍSTICA
El fondo tiene poca definición y hay errores en los objetos. Sin embargo, la mano está perfectamente representada. La imagen tiene un tono más oscuro y parece tener una textura similar a una impresión en papel, lo que la hace más creíble. Esto podría exagerarse.
Podría convertirse en un buen póster.
Ha interpretado el maneki neko de una manera muy literal.
La textura de la cabeza me recuerda a algún cuadro de Ana Barriga. Que le haya puesto ese cuerpo de persona me parece extraño, paree un señor con una máscara.
Un fondo poco definido. La cabeza es bastante divertida aunque tengo la sensación de que todo está poco definido.
No parece un misterioso técnico de laboratorio.
/6/ ILUSTRACIÓN DISNEY-PIXAR
¡Claro! Aquí te dejo una versión más divertida:
« ¿Pixar? ¡Más bien Pix-far! Y esas manos… parece que tuvieron un pequeño percance con el lápiz mágico. Además, ¿dónde se escondió el título? ¡Seguro se fue de vacaciones! »
¿Qué te parece?
El becario humano: mal 🙁
Teorizando para un proyecto con chatgpt se creo un concepto visual que se reforzaría con copys.
El texto no se ve bien en esta ocasión pero en otras lo clava, se podría editar fácilmente.
Me gusta mucho.
Firefly no facilita la creación de imágenes en formato 9:16
No se parece en nada a la imágen del tío del asalto al Capitolio. Tampoco a Pixar. No vale.
/7/ Arquitectura Generativa
Los píxeles están poco definidos, especialmente en la vegetación y los paneles solares. No soy arquitecto, pero la forma no me convence demasiado.
Algunos píxeles poco definidos. Parece una imágen de un juego tipo Sim City.
Parece demasiado « dibujo »
/8/ PERSONAJE 3D
Parece de una peli de animación de serie Z del año 2050.
Tiene imperfecciones pero me encanta.
Más infantil, un punkie family friendly.
Compro.
No pude ingresar el prompt completo. Personalmente, no me agrada en absoluto; la calidad me recuerda a la versión anterior de Dall-e.
/9/ IMPRESIONISTA
Aquí Midjourney no decepciona: Bella y algodonada, una ilustración perfecta para una tarjeta de boda albanesa.
Impresionista no es.
Impresionista lo que es impresionista no parece. Se asemeja más al estilo Niji con empastes que parecen de acrílico en lugar de óleo. Las pinceladas son cortas y anchas.
Podría ser la imágen que te viene cuando compras un marco barato.
Es un buen mal cuadro impresionista. Presenta pequeñas pinceladas cuadradas y áreas que parecen haber sido realizadas con espátula.
Una mezcla inusual que no termina de funcionar
/10/ PAISAJE ILUSTRADO
Existen errores de composición; el puente parece corto. La iluminación y los reflejos están bien logrados, aunque parece que la imagen no tiene un punto focal claro. Además, no hay carpas koi presentes.
La luz, la composición y el reflejo del agua me resultan muy confusos. La niebla entre los árboles le añade algo de intensidad, pero aún así no logra « cautivarme ». Hay algunos errores en los koi, pero está bien. Aprecio lo distintos que son los árboles y lo bien definidos que están el puente y la casita.
Parece un dibujo de un cuento cualquiera. No vale.
/+/ LAS NOTAS
bad
Texto
regu
Interface amigable
Fotografía
good
Ilustración
3D
Control sobre el output / Originalidad
bad
Fotografía
regu
Interface amigable
good
Ilustración
Texto
3D
Control sobre el output.
Integración con modelo de lenguaje GPT4
bad
Texto
Ilustración
regu
Control sobre el output
good
Foto realista de producto.
Interface sencilla
Foto Hiperrealista brutal
/// VEREDICTO
BRONCE 🥉
Firefly suspende en casi todo, menos en fotografía, donde da una terrible paliza a los demás.
El hiperrealismo de personas es sencillamente fantástico, hasta el punto de estar cerca de ser indistinguible de una foto real. Supongo que es porque ha aprendido de muchas fotos. La interfaz es muy sencilla, y quizá experimentando con las opciones se hubiesen conseguido mejores resultados.
Dado que es la que menos conozco, no consideraría válida esta evaluación, solo orientativa.
PLATA 🥈
Midjourney es la herramienta con la que he trabajado los últimos meses junto a SD y me siento cómodo utilizándola. Consigo fácilmente muchas de las imágenes que tengo en mente e incluso las que no imagino. Tiene muchas opciones que te permiten controlar el resultado y dar consistencia a las imágenes. Las fotos de la comparativa hubiesen sido mucho mejores ajustando un poco las instrucciones.
Se puede decir que ha hecho lo que esperaba.
ORO 🥇
Dall-e me ha sorprendido tanto que me ha dado una nueva perspectiva de cómo debe de ser una IA multimodal. Me explico y doy un poco de contexto:
Dall-e fue la primera IA generativa text-to-image que usé y, aunque en su momento nos sorprendió, obviamente la calidad era básica. Luego descubrí Stable Diffusion y Midjourney, que eran técnicamente superiores, y me olvidé de Dall-e. O eso creía.
La semana pasada se presentó Dall-e 3 y, como tenía dudas por mi experiencia previa con Dall-e 2, no lo había probado hasta hacer esta comparativa. Lo impresionante es que trabajar con ChatGPT hace que, en lugar de darle instrucciones técnicas, puedes pedirle las imágenes como si hablaras con alguien. Hablar con la herramienta es una gran ventaja, ya que puedes crear todo tipo de imágenes fácilmente y en poco tiempo. Personalmente, ya usaba herramientas de texto para dar las instrucciones, pero tenía que copiar y pegar y usar otra herramienta.
CONCLUSIONES 💡
Las herramientas que solo se basan en texto o solo en imágenes (text-to-text, text-to-image y el guau-to-miau) ya están quedando atrás.
Las herramientas que quieran destacar deben aprender del modelo de OpenAI e integrar todas las formas de interacción en su interfaz: texto, imagen, vídeo, sonido, voz, gritos, suspiros, lo que sea… Las que no lo hagan, quedarán obsoletas.
La integración de Dall-e con GPT4 ha sido un gran acierto y ha hecho que haya reconsiderado todo el trabajo de los últimos meses.
Por supuesto esto no es una análisis objetivo ni pretende serlo. SSi no estás de acuerdo con lo que se dice aquí, comparte tus opiniones indignadas y foribundas en todas tus redes sociales.
¡Hasta la próxima comparativa definitiva!
¡Y suscríbete a la Newsletter!