Si nunca te has preguntado cuĂĄl es la mejor IA generativa text-to-image, sigue asĂ: lo estĂĄs haciendo muy bien.
En caso contrario, esta megacomparativa cambiarĂĄ tu vida para siempre (al menos durante una o dos semanas).
Â
Las novedades de OpenAI y Adobe nos han obligado a conocer cuĂĄl es la mejor IA del momento, y todo apunta a que peligra el trono de Midjourney.
La metodologĂa ha sido la siguiente:
Â
- CreaciĂłn de los prompts con text-to-text (chatgpt) sin supervisiĂłn.
- Las imĂĄgenes no se revisan ni se corrigen resultados.
- No se le da a la IA ningun parĂĄmetro adicional mĂĄs que el formato de la imĂĄgen.
- Puntuaremos y daremos feedback a cada imĂĄgen generada.
- Daremos una nota final y un veredicto.
Â
ÂĄAllĂĄ vamos!
Â
Â
/1/ FOTOGRAFĂA HIPERREALISTA
Midjourney y SD tienden a representar a la gente como « demasiado guapa », lo que hace que las imĂĄgenes resulten menos creĂbles.
En cuanto a los detalles, solo en la zona de los ojos parece mĂĄs « pintado ». Las proporciones de la cara pueden resultar confusas. La iluminaciĂłn es muy cinemĂĄtica; serĂa adecuada si la chica pareciera mĂĄs real.
Parece que la fotografĂa hyperrealista no es lo suyo.
Â
Â
Â
Â
Es un dibujinchi
Â
Â
Â
Un resultado realmente sorprendente. Supongo que Firefly se basa en Adobe Stock, porque parece una foto, y puede que realmente lo sea. Solo le encuentro unos fallos mĂnimos: algo extraño en el pelo y un collar y pendientes poco definidos que se podrĂan corregir fĂĄcilmente.
Â
Â
/2/ TEXTO
Ni cerca. Inteligible.Â
Â
Â
Â
Â
Â
Â
Â
Â
Â
ParecĂa que sĂ, pero casi. AĂșn asĂ, el resultado es alucinante. Es maravilloso ver cĂłmo han evolucionado los textos en Dall-e desde que estĂĄ integrado en un modelo de lenguaje como ChatGPT. SerĂa relativamente sencillo añadirle la ‘C’ y la tilde.
Â
Game-changer de manual.
Â
Terrible.
Â
Â
Â
Â
Â
Â
Â
Â
Â
/3/ FOTOGRAFĂA GASTRO
La boloñesa parece real; la composición y la iluminación son cålidas y agradables.
Â
Midjourney opta por el « binge-drinking » y le añade dos copas de vino.
Â
En la foto gastro, a veces hay migas, queso esparcido por la mesa y rellenos, ya que Midjourney parece sufrir de horror vacui.Â
Â
Â
Resulta extraño que los espaguetis estén tan ordenados.
Â
Dall-e y la fotografĂa no se llevan bien.
Â
Â
Â
Â
Â
Â
Â
Â
Â
La iluminaciĂłn hace que parezca muy realista. Sin embargo, hay elementos que parecen estar un poco sobresaturados, como el pan de la derecha. La copa presenta un error en el tallo, aunque su iluminaciĂłn parece estar bien integrada.
Â
Sorprende la ausencia de migas, lo que, para mĂ, la convierte en la ganadora indiscutible: « winner winner boloñesa dinner ».
Â
Â
/4/ FOTOGRAFĂA DE PRODUCTO
La imagen es estéticamente agradable.
Sin embargo, la sombra no luce realista, el frasco carece de definiciĂłn clara y, al tener elementos tan grandes encima, su apariencia resulta poco creĂble.
Â
Â
Â
Â
Â
Â
Â
Â
Lo que mĂĄs sorprende es lo bien que estĂĄ el texto. AdemĂĄs ha sido el propio chatGP quiĂ©n ha dado el tĂtulo. Algunas letras no lucen perfectamente y el subtĂtulo aparece algo borroso.
La composición es adecuada, y ese efecto que simula dunas de arena a través de una especie de tela estå logrado con éxito.
Â
Sin embargo, la flor no parece estar completamente integrada en la escena.
A pesar de los detalles mencionados, el resultado general es muy positivo.
Al igual que en Midjourney, la imagen en sĂ no estĂĄ mal, pero la falta de etiqueta con el texto altera la percepciĂłn, haciĂ©ndola pasar de creĂble a menos convincente.
AdemĂĄs, la flor en el frasco no parece estar bien integrada.
Â
Â
Â
Â
Â
Â
Â
/5/ ILUSTRACIĂN ARTĂSTICA
El fondo tiene poca definiciĂłn y hay errores en los objetos. Sin embargo, la mano estĂĄ perfectamente representada. La imagen tiene un tono mĂĄs oscuro y parece tener una textura similar a una impresiĂłn en papel, lo que la hace mĂĄs creĂble. Esto podrĂa exagerarse.
Â
PodrĂa convertirse en un buen pĂłster.
Â
Â
Ha interpretado el maneki neko de una manera muy literal.Â
La textura de la cabeza me recuerda a algĂșn cuadro de Ana Barriga. Que le haya puesto ese cuerpo de persona me parece extraño, paree un señor con una mĂĄscara.
Â
Â
Â
Â
Un fondo poco definido. La cabeza es bastante divertida aunque tengo la sensaciĂłn de que todo estĂĄ poco definido.
Â
Â
No parece un misterioso técnico de laboratorio.
Â
Â
Â
Â
/6/ ILUSTRACIĂN DISNEY-PIXAR
ÂĄClaro! AquĂ te dejo una versiĂłn mĂĄs divertida:
Â
« ¿Pixar? ÂĄMĂĄs bien Pix-far! Y esas manos… parece que tuvieron un pequeño percance con el lĂĄpiz mĂĄgico. AdemĂĄs, ÂżdĂłnde se escondiĂł el tĂtulo? ÂĄSeguro se fue de vacaciones! »
Â
Â
¿Qué te parece?
El becario humano: mal đ
Â
Teorizando para un proyecto con chatgpt se creo un concepto visual que se reforzarĂa con copys.
Â
El texto no se ve bien en esta ocasiĂłn pero en otras lo clava, se podrĂa editar fĂĄcilmente.
Me gusta mucho.
Â
Â
Â
Â
Â
Firefly no facilita la creaciĂłn de imĂĄgenes en formato 9:16
Â
No se parece en nada a la imĂĄgen del tĂo del asalto al Capitolio. Tampoco a Pixar. No vale.
Â
Â
Â
Â
Â
Â
Â
/7/ Arquitectura Generativa
Los pĂxeles estĂĄn poco definidos, especialmente en la vegetaciĂłn y los paneles solares. No soy arquitecto, pero la forma no me convence demasiado.
Algunos pĂxeles poco definidos. Parece una imĂĄgen de un juego tipo Sim City. Â
Â
Â
Parece demasiado « dibujo »
Â
Â
Â
/8/ PERSONAJE 3D
Parece de una peli de animación de serie Z del año 2050.
Â
Tiene imperfecciones pero me encanta.
Â
Â
MĂĄs infantil, un punkie family friendly.
Â
Compro.
Â
Â
Â
No pude ingresar el prompt completo. Personalmente, no me agrada en absoluto; la calidad me recuerda a la versiĂłn anterior de Dall-e.
Â
Â
/9/ IMPRESIONISTA
AquĂ Midjourney no decepciona: Bella y algodonada, una ilustraciĂłn perfecta para una tarjeta de boda albanesa.Â
Â
Impresionista no es.
Â
Â
Â
Â
Impresionista lo que es impresionista no parece. Se asemeja mĂĄs al estilo Niji con empastes que parecen de acrĂlico en lugar de Ăłleo. Las pinceladas son cortas y anchas.Â
Â
PodrĂa ser la imĂĄgen que te viene cuando compras un marco barato.Â
Â
Es un buen mal cuadro impresionista. Presenta pequeñas pinceladas cuadradas y ĂĄreas que parecen haber sido realizadas con espĂĄtula.Â
Â
Una mezcla inusual que no termina de funcionar
Â
Â
/10/ PAISAJE ILUSTRADO
Existen errores de composiciĂłn; el puente parece corto. La iluminaciĂłn y los reflejos estĂĄn bien logrados, aunque parece que la imagen no tiene un punto focal claro. AdemĂĄs, no hay carpas koi presentes.
Â
Â
Â
Â
La luz, la composiciĂłn y el reflejo del agua me resultan muy confusos. La niebla entre los ĂĄrboles le añade algo de intensidad, pero aĂșn asĂ no logra « cautivarme ». Hay algunos errores en los koi, pero estĂĄ bien. Aprecio lo distintos que son los ĂĄrboles y lo bien definidos que estĂĄn el puente y la casita.
Â
Parece un dibujo de un cuento cualquiera. No vale.Â
Â
Â
Â
Â
Â
Â
Â
/+/ LAS NOTAS
bad
TextoÂ
Â
regu
Interface amigable
FotografĂa
Â
good
IlustraciĂłn
3D
Â
Control sobre el output / Originalidad
Â
Â
Â
bad
FotografĂa
Â
regu
Interface amigable
Â
good
IlustraciĂłn
Texto
3D
Control sobre el output.
Â
IntegraciĂłn con modelo de lenguaje GPT4
Â
bad
TextoÂ
IlustraciĂłn
Â
regu
Control sobre el output
Â
good
Foto realista de producto.
Interface sencilla
Â
Foto Hiperrealista brutal
Â
Â
Â
/// VEREDICTO
BRONCE đ„
Firefly suspende en casi todo, menos en fotografĂa, donde da una terrible paliza a los demĂĄs.
Â
El hiperrealismo de personas es sencillamente fantĂĄstico, hasta el punto de estar cerca de ser indistinguible de una foto real. Supongo que es porque ha aprendido de muchas fotos. La interfaz es muy sencilla, y quizĂĄ experimentando con las opciones se hubiesen conseguido mejores resultados.
Â
Dado que es la que menos conozco, no considerarĂa vĂĄlida esta evaluaciĂłn, solo orientativa.
Â
PLATA đ„
Midjourney es la herramienta con la que he trabajado los Ășltimos meses junto a SD y me siento cĂłmodo utilizĂĄndola. Consigo fĂĄcilmente muchas de las imĂĄgenes que tengo en mente e incluso las que no imagino. Tiene muchas opciones que te permiten controlar el resultado y dar consistencia a las imĂĄgenes. Las fotos de la comparativa hubiesen sido mucho mejores ajustando un poco las instrucciones.
Â
Se puede decir que ha hecho lo que esperaba.
Â
ORO đ„
Dall-e me ha sorprendido tanto que me ha dado una nueva perspectiva de cĂłmo debe de ser una IA multimodal. Me explico y doy un poco de contexto:
Dall-e fue la primera IA generativa text-to-image que usĂ© y, aunque en su momento nos sorprendiĂł, obviamente la calidad era bĂĄsica. Luego descubrĂ Stable Diffusion y Midjourney, que eran tĂ©cnicamente superiores, y me olvidĂ© de Dall-e. O eso creĂa.
Â
La semana pasada se presentĂł Dall-e 3 y, como tenĂa dudas por mi experiencia previa con Dall-e 2, no lo habĂa probado hasta hacer esta comparativa. Lo impresionante es que trabajar con ChatGPT hace que, en lugar de darle instrucciones tĂ©cnicas, puedes pedirle las imĂĄgenes como si hablaras con alguien. Hablar con la herramienta es una gran ventaja, ya que puedes crear todo tipo de imĂĄgenes fĂĄcilmente y en poco tiempo. Personalmente, ya usaba herramientas de texto para dar las instrucciones, pero tenĂa que copiar y pegar y usar otra herramienta.
Â
Â
CONCLUSIONES đĄ
Las herramientas que solo se basan en texto o solo en imĂĄgenes (text-to-text, text-to-image y el guau-to-miau) ya estĂĄn quedando atrĂĄs.
Â
Las herramientas que quieran destacar deben aprender del modelo de OpenAI e integrar todas las formas de interacciĂłn en su interfaz: texto, imagen, vĂdeo, sonido, voz, gritos, suspiros, lo que sea… Las que no lo hagan, quedarĂĄn obsoletas.
Â
La integraciĂłn de Dall-e con GPT4 ha sido un gran acierto y ha hecho que haya reconsiderado todo el trabajo de los Ășltimos meses.
Â
Por supuesto esto no es una anĂĄlisis objetivo ni pretende serlo. SSi no estĂĄs de acuerdo con lo que se dice aquĂ, comparte tus opiniones indignadas y foribundas en todas tus redes sociales.Â
Â
ÂĄHasta la prĂłxima comparativa definitiva!
Â
ÂĄY suscrĂbete a la Newsletter!
Â
Â