¿Qué es un “prompt”?

Desde hace unos meses han cobrado repercusión las inteligencias artificiales capaces de generar imágenes a partir de las descripciones de texto natural que hacen los usuarios.
Un prompt es el conjunto de indicaciones en texto natural que se suministra a la inteligencia artificial para obtener una imagen nueva que se ciña a los términos que contiene
El pasado mes de abril se dio a conocer las posibilidades de DALL-E pero después han surgido otras que día a día ganan popularidad al ir abriéndose para que, más allá de investigadores inicialmente pertenecientes a círculos restringidos, puedan ser utilizadas por el público general. Casos como Midjourney o Stable Diffusion han asombrado por su capacidad para generar imágenes con calidades fotorrealistas, incluso más recientemente ha aparecido una peculiar novedad.
Se tata de PornPen, una página web que permite la creación de imágenes de contenido para adultos aunque con muchas limitaciones. Para empezar sólo genera modelos femeninas y en lugar de optar por una libertad total en cuanto a la descripción del contenido ofrece una alternativa. A base de ciertas categorías y etiquetas se definen características que tendrá la imagen resultante.
Excepto este último caso, en todas las demás el secreto está en el prompt. Este es un conjunto de palabras que definen el resultado que se busca obtener con la imagen, y aunque por un lado debe ser concreto y limitado en algunos aspectos, en otros dependerá tanto de la imaginación como de la creatividad del propio usuario. Y es que, como prácticamente siempre en el mundo de la informática y la tecnología, la máquina sólo hace aquello para lo que está programada. Y el prompt sería ese código que señala lo que debe hacer la máquina.
Por un lado la descripción debe hacer mención a si la imagen tendrá como motivo un objeto o un sujeto. Un edificio o un paisaje. Si es de día o es de noche. Si es un hombre o una mujer. Pero a partir de esos conceptos básicos habrá que añadir detalles concretos.
La casa puede ser una choza o un rascacielos, un castillo derruido o una flamante mansión. La fachada puede ser de piedra o de ladrillo. El ladrillo puede ser rojo o estar pintado de blanco. Las ventas de la fachada pueden estar abiertas o cerradas. Si es de noche pueden estar iluminadas o no. Los cristales pueden estar rotos o tapados con cortinas.
La descripción puede contener alusiones a estilos pictóricos o fotográficos (“como un cuadro de Van Gogh” o “como una fotografía de Man Ray”) e incluso pueden añadirse alusiones ambientales (“un paisaje onírico”, “un ambiente amenazador”, “una atmósfera de cuento infantil”).
Y por último pero no por ello menos importante se pueden añadir indicaciones en cuanto a la resolución de la imagen (4K, 8K) o su formato (1:1, 16:9) en función del destino que se vaya a dar a dicha imagen.
Con todas estas instrucciones se teclea el promt, pero, mucho ojo aquí, de momento sólo en inglés, con un formato muy esquemático, separando con comas la descripción de manera similar a esto:
”4K, 1:1, victorian manor, dark stone walls, high windows with candle light inside, cloudy sky, long trees forest around”
Que vendría a describir una imagen en resolución 4K y formato cuadrado de una mansión victoriana con muros de piedra oscura, ventanales altos iluminados desde dentro por candelabros, bajo un cielo nuboso y rodeada de un bosque de árboles altos. Uno de los resultados posibles sería el siguiente:
Como en otras actividades creativas o artísticas, realmente la generación artificial de imágenes mediante inteligencia artificial (IA) incluye ciertos componentes de prueba y error que sería conveniente tener en cuenta. Algunas de estas IA incluyen la posibilidad de añadir a posteriori algunas modificaciones, otras ofrecen cuatro interpretaciones de los prompts.
Y, por supuesto siempre está la opción de una edición posterior de las imágenes resultantes mediante programas del estilo de Photoshop que permitan seleccionar o modificar elementos de la imagen generada.
Un último consejo para quien se interese por esta asombrosa posibilidad de convertir sus imágenes mentales en imágenes reales mediante la descripción hecha a IA sería que se deje llevar por su creatividad y que dentro de las posibilidades que ofrecen las distintas plataformas (algunas limitan el número de imágenes obtenibles en periodos de tiempo tasados) aprenda cómo pulir sus descripciones para que el resultado se parezca cada vez más a lo que imaginan… además de dejarse sorprender por la a veces asombrosa capacidad interpretativa de la máquina.