Point-E, la inteligencia artificial que genera modelos en 3D

OpenAI 3d modelos

Las capacidades de la inteligencia artificial en el campo de la generación de imágenes continúan sorprendiendo. En esta ocasión el protagonista es Point-E, un desarrollo de código abierto llevado a cabo por OpenAI capaz de generar modelos 3D de objetos a partir de una descripción en texto natural.

Los modelos tridimensionales tardan apenas dos minutos en generarse con Point-E

Al estilo de lo que ya se había conseguido con herramientas como Dall.e, que genera imágenes a partir de una descripción en texto, Point-E consigue generar un modelo 3D del objeto descrito con lo que puede rotarse en todas las direcciones, y además en un tiempo muy corto, apenas uno o dos minutos empleando una única GPU Nvidia V100, por lo que tampoco son necesarios unos requerimientos estratosféricos.

Una de las principales diferencias del modelo de generación de objetos 3D que emplea Point-E con respecto a otras herramientas es que para la representación de los volúmenes utiliza conjuntos discretos de puntos, a modo de nubes, que dan forma al objeto a representar. Esta es la razón de su denominación, puesto que la letra E de Point-E indica «eficiencia», y al conjugarla con la palabra «point» (punto) consige definir su funcionamiento.

Y es que desde el punto de vista computacional resulta más sencilla la representación de nubes de puntos, aunque (y he aquí la, por el momento, gran limitación de Point-E) no llega a definirse con precisión la textura de la superficie del objeto, que parece lo que en el fondo es, un cúmulo de pequeñas esferas. Esto puede tener también otra consecuencia indeseable, y es que en ocasiones pueda faltar una pequeña porción del objeto 3D o aparezca distorsionada.

Detrás de Point-E se da una doble combinación técnica. Por un lado la herramienta capaz de traducir texto a imágenes bidimensionales y a continuación la que convierte una imagen 2D en un modelo 3D de dicho objeto. La base del adiestramiento de ambas herramientas combinadas es la misma: recibir imágenes etiquetadas con texto para poder hacer el camino inverso, añadiéndole los objetos tridimensionales identificados con sus pares bidimensionales para poder hacer también esa otra transición inversa.

El funcionamiento, por tanto, sería el siguiente:

-Recepción de una descripción en texto: «cono de señalización de tráfico en colores naranja y blanco».

-Creación de la imagen 2D de dicho cono.

-Generación de una nube de puntos que represente dicho cono.

-Obtención de un modelo 3D del cono de señalización de tráfico descrito inicialmente.

Antonio Rentero

Comunicador especializado en tecnología y cine. Jurista especializado en protección de datos. Curioso especializado en prácticamente todo.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

INFORMACIÓN BÁSICA SOBRE PROTECCIÓN DE DATOS

Responsable: TreceBits S.L. (TreceBits)
Finalidad: Que puedan comentar las noticias publicadas
Legitimación: Consentimiento del interesado. Satisfacción del interés legítimo del Responsable.
Destinatarios: No se cederán a terceros salvo obligación legal.
Derechos: Puedes ejercitar en cualquier momento tus derechos de acceso, rectificación, supresión, limitación, oposición y demás derechos legalmente establecidos a través del siguiente e-mail: [email protected].
Información adicional: Puedes consultar la información adicional y detallada sobre protección de datos aquí.