Ciencia y Tecnología

OpenAI lanza Point-E, una IA que genera modelos 3D a partir de indicaciones de texto, pero plantea preocupaciones sobre los datos de entrenamiento


OpenAI ha ampliado sus capacidades de software de texto a imagen de 2D a 3D con el lanzamiento de Point-E, una IA que genera imágenes en 3D a partir de indicaciones de texto. De acuerdo con la documentación publicada con el código base, Point-E no requiere computadoras de alta gama para ejecutarse y puede generar modelos en menos de 2 minutos en una sola GPU Nvidia V100. Por ejemplo, con una directiva de texto como “cono de tráfico”, Dot-E generará una nube de puntos de baja resolución (una colección de puntos en el espacio) que parece un cono de tráfico.

Los generadores de modelos 3D podrían ser el próximo avance para conquistar el mundo de la IA. OpenAI ha estado muy activo este año. La empresa está en los titulares con dos grandes proyectos, Dall-E 2 y ChatGPT. Entre estas dos grandes plataformas de IA, la empresa ha ayudado a generar imágenes y rayas largas de texto a partir de indicaciones de texto simples. Hoy, la compañía ya está de regreso con su tercer concepto, lanzado justo antes de Navidad y que está acaparando la atención de todos. Este tercer concepto, llamado Point-E, sigue un patrón similar y crea contenido 3D a partir de indicaciones simples.

Presentado en un artículo de investigación publicado por el equipo de OpenAI, Point-E funciona en dos etapas. Primero, usa AI de texto a imagen para convertir la solicitud verbal en una imagen, luego usa una segunda función para convertir esta imagen en un modelo 3D. Point-E es de código abierto y el código fuente está disponible en Github. Aún así, requiere que el usuario tenga cierta familiaridad con la herramienta de línea de comandos y, a diferencia de ChatGPT, que permite a los usuarios registrarse en el sitio web y probar su funcionalidad, el sistema requiere Python, por lo que puede ser un poco difícil de probar. no poder.

Point-E no crea objetos 3D en el sentido tradicional. Más bien, genera una nube de puntos, un conjunto discreto de puntos de datos en el espacio que representa una forma 3D. (La “E” en Point-E significa “eficiencia” y es aparentemente más rápido que los enfoques anteriores para generar objetos 3D). Según los desarrolladores, las nubes de puntos son computacionalmente fáciles de sintetizar, pero no pueden capturar formas de objetos y texturas finas, que son las principales limitaciones de Point-E en la actualidad.

Para sortear esta limitación, el equipo de Point-E entrenó un sistema de IA adicional para convertir la nube de puntos de Point-E en una malla. (Las mallas, colecciones de vértices, aristas y caras que definen un objeto, se usan comúnmente en el modelado y diseño 3D). Sin embargo, los investigadores señalan en su artículo que a veces el modelo pierde partes del objeto, lo que da como resultado una forma distorsionada o bloqueada. Además del modelo de generación de malla autónoma, Point-E consta de dos modelos: un modelo de imagen de texto y un modelo de imagen 3D.

Los modelos de texto e imagen, similares a los sistemas de generación de obras de arte como DALL-E 2 y Stable Diffusion, se entrenaron en imágenes etiquetadas para comprender las asociaciones entre palabras y conceptos visuales. El modelo de imagen 3D, por otro lado, se obtuvo a partir de una serie de imágenes asociadas con el objeto 3D para aprender cómo transformar de manera efectiva los dos objetos. Dado un mensaje de texto (por ejemplo, “Engranaje imprimible en 3D, engranaje único con 7 cm de diámetro y 1 cm de grosor”), el modelo de texto a imagen Point-E se pasa a la imagen (modelo 3D) Generar un objeto compuesto renderizado.

Este último produce una nube de puntos. Después de entrenar el modelo en un conjunto de datos de “millones” de objetos 3D y metadatos asociados, Point-E pudo generar nubes de puntos de colores que con frecuencia coincidían con las indicaciones de texto, dicen los investigadores de OpenAI. No es perfecto: es posible que el modelo 3D de la imagen de Point-E no comprenda la imagen del modelo de imagen de texto, lo que da como resultado formas que no coinciden con el mensaje de texto. Aún así, al menos según el equipo de OpenAI, sigue siendo mucho más rápido que el estado del arte hasta ahora.

Los resultados no se acercan a la calidad del renderizado 3D comercial en películas y videojuegos. Pero eso no es lo que se pretendía. Cuando se ingresa en una aplicación 3D como Blender, se puede convertir en una malla texturizada que parece una imagen 3D normal. Nuestro método todavía no es de última generación en términos de calidad de muestreo, pero es dos órdenes de magnitud más rápido, lo que es una compensación práctica para algunos casos de uso.

Creen que Point-E se puede usar para crear objetos del mundo real, por ejemplo, mediante impresión 3D. Un modelo de transformación de malla adicional podría allanar el camino para los flujos de trabajo de desarrollo de juegos y animaciones si el sistema fuera un poco más sofisticado. En última instancia, este proyecto podría permitir la creación rápida de modelos 3D bajo demanda. El trabajo adicional, dicen los investigadores, podría hacer que los mundos virtuales sean más fáciles de crear y más accesibles para aquellos que no tienen habilidades profesionales de gráficos en 3D.

Los modelos 3D se utilizan ampliamente en cine y televisión, diseño de interiores, arquitectura y diversos campos científicos. Por ejemplo, los arquitectos lo usan para demostrar edificios y paisajes propuestos, y los ingenieros usan modelos para diseñar nuevos dispositivos, vehículos y estructuras. Sin embargo, normalmente lleva horas o días crear un modelo 3D. Una IA como Point-E podría cambiar el problema si se resolviera, permitiendo que OpenAI obtenga una ganancia considerable.

Hay otros problemas potenciales que necesitan ser resueltos. Por ejemplo, como DALL-E, Point-E debe contener el sesgo heredado del conjunto de datos de entrenamiento. Y este conjunto de datos (millones de modelos 3D y metadatos asociados de origen no atribuido) no garantiza que los modelos de origen se usaron con permiso o de acuerdo con los términos de licencia aplicables. Esto puede ser un gran dolor de cabeza legal. Ya se ha publicado un problema en el repositorio GitHub de Point-E solicitando más información sobre el conjunto de datos.

La pregunta es qué tipo de disputas de propiedad intelectual es probable que surjan en el futuro. Existe un mercado importante para los modelos 3D y existen varios mercados en línea, como CGStudio y CreativeMarket, donde los artistas pueden vender su contenido. Una vez que Point-E se vuelve popular y sus modelos llegan al mercado, los modeladores pueden protestar y señalar que, en el caso de Point-E, la IA generativa moderna toma prestados muchos datos de entrenamiento de los modelos 3D existentes.

Al igual que DALL-E 2, Point-E no nombra ni cita artistas que puedan haber influido en su generación. La actitud indiferente de la comunidad de IA hacia el uso del trabajo de otros para entrenar modelos de aprendizaje automático sin su permiso explícito ha llevado a Github Copilot, un servicio que utiliza modelos de OpenAI Codex para sugerir código de programación a los desarrolladores. Los modelos a imagen se pueden probar de la misma manera que están en el mercado.

OpenAI puede ser la última compañía en ingresar al negocio de generación de objetos 3D, pero como dije antes, ciertamente no es la primera. A principios de este año, Google lanzó DreamFusion, una versión mejorada de Dream Fields. Dream Fields es un sistema de generación de objetos 3D anunciado por la empresa en 2021. A diferencia de DreamFields, DreamFusion no requiere formación previa. datos 3D.

Fuente: repositorio Point-E GitHub, Point-E (PDF)

¿tú también?

¿Cuáles son sus pensamientos sobre este asunto?
¿Qué opinas del modelo Point-E de OpenAI?
¿Cuáles son, en su opinión, los problemas legales que plantea?

Ver también

ChatGPT aprobó la versión 2022 del examen de Ciencias de la Computación para estudiantes de secundaria que buscan créditos universitarios en los Estados Unidos. ¿Qué sabemos sobre esta IA que está conquistando Internet?

Dall-E 2 puede generar imágenes a partir de unas pocas palabras, pero ¿el producto es tuyo? Es posible que las ilustraciones digitales generadas por IA no tengan derechos de autor

La IA de estabilidad será el modelo de IA más importante de la historia, a diferencia de GPT-3 y DALL-E 2, y brindará aplicaciones abiertas del mundo real a los usuarios.

About the author

w-admin

Leave a Comment