Ciencia y Tecnología

Speech2Face AI puede “reconstruir” el rostro de una persona en función de la voz de la persona Se necesitan al menos 3 segundos de voz para generar un rostro


Las fotos están hechas con luz. ¿Y si los retratos de personas se hicieran con el sonido de sus voces? Los investigadores de inteligencia artificial han trabajado para reconstruir el rostro de una persona utilizando solo grabaciones breves de voz que la persona está hablando. El resultado aún no es perfecto, pero en algunos casos se acerca mucho a la cara original. Los científicos del Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT (CSAIL) publicaron por primera vez un algoritmo de IA llamado Speech2Face en su artículo de 2019. ¿Cómo la hablas? “¿Puedes leer el resumen?” “Estamos estudiando la tarea de reconstruir una imagen del rostro de una persona a partir de una breve grabación de voz de la persona que habla.” Por supuesto, dijeron: lo dejé claro. “Nuestro objetivo no es reconstruir una imagen precisa de una persona, sino obtener características físicas características que se correlacionen con la voz de entrada”.

La tecnología de Speech2Face muestra una representación muy realista, pero también es demasiado común para identificar a una persona en particular. Sin embargo, permite establecer un perfil suficientemente preciso con la etnia, el sexo y la edad del sujeto. La tecnología que puede inferir estos dos factores ya existía, pero el componente étnico de Speech2FaceAI es nuevo.

La tecnología continúa creciendo exponencialmente, aprovechando una variedad de disciplinas para explorar nuevas características. Una de ellas es poder “reconstruir” el rostro de una persona a partir de fragmentos de voz. Muchos resultados muestran una fuerte similitud con la persona detrás de la voz.

Este documento establece que el objetivo de los investigadores del Programa de Investigación Científica del MIT Tae-Hyun On, Tali Dekel, Changil Kim, Inbar Mosseri, William T. Freeman y Michael Rubinstein no es reconstruir los rostros de las personas de la misma manera. audio analizado.

Para lograrlo, utilizaron, diseñaron y entrenaron una red neuronal profunda que analiza millones de videos tomados de YouTube donde la gente habla. Durante el entrenamiento, la modelo aprendió a asociar la voz con la cara. Esto nos permitió generar imágenes con los mismos atributos físicos que el hablante, como edad, género y etnia. El funcionamiento del algoritmo gira en torno al uso de dos componentes principales.

  • Codificador; extrae y guarda espectrogramas de ondas de audio para reconocer un conjunto de características clave de las ondas de audio
  • Decodificador; Genera una imagen facial gestual neutra, frontal, basada en las características descritas anteriormente.

Los investigadores no tuvieron que etiquetar manualmente un subconjunto de los datos, por lo que no hubo participación humana en el proceso de capacitación: la IA simplemente recibió y cargó una gran cantidad de video. Determine la correlación entre las características de la voz y las características faciales.

“Diseñamos y entrenamos una red neuronal profunda para realizar esta tarea utilizando millones de videos naturales de personas hablando desde Internet/YouTube. Durante el entrenamiento, el modelo fue audiovisual, audio. Permite aprender correlaciones faciales y generar imágenes que capturan varios físicos atributos del hablante, tales como edad, género, etnia, etc. Esto permite generar imágenes que capturan los diversos atributos físicos del hablante, sin necesidad de modelar explícitamente los atributos. Se realiza de forma autocontrolada, usando la co-ocurrencia natural de la cara y el habla en el video de Internet. La reconstrucción tomada directamente del audio revela la correlación entre la cara y la voz. Evalúa y cuantifica digitalmente cómo la reconstrucción Speech2Face del hablante se parece y se parece a la imagen real de la voz del hablante. rostro. “

Después del entrenamiento, la IA fue muy buena para crear retratos basados ​​únicamente en grabaciones de audio que se asemejaban a la apariencia real de los oradores.


A la izquierda, el rostro real (ver), a la derecha, la imagen reconstruida por IA, gracias al audio.

Para analizar más a fondo la precisión de la reconstrucción facial, los investigadores ignoraron los “cambios irrelevantes”, como la instalación y la iluminación, y crearon una reconstrucción estandarizada de un rostro humano a partir de una imagen fija, se construyó un “decodificador facial”. Esto facilita a los científicos comparar la reconstrucción de audio con las características de un altavoz real.

Una vez más, los resultados de la IA fueron a menudo sorprendentemente cercanos a la cara real.



A la derecha hay una imagen reconstruida por IA usando voz. En el medio hay un trabajo de “Face Decoder”. El lado izquierdo es la cara real (referencia)

Por cierto, cuanto más larga sea la grabación de voz, mejor será el resultado. Los investigadores han demostrado esto en un ejemplo creado a partir de un fragmento de audio de 3 o 6 segundos.

Debilidades y cuestiones éticas

En algunos casos, hubo un problema con la IA al determinar el sonido de los altavoces. Factores como los acentos, el lenguaje hablado y el tono de voz fueron los factores que causaron la “falta de coincidencia entre el habla y la cara” con el género, la edad o el origen étnico incorrectos.


Ejemplo de error.La primera foto corresponde al rostro de la persona de voz y la segunda foto corresponde a la foto reproducida por el programa.

Las personas de voz alta (incluidos los niños pequeños) a menudo se identificaban como mujeres, y las personas de voz fuerte se etiquetaban como hombres. Los hombres asiáticos de habla inglesa no se veían tan asiáticos como cuando hablaban chino. Obviamente, si la misma persona habla su idioma nativo, se le asignará el grupo étnico correcto.

Los investigadores esperan proporcionar datos de entrenamiento más precisos que sean más representativos de la población mundial. Son conscientes de que AI sufre actualmente prejuicios raciales y están tratando de mejorar esta situación.

Los investigadores creen que si bien esta es una investigación puramente académica, es importante discutir claramente un conjunto de consideraciones éticas debido a la posible confidencialidad de la información facial.

  • Vida privada: Como se mencionó anteriormente, nuestro método no nos permite obtener la verdadera identidad de una persona a partir de la voz de la persona (es decir, una imagen precisa de la cara). Esto se debe a que nuestro modelo está entrenado para capturar características visuales que son comunes a muchas personas (relacionadas con la edad, el género, etc.) y vincular estas características visuales con atributos de audio/audio Esto se debe a que solo se usa si hay suficiente evidencia para ello. datos. Por lo tanto, el modelo produce solo rostros promedio con rasgos visuales característicos que se correlacionan con la voz de entrada. No se genera ninguna imagen de un individuo en particular.
  • Correlación voz-cara y sesgo del conjunto de datos: Nuestro modelo está diseñado para revelar la correlación estadística que existe entre las características faciales de los datos de entrenamiento y la voz del hablante. Los datos de capacitación que utilizamos son una colección de videos educativos en YouTube y no representan de manera uniforme a toda la población del mundo. Por lo tanto, este modelo se ve afectado por la distribución desigual de estos datos, como ocurre con otros modelos de aprendizaje automático.

    Específicamente, si los datos en un conjunto de altavoces tienen características de audio y visuales relativamente raras, la calidad de la reconstrucción en tales casos puede degradarse. Por ejemplo, si un idioma en particular no aparece en los datos de entrenamiento, la reconstrucción no podrá capturar adecuadamente los atributos faciales que pueden estar correlacionados con ese idioma.

    Tenga en cuenta que algunas de las características faciales esperadas, como el color y el estilo del cabello, pueden no estar físicamente relacionadas con la voz. Sin embargo, si muchos hablantes en un conjunto de entrenamiento que hablan de manera similar (p. ej., en el mismo idioma) también comparten algunas características visuales comunes (p. ej., color y estilo de cabello comunes), sus características visuales pueden aparecer en la predicción.

    Por las razones anteriores, le recomendamos que investigue cuidadosamente más investigaciones o el uso real de esta tecnología para asegurarse de que sus datos de entrenamiento sean representativos de su población objetivo. Si este no es el caso, es necesario recopilar datos más representativos de forma extensiva.

  • categoría: La sección Experimento describe categorías demográficas estimadas como “Blanco” y “Asia”. Estas son las categorías definidas y utilizadas por el clasificador de atributos de cara comercial (Cara ++) y se usan solo para la evaluación en este artículo. No se incluye con nuestro modelo y esta información no se utilizará en ningún momento.

En cuanto a las aplicaciones, algunos creen que la disponibilidad comercial de este algoritmo puede producir imágenes que representan interlocutores al hacer una llamada telefónica o escuchar la radio.

Fuente: Speech2Face

¿tú también?

¿Qué opinas sobre Speech2Face?
¿Sabes para qué sirve? ¿Cuál?

Ver también:

Dos investigadores encontraron más de 1000 perfiles falsos en LinkedIn utilizando rostros generados por IA, y más de 70 empresas crearon perfiles falsos para cerrar tratos.
NeRFAI de NVIDIA reconstruye escenas 3D a partir de una pequeña cantidad de imágenes 2D casi al instante. Instant NeRF toma solo unos segundos para practicar.
El generador de imágenes DALL-EAI de OpenAI ahora puede editar fotos.Los investigadores pueden registrarse y probar
Más del 70 % quiere que la IA les ayude realizando tareas sencillas, como matemáticas y simplificación de procedimientos, en lugar de hacer todo el trabajo o no hacer nada.

About the author

w-admin

Leave a Comment