Meta y un grupo de investigadores de la Universidad de Texas en Austin (UT Austin) están trabajando para llevar audio realista al metaverso.
Como Kristen Garuman, directora de investigación de Meta AI, explica (se abre en una pestaña nueva), hay más en la realidad aumentada y virtual (AR y VR, respectivamente) que solo imágenes. El audio juega un papel muy importante para hacer que un mundo se sienta vivo. Garuman dice que “el audio está moldeado por el entorno que [it’s] en.» Hay varios factores que influyen en cómo se comporta el sonido, como la geometría de una habitación, lo que hay en dicha habitación y qué tan lejos está alguien de una fuente.
Para lograr esto, el plan de Meta es usar lentes AR para grabar audio y video desde una ubicación, luego usar un conjunto de tres modelos de IA, transformar y limpiar la grabación para que parezca que está sucediendo frente a ti cuando la reproduces. en casa. Las IA tendrán en cuenta la habitación en la que te encuentras para que coincida con el entorno.
Mirando los proyectos, parece que Meta se está enfocando en gafas AR. El plan de Meta para los auriculares VR incluye replicar las imágenes y los sonidos de un entorno, como un concierto, para que se sienta como si estuviera allí en persona.
Le preguntamos a Meta cómo puede la gente escuchar el audio mejorado. ¿La gente necesitará un par de auriculares para escuchar o vendrá de los auriculares? No obtuvimos respuesta.
También le preguntamos a Meta cómo pueden los desarrolladores obtener estos modelos de IA. Se han hecho de código abierto para que los desarrolladores externos puedan trabajar en la tecnología, pero Meta no ofreció más detalles.
Transformado por IA
La pregunta es cómo puede Meta grabar audio en un par de gafas AR y hacer que refleje una nueva configuración.
La primera solución se conoce como AViTAR, que es una «Modelo de coincidencia acústica visual». (se abre en una pestaña nueva) Esta es la IA que transforma el audio para que coincida con un nuevo entorno. Meta ofrece el ejemplo de una madre que graba el recital de baile de su hijo en un auditorio con un par de gafas AR.
Uno de los investigadores afirma que la madre en cuestión puede tomar esa grabación y reproducirla en casa, donde la IA transformará el audio. Escaneará el entorno, tendrá en cuenta cualquier obstáculo en una habitación y hará que el recital suene como si estuviera sucediendo justo en frente de ella con las mismas gafas. El investigador afirma que el audio provendrá de las gafas.
Para ayudar a limpiar el audio, hay Dereverberación informada visualmente (se abre en una pestaña nueva). Básicamente, elimina la reverberación que distrae del clip. El ejemplo dado es grabar un concierto de violín en una estación de tren, llevarlo a casa y hacer que la IA limpie el clip para que solo escuches música.
El último modelo de IA es VisualVoice (se abre en una pestaña nueva), que utiliza una combinación de señales visuales y auditivas para separar las voces de otros ruidos. Imagina grabar un video de dos personas discutiendo. Esta IA aislará una voz para que puedas entenderla mientras silencia todo lo demás. Meta explica que las señales visuales son importantes porque la IA necesita ver quién habla para comprender ciertos matices y saber quién habla.
En relación con las imágenes, Meta afirma que planea incorporar videos y otras señales para mejorar aún más el audio impulsado por IA. Dado que esta tecnología aún se encuentra en una etapa temprana de desarrollo, se desconoce si Meta traerá estas IA a un auricular Quest cerca de usted y cuándo lo hará.
Asegúrese de leer nuestra última reseña sobre el búsqueda de oculus 2 si estás pensando en comprar uno. Alerta de spoiler: nos gusta.