Generación de escenas en realidad extendida mediante voz

Sistema web inmersivo capaz de crear y modificar escenas tridimensionales a partir de instrucciones dadas por el usuario mediante voz o texto.

Integración de reconocimiento de voz, modelos de lenguaje, YAML y renderizado 3D con A-Frame, con soporte para escritorio y Meta Quest 2.

Descripción del proyecto

Este TFG propone una nueva forma de interacción con entornos virtuales, permitiendo que el usuario describa una habitación o una escena con lenguaje natural para que el sistema la interprete y la genere dinámicamente en el navegador.

Descripción del proyecto

¿Qué hace el sistema?

  • Captura comandos por voz o por texto.
  • Interpreta la intención del usuario con modelos de lenguaje.
  • Genera una representación estructurada de la escena en YAML.
  • Renderiza la habitación y los objetos en A-Frame.
  • Permite su uso tanto en escritorio como en realidad virtual.
A-Frame OpenRouter Vosk Whisper Web Speech API GitHub Pages

Enlaces

Acceso directo a la memoria, la presentación, el código fuente y la demo en vivo.

Memoria PDF

Memoria

Documento completo del TFG en formato PDF.

Abrir
Presentación

Presentación

Transparencias utilizadas en la defensa.

Abrir
Código en GitHub

Código fuente

Repositorio principal del proyecto desarrollado.

Ver repositorio
Demo en vivo

Demo en vivo

Versión demo del proyecto accesible desde un navegador.

Abrir demo

Demos

Ejemplos visuales del funcionamiento del sistema y de los escenarios generados.

Entorno de escritorio

Ejecución del sistema desde navegador, con interacción mediante voz y texto.

Entorno VR

Uso inmersivo con Meta Quest 2, manteniendo el flujo completo de generación de escenas.

Vídeo demostrativo

Vídeo resumen del proyecto, mostrando su funcionamiento y características principales.