Explorando el blog de Toni
Toni Domenech

El Blog de Toni Domenech

Ideas, código, reflexiones y experimentos digitales

Crear rápido
Panel

Cómo crear un avatar completo con apariencia humana, movimientos humanos y voz humana para vídeos y videollamadas

23/04/2026 02:46
Cómo crear un avatar completo con apariencia humana, movimientos humanos y voz humana para vídeos y videollamadas

Resumen listo para agente

Qué: Este artículo explica Cómo crear un avatar completo con apariencia humana, movimientos humanos y voz humana para vídeos y videollamadas.

Por qué: Sirve para tomar decisiones rápidas con contexto técnico y de negocio.

Cómo: Crear un avatar que realmente parezca una persona no depende de una sola herramienta. El resultado convincente sale de combinar cuatro capas bien resueltas: una apariencia realista, una cara...

Preguntas clave de esta página

  • ¿Qué resuelve exactamente este enfoque?
  • ¿Qué resultados puedo esperar en tiempo y coste?
  • ¿Cómo lo adapto a mi contexto sin rehacer todo?

Crear un avatar que realmente parezca una persona no depende de una sola herramienta. El resultado convincente sale de combinar cuatro capas bien resueltas: una apariencia realista, una cara capaz de expresar emoción, un cuerpo que se mueva como un humano y una voz que no suene artificial. El error más habitual es intentar resolverlo todo con una única plataforma y aceptar un resultado a medias.

Hoy, uno de los flujos más sólidos para conseguirlo es este: MetaHuman para la apariencia del personaje, MetaHuman Animator y Live Link Face para la parte facial, DeepMotion o Rokoko para el movimiento corporal, ElevenLabs para la voz, y OBS Virtual Camera para enviar la salida final a una videollamada como si fuera una webcam. MetaHuman permite personalizar pelo, ropa, rasgos faciales, altura y proporciones; MetaHuman Animator genera animación facial a partir de vídeo y audio; DeepMotion convierte vídeo en animación 3D desde el navegador; Rokoko captura cuerpo completo y dedos y puede exportar o transmitir la captura a software 3D; ElevenLabs ofrece TTS, clonación de voz y modelos de baja latencia; y OBS puede exponer la escena como cámara virtual.

1. Diseña primero una apariencia humana creíble

El punto de partida más práctico es construir el personaje en MetaHuman. Esta herramienta permite ajustar peinado, ropa, rasgos faciales, altura, cuerpo y proporciones, lo que facilita crear un avatar que no parezca genérico.

La clave aquí no es buscar la perfección, sino la credibilidad. Un rostro ligeramente asimétrico suele funcionar mejor que una cara demasiado limpia o demasiado “ideal”. Lo mismo ocurre con la piel, el peinado o la ropa: cuanto más coherentes sean con el contexto de uso, más humano parecerá el avatar. Un presentador de cursos, un vendedor en vídeo y un avatar para reuniones no deberían vestirse ni iluminarse igual.

Mi recomendación es empezar con un encuadre de busto o medio cuerpo. Si el avatar funciona bien de cerca, luego será mucho más fácil ampliarlo a cuerpo completo. En cambio, si de cerca no convence, el problema no lo arreglará una animación más compleja.

2. Haz que la cara se mueva como una cara real

En un avatar humano, la cara manda. Puedes tener un cuerpo espectacular, pero si los ojos, la boca y las microexpresiones no convencen, el resultado cae enseguida.

MetaHuman Animator está pensado precisamente para eso: generar animación para tu personaje a partir de capturas faciales hechas con distintos dispositivos de vídeo y audio. Para tiempo real, Epic utiliza Live Link y la app Live Link Face en iPhone o iPad; además, el ajuste de Realtime Animation permite activar animación en directo. Si no quieres capturar la cara con cámara, Audio Driven Animation también puede convertir audio en animación facial realista, incluso en tiempo real.

Para que esta parte funcione de verdad, hay tres reglas simples: luz frontal suave, cámara estable y actuación natural. No hace falta exagerar los gestos. De hecho, en un avatar realista suele quedar mejor una interpretación contenida que una sobreactuación. El objetivo no es parecer un dibujo animado, sino una persona.

3. Añade movimiento corporal humano sin complicarte de más

Una vez tienes la cara resuelta, llega el cuerpo. Aquí conviene separar dos escenarios.

Para vídeos grabados, una opción muy accesible es DeepMotion, porque permite generar animaciones 3D a partir de vídeo desde el navegador. Esto acelera mucho el proceso si quieres obtener movimiento corporal humano sin montar un sistema de captura complejo.

Para un flujo más profesional, sobre todo si necesitas cuerpo completo, manos y dedos, Rokoko es una alternativa más potente. Su ecosistema está orientado a la captura de cuerpo completo y dedos, y después te permite exportar a formatos como FBX o BVH, o transmitir la captura a tu software 3D.

En la práctica, la decisión es sencilla. Si quieres rapidez, usa vídeo y DeepMotion. Si quieres más control y una sensación más “performativa”, usa Rokoko. Para videollamadas, además, no siempre necesitas animar el cuerpo entero. Muchas veces basta con una buena cabeza, hombros, algo de torso y gestos suaves. El cuerpo completo aporta mucho más en piezas grabadas que en una reunión por cámara.

4. Crea una voz humana de verdad

La voz es el tercer gran pilar. Y aquí conviene distinguir entre vídeo grabado y directo.

Para vídeo grabado, lo más cómodo suele ser un sistema de text-to-speech de alta calidad. Para directo, suele resultar más natural una cadena de speech-to-speech, porque conserva mejor el ritmo conversacional. ElevenLabs ofrece ambas posibilidades: TTS con modelos orientados a baja latencia, como Flash v2.5, y modelos speech-to-speech tanto en inglés como en modalidad multilingüe.

Si quieres que el avatar tenga una identidad vocal propia, puedes empezar con Instant Voice Cloning. En ese proceso, ElevenLabs pide confirmar que tienes derecho y consentimiento para clonar la voz y recomienda alrededor de 1 a 2 minutos de audio limpio y consistente. Si lo que buscas es una voz más estable para marca personal, formación o producción frecuente, Professional Voice Cloning recomienda subir al menos una hora de audio, idealmente cerca de tres horas, y exige una verificación de voz antes del entrenamiento. Además, el proceso de entrenamiento suele tardar entre 2 y 6 horas.

La mejor estrategia suele ser esta: para empezar, usa un clon instantáneo o una voz bien elegida de librería; cuando el proyecto ya tenga identidad visual estable, da el salto a una voz profesional. Así evitas invertir demasiado pronto en una voz que quizá luego no encaje con el tono final del avatar.

5. Integra todo dentro del motor y prepara la escena

Con la apariencia, la cara, el cuerpo y la voz ya definidos, toca unirlo todo dentro de Unreal. El flujo lógico es importar o generar el MetaHuman, aplicar la animación facial, sumar la animación corporal y montar la cámara final.

Para vídeos, conviene trabajar con planos cortos, medios y, si procede, un plano de cuerpo entero. Para videollamadas, en cambio, funciona mejor un encuadre más limpio: busto, hombros visibles, fondo controlado y pocos movimientos amplios. Cuanto más simple sea la puesta en escena, más estable será el sistema y más humana parecerá la interacción.

Un buen avatar no necesita moverse mucho; necesita moverse con intención. Un pequeño giro de cabeza, un parpadeo correcto y una sincronía limpia entre voz y labios suelen aportar más realismo que un exceso de gestos.

6. Lleva el avatar a Zoom, Meet o cualquier app de videollamada

Cuando la escena ya está funcionando, el siguiente paso es enviarla a un programa de videollamada. La forma más práctica es sacar la imagen a OBS y activar OBS Virtual Camera. La propia documentación de OBS explica que esta función comparte tu escena como si fuera una webcam y que puede usarse en aplicaciones que aceptan cámara, como Zoom, Skype o Discord.

Ese detalle es el que convierte un avatar renderizado en un “participante” real dentro de una llamada. Para reuniones, esta parte es tan importante como el modelado o la voz, porque de nada sirve un avatar excelente si luego no puedes integrarlo de forma estable en tu flujo diario.

Si además quieres que el avatar hable con voz sintética en tiempo real, tendrás que enrutar el audio hacia la aplicación de videollamada como si fuera un micrófono virtual. Eso es perfectamente viable, pero exige pruebas previas. En directo, el problema rara vez es la calidad visual: casi siempre es la latencia acumulada entre captura, generación de voz, animación y envío.

7. La configuración mínima que sí funciona

Si el objetivo es crear vídeos, una configuración muy efectiva es esta: MetaHuman + Live Link Face o Audio Driven Animation + DeepMotion o Rokoko + ElevenLabs + Unreal.

Si el objetivo es hacer videollamadas, la configuración más estable suele ser: MetaHuman + Live Link Face en tiempo real + voz real o speech-to-speech + OBS Virtual Camera.

8. El detalle legal que no debes saltarte

Con la voz no hay atajos aceptables. Nunca deberías clonar una voz sin permiso expreso. En ElevenLabs, el propio proceso de clonación instantánea exige confirmar derechos y consentimiento, y la clonación profesional añade un paso de verificación antes de empezar el entrenamiento.

Conclusión

Crear un avatar humano completo ya no es una fantasía técnica, pero tampoco es un proceso de un clic. El resultado realmente profesional aparece cuando entiendes que la sensación de humanidad nace de la suma de pequeñas decisiones: una cara bien construida, una captura facial limpia, movimientos creíbles, una voz coherente y una integración estable en cámara o videollamada.

La mejor fórmula no es la que tiene más inteligencia artificial, sino la que mejor conecta interpretación humana y tecnología. Ahí es donde un avatar deja de parecer una demo y empieza a parecer una presencia real.

Toni Domenech


¿Quieres que esto funcione en tu empresa?

Adaptamos estas ideas a tu contexto concreto con un diagnóstico rápido de 15 minutos.

Pide un diagnóstico

Diagnóstico AI-First en 15 minutos