Toni Domènech | Ingeniero Informático, Automatización y Soluciones Digitales

GPUs en la nube: Potencia sin límites con RunPod (Guía Completa)

En el mundo de la tecnología actual, el hardware se ha convertido en el nuevo "petróleo". Si te dedicas a la Inteligencia Artificial, al renderizado 3D o al despliegue de modelos de lenguaje (LLMs), sabrás que una GPU doméstica a veces se queda corta, y comprar un servidor propio de miles de euros no siempre es una opción.

Hoy quiero hablaros de RunPod, la plataforma que ha cambiado mi forma de trabajar con modelos pesados sin arruinarme en el intento.

¿Qué es RunPod y por qué deberías usarlo?

RunPod es un proveedor de infraestructura en la nube especializado en GPUs. A diferencia de gigantes como AWS o Google Cloud, que pueden ser complejos y extremadamente caros, RunPod ofrece un enfoque directo: alquiler de potencia gráfica por horas a precios competitivos.

Sus dos pilares principales:

Secure Cloud: Servidores en centros de datos de alta seguridad. Ideal para entornos de producción.
Community Cloud: Una red descentralizada donde particulares y empresas alquilan su exceso de computación. Es la opción más económica para experimentar.

Comparativa de Hardware: ¿Qué GPU elegir?

Dependiendo de tu proyecto, necesitarás un "músculo" diferente. Aquí tienes una referencia rápida:

Guía Práctica: Desplegando Llama 3 en 5 minutos

Para pasar de la teoría a la práctica, vamos a ver cómo levantar Llama 3 (la joya de Meta) utilizando un motor de inferencia optimizado llamado vLLM.

Paso 1: Configurar el Pod

En el panel de RunPod, selecciona una GPU con al menos 24GB de VRAM (una RTX 3090 o 4090 es perfecta para la versión de 8B parámetros).

Selecciona la Template: Busca vllm. Esta plantilla ya viene con todo el software de NVIDIA configurado.
Variables de Entorno:MODEL_NAME: meta-llama/Meta-Llama-3-8B-InstructHUGGING_FACE_HUB_TOKEN: (Tu token personal de Hugging Face).
MODEL_NAME: meta-llama/Meta-Llama-3-8B-Instruct
HUGGING_FACE_HUB_TOKEN: (Tu token personal de Hugging Face).
Puertos: Abre el puerto 8000.

Paso 2: Ejecución del modelo

Una vez dentro de tu Pod (vía SSH o Jupyter Notebook), puedes arrancar el servidor de API con este comando:

Bash

python3 -m vllm.entrypoints.openai.api_server \
    --model meta-llama/Meta-Llama-3-8B-Instruct \
    --dtype bfloat16

Paso 3: Realizar una consulta

Cuando el servidor esté listo, puedes hablar con tu modelo desde cualquier terminal externa usando curl:

Bash

curl http://[TU_IP_DE_RUNPOD]:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
        "model": "meta-llama/Meta-Llama-3-8B-Instruct",
        "messages": [{"role": "user", "content": "Dame 3 ideas de posts para mi blog de tecnología."}]
    }'

Conclusión: Privacidad y Control

¿Por qué molestarse en montar esto si existe ChatGPT? La respuesta es sencilla: Control y Privacidad.

Al usar RunPod, el modelo corre en tu propia instancia. Nadie usa tus datos para entrenar otros modelos y no tienes filtros de censura impuestos por terceros. Tienes el control total de los parámetros.

Consejo de oro: No olvides Terminar (Terminate) el pod cuando acabes. Si solo lo detienes (Stop), RunPod seguirá cobrándote una pequeña tarifa por el almacenamiento del disco.

El Blog de Toni Domenech

Crear rápido

Runpod proveedores de servidores GPU para IA