Explorando el blog de Toni
Toni Domenech

El Blog de Toni Domenech

Ideas, código, reflexiones y experimentos digitales

Crear rápido

Modelos ML en ciberseguridad: qué funciona mejor y qué opciones open source usar en local para cumplir con la gobernanza de datos

30/04/2026 13:03
Modelos ML en ciberseguridad: qué funciona mejor y qué opciones open source usar en local para cumplir con la gobernanza de datos

Resumen listo para agente

Qué: Este artículo explica Modelos ML en ciberseguridad: qué funciona mejor y qué opciones open source usar en local para cumplir con la gobernanza de datos.

Por qué: Sirve para tomar decisiones rápidas con contexto técnico y de negocio.

Cómo: La inteligencia artificial ya forma parte del trabajo diario en ciberseguridad, pero el error más común sigue siendo el mismo: pensar que un único modelo sirve para detectar intrusiones, ana...

Preguntas clave de esta página

  • ¿Qué resuelve exactamente este enfoque?
  • ¿Qué resultados puedo esperar en tiempo y coste?
  • ¿Cómo lo adapto a mi contexto sin rehacer todo?

La inteligencia artificial ya forma parte del trabajo diario en ciberseguridad, pero el error más común sigue siendo el mismo: pensar que un único modelo sirve para detectar intrusiones, analizar logs, clasificar amenazas, resumir incidentes y proteger datos sensibles al mismo tiempo. No funciona así. En seguridad, el mejor modelo depende del tipo de dato, del nivel de etiquetado disponible y del objetivo operativo. Para datos tabulares y telemetría estructurada, el ML clásico sigue siendo muy competitivo; para lenguaje técnico, los modelos especializados en ciberseguridad suelen aportar más precisión; y para asistentes internos, los LLM locales son útiles como copilotos, no como detector universal.

Además, cuando una organización tiene exigencias de residencia del dato, confidencialidad o cumplimiento normativo, ejecutar modelos en local deja de ser una preferencia técnica y pasa a convertirse en una decisión de gobernanza. NIST plantea la gestión del riesgo en IA como un proceso de ciclo de vida completo, ligado a confianza, trazabilidad y control organizativo, y OWASP recuerda que en aplicaciones con LLM hay riesgos claros como prompt injection, divulgación de información sensible y problemas de cadena de suministro. Ejecutar modelos dentro de la propia infraestructura no resuelve por sí solo el cumplimiento, pero sí reduce exposición y facilita el control.

Qué tipos de modelos encajan mejor en ciberseguridad

Cuando el trabajo gira alrededor de logs, eventos SIEM, señales EDR o atributos de red convertidos en variables, los modelos basados en árboles suelen ser la apuesta más sólida. XGBoost se presenta como una librería de gradient boosting optimizada, portable y distribuida, y LightGBM como un framework rápido y eficiente con soporte para entrenamiento distribuido y GPU. En la práctica, ambos encajan muy bien en clasificación de alertas, priorización de eventos, scoring de riesgo y detección de amenazas conocidas cuando ya dispones de features y etiquetas razonables.

Cuando no tienes etiquetas limpias o buscas comportamientos extraños más que firmas conocidas, lo habitual es pasar a modelos de anomalías. Scikit-learn documenta Isolation Forest y Local Outlier Factor dentro del bloque de outlier y novelty detection, y OpenSearch usa Random Cut Forest para detectar anomalías en streaming casi en tiempo real. Para seguridad operativa esto es especialmente útil en picos de tráfico, desviaciones de autenticación, cambios raros en procesos o actividad inusual de usuarios y hosts.

Si el dato tiene naturaleza secuencial, como series temporales de red, actividad de procesos, autenticaciones o consumo de recursos, conviene ir a modelos que capturen evolución en el tiempo. Keras mantiene ejemplos oficiales de detección de anomalías en series temporales mediante autoencoders, una opción muy útil cuando lo importante es aprender el patrón normal y marcar desviaciones con bajo coste de etiquetado.

En entornos donde lo importante no es solo el evento aislado sino la relación entre usuarios, hosts, procesos, IPs, cuentas privilegiadas y movimientos laterales, los enfoques de grafos tienen mucho sentido. PyTorch Geometric está diseñado precisamente para trabajar con Graph Neural Networks, una familia que encaja bien cuando el comportamiento sospechoso aparece en conexiones y dependencias, no en una fila aislada de un CSV.

Para inteligencia de amenazas, clasificación de reportes, extracción de IOC, NER sobre advisories o búsqueda semántica en documentación de seguridad, los modelos especializados de lenguaje suelen rendir mejor que un encoder generalista. SecureBERT 2.0 se describe como un transformer específico para ciberseguridad con usos en semantic search, NER, vulnerability detection y análisis de código, además de publicarse bajo licencia Apache 2.0. CySecBERT también está adaptado al dominio de ciberseguridad y fue entrenado sobre un corpus específico del sector.

Los LLM generalistas tienen sitio en ciberseguridad, pero conviene colocarlos donde realmente aportan valor: triage, asistentes internos, RAG sobre procedimientos, resumen de incidentes, generación de documentación, traducción de hallazgos técnicos a lenguaje de negocio y ayuda con reglas o playbooks. Donde no suelen ser la primera opción es en la detección principal sobre telemetría cruda, porque ahí los modelos clásicos y los detectores de anomalías siguen siendo más predecibles, auditables y eficientes. Esta conclusión es una inferencia práctica apoyada por la separación entre herramientas para structured data, anomalías y modelos de lenguaje especializados que recogen las fuentes anteriores.

Modelos open source que merece la pena considerar para ejecutar en local

Si la prioridad es desplegar un copiloto interno o un sistema RAG dentro de la propia infraestructura, Mistral 7B sigue siendo una opción muy razonable por relación entre tamaño, capacidad y licencia. Mistral lo publicó bajo Apache 2.0 y documenta además el self-deployment en infraestructura propia mediante vLLM, TensorRT-LLM o TGI. Para organizaciones que quieren mantener el dato dentro del perímetro, eso es una ventaja importante.

Dentro de la misma familia, Mistral NeMo resulta especialmente atractivo para equipos que trabajan con incidentes largos, procedimientos, documentación o RAG de gran contexto. Mistral lo presenta como un modelo de 12B con ventana de contexto de 128k, multilingüe y publicado también bajo Apache 2.0. Eso lo convierte en una buena pieza para asistentes internos de seguridad que deban leer playbooks, informes extensos y bases de conocimiento técnicas.

Otra opción muy sólida es Qwen2.5-7B-Instruct. La serie Qwen2.5 incluye variantes licenciadas bajo Apache 2.0 y la propia documentación del proyecto indica que la mayoría de los modelos open source de esa generación, salvo excepciones concretas como 3B y 72B, usan esa licencia; además, la licencia Apache aparece en el repositorio del modelo 7B Instruct. Por equilibrio entre rendimiento, contexto largo y facilidad de uso, es una de las alternativas más sensatas para laboratorios o servicios internos ejecutados en local.

En entornos corporativos con foco claro en control, auditabilidad y despliegue flexible, IBM Granite es probablemente una de las familias más cómodas. IBM la presenta como open source bajo Apache 2.0, orientada a cargas enterprise y desplegable en infra propia, y su ecosistema ya documenta flujos locales con Ollama. Para organizaciones donde la conversación no es solo rendimiento, sino también trazabilidad y operaciones, Granite encaja muy bien.

Para búsqueda semántica y RAG interno, muchas veces importa más el encoder que el modelo conversacional. BGE-small-en-v1.5 es un embedding model ligero y popular con licencia MIT, útil cuando quieres indexar documentación interna, conocimiento de SOC, ATT&CK, procedimientos o tickets. Además, Sentence Transformers permite cargar modelos desde ruta local en disco, lo que facilita construir pipelines completamente on-prem sin depender de descarga o consulta remota en cada inferencia.

En el caso de texto técnico de ciberseguridad, SecureBERT 2.0 destaca porque no intenta ser un chat universal, sino un encoder de dominio. Su model card indica licencia Apache 2.0 y usos directos como embeddings, NER, búsqueda semántica, detección de vulnerabilidades y análisis de código. Para CTI, clasificación, enriquecimiento y recuperación semántica de contenido técnico, eso suele ser más útil que un LLM genérico grande y caro.

Con CySecBERT conviene hacer una precisión. Es un modelo interesante y claramente orientado al dominio de ciberseguridad, pero antes de incorporarlo a producción merece la pena revisar con detalle su licencia y gobernanza del mantenimiento en la fuente concreta que vayas a usar. Técnicamente puede aportar valor en NLP de seguridad, pero en políticas de empresa conviene distinguir entre “modelo útil” y “modelo listo para despliegue corporativo”.

Por qué ejecutar estos modelos en local ayuda con la gobernanza del dato

El despliegue local aporta varias ventajas reales. La primera es la residencia del dato: los prompts, documentos, indicadores o reportes no tienen por qué salir de tu infraestructura si todo el pipeline corre on-prem. La segunda es la trazabilidad operativa, porque puedes fijar versiones de modelos, embeddings, prompts y datasets de evaluación. La tercera es la reducción de superficie de exposición, algo especialmente importante cuando trabajas con incidentes, telemetría sensible o información regulada. NIST sitúa precisamente la gobernanza, la medición y la gestión de riesgo como piezas centrales de un uso fiable de la IA.

Eso sí, ejecutar en local no equivale automáticamente a cumplir. Hay que acompañarlo de clasificación de datos, control de accesos, evaluación periódica, versionado, revisión de licencias, inventario de modelos y guardrails. OWASP subraya riesgos como Sensitive Information Disclosure, Prompt Injection y problemas de Supply Chain, todos relevantes incluso en despliegues internos. El modelo puede estar dentro de tu casa, pero el riesgo sigue existiendo si no gobiernas el flujo completo.

A nivel de ejecución, Ollama resulta cómodo para laboratorios, estaciones de trabajo y pilotos porque su documentación indica que funciona localmente y que, cuando ejecutas modelos locales, no ven tus prompts ni tus datos. Para servicios de inferencia más serios o compartidos por equipos, vLLM encaja mejor como motor de serving por su enfoque en throughput y eficiencia de memoria.

Una arquitectura sensata para empezar

La combinación más práctica para un equipo pequeño o un laboratorio serio suele ser bastante simple. Para detección sobre datos estructurados, XGBoost o LightGBM; para comportamiento extraño sin etiquetas, Isolation Forest o Random Cut Forest; para búsqueda semántica y RAG, BGE o SecureBERT 2.0; y para copiloto interno, Granite, Qwen2.5-7B-Instruct o Mistral NeMo, según el hardware disponible y el tamaño del contexto que necesites. Ese reparto evita pedirle a un único modelo que haga todo mal en lugar de varios haciendo bien su parte.

También conviene marcar una línea roja con las licencias. No todo lo que “corre en local” entra en la misma categoría jurídica. Si la política interna exige open source permisivo, lo más limpio es priorizar modelos bajo Apache 2.0 o MIT y revisar cada variante concreta antes de desplegarla. Esa disciplina evita mezclar modelos técnicamente buenos con condiciones de uso menos cómodas para empresa.

Conclusión

La mejor decisión en ciberseguridad no es elegir el modelo más famoso, sino el más adecuado para el problema. Los árboles de boosting siguen siendo excelentes en telemetría estructurada; los detectores de anomalías tienen mucho sentido cuando faltan etiquetas; los encoders especializados como SecureBERT brillan en CTI y documentación técnica; y los LLM open source desplegados en local son muy valiosos como asistentes y capa conversacional sobre conocimiento interno. La gobernanza del dato mejora cuando el modelo vive dentro de tu perímetro, pero el verdadero cumplimiento llega cuando añades control, evaluación, inventario y seguridad sobre todo el ciclo de vida.

Toni Domenech

Si este artículo te ha servido, dale al pulgar rojo.


¿Quieres que esto funcione en tu empresa?

Adaptamos estas ideas a tu contexto concreto con un diagnóstico rápido de 15 minutos.

Pide un diagnóstico

Diagnóstico AI-First en 15 minutos