¿Qué problema resuelve este artículo?

Este artículo explica ALIA Kit: listado completo de recursos abiertos para IA lingüística.

¿Por qué es importante aplicarlo?

Sirve para tomar decisiones rápidas con contexto técnico y de negocio.

ALIA Kit: listado completo de recursos abiertos para IA lingüística

El ALIA Kit es la colección pública de recursos del proyecto ALIA: modelos, datasets, herramientas de integración, guía de adopción y demostradores orientados a desarrollar soluciones de IA en castellano y en lenguas cooficiales como catalán y valenciano, euskera y gallego. Además, su documentación pública presenta el kit como un repositorio abierto y vivo, pensado para que tanto entidades públicas como privadas puedan reutilizar sus recursos.

Este inventario recoge los recursos visibles en la documentación pública del ALIA Kit a fecha de 28 de mayo de 2026. La forma más útil de entenderlo es por bloques: texto, voz, traducción automática, multimodalidad, datasets, integración y demostradores.

Modelos de texto

La sección de texto del ALIA Kit se divide en tres familias: modelos instruidos listos para usar, modelos base o pensados para fine-tuning, y adaptaciones para tareas específicas.

Modelos listos para usar (instruidos): ALIA-40b-instruct-2601, ALIA-40b-instruct-2601-GGUF, salamandra-7b-instruct, salamandra-2b-instruct, Latxa 3.1 Instruct 70B, Latxa 3.1 Instruct 8B, Carballo-Llama-Instr3, Carballo-Legal y ALIA Legal-Administrative 7B Instruct.

Modelos para desarrolladores y fine-tuning: salamandra-7b, salamandra-2b, Llama-3.1-Carballo, Llama-Carvalho-PT-GL, Latxa 3.1 8B, Aitana-2B-S-base-1.0, Aitana-2B-S, Aitana-2B-S-tourism-base-1.0, MrBERT, MrBERT-es, MrBERT-ca, MrBERT-biomed, MrBERT-science, MrBERT-legal, mRoBERTa, RoBERTa-ca, BERnaT-base, BERnaT-large y BERnaT-medium.

Adaptaciones para tareas específicas: Salamandra-7b-instruct-guard, Aitana Enc Fraud Detection, Aitana-ClearLangDetection-R-1.0, Aitana-tourism-mb-encoder-1.0, marianmt-cap-punct-eu y marianmt-cap-punct-es.

Modelos de voz

La sección de voz combina recursos de síntesis, reconocimiento y diarización, con foco en español, catalán, valenciano, balear, euskera y gallego.

Síntesis de voz: PL-BERT-es, PL-BERT-wp-es, ModernBERT-wp-es, PL-BERT-ca, PL-BERT-wp-ca, ModernBERT-wp-ca, Nos_TTS-sabela-vits-phonemes, Nos_TTS-icia-vits-phonemes, Nos_TTS-iago-vits-phonemes, Nos_TTS-paulo-vits-phonemes, Nos_TTS-celtia-vits-phonemes, Nos_TTS-brais-vits-phonemes, Nos_TTS-brais-vits-graphemes y la colección HiTZ-TTS-Models.

Reconocimiento de voz y diarización: whisper-large-v3-LoS, whisper-large-v3-LoS-punctuated, hubert-base-los-2k, stt_ca-es_conformer_transducer_large, stt_eseu_conformer_transducer_large, BBS-S2TC_conformer_transducer_large, spanish-verification-model-pkt-a, spanish-verification-model-pkt-b, spanish-verification-model-pkt-c, spanish-verification-model-pkt-d, parakeet-rnnt-1.1b_cv17_es_ep18_1270h, pyannote-segmentation-3.0-RTVE, faster-whisper-bsc-large-v3-cat, whisper-bsc-large-v3-cat, faster-whisper-3cat-cv21-valencian, whisper-3cat-cv21-valencian, faster-whisper-3cat-balearic, whisper-3cat-balearic, stt_eu_conformer_ctc_large, stt_eu_conformer_transducer_large_v2, stt_eu_conformer_transducer_large, whisper-tiny-eu, whisper-small-eu, whisper-medium-eu, whisper-base-eu, whisper-large-eu, whisper-large-v2-eu y whisper-large-v3-eu.

Modelos de traducción automática

El bloque de traducción automática reúne modelos multilingües, modelos compactos cuantizados y traductores especializados por pares lingüísticos concretos.

Modelos multilingües: SalamandraTA-7b-academic, SalamandraTA-7b-instruct, SalamandraTA-7b-instruct-GGUF, SalamandraTA-2b-academic, SalamandraTA-2b-instruct y SalamandraTA-2b-instruct-GGUF.

Modelos por pares de traducción: Aitana-TA-2B-S, Nos_MT-CT2-es-gl, Nos_MT-CT2-gl_es, Nos_MT-CT2-en-gl, Nos_MT-CT2-gl-en, aina-translator-gl-ca, aina-translator-eu-ca, aina-translator-es-ast, aina-translator-es-an y aina-translator-es-oc.

Modelos multimodales

La capa multimodal del ALIA Kit suma modelos de visión y vídeo, traducción de voz a texto y variantes multimodales adaptadas a lenguas como el euskera.

El listado publicado incluye Salamandra-VL-7B-2512, salamandra-7b-vision, SalamandraTAV-7b, Latxa Qwen-3 VL 2B y Latxa Qwen-3 VL 4B.

Datasets y herramientas para modelos de texto

La documentación de texto reúne corpus generales, corpus de dominio, conjuntos para instrucción, evaluación, clasificación, RAG y herramientas de suministro de datos.

Corpus textuales y de dominio: CATalog, MULTILINGUAL PARALLEL SENTENCES Dataset, ALIA-biomedical, ALIA Cultural Heritage Corpus y ALIA Legal Hard Negatives.

Corpus para instrucción: InstruCAT y ALIA-legal-administrative-synthetic-instructions.

Corpus sintéticos: mPersonas.

Corpus anotados y de evaluación: Salamandra Guard dataset, Multi-LMentry, VeritasQA, EQ-bench_es, EQ-bench_ca, EsBBQ, CaBBQ, OpenBookQA_es, hhh_alignment_es, hhh_alignment_ca, IFEval_es, IFEval_ca, SIQA_es, arc_es, COPA-es, cobie_sst2, cobie_ai2_arc, RAG_eu, ALIA-administrative-triplets, ALIA-legal-administrative-cqa, Galician NER, sentimento-gl, AbScientia, DISCRIMINATIVE CLEARSIM_ES, DISCRIMINATIVE CLEARSIM_VA, BALANCED_FAKE_JOB_POSTINGS_EN, BALANCED_FAKE_JOB_POSTINGS_VA, DISCRIMINATIVE COUNTERFEIT_ES y DISCRIMINATIVE COUNTERFEIT_EN.

Herramientas para el suministro de datos de texto: Wikiextractor-V2 y AnonymizationPipeline.

Anexo: corpus referenciados para el preentrenamiento de ALIA 40B

La documentación incluye además una página específica con los corpus de referencia usados en el marco del preentrenamiento de ALIA 40B. Es importante distinguirlos del resto del catálogo: aquí no siempre se trata de recursos “propios” del kit, sino de las fuentes y corpus documentados para ese proceso.

El listado publicado incluye: Colossal OSCAR 1.0, Aya Dataset, Wikimedia dumps, OpenSubtitles v2016, EurLEX-Resources, MC4-Legal, ParlaMint, MaCoCu, CURLICAT, Norwegian Colossal Corpus, Academic Slovene KAS 2.0, BIGPATENT, Biomedical-ES, BrWaC, BulNC, CaBeRnet, CATalog 1.0, CorpusNÓS, hrWaC, DaNewsroom, Danish GigaWord, Dolmino-mix-1124, DK-CLARIN Reference Corpus of General Danish, Estonian National Corpus 2021, Estonian Reference Corpus, EusCrawl, FineWeb-Edu, FineWeb2, French Public Domain Books, French Public Domain Newspapers, DeWaC, Greek Legal Code, Greek Web Corpus, HPLT v1 Spanish, HPLT v1.1 Spanish, Irish Universal Dependencies, ItWaC, Korpus Malti, SK-Laws, Latxa Corpus v1.1, UK-Laws, Legal-ES, MARCELL Romanian legislative subcorpus v2, Math AMPS, NKPJ, Occitan Corpus, Open Legal Data, ParlamentoPT, peS2o, PG-19, Pile of Law, Polish Parliamentary Corpus, Proof Pile, RedPajama-Data T1, Scientific-ES, SK Court Decisions v2.0, slWaC, SoNaR Corpus NC 1.2, Spanish Legal Domain Corpora, SrpKorSubset, Starcoder, State-related content from the Latvian Web, SYN v9, Tagesschau Archive Article, The Danish Parliament Corpus 2009-2017, The Gaois bilingual corpus of English-Irish legislation, The Pile (PhilPapers), The Swedish Culturomics Gigaword Corpus, Welsh-GOV y Yle Finnish News Archive.

Datasets y herramientas para modelos de voz

La sección de voz incorpora corpus para ASR, TTS, evaluación de acentos, validación automática, habla parlamentaria y recopilaciones específicas para gallego, euskera, valenciano y español.

El listado publicado incluye: CommonPhone-SE, distilled-yodas-spanish, corts_valencianes_asr_a, commonvoice_benchmark_catalan_accents, cv17_es_other_automatically_verified, escagleu-64k, Synthetic DEM Corpus, composite_corpus_eseu_v1.0, composite_corpus_es_v1.0, composite_corpus_eu_v2.1, benchmark_eseu_testsets, Nos_ParlaSpeech-GL, Nos_Transcrispeech-GL, Nos_RG-Podcast-GL, Nos_Celtia-GL, Nos_Brais-GL y Nos_Telexornais-GL.

Datasets para traducción automática

El bloque de traducción automática se divide entre corpus paralelos para entrenamiento y corpus para adaptación o evaluación.

Corpus paralelos para entrenamiento: ALIA_mixed_authentic_synthetic_MT, CA-GL_Parallel_Corpus, CA-EU_Parallel_Corpus, Catalan-Aranese Parallel Corpus, ES-AN Parallel Corpus, ES-AST Parallel Corpus, ES-OC Parallel Corpus, Spanish-Valencian Catalan Parallel Corpus, UJI_PARALLEL_VA_ES Dataset, DOGV_PARALLEL Dataset, AMIC_PARALLEL Dataset, BOUA_PARALLEL Dataset, UJI_PARALLEL_VA_EN Dataset, ES-CA_alignment_test Dataset, ES-VA_alignment_test Dataset, CA-VA_alignment_test Dataset, ALIA-parallel-translation, ALIA-heritage-parallel-translation, ALIA synthetic MT, Spanish–Galician Idiom Parallel Corpus, corpus SCIELO, Corpus DGT y Finetuning-MT.

Corpus para adaptación y evaluación: ACAData.

Integración, documentación y demostradores

Más allá del catálogo de modelos y datasets, el ALIA Kit también mantiene una guía de adopción con preguntas frecuentes sobre familias de modelos, uso, despliegue, licencias, soporte y conceptos como RAG. La propia documentación enlaza además a la web oficial del proyecto y a un canal de Discord para comunidad y soporte.

En demostradores públicos, la documentación enlaza a dos Spaces de Hugging Face: BSC-LT/ChatUI, pensado para conversar con modelos del kit, y BSC-LT/SalamandraTA-7B-Demo, orientado a pruebas de traducción automática multilingüe. La sección “Otras” también referencia un sistema RAG de ejemplo ejecutándose localmente en Google Colab con una versión cuantizada de Salamandra-7b-instruct.

Cierre

Lo más interesante del ALIA Kit no es solo el volumen de recursos, sino su estructura: no se limita a publicar modelos, sino que ordena un ecosistema completo con datasets, herramientas, documentación y demostradores. Para cualquiera que trabaje en IA aplicada al lenguaje en español y lenguas cooficiales, se ha convertido en una base pública especialmente valiosa para experimentar, desplegar y construir.

Enlaces externos a los modelos

Los modelos del ALIA Kit se publican externamente en Hugging Face como repositorios con su correspondiente model card. La propia documentación de adopción del kit indica que, por ahora, esa es la vía oficial de publicación y acceso.

Portal general de modelos

Enlaces directos a modelos destacados

Texto: ALIA-40b-instruct-2601
Texto: ALIA-40b-instruct-2601-GGUF
Texto: salamandra-7b-instruct
Traducción automática: salamandraTA-7b-instruct
Voz: whisper-large-v3-LoS
Multimodal: Salamandra-VL-7B-2512

Y, para que encaje mejor en el artículo, esta sería la frase de cierre del apartado:

Para consultar, descargar o desplegar los modelos del ALIA Kit, la referencia externa principal es la organización BSC-LT en Hugging Face, donde se agrupan tanto las colecciones temáticas como las fichas individuales de cada modelo.

Toni Domenech

El Blog de Toni Domenech