Tokens en IA: la partícula invisible que decide cómo piensan los modelos

Cuando usamos ChatGPT, Claude o Gemini, no vemos lo que ocurre bajo el capó. Pero cada respuesta depende de algo diminuto y decisivo: los tokens. 

Un token no es necesariamente una palabra. Puede ser una palabra entera (computadora), un fragmento (in-comput-able), un signo, un espacio o incluso un emoji 😃. Los modelos no trabajan con frases humanas, sino con estas piezas mínimas. 

1. El papel de la probabilidad lingüística 

Los modelos de lenguaje no entienden como nosotros: asignan distribuciones de probabilidad sobre secuencias de tokens. 

Ejemplo: tras “Hola, ¿cómo estás…?”, el modelo calcula probabilidades como: 

  • “?” → 55% 
  • “bien” → 25% 
  • “yo” → 10% 
  • otros → 10% 

Según la configuración, puede elegir el token más probable (greedy decoding) o muestrear entre varias opciones (sampling con temperatura). Así, lo que vemos como creatividad no es más que estadística aplicada a tokens.  

2. Evolución de la tokenización 

  • Años 90–2000: palabras completas y n-gramas. Ejemplo: “hiperconectividad” contaba como palabra distinta de “hiperconexión”, y el sistema se saturaba. 
  • Transformers (2017): aparecen BPE, WordPiece, SentencePiece. Ejemplo: “hiperconectividad” → [“hiper”, “conect”, “ivi”, “dad”]. 
  • Hoy: tokenización a nivel de bytes. Ejemplo: emojis complejos como 👩‍💻 se procesan aunque nunca hayan aparecido en el entrenamiento. 

 3. ¿Por qué importan? 

Los tokens son la moneda de cambio de la IA: 

  • Negocio: se paga por tokens procesados. Ejemplo: un correo sencillo ~8 tokens; un informe legal puede superar los 30.000. 
  • Capacidad: un modelo de 32K tokens permite un informe largo; uno de 1M puede cargar toda la memoria técnica de una empresa. 
  • Cognición estadística: la segmentación afecta al cálculo de probabilidades. Ejemplo: “3.1415926535” → varios tokens → el modelo predice dígitos probables, no “calcula Pi”. 

4. Cómo influye la tokenización en modelos como ChatGPT, Claude o Gemini 

Aunque hablemos de “modelos de lenguaje” como si fueran comparables, cada uno utiliza estrategias de tokenización diferentes, y esto impacta en: 

Longitud de contexto disponible 
  1. ChatGPT (GPT-4o, GPT-4 Turbo): tokenizer byte-level BPE. Hasta 128K tokens, muy sólido en emojis y código. 
  2. Claude 3.5: ~200K tokens, con compresión inteligente para contextos gigantes. 
  3. Google Gemini: SentencePiece/Unigram, más robusto en multilingüismo. 
Calidad multilingüe 

Un mismo texto en árabe puede dividirse en más tokens en ChatGPT que en Gemini → más coste y, a veces, menos fluidez. 

Código y datos estructurados 

Code LLaMA o GPT-4o afinan su tokenizer para símbolos de programación → explican por qué completan código más limpio. 

Coste para el usuario 

Una frase puede equivaler a 10 tokens en un modelo y a 15 en otro → diferencia directa en facturación. 

La tokenización explica por qué ChatGPT domina mejor en inglés, Claude aguanta contextos larguísimos y Gemini brilla en idiomas no latinos. 

5. Tokenización más allá del texto: imágenes, audio y vídeo 

La tokenización no es exclusiva del lenguaje escrito. También es la base de cómo los modelos generativos multimodales entienden y crean imágenes, audio y vídeo: 

  • Imágenes: modelos como DALL·E o Stable Diffusion convierten una imagen en “tokens visuales”, normalmente pequeños parches comprimidos mediante técnicas como VQ-VAE o VQGAN. Cada token representa un trozo de la imagen, igual que una palabra representa parte de una frase. 

Ejemplo: una foto 256×256 puede transformarse en 1024 tokens visuales que el modelo manipula como si fueran palabras. 

  • Audio: sistemas como Whisper o MusicLM tokenizan la onda sonora en fragmentos discretos (semantic tokens), de modo que una canción o una frase hablada se convierte en una secuencia de símbolos que el modelo puede predecir. 
  • Vídeo: modelos emergentes como Sora (OpenAI) trabajan con secuencias temporales de tokens que combinan visión y movimiento. Cada token encapsula un bloque de información visual en un instante. 

Ejemplo: en vez de predecir píxeles uno a uno, Sora predice secuencias de tokens que corresponden a frames o patches, lo que hace viable generar minutos de vídeo coherente. 

En todos los casos, la idea es la misma: reducir información compleja a tokens discretos que el modelo pueda manipular estadísticamente, igual que lo hace con el texto. 

6. Retos actuales 

  • Coste computacional: más tokens implican más cálculos. Y no es lineal: la atención crece casi de forma cuadrática. 
  • Lenguas diversas: 
    • Turco: evlerimizden (“de nuestras casas”) → muchos tokens. 
    • Chino: “智能” (inteligencia) → [“智”, “能”]. 
    • Árabe: los diacríticos multiplican variantes. 
  • Seguridad y jailbreaks: explotan tokenización para engañar al modelo: 
    • Uso de espacios invisibles. 
    • ZWJ para alterar texto sin que el humano lo vea. 
    • Mezcla de alfabetos: “pаypal” (con “a” cirílica). 
  • Riesgo real: un chatbot empresarial podría ser manipulado para saltarse políticas internas. 
  • Comparaciones injustas: la métrica de perplejidad depende de la tokenización, complicando medir modelos distintos.

7. Tendencias (con ejemplos) 

Contextos masivos

Claude 3.5 maneja ~200.000 tokens, lo suficiente para cargar un manual técnico entero. 

IA token-free

Investigaciones de Google y Meta entrenan modelos desde bytes, eliminando la capa de vocabulario y reduciendo costes. 

Multimodalidad

Texto, imagen, audio y vídeo → tokens unificados. Ejemplo: un modelo que lee un informe médico, analiza una radiografía y escucha un audio del paciente. 

Compresión dinámica

Anthropic prueba condensar 50.000 tokens en 5.000 mediante resúmenes vectoriales.

Vocabularios especializados

En biomedicina, “SARS-CoV-2” o “BRCA1” deben ser tokens únicos; en derecho, “artículo 23 bis” se conserva como bloque. 

8. Reflexión final 

Los tokens no son simples trozos de texto: son la unidad probabilística del pensamiento artificial. Cada vez que un modelo predice, lo hace calculando distribuciones sobre ellos. 

👉 Lo que parece lenguaje natural, una imagen fotorrealista o un vídeo generado por IA, es en realidad una coreografía de tokens. Y la forma en que los diseñamos marca la diferencia entre ChatGPT, Claude, Gemini, Stable Diffusion o Sora.  

Scroll al inicio