Cuando usamos ChatGPT, Claude o Gemini, no vemos lo que ocurre bajo el capó. Pero cada respuesta depende de algo diminuto y decisivo: los tokens.
Un token no es necesariamente una palabra. Puede ser una palabra entera (computadora), un fragmento (in-comput-able), un signo, un espacio o incluso un emoji 😃. Los modelos no trabajan con frases humanas, sino con estas piezas mínimas.
Tabla de Contenidos
Toggle1. El papel de la probabilidad lingüística
Los modelos de lenguaje no entienden como nosotros: asignan distribuciones de probabilidad sobre secuencias de tokens.
Ejemplo: tras “Hola, ¿cómo estás…?”, el modelo calcula probabilidades como:
- “?” → 55%
- “bien” → 25%
- “yo” → 10%
- otros → 10%
Según la configuración, puede elegir el token más probable (greedy decoding) o muestrear entre varias opciones (sampling con temperatura). Así, lo que vemos como creatividad no es más que estadística aplicada a tokens.
2. Evolución de la tokenización
- Años 90–2000: palabras completas y n-gramas. Ejemplo: “hiperconectividad” contaba como palabra distinta de “hiperconexión”, y el sistema se saturaba.
- Transformers (2017): aparecen BPE, WordPiece, SentencePiece. Ejemplo: “hiperconectividad” → [“hiper”, “conect”, “ivi”, “dad”].
- Hoy: tokenización a nivel de bytes. Ejemplo: emojis complejos como 👩💻 se procesan aunque nunca hayan aparecido en el entrenamiento.
3. ¿Por qué importan?
Los tokens son la moneda de cambio de la IA:
- Negocio: se paga por tokens procesados. Ejemplo: un correo sencillo ~8 tokens; un informe legal puede superar los 30.000.
- Capacidad: un modelo de 32K tokens permite un informe largo; uno de 1M puede cargar toda la memoria técnica de una empresa.
- Cognición estadística: la segmentación afecta al cálculo de probabilidades. Ejemplo: “3.1415926535” → varios tokens → el modelo predice dígitos probables, no “calcula Pi”.
4. Cómo influye la tokenización en modelos como ChatGPT, Claude o Gemini
Aunque hablemos de “modelos de lenguaje” como si fueran comparables, cada uno utiliza estrategias de tokenización diferentes, y esto impacta en:
Longitud de contexto disponible
- ChatGPT (GPT-4o, GPT-4 Turbo): tokenizer byte-level BPE. Hasta 128K tokens, muy sólido en emojis y código.
- Claude 3.5: ~200K tokens, con compresión inteligente para contextos gigantes.
- Google Gemini: SentencePiece/Unigram, más robusto en multilingüismo.
Calidad multilingüe
Un mismo texto en árabe puede dividirse en más tokens en ChatGPT que en Gemini → más coste y, a veces, menos fluidez.
Código y datos estructurados
Code LLaMA o GPT-4o afinan su tokenizer para símbolos de programación → explican por qué completan código más limpio.
Coste para el usuario
Una frase puede equivaler a 10 tokens en un modelo y a 15 en otro → diferencia directa en facturación.
La tokenización explica por qué ChatGPT domina mejor en inglés, Claude aguanta contextos larguísimos y Gemini brilla en idiomas no latinos.
5. Tokenización más allá del texto: imágenes, audio y vídeo
La tokenización no es exclusiva del lenguaje escrito. También es la base de cómo los modelos generativos multimodales entienden y crean imágenes, audio y vídeo:
- Imágenes: modelos como DALL·E o Stable Diffusion convierten una imagen en “tokens visuales”, normalmente pequeños parches comprimidos mediante técnicas como VQ-VAE o VQGAN. Cada token representa un trozo de la imagen, igual que una palabra representa parte de una frase.
Ejemplo: una foto 256×256 puede transformarse en 1024 tokens visuales que el modelo manipula como si fueran palabras.
- Audio: sistemas como Whisper o MusicLM tokenizan la onda sonora en fragmentos discretos (semantic tokens), de modo que una canción o una frase hablada se convierte en una secuencia de símbolos que el modelo puede predecir.
- Vídeo: modelos emergentes como Sora (OpenAI) trabajan con secuencias temporales de tokens que combinan visión y movimiento. Cada token encapsula un bloque de información visual en un instante.
Ejemplo: en vez de predecir píxeles uno a uno, Sora predice secuencias de tokens que corresponden a frames o patches, lo que hace viable generar minutos de vídeo coherente.
En todos los casos, la idea es la misma: reducir información compleja a tokens discretos que el modelo pueda manipular estadísticamente, igual que lo hace con el texto.
6. Retos actuales
- Coste computacional: más tokens implican más cálculos. Y no es lineal: la atención crece casi de forma cuadrática.
- Lenguas diversas:
- Turco: evlerimizden (“de nuestras casas”) → muchos tokens.
- Chino: “智能” (inteligencia) → [“智”, “能”].
- Árabe: los diacríticos multiplican variantes.
- Seguridad y jailbreaks: explotan tokenización para engañar al modelo:
- Uso de espacios invisibles.
- ZWJ para alterar texto sin que el humano lo vea.
- Mezcla de alfabetos: “pаypal” (con “a” cirílica).
- Riesgo real: un chatbot empresarial podría ser manipulado para saltarse políticas internas.
- Comparaciones injustas: la métrica de perplejidad depende de la tokenización, complicando medir modelos distintos.
7. Tendencias (con ejemplos)
Contextos masivos
Claude 3.5 maneja ~200.000 tokens, lo suficiente para cargar un manual técnico entero.
IA token-free
Investigaciones de Google y Meta entrenan modelos desde bytes, eliminando la capa de vocabulario y reduciendo costes.
Multimodalidad
Texto, imagen, audio y vídeo → tokens unificados. Ejemplo: un modelo que lee un informe médico, analiza una radiografía y escucha un audio del paciente.
Compresión dinámica
Anthropic prueba condensar 50.000 tokens en 5.000 mediante resúmenes vectoriales.
Vocabularios especializados
En biomedicina, “SARS-CoV-2” o “BRCA1” deben ser tokens únicos; en derecho, “artículo 23 bis” se conserva como bloque.
8. Reflexión final
Los tokens no son simples trozos de texto: son la unidad probabilística del pensamiento artificial. Cada vez que un modelo predice, lo hace calculando distribuciones sobre ellos.
👉 Lo que parece lenguaje natural, una imagen fotorrealista o un vídeo generado por IA, es en realidad una coreografía de tokens. Y la forma en que los diseñamos marca la diferencia entre ChatGPT, Claude, Gemini, Stable Diffusion o Sora.
