Durante años, el avance de la inteligencia artificial se ha apoyado en una premisa sencilla: cuantos más datos, mejor. Internet ofrecía textos, imágenes, código y conversaciones en cantidades inmensas, suficientes para alimentar modelos generalistas capaces de escribir, traducir, programar o resumir. Pero esa abundancia tiene un límite. Cuando la IA se quiere aplicar a casos muy concretos —fraude financiero, ciberseguridad, medicina, derecho, seguridad infantil o detección de estafas— los datos dejan de estar disponibles en masa.
A veces no existen suficientes ejemplos. Otras veces existen, pero son privados, confidenciales o legalmente difíciles de utilizar. Y en algunos ámbitos, como la seguridad, esperar a que ocurra un fallo real para aprender de él puede ser demasiado tarde.
Ahí entra Simula, un marco desarrollado por investigadores de Google para generar datos sintéticos de una forma más controlada, razonada y reproducible. El sistema se describe en el paper Reasoning-Driven Synthetic Data Generation and Evaluation, aceptado en Transactions on Machine Learning Research en 2026, y firmado por Tim R. Davidson, Benoit Seguin, Enrico Bacis, Cesar Ilharco y Hamza Harkous.
Tabla de Contenidos
Toggle1. No se trata solo de inventar ejemplos
Los datos sintéticos no son nuevos. Desde hace años se utilizan ejemplos generados artificialmente para entrenar o evaluar modelos de IA. Lo novedoso en Simula no es la idea de generar datos, sino cómo se organiza esa generación.
Muchos enfoques tradicionales producen ejemplos uno a uno: se escribe un prompt, se genera una muestra, se revisa y se repite el proceso. Google sostiene que este método escala mal, depende demasiado del esfuerzo humano o de datos semilla, y ofrece poco control sobre el conjunto final. Simula cambia el enfoque: en lugar de fabricar ejemplos aislados, diseña primero el conjunto de datos completo.
La diferencia puede parecer técnica, pero es importante. Es como preparar una oposición: no basta con acumular preguntas al azar. Hay que cubrir todo el temario, equilibrar niveles de dificultad, evitar repeticiones y asegurarse de que las respuestas sean correctas. Simula intenta hacer eso mismo, pero aplicado al entrenamiento de modelos de IA.
2. Cómo funciona Simula
El sistema parte de una idea: antes de generar datos, hay que entender el espacio que se quiere cubrir. Para ello, Simula utiliza modelos de razonamiento que construyen taxonomías jerárquicas del dominio. Si el objetivo es ciberseguridad, por ejemplo, el sistema no se limita a pedir “casos de ataque informático”, sino que descompone el campo en categorías, subcategorías y escenarios específicos.
A partir de ese mapa conceptual, Simula genera metaprompts, es decir, plantillas de situaciones que luego se convierten en ejemplos concretos. Esto permite introducir variedad dentro de una misma categoría y evitar que el conjunto se llene de casos demasiado parecidos.
Después llega una fase de complejización. Una parte configurable de los ejemplos se vuelve más difícil, más detallada o más exigente. Esta pieza es clave porque permite ajustar el nivel del conjunto de datos sin cambiar necesariamente el tema que se está cubriendo.
Finalmente, Simula incorpora controles de calidad mediante un sistema de doble crítico. Dos revisores automáticos evalúan si las respuestas generadas son correctas o incorrectas, con el objetivo de reducir errores y evitar que el modelo acepte como válidas respuestas plausibles pero equivocadas.
3. Por qué interesa a Google
Simula no es solo una investigación académica. Google afirma que el sistema ya se ha utilizado como motor de datos para proyectos internos y productos reales. Entre los ejemplos citados están el ecosistema Gemma —incluidos ShieldGemma, FunctionGemma y MedGemma—, clasificadores de seguridad para Gemini, detección de estafas en llamadas Android y filtrado de spam en Google Messages.
Esto explica por qué el enfoque resulta atractivo para una compañía como Google. Los datos sintéticos permiten entrenar modelos para situaciones difíciles de observar, costosas de recopilar o sensibles desde el punto de vista de la privacidad. También facilitan ciclos de desarrollo más rápidos: si el conjunto de datos se puede versionar, inspeccionar y regenerar, los equipos pueden corregir fallos y probar nuevas hipótesis con más agilidad.
En otras palabras, Simula propone tratar los datos casi como si fueran código: algo que se diseña, se documenta, se modifica, se evalúa y se vuelve a ejecutar.
4. Lo que promete
La principal promesa de Simula es el control. No generar más datos por generar, sino generar mejores datos para una necesidad concreta. Google resume ese control en tres ejes: cobertura, complejidad y calidad.
La cobertura busca que el conjunto no se concentre solo en los casos más comunes. La complejidad permite decidir cuántos ejemplos deben ser más difíciles. Y la calidad intenta filtrar errores antes de que esos datos lleguen al entrenamiento.
Este enfoque puede ser especialmente útil en la llamada “larga cola” de los problemas reales: casos raros, escenarios extremos, ataques poco frecuentes, preguntas legales complejas o situaciones de seguridad que apenas aparecen en los datos históricos. Para una IA que debe funcionar en el mundo real, aprender solo de los casos frecuentes no basta.
5. Pero no es una solución mágica
La parte más interesante del trabajo de Google es que no vende Simula como una receta universal. Al contrario: sus propios resultados muestran que el diseño de los datos depende del contexto.
En pruebas con distintos dominios, Google observó que aumentar la complejidad mejoró el rendimiento en razonamiento matemático, pero lo empeoró en razonamiento legal cuando el modelo profesor era más débil. Esto revela una lección importante: los datos sintéticos pueden ayudar, pero también pueden perjudicar si se generan con un diseño inadecuado o si el modelo que los produce no domina bien el dominio.
También sigue abierto el problema de la evaluación. Medir si un dato sintético es útil no es trivial. Puede parecer correcto, estar bien redactado y aun así no mejorar el modelo. Google propone nuevas métricas, como cobertura taxonómica y puntuación calibrada de complejidad, pero el campo aún no dispone de una medida universal y definitiva.
Y hay un riesgo de fondo: si los modelos se entrenan con datos generados por otros modelos, pueden amplificar sesgos, errores o supuestos invisibles. Simula intenta reducir ese riesgo mediante diseño, diversidad y crítica automática, pero no lo elimina por completo.
6. Una pista sobre el futuro de la IA
Simula apunta a un cambio de etapa. La IA ya no solo competirá por tener modelos más grandes o más datos acumulados, sino por diseñar mejor los datos con los que aprende. En dominios sensibles o especializados, la ventaja puede estar menos en recolectar millones de ejemplos reales y más en construir conjuntos sintéticos bien pensados, evaluables y ajustados al problema.
Ese cambio no sustituye la necesidad de datos reales, expertos humanos ni validación rigurosa. Pero sí abre una vía importante: entrenar sistemas capaces de prepararse para escenarios que todavía no han ocurrido, o que no pueden exponerse por razones de privacidad.
Simula no resuelve todos los problemas de la IA especializada, pero señala una dirección clara: el futuro del entrenamiento no dependerá solo de cuántos datos podamos reunir, sino de cuán bien sepamos diseñar los datos que necesitamos.
