Todos los artículosLeanAIAICostAgenticAI

Por qué tu ACPU es demasiado alto y cómo lo soluciona la estrategia pre-agentic

Hay una métrica que la mayoría de equipos de IA no están midiendo: cuánto están gastando en IA por usuario final, al mes. No la factura total de la API. No el coste por request. El coste completo de todo el consumo de IA, dividido entre el número de usuarios que realmente se benefician de él.

Llamémoslo ACPU — AI Cost Per User. Y para la mayoría de organizaciones que ejecutan IA en producción hoy, está silenciosamente fuera de control.

El origen del problema: usar un mazo para todo

El patrón por defecto al construir productos con IA es recurrir al modelo más capaz disponible. GPT-4o, Claude Opus, Gemini Ultra — modelos frontier genuinamente impresionantes y genuinamente caros. Costes de input que van de $2 a $15 por millón de tokens. Costes de output que pueden alcanzar los $60 por millón de tokens en el extremo alto.

Estos modelos justifican su precio para las tareas adecuadas: razonamiento complejo, síntesis matizada, workflows agénticos de múltiples pasos. Pero una parte significativa de las cargas de trabajo de IA en producción no son esas tareas. Son clasificación, detección de patrones, enrichment, resumen de inputs estructurados y etiquetado contextual — tareas donde un modelo pequeño bien configurado rinde al 90% de la calidad por el 1% del coste.

Mistral 7B, por ejemplo, gestiona tareas de enrichment — tomar un input estructurado de señales conductuales y generar un resumen contextual — por aproximadamente €20 por millón de operaciones. El mismo volumen en un modelo frontier cuesta cerca de €2.000. La diferencia de calidad para esa tarea específica es insignificante. La diferencia de coste, no.

Lo que revela el ACPU

Cuando calculas el ACPU honestamente, dos cosas suelen hacerse visibles.

Primero, una gran parte del gasto en IA está concentrada en tareas de baja complejidad que no requieren inteligencia frontier. El modelo caro está haciendo el equivalente a usar un motor de competición para circular al ralentí en un atasco.

Segundo, las tareas caras — las que genuinamente se benefician del razonamiento frontier — a menudo operan sin contexto suficiente. El agente que hace una recomendación no conoce el historial conductual del usuario. El modelo que genera una respuesta personalizada trabaja desde un perfil genérico y escaso. Así que compensa con más tokens, más pasos de razonamiento, más coste — y aun así produce un resultado genérico.

Ambos problemas tienen la misma solución.

La estrategia pre-agentic como palanca de coste y calidad

Una estrategia de datos pre-agentic usa modelos ligeros y asequibles de forma continua en segundo plano para construir contexto conductual rico por usuario. Cada interacción, cada señal, cada enrichment añade una capa a un perfil compacto — diseñado desde el principio para poder resumirse en pocos cientos de tokens.

Cuando el modelo frontier finalmente actúa — recomendando, decidiendo, personalizando — recibe un contexto denso y relevante en lugar de partir de cero. Necesita menos tokens para razonar bien. Produce mejores outputs. Y cuesta menos por interacción, porque el trabajo pesado de construir contexto ya se ha hecho de forma barata.

Esto no es un trade-off entre calidad y coste. Es una ganancia compuesta en ambas dimensiones simultáneamente.

Los números hablan por sí solos

Tomemos un escenario base: un millón de operaciones de enrichment al mes, cada una tomando un input conductual estructurado y generando una etiqueta o resumen contextual.

A tarifas de Mistral 7B: aproximadamente €20. A tarifas de GPT-4o: aproximadamente €2.000.

El output del enrichment — un insight conductual compacto — alimenta entonces al modelo frontier como contexto. El consumo propio del modelo frontier cae porque está razonando sobre contexto preparado en lugar de datos brutos y sin estructurar. El ACPU baja en ambos extremos del pipeline.

Para los equipos de producto e ingeniería que gestionan presupuestos de IA, esto no es una optimización menor. A escala, es la diferencia entre un modelo de unit economics sostenible y uno que se rompe en cuanto crece la base de usuarios.

La implicación estratégica

Las organizaciones que adoptan un enfoque pre-agentic no solo están reduciendo costes hoy. Están construyendo la infraestructura de datos que hará que sus futuros agentes sean significativamente mejores que los de competidores que se saltaron este paso.

El enriquecimiento es más barato ahora, el contexto más relevante después y mejores serán los agentes cuando importe.

El ACPU es la métrica que hace esto visible. Una vez que empiezas a medirlo, las decisiones de arquitectura se vuelven obvias.