Precio de la API de ChatGPT: cuánto cuesta y cómo no pasarte
Si vas a usar la API de OpenAI y no sabes por dónde te va a venir la factura, esta guía es para ti. No vas a pagar por "mensajes" ni por "consultas": pagas por tokens, y se cobran distinto según entren o salgan del modelo. Aquí te explico cómo funciona el coste de verdad, por qué el español sale más caro que el inglés y cómo estimar tu gasto mensual antes de escribir una sola línea de código.
Precio por modelo (USD / 1M tokens)
| Modelo | Proveedor | Entrada | Salida |
|---|---|---|---|
| Qwen Turbo | Alibaba | $0.05 | $0.20 |
| DeepSeek (chat) | DeepSeek | $0.14 | $0.28 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | |
| GPT-4o mini | OpenAI | $0.15 | $0.60 |
| Mistral Small | Mistral | $0.15 | $0.60 |
| DeepSeek V4 Pro | DeepSeek | $0.43 | $0.87 |
| Qwen Plus | Alibaba | $0.40 | $1.20 |
| Mistral Large | Mistral | $0.50 | $1.50 |
| Mistral Medium | Mistral | $0.40 | $2.00 |
| Gemini 2.5 Flash | $0.30 | $2.50 | |
| Grok 4.3 | xAI | $1.25 | $2.50 |
| o4-mini | OpenAI | $1.10 | $4.40 |
| Claude Haiku 4.5 | Anthropic | $1.00 | $5.00 |
| Qwen Max | Alibaba | $1.60 | $6.40 |
| o3 | OpenAI | $2.00 | $8.00 |
| Gemini 3.5 Flash | $1.50 | $9.00 | |
| GPT-4o | OpenAI | $2.50 | $10.00 |
| GPT-5 | OpenAI | $1.25 | $10.00 |
| Gemini 2.5 Pro | $1.25 | $10.00 | |
| Gemini 3 Pro | $2.00 | $12.00 | |
| GPT-5.2 | OpenAI | $1.75 | $14.00 |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 |
| Claude Opus 4.8 | Anthropic | $5.00 | $25.00 |
Precios orientativos, actualizados automáticamente. Calcula tu coste real en la calculadora.
Qué es un token (y por qué no pagas por palabras)
La API de OpenAI no cobra por mensaje ni por pregunta: cobra por tokens. Un token es un trozo de texto, normalmente entre 3 y 4 caracteres en inglés. No coincide con una palabra: palabras frecuentes como 'the' son un solo token, mientras que una palabra larga o poco común se parte en varios. Como referencia práctica en inglés, 1.000 tokens son unas 750 palabras, más o menos tres cuartos de página.
Esto importa porque la factura se calcula multiplicando los tokens que consumes por un precio por cada millón de tokens (lo verás escrito como 'por 1M tokens'). Para estimar tu gasto, lo único que necesitas saber es cuántos tokens entran y cuántos salen en una petición típica, y cuántas peticiones haces al mes. Todo lo demás es aritmética.
- Cuenta el texto que envías (tu instrucción, el contexto, el historial de la conversación): eso son tokens de entrada.
- Cuenta el texto que el modelo genera como respuesta: eso son tokens de salida.
- Suma ambos, multiplica por su precio respectivo y por el número de peticiones del mes. Ese es tu coste real.
Por qué la entrada y la salida se pagan distinto
Casi todos los modelos cobran más caro el output (lo que el modelo escribe) que el input (lo que tú le mandas). La diferencia no es pequeña: la salida suele costar entre tres y cuatro veces más por token que la entrada. La razón es técnica: generar texto obliga al modelo a calcular palabra por palabra de forma secuencial, mientras que leer tu entrada es mucho más barato de procesar.
Para tu bolsillo esto tiene una consecuencia directa: el coste lo dominan tus respuestas largas, no tus instrucciones largas. Un prompt de 2.000 tokens que devuelve una respuesta de 100 tokens es barato. El mismo prompt que devuelve 2.000 tokens de respuesta puede multiplicar tu factura. Antes de optimizar el prompt, mira cuánto texto te está devolviendo el modelo.
- ¿Solo necesitas una clasificación, un sí/no o un dato? Pide al modelo que responda en una palabra o en JSON corto y limita el máximo de tokens de salida.
- ¿Estás reenviando todo el historial de una conversación en cada turno? Eso se paga como input en cada llamada; recorta o resume el contexto antiguo.
- Si el proveedor ofrece caché de prompt para la parte fija de tu instrucción, úsala: el contexto repetido se cobra más barato.
El sobrecoste del español: pagas más por el mismo texto
Aquí está el detalle que casi nadie te cuenta: el mismo contenido cuesta más caro en español que en inglés. Los tokenizadores de estos modelos se entrenaron sobre todo con texto en inglés, así que parten el inglés de forma muy eficiente y el español de forma más torpe. En la práctica, un texto en español consume aproximadamente entre un 15% y un 25% más de tokens que su equivalente en inglés.
El motivo está en cómo se trocea el idioma. Tildes, la 'ñ', la 'ü', y construcciones típicas del español (artículos, preposiciones contraídas, conjugaciones verbales largas como 'estaríamos' o 'comprándotelo') se parten en más fragmentos que sus equivalentes ingleses. Cada fragmento extra es un token extra, y cada token extra se paga, tanto a la entrada como a la salida.
- Aplica ese +15-25% como factor de corrección cuando hagas una estimación: si calculaste tu coste pensando en inglés, súbelo una cuarta parte para España.
- Afecta a las dos partes de la factura: tu prompt en español pesa más, y la respuesta en español también.
- No intentes 'arreglarlo' escribiendo el prompt en inglés para que responda en español: pierdes claridad y la salida en español sigue pagando el sobrecoste. Es más fiable asumir el coste y dimensionar bien el resto.
Cuánto te puede costar al mes según tu volumen
El error más habitual al estimar es razonar 'por petición' y olvidar el volumen. Una llamada que cuesta una fracción de céntimo parece gratis, pero multiplicada por decenas de miles de peticiones al mes deja de serlo. La fórmula mental es siempre la misma: (tokens de entrada por su precio + tokens de salida por su precio) multiplicado por el número de peticiones mensuales, y encima sumas el sobrecoste del español.
Para hacerte una idea del orden de magnitud sin atarte a cifras concretas: un asistente interno que usan un puñado de personas (cientos de peticiones al mes) suele moverse en un coste bajo y predecible. Un chatbot de atención al cliente con miles de conversaciones diarias y respuestas largas es donde la factura se dispara, sobre todo si reenvías mucho historial en cada turno. Y un proceso por lotes (clasificar o resumir miles de documentos de una vez) depende casi por completo de cuánto texto entra y sale por documento.
En lugar de fiarte de una intuición, mete tus números reales (tokens de entrada, tokens de salida, peticiones al mes y modelo) en la calculadora de coste de CosteIA. Verás el gasto mensual estimado en euros y podrás comparar al instante qué te cuesta cada modelo con tu mismo volumen. Justo debajo tienes una tabla con precios reales por modelo para que el orden de magnitud no sea una sorpresa.
Cómo elegir el modelo más barato para tu caso
La regla de oro: no uses el modelo más potente por defecto. Los proveedores ofrecen una familia de modelos, desde versiones 'mini' o ligeras muy baratas hasta los modelos grandes, que pueden costar un orden de magnitud más por token. La mayoría de tareas reales (clasificar, extraer datos, responder preguntas frecuentes, redactar correos) las resuelve de sobra un modelo pequeño. El modelo caro solo se justifica en razonamiento complejo, código difícil o análisis muy matizado.
- Empieza siempre por el modelo más barato que parezca capaz y solo sube de gama si la calidad no te sirve. Es mucho más fácil subir que descubrir tarde que pagabas de más.
- Separa tareas: usa un modelo barato para el 90% de peticiones sencillas y reserva el caro solo para los casos difíciles. Mezclar modelos según la dificultad es la palanca de ahorro más grande que tienes.
- Vigila las respuestas largas: limitar el máximo de tokens de salida y pedir formatos compactos abarata más que cambiar de modelo en muchos casos.
- Fíjate también en la caché de prompt y en los precios por lotes (batch): si tu carga lo permite, reducen el coste sin tocar la calidad.
- Recalcula con tu volumen real, no con el de los ejemplos: el modelo más barato por token no siempre es el más barato en total si necesita más intentos o respuestas más largas.
Calcula en segundos cuánto te costaría cada modelo según tu uso.
Ir a la calculadoraPreguntas frecuentes
¿La API de ChatGPT se paga por mensaje o por uso?
Por uso, no por mensaje. Pagas por tokens: la suma del texto que envías (entrada) y el que el modelo genera (respuesta). El precio se aplica por cada millón de tokens y varía según el modelo. No hay tarifa plana ni coste fijo por consulta: si una petición es corta, pagas poco; si la respuesta es larga, pagas más.
¿Por qué me cobran más caro lo que responde el modelo que lo que yo escribo?
Porque generar texto es más costoso de calcular que leerlo. En la mayoría de modelos, el token de salida cuesta entre tres y cuatro veces más que el de entrada. Por eso, para controlar la factura, lo primero es vigilar la longitud de las respuestas: pedir respuestas concisas y limitar el máximo de tokens de salida ahorra más de lo que parece.
¿Es verdad que el español sale más caro que el inglés en la API?
Sí. El mismo contenido consume aproximadamente entre un 15% y un 25% más de tokens en español que en inglés, porque los tokenizadores están optimizados para el inglés y trocean peor las tildes, la 'ñ' y las conjugaciones largas. Afecta a la entrada y a la salida. Al estimar tu coste pensando en cifras de inglés, súbelas una cuarta parte para tener un número realista en España.
¿Cuánto voy a gastar al mes?
Depende de tres cosas: cuántos tokens entran y salen por petición, cuántas peticiones haces al mes y qué modelo usas. Un asistente interno de uso bajo suele tener un coste pequeño y estable; un chatbot con miles de conversaciones diarias y respuestas largas es donde se dispara. Lo más fiable es meter tus números reales en la calculadora de CosteIA y ver el gasto en euros, incluyendo el sobrecoste del español.
¿Qué modelo elijo para gastar lo mínimo?
Empieza por el modelo más barato (las versiones ligeras o 'mini') y solo sube de gama si la calidad no te sirve. La mayoría de tareas habituales (clasificar, extraer datos, responder preguntas frecuentes) las resuelve un modelo pequeño de sobra. La mayor palanca de ahorro es usar el modelo barato para el grueso de peticiones y reservar el caro solo para los casos difíciles.