GPT-5.4 Thinking: el modelo que supera a expertos humanos
OpenAI acaba de lanzar GPT-5.4 con modo Thinking, y los numeros del benchmark son historicos: 83% en el GDPVal (Graduate-level Diverse Professional Valuation benchmark), lo que coloca al modelo al nivel o por encima de expertos humanos en tareas economicamente relevantes como analisis legal, diagnostico medico, ingenieria de software y investigacion financiera.
Llevo tiempo usando GPT-4.5 para trabajo diario y la diferencia con el modo Thinking es palpable: el modelo ahora "piensa en voz alta" antes de responder, mostrando su razonamiento paso a paso, similar a como funciona OpenAI o1 pero con la versatilidad conversacional de GPT-5.
GPT-5.4 Thinking vs modelos anteriores
| Modelo | GDPVal | MMLU | HumanEval (codigo) | Acceso |
|---|---|---|---|---|
| GPT-4o | 61% | 88% | 90% | Plus/Free limitado |
| GPT-5 | 74% | 91% | 95% | Plus/Pro |
| GPT-5.4 Thinking | 83% | 94% | 98% | Plus/Pro |
| Nivel experto humano | ~80% | ~90% | ~85% | — |
Que es el modo Thinking y como funciona
El modo Thinking es una cadena de razonamiento interna que el modelo ejecuta antes de generar la respuesta final. Cuando lo activas, ves el "proceso mental" del modelo: hipotesis, verificaciones, correcciones y conclusion.
Ejemplo practico: si le pides que revise un contrato legal, el modo Thinking primero analiza las clausulas riesgosas, luego verifica precedentes legales conocidos, identifica ambiguedades y finalmente da su evaluacion con el razonamiento completo.
Como acceder a GPT-5.4 Thinking ahora
# Acceso via ChatGPT web:
1. Ir a https://chat.openai.com
2. Asegurarse de tener ChatGPT Plus ($20/mes) o Pro ($200/mes)
3. En el selector de modelos (arriba izquierda), elegir "GPT-5.4 Thinking"
4. Escribir tu prompt normalmente
# Via API de OpenAI:
import openai
client = openai.OpenAI(api_key="tu-api-key")
response = client.chat.completions.create(
model="gpt-5.4-thinking",
messages=[
{"role": "user", "content": "Analiza este contrato: [texto]"}
],
reasoning_effort="high" # "low", "medium" o "high"
)
print(response.choices[0].message.content)
Para que tareas brilla el modo Thinking
Despues de probar el modelo durante dias, estas son las areas donde la mejora es mas evidente:
- Matematicas y estadistica: Resuelve problemas de olimpiadas matematicas con precision cercana al 100%
- Codigo complejo: Genera algoritmos multi-archivo con logica de dependencias correcta
- Analisis legal: Identifica clausulas abusivas en contratos con referencias legales reales
- Investigacion medica: Sintetiza literatura cientifica con evaluacion de calidad de evidencia
- Planificacion estrategica: Construye planes de negocio con analisis FODA detallado
Como te afecta como usuario de ChatGPT
Si usas ChatGPT para trabajo, el modo Thinking cambia lo que puedes pedirle. Ya no necesitas fragmentar tareas complejas en 10 mensajes; el modelo puede manejar instrucciones largas y multistep en un solo prompt:
- Plus ($20/mes): Acceso a GPT-5.4 Thinking con limites mensuales de tokens
- Pro ($200/mes): Sin limites de tokens en modo Thinking
- API: Precio por token, mas caro que GPT-5 estandar pero mas barato que o1-pro
Preocupaciones: empleos en riesgo
El reporte de Stanford SIEPR presentado esta semana indica que la IA ya redujo la contratacion de desarrolladores de software de nivel inicial en un 20% y trabajos de call center en 15%. GPT-5.4 Thinking acelera esta tendencia.
La recomendacion de los economistas no es evitar la IA, sino usarla para hacer trabajo de mayor valor. En mi experiencia, los profesionales que adoptan estos modelos como "copiloto" son los que mantienen ventaja competitiva.
Problemas comunes al usar GPT-5.4 Thinking
Problema 1: "No veo el modelo GPT-5.4 Thinking en el selector." El despliegue es gradual. Solucion: cierra sesion y vuelve a entrar. Si no aparece, espera 48 horas. Primero se activa para usuarios Plus de larga data.
Problema 2: "El modo Thinking es muy lento." El razonamiento interno toma entre 10-60 segundos dependiendo de la complejidad. Solucion: usa reasoning_effort="low" en la API o simplifica el prompt para tareas que no requieren razonamiento profundo.
Problema 3: "Las respuestas en espanol son menos precisas que en ingles." GDPVal se evalua principalmente en ingles. Solucion: para tareas criticas en espanol, escribe el prompt en ingles y pide la respuesta en espanol al final.