Humanos superan a la IA en prueba de matemáticas de alto nivel
La inteligencia artificial ha enfrentado su prueba de matemáticas más rigurosa hasta la fecha, y los resultados son contundentes: los modelos de IA no alcanzaron la capacidad de resolución de problemas de los mejores matemáticos humanos. La evaluación, parte del proyecto First Proof, midió la habilidad de cuatro sistemas de IA para resolver preguntas complejas de investigación matemática, con un jurado anónimo de especialistas humanos calificando las respuestas.
¿Qué hace única a esta prueba?
First Proof es la primera evaluación que cumple simultáneamente tres condiciones clave: utiliza problemas de nivel de investigación, incluye preguntas que no aparecieron en los datos de entrenamiento de la IA, y es calificada formalmente por matemáticos. Los resultados se dieron a conocer el 10 de junio en el sitio web de First Proof.
Este hallazgo contrasta con avances recientes, como el chatbot de OpenAI que resolvió un desafío matemático de 80 años planteado por el fallecido matemático Paul Erdős. Sin embargo, el equipo de First Proof afirma que futuras iteraciones podrían ayudar a los investigadores a evaluar la utilidad de la IA para los matemáticos, ya sea resolviendo problemas de forma autónoma, verificando demostraciones o actuando como asistentes de investigación.
Innovación clave: problemas inéditos
Una innovación importante de la prueba First Proof fue que las preguntas no habían sido mencionadas previamente en literatura publicada ni en internet, reduciendo el riesgo de que los modelos simplemente regurgitaran información aprendida durante su entrenamiento. Diez investigadores de diversas especialidades matemáticas proporcionaron cada uno una pregunta que habían resuelto en el curso de su propia investigación, pero que aún no habían publicado.
First Proof realizó una prueba piloto en febrero con un lote diferente de problemas novedosos. En esa ronda, cualquier persona podía probar sus sistemas de IA favoritos, pero los resultados no fueron verificados oficialmente por el equipo de First Proof, y no había forma de comprobar de manera independiente que las IA no hubieran recibido ayuda humana.
Metodología controlada y sistemática
En esta ocasión, First Proof realizó la prueba de manera controlada: el equipo pidió a los modelos que resolvieran problemas de forma totalmente autónoma, y un grupo de 30 matemáticos revisó las respuestas. “Los organizadores han pensado claramente en el segundo lote con más cuidado para hacerlo más controlado y sistemático”, comenta el matemático Jeremy Avigad, director del Instituto de Razonamiento Asistido por Computadora en Matemáticas de la Universidad Carnegie Mellon en Pittsburgh, Pensilvania.
Otra regla fue que los modelos participantes debían estar disponibles públicamente. Esto significó que Aletheia de Google —un sistema diseñado específicamente para resolver problemas matemáticos— y la versión completa no publicada de Claude Mythos de Anthropic no pudieron ser utilizados.
Participantes y resultados
OpenAI fue la única gran empresa que participó, con su modelo ChatGPT 5.5 Pro. Los otros sistemas fueron proporcionados por tres grupos académicos: la Universidad de California en Los Ángeles (UCLA), la Universidad de Princeton en Nueva Jersey y el Instituto Federal Suizo de Tecnología (ETH) en Zúrich. Los tres construyeron “arneses” sobre chatbots existentes como ChatGPT, Gemini de Google y la versión pública de Claude de Anthropic. Un arnés es un sistema automatizado que pregunta a un chatbot y verifica la respuesta con otro chatbot, a menudo con un intercambio repetido.
El equipo del ETH obtuvo el mejor rendimiento, resolviendo seis de diez problemas con un sistema en el que las respuestas de ChatGPT eran verificadas o mejoradas por un “consejo asesor” compuesto por los tres chatbots principales. El equipo de UCLA, que construyó un arnés sobre ChatGPT, quedó en segundo lugar, seguido por el equipo de OpenAI (ChatGPT sin arnés) y Princeton (un arnés que utilizaba principalmente Gemini 3.1 Pro como motor).
Implicaciones futuras
Estos resultados subrayan que, si bien la IA ha logrado avances notables en matemáticas, aún está lejos de igualar el razonamiento humano en problemas de investigación. Sin embargo, el equipo de First Proof espera que pruebas como esta ayuden a desarrollar herramientas de IA que puedan colaborar con matemáticos en tareas específicas, como la verificación de pruebas o la exploración de nuevas hipótesis.
