Cómo la inteligencia artificial está abordando la resolución de problemas matemáticos

TLa Olimpiada Matemática Internacional (OMI) es posiblemente la principal competencia matemática de resolución de problemas. Cada año, los estudiantes de secundaria de todo el mundo intentan seis problemas en el lapso de tres horas. Los estudiantes cuyos puntajes cruzan un umbral, que corresponde aproximadamente a resolver cinco de los seis problemas, obtienen medallas de oro, con medallas de plata y bronce para aquellos que cruzan otros umbrales. Los problemas no requieren conocimiento matemático avanzado, sino que prueban la creatividad matemática. Siempre son nuevos, y se asegura que no hay problemas similares en línea o en la literatura.
El medallista de oro de IA
La OMI 2025 tenía algunos participantes inusuales. Incluso antes de que la Olimpiada cerrara, OpenAi, el fabricante de ChatGPT, anunció que un modelo de razonamiento experimental suyo había respondido a la Olimpiada a nivel de medalla de oro, luego de los mismos límites de tiempo que los participantes humanos. Sorprendentemente, este no era un modelo específicamente entrenado o diseñado para la OMI, sino un modelo de razonamiento de uso general con poderes de razonamiento lo suficientemente buenos para un oro de la OMI.
El anuncio de Operai planteó algunos problemas. Muchos sintieron que anunciar un resultado de AI, mientras que la OMI no había concluido eclipsó los logros de los participantes humanos. Además, la puntuación de la medalla de oro fue calificada y administrada por ex medallistas de la OMI contratados por Operai, y algunos disputaron si la calificación era correcta. Sin embargo, un par de días después, llegó otro anuncio. Google-Depermind intentó el IMO oficialmente, con una versión avanzada de Gemini Deep Think. Tres días después de la Olimpiada, con el permiso de los organizadores de la OMI, anunciaron que habían obtenido un puntaje al nivel de una medalla de oro. El presidente de la OMI, el Prof. Gregor Dolinar, declaró: “Podemos confirmar que Google Deepmind ha alcanzado el hito muy deseado, ganando 35 de 42 puntos posibles: una puntuación de medalla de oro. Sus soluciones fueron sorprendentes en muchos aspectos. Los estudiantes de IMO consideraron que eran claros, precisos y la mayoría de ellos fáciles de seguir”.
Etapas de desarrollo
A pesar de que se convirtió en una sensación popular, ChatGPT fue infame tanto para las alucinaciones (compensar hechos) como por errores aritméticos simples. Ambos harían que resolverse aún modestos problemas matemáticos en su mayoría imposibles.
El primer avance que redujo en gran medida estos errores, que se produjeron unos meses después del lanzamiento de ChatGPT, fue el uso de los llamados agentes. Específicamente, los modelos ahora podían usar búsquedas web para recopilar información precisa e intérpretes de Python para ejecutar programas para realizar cálculos y verificar el razonamiento utilizando experimentos numéricos. Estos hicieron que los modelos fueran dramáticamente más precisos y lo suficientemente buenos como para resolver problemas matemáticos moderadamente duros. Sin embargo, como un solo error en una solución matemática hace que la solución sea inválida, estos aún no fueron lo suficientemente precisos como para alcanzar el nivel de Imo (o investigación).
Se puede obtener una mayor precisión mediante el emparejamiento de modelos de lenguaje con sistemas de prueba formales como el Lean Prover, un software de computadora que puede comprender y verificar las pruebas. De hecho, para la OMI 2024, dicho sistema de Google-Depermind llamado Alphaproof obtuvo una puntuación de medalla de plata (pero funcionó durante dos días).
Finalmente, se produjo un avance con los llamados modelos de razonamiento, como O3 de Operai y Google-Depermind’s Gemini-2.5-Pro. Estos modelos se describen mejor como modelos de monólogo interno. Antes de responder una pregunta compleja, generan un monólogo considerando enfoques, llevándolos, revisando sus soluciones propuestas, a veces ditacadores y comenzando de nuevo, antes de finalmente dar una solución con la que están satisfechos. Eran tales modelos, con algunos avances adicionales, que obtuvieron puntajes de medallas de oro en la Olimpiada.
El razonamiento analógico y la combinación de ingredientes de diferentes fuentes le dan a los modelos de lenguaje cierta originalidad, pero probablemente no lo suficiente para problemas duros y novedosos. Sin embargo, la verificación, ya sea a través de la consistencia interna de los modelos de razonamiento o, mejor aún, verificando por el Lean Prover, permite entrenar probando una gran cantidad de cosas y viendo lo que funciona, de la misma manera que los sistemas de IA se convirtieron en campeones de ajedrez comenzando con solo las reglas.
Tal aprendizaje de refuerzo ha permitido que los modelos recientes vayan más allá de los datos de capacitación creando sus propios datos sintéticos.
Las implicaciones
Los problemas de la Olimpiada, tanto para humanos como para AIS, no son fines en sí mismos sino pruebas de capacidad matemática de resolución de problemas. Hay otros aspectos de la investigación además de la resolución de problemas.
Las crecientes experiencias anecdóticas sugieren que los sistemas de IA también tienen excelentes capacidades en muchas de estas, como sugerir enfoques y problemas relacionados.
Sin embargo, la diferencia crucial entre la resolución de problemas y la investigación/desarrollo es la escala. La investigación implica trabajar durante meses o años sin errores que se arrastren y sin deambular en direcciones infructuosas. Como se mencionó anteriormente, los modelos de acoplamiento con el Lean Prover pueden evitar errores. Las indicaciones son que es solo cuestión de tiempo antes de que esto sea exitoso.
Mientras tanto, estos modelos pueden actuar como colaboradores poderosos con investigadores humanos, acelerando en gran medida la investigación y el desarrollo en todas las áreas que involucran matemáticas. La era del súper científico está aquí.
Siddhartha Gadgil es profesora en el Departamento de Matemáticas, IISC
Publicado – 11 de agosto de 2025 08:30 am es