La inteligencia artificial ya no se limita a realizar cálculos simples. Algunos modelos de lenguaje ahora aportan razonamientos complejos. Los especialistas describen estas contribuciones como conexiones inesperadas entre subáreas matemáticas.
La revista científica Nature informó sobre estos avances recientes. Thang Luong lidera el equipo de Razonamiento Sobrehumano de Google DeepMind. Señaló que “quizás para 2030” la inteligencia artificial y los matemáticos pudieran ganar juntos una Medalla Fields. Este galardón representa el mayor reconocimiento en matemáticas.
Un caso particular impulsó ese cambio de percepción el mes pasado. Liam Price, un joven del suroeste de Inglaterra, resolvió un problema matemático histórico. No cuenta con formación universitaria en matemáticas. Utilizó ChatGPT para resolver el problema #1196 de Erdős.
La solución apareció en una prepublicación de B. Alexeev y colaboradores. El repositorio arXiv alojó ese documento. La estrategia empleada atrajo atención entre los especialistas.
Jared Duker Lichtman es matemático de Stanford. Comparó ese hallazgo con una novedad estratégica en ajedrez. Escribió en la red social X que era como si una IA hubiera descubierto una apertura inédita. Atribuyó esto a “la estética y las convenciones humanas”.
La observación resumía una idea central en el debate actual. Estos sistemas pueden conectar áreas de formas no anticipadas por la intuición humana. Además, trascienden la mera reproducción de técnicas conocidas.
Paul Erdős propuso el problema #1196 en 1966. Trata sobre conjuntos “primitivos” de números enteros. En estos conjuntos, ninguno de sus elementos divide exactamente a otro. Los números primos son el ejemplo más típico de ese tipo de conjuntos.
Varios comentaristas señalaron un patrón en los intentos anteriores. Quienes intentaron resolver ese problema partían del lenguaje de la teoría de la probabilidad. Reformulaban así la pregunta original.
ChatGPT, en cambio, lo resolvió en el lenguaje original del enunciado. Aun así, estableció de forma implícita un vínculo entre números y probabilidad. Terence Tao, matemático de la Universidad de California en Los Ángeles, destacó este enfoque.
Price había obtenido otras soluciones a problemas de Erdős previamente. Trabajó junto con Kevin Barreto, estudiante de grado en matemáticas en la Universidad de Cambridge. En esos casos se basaron en técnicas ya presentes en la literatura.
El caso del problema #1196 resultó diferente. Los matemáticos detectaron indicios de que el modelo no se limitó a recombinar técnicas existentes. Produjo conexiones que no estaban en su material de entrenamiento.
Sébastien Bubeck es matemático de OpenAI en San Francisco. Declaró: “Hace un año, la gente pensaba que tal vez habría algún obstáculo fundamental, que los modelos de lenguaje nunca podrían ir más allá de sus datos de entrenamiento”.
Daniel Litt, matemático de la Universidad de Toronto, sostuvo que el resultado es “razonablemente interesante”. Lo distinguió de otros ejemplos recientes de soluciones de IA a problemas de Erdős. Se declaró poco impresionado por buena parte de los avances hasta ahora. Además, criticó la exageración que los rodea.
Sin embargo, Litt sostuvo que los escépticos se equivocan al evaluar el potencial futuro. Manifestó su desconcierto porque las grandes máquinas de lenguaje no generan descubrimientos mayores. Tienen un conocimiento sobre las matemáticas existentes que describió como sobrehumano. Muestran capacidad de razonamiento y no sufren cansancio ni desmotivación.
“Parte del misterio es que no sabemos qué hace bueno a un matemático humano en matemáticas”, explicó Litt.
Uno de los límites actuales de la producción matemática de IA es la extensión. Los modelos disponibles pueden generar pruebas de 3 o 4 páginas como máximo. Luong indicó que modelos evaluados internamente ya superan ese umbral. Podrían llegar pronto a 10 páginas.
“100 no está ahora dentro de sus capacidades, pero estamos trabajando hacia eso y vemos mejoras”, señaló Luong.
Ese avance genera nuevos retos. La revisión humana de textos matemáticos generados por IA ya había alcanzado todo su margen. Esto ocurrió antes de la explosión actual de estos sistemas.
Lauren Williams es matemática de la Universidad de Harvard. Declaró que estos modelos pueden producir trabajos “muy convincentes”. Su verificación requiere mucho tiempo para detectar si contienen errores.
También alertó sobre la proliferación de contenido generado por IA de baja calidad. Incluso puede ser directamente erróneo. Lo describió como “basura de IA”. Varios editores de revistas matemáticas ya se enfrentan a ese fenómeno.
Una respuesta frecuente consiste en pedirle a otro modelo que revise la demostración. Incluso se puede usar el mismo modelo. Price y Barreto, por ejemplo, reintroducen en ChatGPT las soluciones propuestas. Buscan que encuentre sus propios errores y rehaga el intento. Continúan hasta que la prueba parezca correcta.
Muchos matemáticos ya usan ese método también con textos propios. A pesar de ello, los modelos aún dejan pasar fallos. A veces detectan otros inexistentes.
Google desarrolló un sistema especializado de múltiples agentes llamado Aletheia. Incorpora un módulo verificador para texto matemático. Aun así, existe una alternativa considerada más fiable por varios investigadores. Consiste en traducir las pruebas al lenguaje formal Lean.
Lean es un sistema de código abierto. Permite verificaciones automáticas. El matemático computacional Bin Dong y sus colaboradores aplicaron ese enfoque. Resolvieron un problema de álgebra.
La empresa californiana Math, Inc. utilizó un traductor de ese tipo. Aceleró la formalización en Lean del trabajo premiado con la Medalla Fields de Maryna Viazovska. Representa el primer resultado de alto perfil trasladado a ese lenguaje.
Otra opción es que la IA redacte directamente las pruebas en Lean. También puede usar sistemas similares. Esta técnica la inauguró AlphaProof, un sistema de Google DeepMind. El alcance de las matemáticas que hoy pueden escribirse o traducirse a Lean aún es reducido.
La solución de ChatGPT al problema #1196 fue un caso poco común. Sí pudo formalizarse y certificarse automáticamente. Barreto llevó a cabo esa tarea mediante el software desarrollado por Math, Inc.
Luong declaró que la expansión de Lean requiere un trabajo lento y detallado. Equipos de voluntarios realizan esta labor. Por ahora “solo hay un puñado de problemas que se pueden formalizar; para el resto, se necesita lenguaje natural”.
Esa limitación se evidenció a comienzos de febrero. Investigadores realizaron una primera prueba de First Proof. Se trata de un banco de pruebas para IA en matemáticas. Una prepublicación de M. Abouzaid y colaboradores documentó este proyecto.
Expertos de distintas áreas aportaron preguntas. Solo ellos conocían las respuestas. Trabajos inéditos propios ya habían adelantado la validez o falsedad de los enunciados.
Cualquiera podía presentar soluciones generadas por IA. Casi todas se redactaron en lenguaje natural. Solo una se verificó en Lean. Algunas se comprobaron manualmente. En otras aún no está claro si son correctas.
En junio, los organizadores de First Proof someterán un nuevo conjunto de preguntas. Varios sistemas de IA recibirán estas preguntas. Las respuestas se verificarán de forma manual.
Williams es una de las organizadoras. Indicó que la prueba se centrará en modelos de acceso público. Son los más habituales para la mayoría de matemáticos. “Esperamos que lo que hagamos sea un servicio para la comunidad de matemáticos”, afirmó.
A pesar del ritmo de los cambios, existe un consenso entre los investigadores. Los matemáticos humanos seguirán al frente de la disciplina durante algún tiempo.
Mark Sellke es matemático de OpenAI. Afirmó: “Qué problemas estudiar es más una cuestión de juicio. Durante un tiempo, serán los humanos quienes lo hagan”.
Javier Gómez-Serrano es matemático de la Universidad Brown. Graficó la velocidad de este cambio con una advertencia. “Ahora ni siquiera me atrevo a pensar cómo será el futuro dentro de cinco años”, declaró.
Jeremy Avigad es matemático de Carnegie Mellon University. Sostuvo que el criterio central permanece otro. “En última instancia, el objetivo de las matemáticas es entender los fenómenos matemáticos. Para eso, necesitamos seguir dentro del circuito”, concluyó.