Home Noticias “En un año, la IA sabrá más que todos los expertos humanos”,...

“En un año, la IA sabrá más que todos los expertos humanos”, predicen estos sorprendidos expertos

2
0

La IA estará lista para obtener la máxima puntuación en una de las pruebas de conocimientos más exigentes del mundo llamada el último examen de la humanidad (HLE) en tan solo unos meses, afirman los desarrolladores.

HLE fue creado por jefes tecnológicos para descubrir qué tan inteligentes son sus sistemas. Consta de 2.500 preguntas cuidadosamente seleccionadas que cubren alrededor de un centenar de temas, desde ciencia espacial y mitología hasta fisiología.

Cada uno requiere al menos un nivel de doctorado, y lograr una puntuación cercana al 100 por ciento le otorgaría a alguien el título de “experto en todo uso”.

Hace apenas dos años, el muy elogiado sistema ChatGPT de OpenAI obtuvo un mísero 3 por ciento en las pruebas, mientras que a sus competidores Google y Anthropic no les fue mucho mejor.

La prueba sirvió para disipar los temores sobre el creciente dominio de la IA, y los investigadores afirmaron que demostraba que todavía existía una “brecha significativa” entre los grandes modelos de lenguaje (LLM) y los mejores académicos del mundo.

Pero la aparentemente imposible HLE puede resultar ser sólo otro hito en el imparable ascenso de la IA.

Google Gemini logró un impresionante 45,9 por ciento en el examen del mes pasado, tras haber alcanzado una puntuación del 18,8 por ciento apenas unos meses después de su primer intento.

La máxima puntuación está en el horizonte, según Calvin Zhang, jefe de investigación de Scale, la empresa de inteligencia artificial detrás de HLE.

La IA estará lista para obtener la máxima puntuación en una de las pruebas de conocimientos más exigentes del mundo llamada El último examen de la humanidad (HLE) en tan solo unos meses, afirman los desarrolladores (imagen de archivo)

“Queríamos crear este punto de referencia académico abierto, centrado en las limitaciones de las personas con experiencia, que sólo un puñado de personas en la Tierra realmente pueden resolver”, dijo.

“Hemos visto un progreso increíble en estos modelos lingüísticos en los últimos años”. “Es impresionante que los modeladores hayan hecho un gran trabajo mejorando estos modelos de razonamiento”.

Kate Olszewska, directora de producto de Google DeepMind, añadió: “Si realmente nos importara que esto fuera lo único en la vida, creo que podríamos llegar allí bastante rápido”.

Anthropic, la empresa detrás del sistema Claude AI, ha logrado una puntuación del 34,2 por ciento en el HLE y está mejorando rápidamente sus calificaciones.

Según sus autores, sería un avance significativo si la IA lograra una puntuación del 100 por ciento en el examen, ya que la prueba está “diseñada para ser el punto de referencia académico cerrado y definitivo de su tipo”.

Esto significa que si la tecnología descifra el HLE, tendrá que ser probada en el futuro en preguntas cuya respuesta ningún humano conoce.

La prueba fue desarrollada por investigadores de Scale y el Centro para la Seguridad de la IA, una organización sin fines de lucro, para examinar tanto la amplitud del conocimiento como la profundidad del razonamiento en IA.

Expertos de alrededor de 50 países presentaron 70.000 preguntas para su consideración en respuesta a una convocatoria global en septiembre de 2024, ofreciendo un premio de 500.000 dólares.

Debían exigir una respuesta breve y clara y ser difíciles de encontrar en Internet.

La lista se redujo a 13.000 después de eliminar de la consideración preguntas que cualquier modelo existente podría responder.

Desde entonces, algunos de los 2500 seleccionados han sido eliminados o editados en función de los comentarios de los usuarios.

Requieren una amplia gama de conocimientos especializados (desde conocimientos biológicos hasta habilidades lingüísticas) y muchos de ellos permanecen en secreto para evitar que los sistemas se beneficien de las respuestas que se debaten públicamente en línea.

El éxito en HLE traería recuerdos de la victoria de la supercomputadora de IBM Deep Blue sobre el campeón mundial de ajedrez Garry Kasparov en 1997, desafiando las predicciones de la mayoría de los expertos.

Desde entonces, ha superado una serie de importantes puntos de referencia de IA, incluido el multidisciplinario Massive Multitask Language Understanding lanzado en 2020, que se suspendió después de que los sistemas lo encontraron demasiado fácil, a menudo con puntuaciones superiores al 90 por ciento.

A medida que la IA se acerca a la etapa en la que puede dominar las pruebas creadas por humanos, extenderse más allá de los límites existentes del conocimiento humano se está convirtiendo cada vez más en un objetivo para los desarrolladores, añadió Olszewska.

Sin embargo, según Zhang, siempre habrá espacio para la especialización humana porque los campos físicos como la cirugía, así como las habilidades basadas en decisiones como el juicio y la creatividad, son más difíciles de dominar para la IA.

Enlace de origen

LEAVE A REPLY

Please enter your comment!
Please enter your name here