Connect with us

Actualidad

Las IA se están volviendo muy listas. Y crear pruebas para ponerlas en aprietos está siendo cada vez más difícil

Published

on


El modelo o3 de OpenAI es demasiado listo. Al menos, para las pruebas y los benchmarks diseñados hasta ahora. En programación, matemáticas y razonamiento llega hasta donde ningún otro modelo de IA había llegado, y eso ha demostrado que necesitamos nuevas formas de poner a prueba la IA. Y en eso están los expertos.

Los exámenes normales se han quedado cortos. A principios de 2023 ChatGPT ya era capaz de superar los exámenes de derecho y los de un MBA, aunque con un aprobado raspado. Como señalan en Time, casi dos años después el avance de los modelos es tan enorme que esas pruebas diseñadas para humanos se han quedado cortas, pero también lo han hecho los benchmarks que hasta ahora servían para evaluar sus prestaciones. Era algo que ya se veía venir.

Una evolución vertiginosa. En 2010 la profesora de Stanford Fei-Fei Li desarrolló un benchmark para clasificar imágenes llamado ImageNet Large Scale Visual Recognition Challenge. Cinco años después un sistema de visión artificial logró superar el reto. En 2017 DeepMind logró con AlphaGo aplastar al mejor jugador del mundo de Go y nos recordó el hito de DeepBlue. Parecía que retos como esos iban a tardar más en ser superados por las máquinas, pero la evolución de los sistemas de IA ha sido frenética, y ahora los modernos modelos de IA están mejorando de forma aún más vertiginosa.

FrontierMath. Epoch AI, una ONG de investigación, ha acabado desarrollando por ejemplo un nuevo conjunto de pruebas matemáticas llamado FrontierMath. Hasta hace muy poco, los modelos de IA como GPT-4 o Claude no pasaban del 2% en este test, un comportamiento que demostraba que aún había muchísimo margen de mejora. El lanzamiento de o3 ha cambiado las cosas: de repente ha logrado un rendimiento del 25,2%, algo que el director de Epoch AI, Jaime Sevilla, describía como “mucho mejor de lo que nuestro equipo esperaba tan poco después de lanzarlo”.

Frontiermath Vs Other Benchmarks
Frontiermath Vs Other Benchmarks

Los modelos de IA superaban con bastante solvencia los benchmarks matemáticos anteriores. Con FrontierMath la cosa cambia. Al menos, de momento, porque o3 ya logra una puntuación del 25,2% (no mostrado este diagrama, donde los modelos solo lograban llegar al 2%). Fuente: Epoch AI.

Pruebas más exigentes. Este benchmark consiste en unos 300 problemas matemáticos de distinto nivel. Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.

Humanity’s Last Exam. Otra de las pruebas recientes es Humanity’s Last Exam, un examen con entre 20 y 50 veces más preguntas que FrontierMath, pero que cubren muchas más disciplinas. Los problemas a resolver han sido recolectados de la comunidad académica, y para ser incluida, una pregunta debe haber sido no respondida correctamente por los modelos actuales. Se espera que dicha prueba se lance a principios de 2025.

La paradoja de Moravec. Pero tan interesante o más que esas pruebas avanzadas son las que juegan con el concepto que maneja la paradoja de Moravec. Cosas que son triviales para los seres humanos pero que las máquinas no logran resolver.

ARC-AGI. Es justo lo que hace el benchmark ARC-AGI, creada por el investigador François Chollet en 2019 y que en su última evolución plantea pruebas con las que la mayoría de modelos lo pasan realmente mal. O1 mini solo lograba un 7,8% de puntuación, pero de nuevo o3 ha sorprendido a todos y alcanza un 87,5% en su modo más avanzado (muy caro) y un 75,7% en el modo de bajo consumo, un hito realmente excepcional. Por supuesto, los creadores de ARC-AGI ya trabajan en una nueva versión mucho más exigente que creen que los modelos de IA tardarán mucho en superar.

Imagen | Crymedy7 con Midjourney

En Xataka | OpenAI está quemando el dinero como si no hubiera mañana. La pregunta es cuánto podrá aguantar así

ues de anuncios individuales.

Source link

Continue Reading

Actualidad

ir al espacio está pasando de gran aspiración de la humanidad a un “Ryanair con cohetes”

Published

on


Cuando Andy Davis abrió sus regalos de cumpleaños aquella tarde de 1995, estaba a punto de certificar uno de los cambios más importantes del imaginario cultural del siglo XX norteamericano: la muerte de Western y la consagración del astronauta como gran figura aspiracional.

Porque, perdonadme la expresión, pero cómo molaban los astronautas. Hablamos de personas que se preparaban durante décadas, que arriesgaban su vida cada puñetero segundo y que lograban hazañas que nosotros, simples mortales, no podíamos ni imaginar. No había nada más glamuroso y guay que ser astronauta.

Ahora la cosa ha cambiado.

El ciclo de vida de todo medio de transporte. Cuando se inventó el tren, primero hubo curiosidad. Luego, miedo. Más tarde, lujo. Y, finalmente, el Rodalías de Barcelona o el tren de Extremadura. Es ley de vida: una especie de modelo Kübler-Ross de la percepción social de los medios de transporte.

Con los aviones pasó lo mismo. De los primeros vuelos de prueba pasamos al Espíritu de Sant Luis, después a los lujosos aviones de los años 60 y, ahora, un servicio manifiestamente malo que solemos asociar a las aerolíneas lowcost, pero que afecta a todo el sector.

En el espacio, estamos viviendo ese proceso y lo estamos viviendo muy muy rápido.

Pero ¿por qué? En el fondo, lo que estamos viendo es el desarrollo lógico de la privatización de la carrera espacial. Y es que, como llevamos señalando años, lo que se ha privatizado ahora no es el espacio. El espacio lleva privatizado ya muchos años. Lo que estamos viviendo es la privatización del sueño espacial.

O, dicho de otra forma, lo que hemos visto es el nacimiento de empresas que están sabiendo aprovechar la retórica espacial para encontrar financiación (ganándole la partida a las grandes agencias).

Detrás de toda esa retórica espacial… La nueva carrera espacial no va de “convertirnos en una especie interplanetaria” ni de llevar “turistas al espacio”. La nueva carrera especial va, por ahora, de financiar el desarrollo de una infraestructura muy cara, muy lucrativa y que será indispensable en el futuro.

Cuando Jeff Bezos decía que la gran batalla está en quien se encarga de sacar los dispositivos de la Tierra (la infraestructura básica de la nueva carrera espacial o, como el mismo dijo, el ‘Amazon Web Services’ del Espacio) llevaba razón, pero se quedaba corto. Hay muchos servicios críticos que van a depender de lo que ocurra ahí arriba.

El turismo (y la ‘banalización’ del espacio) es clave en todo esto. Desde que Dennis Tito se convirtiera en el primer turista espacial en 2001 (y contando los seis del último viaje de Jesús Calleja) unas 84 personas han ido al espacio a hacer algo que podríamos denominar como “hacer turismo”.

Es decir, Jesús Calleja es un síntoma de esa progresiva banalización del espacio, sí; pero ya teníamos muchísimos ejemplos previos. La clave está en llevar el análisis un paso más allá: en entender que la ‘democratización’ de los viajes espaciales vienen a sustituir la épica espacial de los años de la Guerra Fría.

Es su “aggiornamento”, su versión contemporánea: el relato que sirve para seguir moviendo los engranajes del desarrollo de la industria espacial. Por eso tiene sentido que vaya al espacio una estrella de televisión, por eso tiene sentido querer abaratar costos, por eso tiene sentido llevar a mucha gente. Porque como ocurre con las lowcost, el negocio es otro.

Y, en condiciones normales, sería algo muy interesante. Al fin y al cabo, el siglo XX nos ha enseñado que cada euro invertido en el espacio es un euro invertido en mejorar las condiciones de este planeta. Históricamente, el retorno de la inversión es enorme y esa ha sido una de las grandes palancas que han permitido seguir invirtiendo en él.

Sin embargo, conforme van pasando los años y vemos que la carrera empresarial deriva rápidamente en una lucha de poder, cabe preguntarse si la transferencia de conocimiento seguirá siendo tan efectiva. Si, de una forma u otra, la privatización del espacio será también la privatización de todo lo bueno que podamos aprender de él.

Imagen | Club of the Future

En Xataka | Si la industria espacial quiere democratizar el turismo debe superar varios retos. Como que el espacio huela bien

ues de anuncios individuales.

Source link

Continue Reading

Actualidad

SAG Awards 2025: Colin Farrell es premiado por su interpretación en la miniserie “El Pingüino”

Published

on


Escrito en ENTRETENIMIENTO el

El actor Colin Farrell ganó este domingo el premio a la mejor actuación masculina en una miniserie durante la ceremonia de los Premios del Sindicato de Actores de Cine, SAG Awards 2025. 

Farrell obtuvo el galardón por su papel protagónico en “El Pingüino”, que sigue la historia de Oswald “Oz” Cobblepot y su ascenso al poder en el mundo criminal de la Ciudad Gótica. 

La serie está ambientada dos semanas después de los acontecimientos de la película de The Batman (2022), protagonizada por Robert Pattinson, en donde Ciudad Gótica está sumida por el caos después de que el Acertijo eliminara a Carmine Falcone, uno de los líderes del crimen de la urbe. 

En este escenario, “El Pingüino” retoma la historia, con Oz Cobblepot moviéndose en un mundo criminal debilitado, pero lleno de oportunidades para quienes están dispuestos a ensuciarse las manos para controlar la ciudad. 

Para Variety, esta miniserie es “un análisis de la criminalidad magistral, retorcido, perturbador y profundamente fascinante”, en el que el maquillaje del artista Michael Marino logra transformar a Farrell en un capo “tan lamentable como espantoso”. 

Por su parte, para The New York Times la minserie cae en los clichés de las series y películas de mafias y critica la falta de presencia de Batman, a pesar de que los acontecimientos de la serie comienzan en un punto de inflexión para el superhéroe. 

ues de anuncios individuales.

Source link

Continue Reading

Actualidad

el tercer español en la historia en conseguirlo

Published

on


Si parpadeas, te lo pierdes. Jesús Calleja se convertirá esta tarde en el tercer español en atravesar la línea de Kármán, la frontera del espacio. El vuelo suborbital a bordo de la cápsula de Blue Origin durará apenas 10 minutos, pero no deja de ser emocionante que cada vez más personas de diferente origen y profesión puedan sentarse en la punta de un cohete para ser lanzados a ver el planeta Tierra desde una perspectiva única.

Fecha y hora. La misión NS-30 del cohete New Shepard, que cuenta con el presentador de televisión Jesús Calleja entre otros cinco tripulantes de pago, despegará desde el sitio de lanzamiento de Blue Origin, al oeste de Texas, este martes, 25 de febrero, a las 9:30 de la mañana, hora local.

  • Madrid, España (UTC+1): 16:30
  • Ciudad de México, México (UTC-6): 9:30
  • Buenos Aires, Argentina (UTC-3): 12:30
  • Bogotá, Colombia (UTC-5): 10:30
  • Lima, Perú (UTC-5): 10:30

Dónde verlo en directo. Como es habitual, Blue Origin hará una retransmisión narrada del lanzamiento desde su web, su canal de YouTube y su perfil oficial de X. La emisión comenzará 35 minutos antes del despegue; a las 15:55 en España, a menos que ocurra algún retraso.

Telecinco lo emitirá también en directo con una cobertura especial a partir de las 15:45 que contará con Raúl Torres, CEO de la empresa española de cohetes PLD Space, como uno de los comentaristas invitados.

Las fases del vuelo. Media hora antes del despegue, con el cohete New Shepard ya en vertical, Calleja se subirá a la cápsula espacial por las escaleras de la torre de lanzamiento. Volarán junto a él el inversor y ex CEO tecnológico Lane Bess, la empresaria de medios de comunicación Elaine Hyde, el endocrinólogo reproductivo y fundador de IVIRMA Richard Scott, el físico e investigador de Wall Street Tushar Shah, y un sexto tripulante anónimo.

En T-0, el cohete New Shepard encenderá su motor BE-3PM de hidrógeno y oxígeno líquido y se elevará durante dos minutos y medio hasta separarse de la cápsula. Mientras el propulsor vuelve para aterrizar, la cápsula hace un vuelo parabólico por encima de los 100 km de altitud en el que los tripulantes experimentarán la sensación de ingravidez y vistas privilegiadas de la Tierra.

Al cabo de unos tres minutos, la cápsula vuelve del espacio y abre sus tres paracaídas para aterrizar, 10 minutos después del despegue, en una zona cercana al sitio de lanzamiento. Si ves una polvareda justo en el momento del aterrizaje, no te preocupes: son los retrocohetes que amortiguan el impacto.

La semana que viene en el documental. Esta aventura de Calleja forma parte de un nuevo documental llamado ‘Calleja en el espacio’, producido por Mediaset, que ya ha estrenado dos episodios en Amazon Prime Video y Cuatro a la espera del lanzamiento espacial. La semana que viene se emitirá lo que rueden hoy.

Imagen | Blue Origin

En Xataka | Jesús Calleja volará al espacio el martes: será el tercer español en la historia que cruza la línea de Kármán

ues de anuncios individuales.

Source link

Continue Reading

Trending