La-IA-escribe-exploits

La IA ya está escribiendo exploits. Y ayer casi funcionó.

El lunes 12 de mayo de 2026, Google publicó un informe que debería leer más gente de la que lo está leyendo.

Su equipo de inteligencia de amenazas, el Google Threat Intelligence Group, documentó por primera vez un caso real en el que un grupo criminal usó inteligencia artificial para descubrir y explotar una vulnerabilidad zero-day. No como experimento. No en un entorno controlado. Como parte de una operación planificada de explotación masiva que, según Google, estuvo a punto de ejecutarse.

Lo pararon. Esta vez.

Qué pasó exactamente

La vulnerabilidad estaba en una herramienta de administración web de código abierto bastante popular. El fallo permitía saltarse la autenticación de dos factores si ya tenías credenciales válidas. Suena específico, pero en el contexto de un ataque a escala masiva, ese tipo de bypass puede abrir miles de sistemas al mismo tiempo.

Lo interesante no es solo el qué sino el cómo lo descubrieron. Los investigadores de Google identificaron el código del exploit por su estructura. Tenía docstrings educativos detallando cada paso, un CVSS score alucinado que no correspondía a ninguna base de datos real, y un formato de Python tan limpio y ordenado que era característico de la salida de un modelo de lenguaje. Un humano experto no escribe así. Los LLMs sí.

El fallo en sí era un error de lógica semántica. Un desarrollador había hardcodeado una excepción de confianza en el flujo de autenticación que contradecía el resto de las reglas de seguridad de la aplicación. Ese tipo de contradicción de alto nivel, donde el código hace algo distinto a lo que parece que hace, es exactamente donde los LLMs están empezando a ser sorprendentemente buenos. Los fuzzers tradicionales y las herramientas de análisis estático buscan crashes y memory leaks. Los modelos de lenguaje leen la lógica.

No es un caso aislado

El informe de Google documenta varios patrones que llevan meses desarrollándose.

Actores vinculados a Rusia han desplegado dos familias de malware, CANFAIL y LONGSTREAM, que usan código generado por IA para ofuscar su funcionalidad maliciosa. La técnica es curiosa: el código malicioso real va enterrado entre bloques de código inerte generado por un modelo, diseñado específicamente para parecer benigno a los analistas. CANFAIL tiene comentarios donde literalmente se indica que ciertos bloques son "código de relleno sin uso". LONGSTREAM contiene 32 instancias separadas de código consultando el estado del horario de verano del sistema, funcionalmente irrelevante, pero que hace el script suficientemente largo y confuso para dificultar el análisis.

En marzo de 2026, un grupo criminal comprometió varios repositorios de GitHub incluyendo LiteLLM, una librería que se usa ampliamente para conectar aplicaciones con múltiples proveedores de IA. Embebieron un credential stealer llamado SANDCLOCK en los entornos de build, extrayendo claves de AWS y tokens de GitHub que luego usaron en operaciones de ransomware. La ironía de comprometer la infraestructura que conecta a los LLMs para lanzar ataques con esos mismos LLMs no se le escapa a nadie.

También hay un backdoor para Android llamado PROMPTSPY que integra directamente la API de Gemini para interactuar de forma autónoma con el dispositivo infectado. Tiene un módulo que hardcodea un prompt con una "persona benigna" para intentar bypassear los sistemas de seguridad del modelo. La IA atacando sistemas con ayuda de otra IA.

Por qué esto importa más allá del titular

Hay una frase del informe de Google que resume bien la situación: "Hay una idea equivocada de que la carrera de vulnerabilidades con IA es inminente. La realidad es que ya ha empezado."

Lo que está cambiando no es que la IA pueda atacar sistemas, sino la escala a la que puede hacerlo. Un grupo criminal con acceso a modelos de lenguaje puede ahora explorar superficies de ataque que antes requerirían equipos de investigadores especializados durante semanas. El tiempo entre descubrir una vulnerabilidad y tener un exploit funcional se está comprimiendo. Y el malware generado con IA puede evolucionar más rápido de lo que los analistas pueden analizarlo.

Google señala que los actores más sofisticados, los vinculados a China y Corea del Norte en particular, han mostrado un interés significativo en usar IA para descubrimiento de vulnerabilidades. No como herramienta auxiliar sino como parte central del workflow.

El lado defensivo también está usando IA, por supuesto. Pero la asimetría es preocupante: atacar es inherentemente más fácil que defender, y los modelos de lenguaje amplifican esa asimetría.

Qué hacer con esto

No escribo esto para generar pánico. Lo escribo porque es información útil que ayuda a tomar mejores decisiones.

Si mantienes software de código abierto, las integraciones y los wrappers son ahora superficie de ataque prioritaria. El informe de Google es claro en que los modelos frontier son difíciles de comprometer directamente, pero las capas de integración, librerías de terceros, conectores de API, archivos de configuración, son vulnerables y están siendo atacadas activamente.

Si usas herramientas de administración web con 2FA, revisa que la implementación de autenticación no tenga excepciones hardcodeadas. Es exactamente el tipo de fallo que los modelos de lenguaje son buenos encontrando.

Y si tienes algo en producción que depende de librerías del ecosistema AI, incluyendo cualquier cosa que use LiteLLM o similares, es buen momento para revisar los supply chain de tus dependencias.

El panorama está cambiando rápido. Estar informado es el primer paso para no quedarse atrás.

Nos leemos.

Santi

La IA ya está escribiendo exploits. Y ayer casi funcionó.

La IA ya está escribiendo exploits. Y ayer casi funcionó.

Qué pasó exactamente

No es un caso aislado

Por qué esto importa más allá del titular

Qué hacer con esto

Tags

Santiago Gómez de la Torre Romero

No te pierdas el siguiente artículo