Pedir aclaraciones en agentes de IA: un comportamiento 'seguro' que abre la puerta a inyecciones de prompt

Los sistemas de agentes basados en modelos de lenguaje suelen implementar un patrón de comportamiento considerado prudente: cuando detectan ambigüedad en una consulta, solicitan aclaraciones al usuario antes de actuar. Este enfoque busca reducir errores y mejorar la precisión de las respuestas. Sin embargo, investigaciones recientes sugieren que esta práctica aparentemente segura podría estar exponiendo a los agentes a un vector de ataque hasta ahora subestimado: la inyección de prompts durante el proceso de clarificación.

Un nuevo benchmark denominado ASPI (Agent Safety and Prompt Injection) documenta 728 escenarios de interacción tarea-ataque que aíslan específicamente el momento de la clarificación como punto crítico de vulnerabilidad. Los hallazgos revelan un patrón contraintuitivo: los agentes diseñados para buscar ambigüedad y resolverla mediante diálogo adicional son, paradójicamente, más susceptibles a manipulaciones maliciosas que aquellos que actúan con estrategias más directas.

¿Por qué las clarificaciones se convierten en vector de ataque?

El proceso de clarificación introduce un canal de comunicación adicional donde el contexto original se mezcla con nueva información proporcionada por el usuario. Durante este intercambio, un atacante puede insertar instrucciones maliciosas que el modelo procesa como parte legítima del diálogo. A diferencia de una inyección de prompt tradicional —donde el payload malicioso debe competir con el prompt del sistema desde el inicio—, la fase de clarificación ofrece un contexto más relajado donde las instrucciones del usuario reciben mayor peso relativo.

Los agentes que activamente buscan resolver ambigüedades mediante preguntas de seguimiento generan múltiples oportunidades para este tipo de ataque. Cada interacción adicional amplía la superficie de ataque y diluye las instrucciones originales del sistema, permitiendo que comandos inyectados se integren con mayor naturalidad en el flujo conversacional.

El benchmark ASPI: 728 escenarios que revelan el problema

El benchmark ASPI, desarrollado por investigadores en seguridad de sistemas de IA, estructura escenarios donde tareas legítimas se combinan con intentos de inyección en diferentes fases de la interacción. A diferencia de evaluaciones previas centradas en prompts de entrada única, ASPI modela conversaciones multi-turno donde la ambigüedad deliberada se utiliza como pretexto para introducir payloads maliciosos en respuestas posteriores.

Los escenarios cubren casos como:

Ambigüedad léxica: Términos con múltiples significados que invitan a preguntar por contexto adicional
Referencias incompletas: Tareas que requieren especificar parámetros, permitiendo inyectar instrucciones durante la especificación
Objetivos vagos: Solicitudes intencionalmente poco precisas que fuerzan al agente a pedir detalles

En todos los casos, los atacantes aprovechan el turno de clarificación para redirigir el comportamiento del agente hacia acciones no autorizadas o extraer información que debería permanecer confidencial.

¿Qué son las inyecciones de prompt y cómo funcionan en este contexto?

La inyección de prompts consiste en insertar instrucciones maliciosas dentro de la entrada que procesa un modelo de lenguaje, de modo que este las interprete como comandos legítimos en lugar de datos de usuario. Este tipo de ataque explota la dificultad inherente de los LLM para distinguir entre instrucciones del sistema y contenido proporcionado por usuarios.

En el contexto de las clarificaciones, la técnica se vuelve más efectiva porque:

Dilución del contexto del sistema: Cada turno conversacional adicional reduce la prominencia de las instrucciones originales de seguridad
Expectativa de cooperación: El agente espera que el usuario proporcione información útil, bajando su "guardia" contra inputs adversariales
Complejidad del historial: Prompts multiturno complejizan la detección de patrones maliciosos mediante filtros estáticos

Los investigadores del benchmark ASPI documentan que agentes configurados con umbrales bajos de tolerancia a la ambigüedad —es decir, que preguntan frecuentemente— muestran tasas de éxito de ataque hasta un 40% superiores a aquellos con estrategias más conservadoras.

Repensar la "prudencia" en el diseño de agentes

Los hallazgos plantean un dilema de diseño: ¿cómo balancear la precisión mediante clarificaciones con la seguridad frente a ataques? Algunas estrategias emergentes incluyen:

Clarificaciones estructuradas: Limitar las respuestas del usuario a opciones predefinidas en lugar de texto libre
Validación de coherencia: Analizar si la información de clarificación es consistente con la tarea original antes de integrarla
Segregación de contextos: Tratar el prompt inicial y las clarificaciones como espacios separados con distintos niveles de confianza
Detección de intención adversarial: Implementar modelos especializados que evalúen si una respuesta de clarificación contiene instrucciones sospechosas

Es importante notar que no existe una solución universal. Cada aplicación de agentes requiere evaluar el trade-off entre flexibilidad conversacional y superficie de ataque. Para sistemas que interactúan con datos sensibles o ejecutan acciones críticas, el enfoque conservador de minimizar clarificaciones puede ser preferible, incluso a costa de precisión en tareas ambiguas.

Verificación y recursos adicionales

El benchmark ASPI y sus metodologías están documentados en arXiv. Para equipos que desarrollan sistemas de agentes, vale la pena consultar también las guías de seguridad para modelos de lenguaje publicadas por Anthropic y OpenAI, que incluyen secciones sobre mitigación de prompt injection en contextos conversacionales.

La comunidad de investigación en seguridad de IA está desarrollando activamente contramedidas. Herramientas como frameworks de detección de inyecciones y bibliotecas de sanitización de inputs conversacionales comienzan a estar disponibles en repositorios como Hugging Face, aunque su efectividad varía según el caso de uso.

Conclusión: seguridad como proceso, no como feature

El caso de las clarificaciones ilustra un principio más amplio en seguridad de sistemas de IA: comportamientos considerados "mejores prácticas" en términos de experiencia de usuario o precisión pueden introducir vectores de ataque inesperados. La evaluación de seguridad no puede limitarse al prompt inicial, sino que debe extenderse a todo el flujo conversacional.

Los desarrolladores de agentes necesitan incorporar la evaluación adversarial como parte integral del ciclo de desarrollo, utilizando benchmarks como ASPI para identificar patrones de vulnerabilidad específicos de sus arquitecturas. La seguridad en sistemas de IA no es una característica que se añade al final, sino un proceso continuo de análisis, mitigación y adaptación a vectores de ataque emergentes.