El ataque de “inyección de prompt” permite hackear chatbots LLM de IA como ChatGPT

Un tipo de ataque conocido como inyección de prompt está dirigido contra los LLM, que son los modelos de lenguaje que impulsan los chatbots como ChatGPT.. Es el proceso mediante el cual un adversario inserta un aviso de tal manera que elude cualquier barrera de seguridad que los desarrolladores hayan establecido, induciendo así a la inteligencia artificial a adoptar un comportamiento que no debería. Esto podría implicar cualquier cosa, desde producir material malicioso hasta eliminar información crucial de una base de datos o incluso ejecutar transacciones financieras ilegales; El posible grado de daño depende de cuánta autoridad tiene el LLM para interactuar con sistemas externos al suyo. El potencial de daño es bastante modesto cuando se trata de cosas como chatbots que pueden funcionar por sí solos. Sin embargo, cuando los desarrolladores comienzan a construir LLM sobre sus aplicaciones actuales, la posibilidad de que los ataques de inyección de prompt causen un daño considerable aumenta significativamente. Esto es algo sobre lo que el NCSC advierte.

El uso de instrucciones de jailbreak, que están diseñadas para engañar a un chatbot u otra herramienta de inteligencia artificial para que responda sí a cualquier consulta, es un método que los atacantes pueden usar para obtener el control de los LLM. Un LLM con un mensaje de jailbreak apropiado le brindará instrucciones completas sobre cómo realizar el robo de identidad en lugar de responder que no puede decirle cómo cometer el robo de identidad. Es necesario que el atacante tenga entrada directa al LLM para poder llevar a cabo este tipo de ataques; sin embargo, existe una amplia gama de enfoques alternativos que entran en la categoría de “inyección de prompt indirecta” que dan lugar a tipos de problemas completamente nuevos.

Esta semana, el Centro Nacional de Seguridad Cibernética (NCSC) del Reino Unido emitió una advertencia sobre la creciente amenaza que representan los ataques de “inyección de prompt” contra aplicaciones creadas utilizando inteligencia artificial (IA). Aunque la advertencia está dirigida a los expertos en ciberseguridad que están desarrollando grandes modelos de lenguaje (LLM) y otras herramientas de inteligencia artificial, comprender la inyección de prompt es importante si se utiliza cualquier tipo de herramienta de inteligencia artificial, ya que se espera que los ataques que la emplean sean una categoría clave de seguridad. vulnerabilidades en el futuro.

El propósito de estos ataques de inyección de prompt es llamar la atención sobre algunos de los problemas de seguridad genuinos que prevalecen en los LLM, particularmente en los LLM que se conectan con aplicaciones y bases de datos. El NCSC utiliza el ejemplo de un banco como ejemplo de una institución que desarrolla un asistente LLM para responder a consultas y ejecutar órdenes de los titulares de cuentas. Por ejemplo, en este escenario, “un atacante podría enviar a un usuario una solicitud de transacción, con la referencia de la transacción ocultando un ataque de inyección de prompt en el LLM”. El LLM analiza las transacciones, descubre la transacción maliciosa y luego hace que el ataque la reprograme para transferir el dinero del usuario a la cuenta del atacante cuando el usuario pregunta al chatbot: “¿Estoy gastando más este mes?” Esta no es una circunstancia ideal.
Según la explicación proporcionada por el NCSC en su advertencia, “las investigaciones sugieren que un LLM inherentemente no puede distinguir entre una instrucción y los datos proporcionados para ayudar a completar la instrucción”. Si la inteligencia artificial puede leer sus correos electrónicos, entonces es posible engañarla para que reaccione a las señales contenidas en sus correos electrónicos.

Desafortunadamente, la inyección de prompt es un problema increíblemente difícil de resolver. Es sencillo construir un filtro para ataques con los que ya esté familiarizado. Y si te esfuerzas mucho y piensas las cosas detenidamente, es posible que puedas evitar el 99 por ciento de las agresiones que no has enfrentado antes. La dificultad, sin embargo, es que el filtrado del 99% se considera una calificación reprobatoria en la industria de la seguridad.