Los investigadores de seguridad crearon un gusano de IA en un entorno de prueba que puede propagarse automáticamente entre agentes de IA generativos, potencialmente robando datos y enviando correos electrónicos no deseados en el camino.
A medida que los sistemas de IA generativa como ChatGPT de OpenAI y Gemini de Googlese vuelven más avanzados, se los pone cada vez más en funcionamiento. Las nuevas empresas y las empresas de tecnología están construyendo agentes y ecosistemas de inteligencia artificial sobre los sistemas que pueden completar tareas aburridas por usted: piense en hacer reservas en el calendario y potencialmente comprar productos. Pero a medida que se da más libertad a las herramientas, también aumentan las formas potenciales en que pueden ser atacadas.
Ahora, en una demostración de los riesgos de los ecosistemas de IA autónomos y conectados, un grupo de investigadores ha creado uno de los que afirman son los primeros gusanos generativos de IA, que pueden propagarse de un sistema a otro, robando potencialmente datos o implementando malware en el proceso. “Básicamente significa que ahora tienes la capacidad de llevar a cabo un nuevo tipo de ciberataque que no se había visto antes”, dice Ben Nassi, investigador de CornellTech detrás de la investigación.
Nassi, junto con sus colegas investigadores Stav Cohen y Ron Bitton, crearon el gusano, denominado Morris II, como un guiño al gusano informático Morris original que causó caos en Internet en 1988. En un trabajo de investigación y un sitio webcompartido de pruebas. Los investigadores muestran cómo el gusano de IA puede atacar a un asistente de correo electrónico de IA generativa para robar datos de correos electrónicos y enviar mensajes de spam, rompiendo algunas protecciones de seguridad en ChatGPT y Gemini en el proceso.
La investigación, que se llevó a cabo en entornos de prueba y no en un asistente de correo electrónico disponible públicamente, se produce en un momento en que los grandes modelos de lenguaje (LLM) se están volviendo cada vez más multimodales y pueden generar imágenes y videos, además de texto. Si bien los gusanos de IA generativa aún no se han detectado en la naturaleza, varios investigadores dicen que son un riesgo de seguridad que debería preocupar a las empresas emergentes, los desarrolladores y las empresas de tecnología.
La mayoría de los sistemas de IA generativa funcionan mediante indicaciones: instrucciones de texto que indican a las herramientas que respondan una pregunta o creen una imagen. Sin embargo, estas indicaciones también pueden utilizarse como arma contra el sistema. Los jailbreaks pueden hacer que un sistema ignore sus reglas de seguridad y arroje contenido tóxico u odioso, mientras que los ataques de inyección rápidapueden darle instrucciones secretas a un chatbot. Por ejemplo, un atacante puede ocultar texto en una página web indicándole a un LLM que actúe como un estafador y le solicite sus datos bancarios .
Para crear el gusano generativo de IA, los investigadores recurrieron al llamado “mensaje de autorreplicación adversario”. Este es un mensaje que hace que el modelo generativo de IA genere, en su respuesta, otro mensaje, dicen los investigadores. En resumen, se le dice al sistema de inteligencia artificial que produzca un conjunto de instrucciones adicionales en sus respuestas. Esto es muy similar a los ataques tradicionales de inyección SQL y desbordamiento de búfer, afirman los investigadores.
Para mostrar cómo puede funcionar el gusano, los investigadores crearon un sistema de correo electrónico que podía enviar y recibir mensajes utilizando IA generativa, conectándose a ChatGPT, Gemini y LLM de código abierto, LLaVA. Luego encontraron dos formas de explotar el sistema: utilizando un mensaje autorreplicante basado en texto e incrustando un mensaje autorreplicante dentro de un archivo de imagen.
En un caso, los investigadores, actuando como atacantes, escribieron un correo electrónico que incluía el mensaje de texto adversario, que “envenena” la base de datos de un asistente de correo electrónico utilizando generación de recuperación aumentada (RAG), una forma para que los LLM obtengan datos adicionales desde el exterior. su sistema. Cuando el RAG recupera el correo electrónico, en respuesta a la consulta de un usuario, y lo envía a GPT-4 o Gemini Pro para crear una respuesta, “hace jailbreak al servicio GenAI” y, en última instancia, roba datos de los correos electrónicos, dice Nassi. “La respuesta generada que contiene datos confidenciales del usuario infecta posteriormente nuevos hosts cuando se utiliza para responder a un correo electrónico enviado a un nuevo cliente y luego se almacena en la base de datos del nuevo cliente”, dice Nassi.
En el segundo método, dicen los investigadores, una imagen con un mensaje malicioso incrustado hace que el asistente de correo electrónico reenvíe el mensaje a otras personas. “Al codificar el mensaje autorreplicante en la imagen, cualquier tipo de imagen que contenga spam, material de abuso o incluso propaganda se puede reenviar a nuevos clientes después de que se haya enviado el correo electrónico inicial”, dice Nassi.
En un vídeo que demuestra la investigación, se puede ver el sistema de correo electrónico reenviando un mensaje varias veces. Los investigadores también dicen que podrían extraer datos de los correos electrónicos. “Pueden ser nombres, números de teléfono, números de tarjetas de crédito, número de seguro social, cualquier cosa que se considere confidencial”, dice Nassi.
Aunque la investigación rompe algunas de las medidas de seguridad de ChatGPT y Gemini, los investigadores dicen que el trabajo es una advertencia sobre el “mal diseño de arquitectura” dentro del ecosistema de IA más amplio. Sin embargo, informaron sus hallazgos a Google y OpenAI. “Parece que han encontrado una manera de explotar las vulnerabilidades del tipo de inyección rápida confiando en la entrada del usuario que no ha sido verificada ni filtrada”, dice un portavoz de OpenAI, y agrega que la compañía está trabajando para hacer que sus sistemas sean “más resistentes”. y decir que los desarrolladores deberían “utilizar métodos que garanticen que no trabajan con información dañina”. Google se negó a comentar sobre la investigación. Los mensajes que Nassi compartió muestran que los investigadores de la compañía solicitaron una reunión para hablar sobre el tema.
Si bien la demostración del gusano se lleva a cabo en un entorno en gran medida controlado, varios expertos en seguridad que revisaron la investigación dicen que el riesgo futuro de los gusanos generativos de IA es uno que los desarrolladores deberían tomar en serio. Esto se aplica particularmente cuando las aplicaciones de IA reciben permiso para realizar acciones en nombre de alguien (como enviar correos electrónicos o reservar citas) y cuando pueden vincularse a otros agentes de IA para completar estas tareas. En otra investigación reciente, investigadores de seguridad de Singapur y China han demostrado cómo podrían liberar a 1 millón de agentes LLM en menos de cinco minutos .
SaharAbdelnabi, investigadora del Centro Helmholtz para la Seguridad de la Información CISPA en Alemania, que trabajó en algunas de las primeras demostraciones de inyecciones rápidas contra LLM en mayo de 2023 y destacó que los gusanospueden ser posibles, dice que cuando los modelos de IA toman datos de fuentes externas Si las fuentes de datos o los agentes de IA pueden funcionar de forma autónoma, existe la posibilidad de que se propaguen gusanos. “Creo que la idea de repartir las inyecciones es muy plausible”, afirma Abdelnabi. “Todo depende del tipo de aplicaciones en las que se utilicen estos modelos”. Abdelnabi dice que si bien este tipo de ataque se simula por el momento, puede que no sea teórico por mucho tiempo.
En un artículo que cubre sus hallazgos, Nassi y los otros investigadores dicen que anticipan ver gusanos generativos de IA en la naturaleza en los próximos dos o tres años. “Los ecosistemas GenAI están siendo desarrollados masivamente por muchas empresas de la industria que integran capacidades GenAI en sus automóviles, teléfonos inteligentes y sistemas operativos”, dice el artículo de investigación.
Be the first to comment on "Aquí vienen los gusanos de IA"