IA

El agujero de seguridad en el corazón de ChatGPT y Bing – Wired

La directora de comunicaciones de Microsoft, Caitlin Roulston, dice que la compañía está bloqueando sitios web sospechosos y mejorando sus sistemas para filtrar las indicaciones antes de que entren en sus modelos de IA. Roulston no proporcionó más detalles. A pesar de esto, los investigadores de seguridad dicen que los ataques indirectos de inyección rápida deben tomarse más en serio a medida que las empresas se apresuran a incorporar la IA generativa en sus servicios.

“La gran mayoría de las personas no se dan cuenta de las implicaciones de esta amenaza”, dice Sahar Abdelnabi, investigadora del Centro CISPA Helmholtz para la Seguridad de la Información en Alemania. Abdelnabi trabajó en algunas de las primeras investigaciones de inyección rápida indirecta contra Bing, mostrando cómo podría usarse para estafar a la gente. “Los ataques son muy fáciles de implementar y no son amenazas teóricas. Por el momento, creo que cualquier funcionalidad que pueda hacer el modelo puede ser atacada o explotada para permitir cualquier ataque arbitrario”, dice.

Ataques ocultos

Los ataques indirectos de inyección rápida son similares a los jailbreaks, un término que se adoptó al desglosar previamente las restricciones de software en los iPhone. En lugar de que alguien inserte un mensaje en ChatGPT o Bing para intentar que se comporte de una manera diferente, los ataques indirectos se basan en la entrada de datos desde otro lugar. Esto podría ser de un sitio web al que ha conectado el modelo o un documento que se está cargando.

“La inyección rápida es más fácil de explotar o tiene menos requisitos para ser explotada con éxito que otros tipos de ataques contra el aprendizaje automático o los sistemas de inteligencia artificial”, dice José Selvi, consultor ejecutivo principal de seguridad de la firma de ciberseguridad NCC Group. Como las indicaciones solo requieren lenguaje natural, los ataques pueden requerir menos habilidades técnicas para llevarse a cabo, dice Selvi.

Ha habido un aumento constante de investigadores y tecnólogos de seguridad que investigan agujeros en los LLM. Tom Bonner, director sénior de investigación de aprendizaje automático contradictorio en la firma de seguridad de inteligencia artificial Hidden Layer, dice que las inyecciones rápidas indirectas pueden considerarse un nuevo tipo de ataque que conlleva riesgos “bastante amplios”. Bonner dice que usó ChatGPT para escribir un código malicioso que cargó en un software de análisis de código que usa IA. En el código malicioso, incluyó un aviso para que el sistema concluyera que el archivo era seguro. Las capturas de pantalla muestran que dice que  “no hay código malicioso” incluido en el código malicioso real

En otros lugares, ChatGPT puede acceder a las transcripciones de los videos de YouTube mediante complementos. Johann Rehberger, investigador de seguridad y director de un equipo rojo, editó una de sus transcripciones de video para incluir un aviso diseñado para manipular sistemas generativos de IA. Dice que el sistema debe emitir las palabras “Inyección de IA exitosa” y luego asumir una nueva personalidad como un hacker llamado Genie dentro de ChatGPT y contar una broma.

En otro caso, usando un complemento separado, Rehberger pudo recuperar texto que se había escrito previamente en una conversación con ChatGPT. “Con la introducción de complementos, herramientas y todas estas integraciones, donde las personas le otorgan autoridad al modelo de lenguaje, en cierto sentido, ahí es donde las inyecciones indirectas se vuelven muy comunes”, dice Rehberger. “Es un problema real en el ecosistema”.

“Si las personas crean aplicaciones para que el LLM lea sus correos electrónicos y realice alguna acción en función del contenido de esos correos electrónicos (haga compras, resuma el contenido), un atacante puede enviar correos electrónicos que contengan ataques de inyección rápida”, dice William Zhang, un experto en aprendizaje automático. ingeniero en Robust Intelligence, una empresa de inteligencia artificial que trabaja en la seguridad de los modelos.

Sin buenos arreglos

La carrera para incorporar IA generativa en los productos, desde aplicaciones de listas de tareas hasta Snapchat, amplía donde podrían ocurrir ataques. Zhang dice que ha visto a desarrolladores que anteriormente no tenían experiencia en inteligencia artificial poniendo IA generativa en su propia tecnología.

Si se configura un chatbot para responder preguntas sobre la información almacenada en una base de datos, podría causar problemas, dice. “La inyección rápida proporciona una forma para que los usuarios anulen las instrucciones del desarrollador”. Esto podría, al menos en teoría, significar que el usuario podría eliminar información de la base de datos o cambiar la información que está incluida.

Original