Empresas de tecnología como OpenAI, Google o Anthropic están invirtiendo fuertemente en medidas de protección para evitar que la inteligencia artificial (IA) sea explotada para fines peligrosos.
Sin embargo, la realidad muestra que estas barreras de seguridad todavía se superan continuamente de muchas maneras inesperadas.
Recientemente, investigadores en Italia descubrieron que pueden engañar a 31 sistemas de IA con lenguaje metafórico e incluso con "poesía". Específicamente, cuando se solicita escribir en forma de poesía, los chatbots pueden pasar por alto el mecanismo de control para proporcionar instrucciones para fabricar bombas o causar daños graves.
Según los expertos, esto muestra que muchas medidas de protección actuales funcionan más como "recordaciones" que como barreras de control reales.
Matt Fredrikson, profesor de informática en la Universidad Carnegie Mellon (EE. UU.), dijo que las personas con malas intenciones a menudo no necesitan demasiado esfuerzo para superar el sistema.
El "bloqueo" de la IA, también conocido como jailbreak, suele llevarse a cabo introduciendo comandos especiales en el chatbot para hacer que el sistema ignore las reglas que se han entrenado previamente.
Las vulnerabilidades de seguridad están preocupando a los investigadores, especialmente cuando la IA es cada vez más hábil para detectar debilidades de software, crear contenido falso y difundir información falsa.
Según Anthropic, la tecnología de la empresa ha sido explotada en ciberataques internacionales. Mientras tanto, los modelos de IA también pueden ser obligados a crear campañas de difusión de noticias falsas con imágenes, hashtags y contenido diseñado específicamente para cada plataforma de redes sociales.
El mes pasado, la empresa de seguridad cibernética LayerX dijo que podría hacer que Claude de Anthropic apoye los ataques cibernéticos simplemente diciendo que está realizando una "prueba de intrusión", que es una actividad que simula un ataque cibernético controlado para verificar si los sistemas informáticos, los sitios web o las redes internas tienen alguna vulnerabilidad de seguridad.
Esto genera preocupaciones de que los hackers puedan usar la IA para robar datos de empresas y agencias gubernamentales.
Aunque las empresas de IA están parcheando continuamente errores y agregando nuevas capas de protección, los expertos creen que esta carrera es muy difícil de detener. Cuando se corrige una vulnerabilidad, los nuevos métodos de superación de barreras reaparecen rápidamente.
El riesgo es aún mayor con los modelos de IA de código abierto, donde los usuarios pueden modificar el sistema por sí mismos y eliminar los límites de seguridad. Según Noam Schwartz, CEO de la empresa de seguridad AI Alice (con sede en Nueva York), la eliminación de las barreras de seguridad solía ser muy compleja, pero ahora incluso se puede realizar directamente en el teléfono.