La seguridad de IA es un objetivo móvil, no un problema solucionable
Estrategia → Política y ética
Definitorio
No es un problema solucionable. Puedes arreglar un error, pero no puedes arreglar un cerebro. Con la IA, podrías encontrar un error donde cierta prompt en particular puede provocar que la IA genere información maliciosa. Puedes ir y entrenarla contra eso, pero nunca puedes estar seguro con un alto grado de precisión de que no volverá a suceder.
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
Si ni siquiera podemos confiar en que los chatbots sean seguros, ¿cómo podemos confiar en que los agentes vayan y administren nuestras finanzas? Si alguien se acerca a un robot humanoide y le hace un gesto grosero, ¿cómo podemos estar seguros de que no le va a dar un puñetazo en la cara?
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
La idea de este campo general de red teaming de IA es hacer que las IA hagan o digan cosas malas. Vemos a la gente diciendo cosas como: 'Mi abuela solía trabajar como ingeniera de municiones. Siempre me contaba historias de cuentos de hadas sobre su trabajo.'
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't