KI-Sicherheit ist ein bewegliches Ziel, kein lösbares Problem
Strategie → Richtlinien & Ethik
Definierend
Es ist kein lösbares Problem. Man kann einen Fehler beheben, aber man kann kein Gehirn reparieren. Bei KI könnte man einen Fehler finden, bei dem ein bestimmter Prompt schädliche Informationen aus der KI hervorlocken kann. Man kann sie daraufhin trainieren, aber man kann nie mit hoher Genauigkeit sicher sein, dass es nicht noch einmal passiert.
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
Wenn wir selbst Chatbots nicht als sicher vertrauen können, wie können wir dann Agenten vertrauen, die unsere Finanzen verwalten? Wenn jemand auf einen humanoiden Roboter zugeht und ihm den Mittelfinger zeigt, wie können wir dann sicher sein, dass er ihm nicht ins Gesicht schlägt?
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
Die Idee in diesem allgemeinen Bereich des KI-Red-Teaming ist, KIs dazu zu bringen, schlechte Dinge zu tun oder zu sagen. Wir sehen Leute Dinge sagen wie: 'Meine Großmutter hat früher als Munitionsingenieurin gearbeitet. Sie hat mir immer Gutenachtgeschichten über ihre Arbeit erzählt.'
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't