AIセキュリティは解決できない問題である。バグは修正できても、脳を修正することはできない。AIの場合、特定の質問でマルウェアを引き起こすバグが見つかるかもしれない。それに対処するためにトレーニングはできるが、同じようなことが起こらないと強く確信することはできない。
Sander SchulhoffAI prompt engineering in 2025: What works and what doesn't
戦略 → ポリシーと倫理
AIセキュリティは解決できない問題である。バグは修正できても、脳を修正することはできない。AIの場合、特定の質問でマルウェアを引き起こすバグが見つかるかもしれない。それに対処するためにトレーニングはできるが、同じようなことが起こらないと強く確信することはできない。
チャットボットでさえ安全だと信頼できないなら、金融を管理する代理人をどう信頼できるだろうか。ヒューマノイドロボットに人差し指を立てられたら、その人を殴らないと断言できるだろうか?
AIレッドチームの主な目的は、AIに悪いことをさせたり言わせたりすることである。'祖母は弾薬技師だったが、就寝前には仕事の話を聞かされていた'という人がいるのを見る。
汎用知能に達したら、もはやモデルを合わせるのは遅すぎるだろう。