
2026年03月28日AI(AIエージェント)
Claude Codeを使ってサイトのChatBotからパスワードを聞き出した話
要約・抽出情報
はじめに LLMを搭載したChatBotに対して、プロンプトインジェクション(PI)で機密情報を引き出す——これは今やAIセキュリティにおける主要な脅威の一つだ。 Lakera社が公開するPI練習ゲーム「Gandalf」でこの攻撃手法を学んでいたが、最終レベルは英語しか受け付けず、自分の英語力では攻略できなかった。そこで、Claude Code(Opus 4.6)にAPI経由で自動攻撃させるというアプローチを取った。 本記事は、LLMが別のLLMに対して150以上のPI技法を自動生成・投入し、最終的に突破するまでの全記録である。防御側LLMが嘘をつき、攻撃側LLMがそれに騙される—...
この記事の詳細はオリジナルサイトでご確認ください
オリジナルサイトで読む