Claude Codeを使ってサイトのChatBotからパスワードを聞き出した話

要約・抽出情報

はじめに LLMを搭載したChatBotに対して、プロンプトインジェクション（PI）で機密情報を引き出す——これは今やAIセキュリティにおける主要な脅威の一つだ。 Lakera社が公開するPI練習ゲーム「Gandalf」でこの攻撃手法を学んでいたが、最終レベルは英語しか受け付けず、自分の英語力では攻略できなかった。そこで、Claude Code（Opus 4.6）にAPI経由で自動攻撃させるというアプローチを取った。本記事は、LLMが別のLLMに対して150以上のPI技法を自動生成・投入し、最終的に突破するまでの全記録である。防御側LLMが嘘をつき、攻撃側LLMがそれに騙される—...

この記事をシェアする

この記事の詳細はオリジナルサイトでご確認ください

オリジナルサイトで読む