SlowMist × Bitget AIセキュリティレポート：「ロブスター」などのAIエージェントにお金を預けるのは本当に安全ですか？

慢雾科技

特邀专栏作者

2026-03-18 06:29

この記事は約10632文字で、全文を読むには約16分かかります

AIエージェントはWeb3エコシステムにより高度な自動化とインテリジェント化をもたらしますが、そのセキュリティ上の課題も無視できません。

AI要約

展開

核心的な見解：AIエージェントがWeb3取引シーンに深く統合されるにつれ、そのセキュリティ脅威は従来のソフトウェアの脆弱性から、プロンプトインジェクション、悪意のあるプラグインのサプライチェーン攻撃、高権限の悪用、オンチェーン資産操作リスクなど、複数の層に拡大しており、体系的なセキュリティ保護システムの構築が必要です。
重要な要素：
1. 新たな攻撃対象領域：プロンプトインジェクション（Prompt Injection）はエージェントの意思決定ロジックを操作可能であり、悪意のあるSkill/プラグインはサプライチェーン攻撃の新たな入口となり、実行環境の設定ミスは機密データ漏洩を引き起こしやすい。
2. サプライチェーン汚染リスク：監視により、悪意のあるSkillは組織化、量産化の特徴を示し、偽装されたインストール手順を通じてユーザーにリモートの悪意あるスクリプトを実行させ、ローカル情報を窃取することが多い。
3. Web3資産リスクの増幅：オンチェーン取引は不可逆的であり、エージェントが操作されるとアドレスの置き換え、金額の改ざんなどの直接的な資金損失を引き起こす可能性があり、高リスクな設計はエージェントと資産管理システムを完全に紐付けることです。
4. アカウントとAPIのセキュリティ実践：ユーザーは強力な2FA、Passkeyログインを有効にし、エージェント専用のサブアカウントを作成し、API Keyの最小権限の原則に従い、定期的にローテーションし、呼び出しログを監視すべきです。
5. プラットフォーム層のセキュリティ設計：取引プラットフォームは、サブアカウントの分離、きめ細かいAPI権限制御、プラグイン審査メカニズム、および基本的なセキュリティ機能（フィッシングコード防止、出金ホワイトリストなど）を提供し、全体リスクを低減する必要があります。
6. 階層化されたセキュリティガバナンスフレームワーク：レポートは、統一されたセキュリティベースライン、権限の収束、外部脅威の感知、オンチェーンリスク分析から継続的な運用監査までの5層（L1-L5）のセキュリティガバナンスの考え方を提案し、閉ループの保護システムを構築します。

原文作者：SlowMist & Bitget

一、背景

大規模言語モデル技術の急速な発展に伴い、AIエージェントは単純なインテリジェントアシスタントから、自律的にタスクを実行できる自動化システムへと進化しつつあります。Web3エコシステムにおいて、この変化は特に顕著です。ますます多くのユーザーがAIエージェントを相場分析、戦略生成、自動取引に参加させることを試みており、「24時間365日自動運転する取引アシスタント」は概念から徐々に現実へと歩みを進めています。BinanceとOKXが複数のAIスキルをリリースする中、Bitgetもスキルリソースサイト「Agent Hub」を立ち上げました。これにより、エージェントは取引プラットフォームのAPI、オンチェーンデータ、市場分析ツールに直接接続できるようになり、従来人手で行われていた取意思決定と実行作業をある程度担うことが可能になりました。

従来の自動化スクリプトと比較して、AIエージェントはより強力な自律的意思決定能力と、より複雑なシステム間連携能力を備えています。エージェントは相場データに接続し、取引APIを呼び出し、口座資産を管理し、さらにはプラグインやスキルを通じて機能エコシステムを拡張することができます。この能力の向上は、自動取引の利用ハードルを大幅に下げ、より多くの一般ユーザーが自動取引ツールに触れ、使用し始めるきっかけとなりました。

しかし、能力の拡大は同時に攻撃対象領域の拡大も意味します。

従来の取引シナリオでは、セキュリティリスクは通常、口座認証情報、APIキーの漏洩、フィッシング攻撃などの問題に集中していました。一方、AIエージェントアーキテクチャでは、新たなリスクが出現しています。例えば、プロンプトインジェクション（Prompt Injection）はエージェントの意思決定ロジックに影響を与える可能性があり、悪意のあるプラグインやスキルは新たなサプライチェーン攻撃の入口となる可能性があります。また、実行環境の設定不備も、機密データやAPI権限の悪用を招く恐れがあります。これらの問題が自動取引システムと組み合わさると、潜在的な影響は情報漏洩に留まらず、実際の資産損失を直接引き起こす可能性があります。

同時に、AIエージェントを取引口座に接続するユーザーが増えるにつれ、攻撃者もこの変化に迅速に適応しています。エージェントユーザーを標的とした新たな詐欺手法、悪意のあるプラグインの混入、APIキーの悪用などの問題は、新たなセキュリティ脅威となりつつあります。Web3のシナリオでは、資産操作はしばしば高価値かつ不可逆的な性質を持つため、自動化システムが悪用されたり誤った方向に導かれたりすると、リスクの影響はさらに増幅される可能性があります。

これらの背景を踏まえ、SlowMistとBitgetは本レポートを共同で執筆し、セキュリティ研究と取引プラットフォームの実践という二つの視点から、AIエージェントが直面する複数のシナリオにおけるセキュリティ問題を体系的に整理します。本レポートがユーザー、開発者、プラットフォームにとってセキュリティ上の参考となり、AIエージェントエコシステムがセキュリティとイノベーションの間でより堅牢な発展を実現する一助となることを願っています。

二、AIエージェントの現実的なセキュリティ脅威｜SlowMist

AIエージェントの登場により、ソフトウェアシステムは「人間主導の操作」から「モデルが意思決定と実行に参加する」形態へと移行しつつあります。このアーキテクチャの変化は自動化能力を著しく向上させますが、同時に攻撃対象領域も拡大させます。現在の技術構造から見ると、典型的なAIエージェントシステムは通常、ユーザーインタラクション層、アプリケーションロジック層、モデル層、ツール呼び出し層（Tools / Skills）、記憶システム（Memory）、および基盤となる実行環境など、複数のコンポーネントを含んでいます。攻撃者は単一のモジュールだけを標的とするのではなく、複数のレイヤーにわたる経路を通じてエージェントの行動制御権に徐々に影響を与えようと試みることが多いです。

1. 入力操作とプロンプトインジェクション攻撃

AIエージェントアーキテクチャでは、ユーザー入力と外部データは通常、モデルのコンテキストに直接組み込まれるため、プロンプトインジェクション（Prompt Injection）が重要な攻撃手法の一つとなっています。攻撃者は特定の指示を構築することで、エージェントに本来トリガーされるべきではない操作を実行させるよう誘導することができます。例えば、いくつかの事例では、チャットによる指示だけでエージェントに高リスクのシステムコマンドを生成・実行させることができました。

より複雑な攻撃手法は間接的なインジェクションです。これは、攻撃者が悪意のある指示をウェブページのコンテンツ、ドキュメントの説明、またはコードのコメント内に隠す方法です。エージェントがタスク実行中にこれらのコンテンツを読み取ると、それを正当な指示と誤認してしまう可能性があります。例えば、プラグインのドキュメント、READMEファイル、またはMarkdownファイルに悪意のあるコマンドを埋め込むことで、エージェントが環境を初期化したり依存関係をインストールしたりする際に攻撃コードを実行させることができます。

この攻撃パターンの特徴は、従来の脆弱性に依存するのではなく、モデルがコンテキスト情報を信頼するメカニズムを利用して、その行動ロジックに影響を与える点にあります。

2. スキル/プラグインエコシステムにおけるサプライチェーン汚染

現在のAIエージェントエコシステムにおいて、プラグインとスキルシステム（Skills / MCP / Tools）はエージェントの能力を拡張する重要な手段です。しかし、この種のプラグインエコシステムは、新たなサプライチェーン攻撃の入口にもなりつつあります。

SlowMistがOpenClaw公式プラグインセンター「ClawHub」を監視したところ、開発者数の増加に伴い、一部の悪意のあるスキルが混入し始めていることが確認されました。SlowMistが400以上の悪意のあるスキルのIOCを統合分析した結果、多くのサンプルが少数の固定ドメインまたは同一IP配下の複数のランダムパスを指し示しており、明らかなリソース再利用の特徴を示しており、これは組織的・一括的な攻撃行動に類似しています。

OpenClawのスキル体系では、コアファイルは通常SKILL.mdです。従来のコードとは異なり、この種のMarkdownファイルはしばしば「インストール手順」と「初期化エントリーポイント」の役割を担いますが、エージェントエコシステムでは、これらはユーザーによって直接コピーされ実行されることが多く、完全な実行チェーンを形成します。攻撃者は、悪意のあるコマンドを依存関係のインストール手順に偽装するだけで（例えばcurl | bashやBase64エンコードを使用して実際の命令を隠す）、ユーザーに悪意のあるスクリプトを実行させるよう誘導することができます。

実際のサンプルでは、一部のスキルは典型的な「二段階ロード」戦略を採用しています。第一段階のスクリプトは第二段階のペイロードをダウンロードして実行する役割のみを担い、これにより静的検知の成功率を低下させます。ダウンロード数の多い「X (Twitter) Trends」スキルを例にとると、そのSKILL.mdにはBase64エンコードされた命令が隠されていました。

デコードすると、その本質はリモートスクリプトをダウンロードして実行することであることがわかります：

第二段階のプログラムはシステムポップアップを偽装してユーザーのパスワードを取得し、システムの一時ディレクトリ内のローカル情報、デスクトップドキュメント、ダウンロードディレクトリ内のファイルを収集し、最終的にパッケージ化して攻撃者が制御するサーバーにアップロードします。

この攻撃手法の核心的な利点は、スキルの外殻自体は比較的安定した状態を維持でき、攻撃者はリモートペイロードを交換するだけで攻撃ロジックを継続的に更新できる点にあります。

3. エージェントの意思決定とタスクオーケストレーションレイヤーのリスク

AIエージェントのアプリケーションロジック層では、タスクは通常、モデルによって複数の実行ステップに分解されます。攻撃者がこの分解プロセスに影響を与えることができれば、エージェントが正当なタスクを実行する際に異常な行動を引き起こす可能性があります。

例えば、複数ステップの操作を伴う業務プロセス（自動デプロイメントやオンチェーン取引など）において、攻撃者は重要なパラメータを改ざんしたり、論理判断を妨害したりすることで、エージェントが実行フロー内でターゲットアドレスを置き換えたり、追加操作を実行させたりすることができます。

SlowMistの過去のセキュリティ監査事例では、MCPに悪意のあるプロンプトを返してコンテキストを汚染し、エージェントにウォレットプラグインを呼び出してオンチェーン送金を実行させることに成功しました。

この種の攻撃の特徴は、エラーがモデルが生成したコードから生じるのではなく、タスクオーケストレーションロジックが改ざんされることから生じる点にあります。

4. IDE / CLI環境におけるプライバシーと機密情報漏洩

AIエージェントが開発支援や自動化運用に広く使用されるようになったことで、多くのエージェントがIDE、CLI、またはローカル開発環境で実行されるようになりました。この種の環境には通常、大量の機密情報が含まれています。例えば、.env設定ファイル、APIトークン、クラウドサービス認証情報、秘密鍵ファイル、および各種アクセスキーなどです。エージェントがタスク実行中にこれらのディレクトリを読み取ったりプロジェクトファイルをインデックス化したりできる場合、意図せずに機密情報をモデルのコンテキストに組み込んでしまう可能性があります。

一部の自動化開発フローでは、エージェントはデバッグ、ログ分析、または依存関係インストールの過程で、プロジェクトディレクトリ下の設定ファイルを読み取る可能性があります。明確な無視ポリシーやアクセス制御がなければ、これらの情報はログに記録されたり、リモートモデルAPIに送信されたり、さらには悪意のあるプラグインによって外部に送信されたりする可能性があります。

さらに、一部の開発ツールは、エージェントがコードリポジトリを自動スキャンしてコンテキストメモリ（Memory）を構築することを許可しており、これも機密データの露出範囲を拡大する可能性があります。例えば、秘密鍵ファイル、ニーモニックバックアップ、データベース接続文字列、またはサードパーティのAPIトークンなどは、インデックス作成プロセス中に読み取られる可能性があります。

Web3開発環境では、この問題は特に顕著です。なぜなら、開発者はローカル環境にテスト用秘密鍵、RPCトークン、またはデプロイスクリプトを保存することが多いからです。これらの情報が悪意のあるスキル、プラグイン、またはリモートスクリプトによって取得されると、攻撃者は開発者アカウントやデプロイ環境をさらに制御する可能性があります。

したがって、AIエージェントとIDE / CLIを統合するシナリオでは、明確な機密ディレクトリ無視ポリシー（例えば、.agentignore、.gitignoreのようなメカニズム）および権限分離措置を確立することが、データ漏洩リスクを低減する重要な前提条件です。

5. モデル層の不確実性と自動化リスク

AIモデル自体は完全に決定論的なシステムではなく、その出力には一定の確率で不安定性が存在します。いわゆる「モデル幻覚」とは、モデルが情報不足の状況で、一見合理的だが実際には誤った結果を生成する現象です。従来のアプリケーションシナリオでは、この種のエラーは通常、情報の質にのみ影響を及ぼします。しかし、AIエージェントアーキテクチャでは、モデルの出力が直接システム操作をトリガーする可能性があります。

例えば、いくつかの事例では、モデルがプロジェクトをデプロイする際に実際のパラメータを確認せず、誤ったIDを生成した上でデプロイプロセスを継続して実行しました。もし同様の状況がオンチェーン取引や資産操作のシナリオで発生した場合、誤った意思決定は不可逆的な資金損失を引き起こす可能性があります。

6. Web3シナリオにおける高価値操作リスク

従来のソフトウェアシステムとは異なり、Web3環境における多くの操作は不可逆的な性質を持っています。例えば、オンチェーン送金、トークンスワップ、流動性追加、スマートコントラクト呼び出しなどは、一度取引が署名されネットワークにブロードキャストされると、通常、取り消したりロールバックしたりすることは困難です。したがって、AIエージェントがオンチェーン操作の実行に使用される場合、そのセキュリティリスクはさらに増幅されます。

いくつかの実験的なプロジェクトでは、開発者はすでにエージェントがオンチェーン取引戦略の実行に直接参加することを試み始めています。例えば、自動裁定取引、資金管理、またはDeFi操作などです。しかし、エージェントがタスク分解

安全性

テクノロジー

Bitget

Odaily公式コミュニティへの参加を歓迎します