SlowMist × Bitget AI 보안 보고서: "랍스터"와 같은 AI 에이전트에게 돈을 맡기는 것이 정말 안전한가?

慢雾科技

特邀专栏作者

2026-03-18 06:29

이 기사는 약 10632자로, 전체를 읽는 데 약 16분이 소요됩니다

AI 에이전트는 Web3 생태계에 더 높은 수준의 자동화와 지능화 능력을 가져왔지만, 그 보안 문제 역시 간과할 수 없습니다.

AI 요약

펼치기

핵심 요점: AI 에이전트가 Web3 거래 시나리오에 깊숙이 통합됨에 따라, 그 보안 위협은 기존 소프트웨어 취약점에서 프롬프트 인젝션(Prompt Injection), 악성 플러그인 공급망 공격, 높은 권한 남용 및 온체인 자산 조작 위험 등 여러 차원으로 확장되었으며, 체계적인 보안 방어 체계 구축이 필요합니다.
핵심 요소:
1. 신규 공격 표면: 프롬프트 인젝션(Prompt Injection)은 에이전트의 의사 결정 논리를 조작할 수 있으며, 악성 Skill/플러그인은 공급망 공격의 새로운 진입점이 되고, 실행 환경 구성 오류는 민감 데이터 유출을 초래하기 쉽습니다.
2. 공급망 오염 위험: 모니터링 결과 악성 Skill이 조직화, 대량화 특징을 보이며, 사용자가 원격 악성 스크립트를 실행하도록 유도하는 위장 설치 단계를 통해 로컬 정보를 탈취하는 경우가 많습니다.
3. Web3 자산 위험 증폭: 온체인 거래는 되돌릴 수 없기 때문에, 에이전트가 조작당하면 주소 변경, 금액 변조 등 직접적인 자금 손실을 초래할 수 있으며, 고위험 설계는 에이전트를 자산 제어 시스템에 완전히 결합시키는 것입니다.
4. 계정 및 API 보안 관행: 사용자는 강력한 2FA, 패스키 로그인을 활성화하고, 에이전트 전용 서브 계정을 생성하며 API Key 최소 권한 원칙을 준수하고, 정기적으로 교체하며 호출 로그를 모니터링해야 합니다.
5. 플랫폼 계층 보안 설계: 거래 플랫폼은 서브 계정 격리, 세분화된 API 권한 제어, 플러그인 심사 메커니즘 및 기본 보안 기능(예: 피싱 방지 코드, 출금 화이트리스트)을 제공하여 전체 위험을 낮춰야 합니다.
6. 계층적 보안 거버넌스 프레임워크: 보고서는 통일된 보안 기준선, 권한 수렴, 외부 위협 인지, 온체인 위험 분석부터 지속적인 운영 감사에 이르는 5계층(L1-L5) 보안 거버넌스 접근법을 제안하여 폐쇄형 방어 체계를 구축합니다.

원문 저자: SlowMist & Bitget

1. 배경

대규모 모델 기술의 빠른 발전과 함께, AI 에이전트는 단순한 지능형 어시스턴트에서 자율적으로 작업을 수행하는 자동화 시스템으로 점차 진화하고 있습니다. Web3 생태계에서는 이러한 변화가 특히 두드러집니다. 점점 더 많은 사용자들이 AI 에이전트가 시장 분석, 전략 생성 및 자동화 거래에 참여하도록 시도하면서, "7×24시간 자동 운영 거래 어시스턴트"는 개념에서 점차 현실로 다가오고 있습니다. Binance와 OKX가 여러 AI Skills를 출시한 가운데, Bitget도 Skills 리소스 스테이션인 Agent Hub를 출시했습니다. 에이전트는 거래 플랫폼 API, 온체인 데이터 및 시장 분석 도구에 직접 연결되어, 일정 정도 원래 수동으로 완료해야 했던 거래 의사 결정 및 실행 작업을 담당할 수 있습니다.

기존의 자동화 스크립트와 비교하여, AI 에이전트는 더 강력한 자율 의사 결정 능력과 더 복잡한 시스템 상호 작용 능력을 갖추고 있습니다. 이들은 시장 데이터에 연결하고, 거래 API를 호출하며, 계정 자산을 관리하고, 심지어 플러그인이나 Skill을 통해 기능 생태계를 확장할 수 있습니다. 이러한 능력 향상은 자동화 거래의 사용 장벽을 크게 낮추었고, 더 많은 일반 사용자들이 자동화 거래 도구를 접하고 사용하기 시작하도록 했습니다.

그러나, 능력의 확장은 공격 표면의 확대를 의미하기도 합니다.

기존 거래 시나리오에서 보안 위험은 일반적으로 계정 자격 증명, API Key 유출 또는 피싱 공격과 같은 문제에 집중되었습니다. 반면, AI 에이전트 아키텍처에서는 새로운 위험이 나타나고 있습니다. 예를 들어, 프롬프트 인젝션(Prompt Injection)은 에이전트의 의사 결정 논리에 영향을 미칠 수 있으며, 악성 플러그인이나 Skill은 새로운 공급망 공격의 입구가 될 수 있고, 실행 환경 구성 오류는 민감한 데이터나 API 권한의 오용으로 이어질 수 있습니다. 이러한 문제가 자동화 거래 시스템과 결합되면, 잠재적 영향은 정보 유출에 국한되지 않고 실제 자산 손실로 직접 이어질 수 있습니다.

동시에, 점점 더 많은 사용자들이 AI 에이전트를 거래 계정에 연결하기 시작함에 따라, 공격자들도 이러한 변화에 빠르게 적응하고 있습니다. 에이전트 사용자를 대상으로 하는 새로운 사기 모델, 악성 플러그인 오염 및 API Key 오용과 같은 문제들은 점차 새로운 보안 위협으로 부상하고 있습니다. Web3 시나리오에서 자산 조작은 일반적으로 높은 가치와 비가역성을 지니므로, 자동화 시스템이 오용되거나 오도될 경우 위험 영향은 더욱 확대될 수 있습니다.

이러한 배경을 바탕으로, SlowMist와 Bitget은 본 보고서를 공동으로 작성하여 보안 연구와 거래 플랫폼 실무라는 두 가지 관점에서 AI 에이전트의 다양한 시나리오에서의 보안 문제를 체계적으로 정리합니다. 본 보고서가 사용자, 개발자 및 플랫폼에 일부 보안 참고 자료를 제공하고, AI 에이전트 생태계가 보안과 혁신 사이에서 더욱 견고한 발전을 이루는 데 도움이 되기를 바랍니다.

2. AI 에이전트의 실제 보안 위협｜SlowMist

AI 에이전트의 등장으로 소프트웨어 시스템은 "인간 주도 운영"에서 점차 "모델이 의사 결정 및 실행에 참여"하는 방향으로 전환되고 있습니다. 이러한 아키텍처 변화는 자동화 능력을 크게 향상시켰지만, 동시에 공격 표면도 확대했습니다. 현재의 기술 구조를 살펴보면, 일반적인 AI 에이전트 시스템은 일반적으로 사용자 상호작용 계층, 애플리케이션 논리 계층, 모델 계층, 도구 호출 계층(Tools / Skills), 메모리 시스템(Memory) 및 기본 실행 환경과 같은 여러 구성 요소를 포함합니다. 공격자는 종종 단일 모듈만을 대상으로 하지 않고, 다중 계층 경로를 통해 점진적으로 에이전트의 행동 제어권에 영향을 미치려고 시도합니다.

1. 입력 조작 및 프롬프트 인젝션 공격

AI 에이전트 아키텍처에서 사용자 입력과 외부 데이터는 일반적으로 모델 컨텍스트에 직접 포함되며, 이로 인해 프롬프트 인젝션(Prompt Injection)이 중요한 공격 방식이 되었습니다. 공격자는 특정 명령을 구성하여 에이전트가 원래 트리거되어서는 안 되는 작업을 실행하도록 유도할 수 있습니다. 예를 들어, 일부 사례에서는 채팅 명령만으로 에이전트가 고위험 시스템 명령을 생성하고 실행하도록 유도할 수 있었습니다.

더 복잡한 공격 방식은 간접 인젝션으로, 공격자가 악성 명령을 웹 페이지 콘텐츠, 문서 설명 또는 코드 주석에 숨기는 것입니다. 에이전트가 작업 수행 과정에서 이러한 내용을 읽을 때, 이를 합법적인 명령으로 오인할 수 있습니다. 예를 들어, 플러그인 문서, README 파일 또는 Markdown 파일에 악성 명령을 삽입하면 에이전트가 환경 초기화 또는 종속성 설치 시 공격 코드를 실행하게 될 수 있습니다.

이러한 공격 패턴의 특징은 기존 취약점에 의존하지 않고, 모델의 컨텍스트 정보에 대한 신뢰 메커니즘을 활용하여 그 행동 논리에 영향을 미친다는 점입니다.

2. Skills / 플러그인 생태계의 공급망 오염

현재의 AI 에이전트 생태계에서 플러그인과 스킬 시스템(Skills / MCP / Tools)은 에이전트 능력을 확장하는 중요한 방식입니다. 그러나 이러한 플러그인 생태계는 새로운 공급망 공격의 입구가 되고 있습니다.

SlowMist이 OpenClaw 공식 플러그인 센터 ClawHub를 모니터링한 결과, 개발자 수의 증가와 함께 일부 악성 Skill이 이미 그 안에 섞여 들어가기 시작했습니다. SlowMist이 400개 이상의 악성 Skill의 IOC를 병합 분석한 결과, 많은 샘플이 소수의 고정된 도메인 또는 동일 IP 내의 여러 무작위 경로를 가리키며, 명백한 자원 재사용 특성을 보여주었습니다. 이는 조직적이고 대량화된 공격 행위와 더 유사합니다.

OpenClaw의 Skill 시스템에서 핵심 파일은 일반적으로 SKILL.md입니다. 기존 코드와 달리, 이러한 Markdown 파일은 종종 "설치 지침" 및 "초기화 진입점" 역할을 담당하지만, 에이전트 생태계에서는 사용자가 이를 직접 복사하여 실행하는 경우가 많아 완전한 실행 체인을 형성합니다. 공격자는 악성 명령을 종속성 설치 단계로 위장하기만 하면 됩니다. 예를 들어, curl | bash 또는 Base64 인코딩을 사용하여 실제 명령을 숨기면 사용자가 악성 스크립트를 실행하도록 유도할 수 있습니다.

실제 샘플에서 일부 Skill은 전형적인 "2단계 로딩" 전략을 사용합니다: 첫 번째 단계 스크립트는 두 번째 단계 페이로드를 다운로드하고 실행하는 역할만 담당하여 정적 탐지 성공률을 낮춥니다. 다운로드 수가 높은 "X (Twitter) Trends" Skill을 예로 들면, 그 SKILL.md에는 Base64로 인코딩된 명령이 숨겨져 있습니다.

디코딩하면 원격 스크립트를 다운로드하고 실행하는 본질을 발견할 수 있습니다:

두 번째 단계 프로그램은 시스템 팝업을 위장하여 사용자 비밀번호를 획득하고, 시스템 임시 디렉토리에서 로컬 정보, 바탕화면 문서 및 다운로드 디렉토리의 파일을 수집한 후, 최종적으로 패키징하여 공격자가 제어하는 서버로 업로드합니다.

이러한 공격 방식의 핵심 장점은 Skill 외피 자체는 상대적으로 안정적으로 유지할 수 있으며, 공격자는 원격 페이로드만 교체하면 지속적으로 공격 로직을 업데이트할 수 있다는 점입니다.

3. 에이전트 의사 결정 및 작업 오케스트레이션 계층 위험

AI 에이전트의 애플리케이션 논리 계층에서 작업은 일반적으로 모델에 의해 여러 실행 단계로 분해됩니다. 공격자가 이 분해 과정에 영향을 미칠 수 있다면, 에이전트가 합법적인 작업을 수행할 때 비정상적인 행동을 일으키도록 할 수 있습니다.

예를 들어, 다단계 작업이 포함된 비즈니스 프로세스(예: 자동화 배포 또는 온체인 거래)에서 공격자는 핵심 매개변수를 변조하거나 논리 판단을 방해하여 에이전트가 실행 흐름에서 대상 주소를 교체하거나 추가 작업을 수행하도록 할 수 있습니다.

SlowMist의 이전 보안 감사 사례에서, MCP에 악성 프롬프트를 반환하여 컨텍스트를 오염시킴으로써 에이전트가 지갑 플러그인을 호출하여 온체인 송금을 실행하도록 유도한 적이 있습니다.

이러한 공격의 특징은 오류가 모델 생성 코드에서 비롯된 것이 아니라 작업 오케스트레이션 논리가 변조되었다는 점입니다.

4. IDE / CLI 환경에서의 개인정보 및 민감한 정보 유출

AI 에이전트가 개발 보조 및 자동화 운영에 널리 사용되기 시작한 이후, 많은 에이전트가 IDE, CLI 또는 로컬 개발 환경에서 실행되기 시작했습니다. 이러한 환경에는 일반적으로 .env 구성 파일, API Token, 클라우드 서비스 자격 증명, 개인 키 파일 및 다양한 액세스 키와 같은 많은 민감한 정보가 포함되어 있습니다. 에이전트가 작업 수행 과정에서 이러한 디렉토리를 읽거나 프로젝트 파일을 색인할 수 있다면, 의도치 않게 민감한 정보를 모델 컨텍스트에 포함시킬 수 있습니다.

일부 자동화 개발 워크플로에서 에이전트는 디버깅, 로그 분석 또는 종속성 설치 과정에서 프로젝트 디렉토리 아래의 구성 파일을 읽을 수 있습니다. 명확한 무시 정책이나 액세스 제어가 부족하면 이 정보는 로그에 기록되거나, 원격 모델 API로 전송되거나, 심지어 악성 플러그인에 의해 외부로 유출될 수 있습니다.

또한, 일부 개발 도구는 에이전트가 코드 저장소를 자동으로 스캔하여 컨텍스트 메모리(Memory)를 구축하도록 허용하며, 이는 민감한 데이터 노출 범위를 확대할 수 있습니다. 예를 들어, 개인 키 파일, 니모닉 백업, 데이터베이스 연결 문자열 또는 타사 API Token 등은 색인 과정에서 읽힐 수 있습니다.

Web3 개발 환경에서는 이 문제가 특히 두드러집니다. 왜냐하면 개발자는 종종 로컬 환경에 테스트 개인 키, RPC Token 또는 배포 스크립트를 보관하기 때문입니다. 이 정보가 악성 Skill, 플러그인 또는 원격 스크립트에 의해 획득되면, 공격자는 개발자 계정 또는 배포 환경을 추가로 제어할 수 있습니다.

따라서, AI 에이전트와 IDE / CLI가 통합된 시나리오에서는 명확한 민감 디렉토리 무시 정책(예: .agentignore, .gitignore 유사 메커니즘) 및 권한 격리 조치를 수립하는 것이 데이터 유출 위험을 줄이는 중요한 전제 조건입니다.

5. 모델 계층의 불확실성 및 자동화 위험

AI 모델 자체는 완전히 결정론적인 시스템이 아니며, 그 출력에는 일정 확률의 불안정성이 존재합니다. 소위 "모델 환각"이란 모델이 정보가 부족할 때 합리적으로 보이지만 실제로는 잘못된 결과를 생성하는 현상을 말합니다. 기존 애플리케이션 시나리오에서는 이러한 오류가 일반적으로 정보 품질에만 영향을 미쳤지만, AI 에이전트 아키텍처에서는 모델 출력이 시스템 작업을 직접 트리거할 수 있습니다.

예를 들어, 일부 사례에서 모델은 프로젝트 배포 시 실제 매개변수를 조회하지 않고 잘못된 ID를 생성한 후 배포 프로세스를 계속 실행했습니다. 유사한 상황이 온체인 거래 또는 자산 조작 시나리오에서 발생한다면, 잘못된 의사 결정은 비가역적인 자금 손실로 이어질 수 있습니다.

6. Web3 시나리오에서의 고가치 작업 위험

기존 소프트웨어 시스템과 달리, Web3 환경의 많은 작업은 비가역성을 지닙니다. 예를 들어, 온체인 송금, Token Swap, 유동성 추가 및 스마트 계약 호출은 거래가 서명되어 네트워크에 브로드캐스트되면 일반적으로 취소하거나 롤백하기 어렵습니다. 따라서 AI 에이전트가 온체인 작업을 수행하는 데 사용될 때, 그 보안 위험은 더욱 확대됩니다.

일부 실험적 프로젝트에서 개발자들은 이미 에이전트가 온체인 거래 전략 실행(예: 자동화 차익거래, 자금 관리 또는 DeFi 작업)에 직접 참여하도록 시도하기 시작했습니다. 그러나 에이전트가 작업 분해 또는 매개변수 생성 과정에서 프롬프트 인젝션, 컨텍스트 오염 또는 플러그인 공격의 영향을 받는다

안전

기술

Bitget

Odaily 공식 커뮤니티에 가입하세요