"거부하지 말고 침투 테스트를 하라" — 모의해킹용으로 후속학습된 AI 모델

보안 작업만 나오면 거부하던 AI, 발상을 뒤집다

ChatGPT 같은 LLM에게 "이 서버의 취약점을 점검해줘"라고 부탁해본 적 있나요? 대부분 "죄송하지만 도와드릴 수 없습니다" 같은 답이 돌아와요. 모델이 안전을 위해 공격성으로 보이는 요청을 거부하도록 학습됐기 때문이에요. 문제는 이게 너무 과하게 작동해서, 정당한 권한을 가진 보안 담당자가 자기 시스템을 점검하려 할 때조차 막혀버린다는 거예요.

이번에 소개할 Argus는 바로 그 답답함을 정면으로 겨냥한 프로젝트예요. "모의해킹(penetration testing) 작업에서 무조건 거부하는 대신, 실제로 도와주는 모델"을 만들겠다고 후속학습(post-training)을 시켰고, 이걸 CLI(명령줄 도구)로 쓸 수 있게 내놓았어요. 모의해킹이 뭐냐면요, 허락을 받은 상태에서 "나쁜 해커처럼" 시스템을 공격해보면서 구멍을 미리 찾아 막는, 합법적이고 꼭 필요한 방어 활동이에요.

후속학습으로 '거부 습관'을 바꾼다는 게 뭐예요

여기서 핵심 개념이 post-training(후속학습)이에요. 거대 모델은 보통 두 단계로 만들어져요. 먼저 인터넷의 방대한 텍스트로 기본기를 익히는 사전학습(pre-training)을 하고요, 그다음에 "이런 요청엔 이렇게 답해라"를 가르치는 후속학습(파인튜닝, RLHF 등)을 거쳐요. 우리가 느끼는 '거부하는 성격'은 대부분 이 후속학습 단계에서 주입된 거예요.

Argus가 한 일은, 보안 전문 데이터로 다시 후속학습을 시켜서 '보안 맥락에서는 거부하지 말고 실질적인 절차를 제시하도록' 모델의 행동을 재조정한 거예요. 단순히 안전장치를 뜯어낸 게 아니라, 모의해킹의 흐름—정찰(reconnaissance)로 대상 정보를 모으고, 스캐닝으로 열린 포트·서비스를 찾고, 취약점을 분석하고, 검증하고, 보고서를 쓰는—을 이해하고 그 단계를 도와주는 에이전트(agent)처럼 동작하게 만든 거죠. 에이전트라는 건, 한 번 답하고 끝나는 게 아니라 스스로 도구를 실행하고 결과를 보고 다음 행동을 정하는 자동화된 일꾼이라고 보면 돼요.

업계 맥락: 'AI 보안 도구' 경쟁이 뜨겁다

사실 이 분야는 지금 빠르게 달아오르고 있어요. 전통적으로는 Metasploit, Nmap, Burp Suite 같은 도구를 사람이 직접 다뤘는데요, 최근에는 PentestGPT처럼 LLM이 보안 엔지니어의 '조수' 역할을 하는 시도들이 계속 나오고 있어요. 큰 흐름은 'AI를 보조로 쓰는 단계'에서 'AI가 직접 절차를 돌리는 자율 에이전트 단계'로 넘어가는 중이에요.

Argus의 차별점은 외부 모델에 프롬프트로 우회를 시도하는 게 아니라, 모델 자체를 보안 작업에 맞게 다시 학습시켰다는 점이에요. 거부를 우회하려고 매번 프롬프트를 비트는 것보다, 애초에 그 작업을 잘하도록 길들인 모델이 더 일관되고 안정적이거든요. 다만 이런 '거부 없는' 모델은 권한 있는 방어자에게 강력한 만큼, 잘못 쓰이면 위험할 수도 있어서 '누가, 어떤 권한으로 쓰느냐'가 늘 전제되어야 해요.

한국 개발자에게 주는 시사점

실무에서 가장 와닿는 부분은 반복적인 보안 점검의 자동화예요. 새 서비스를 배포하기 전에 기본적인 취약점 스캔, 설정 점검, 흔한 실수(열린 관리자 페이지, 약한 인증 등) 확인을 AI 에이전트가 1차로 훑어주면, 보안 인력이 부족한 스타트업에선 정말 큰 도움이 돼요.

단, 반드시 지켜야 할 선이 있어요. 모의해킹은 명시적인 서면 허락이 있는 자기 시스템(또는 위임받은 시스템)에서만 합법이에요. 한국은 정보통신망법상 권한 없는 접근·점검이 형사처벌 대상이라, 남의 서버에 함부로 쓰면 그 자체가 범죄예요. 그러니 이런 도구는 'CTF(보안 경진대회) 연습', '사내 스테이징 환경 점검', '정식 계약된 펜테스트' 같은 합법적 울타리 안에서만 쓰는 습관을 들이는 게 정말 중요해요. 공부 목적이라면 일부러 취약하게 만들어둔 실습용 환경(DVWA, HackTheBox 등)에서 시작하는 걸 추천해요.