악성코드에 '핵·생물무기' 문구를 심는 이유 — AI 안전장치를 역이용하는 신종 수법

멀쩡한 척하던 스파이웨어에 왜 핵무기 얘기가?

시민연구소(Citizen Lab)의 보안 연구자 존 스콧-레일턴이 흥미로우면서도 좀 섬뜩한 관찰을 공유했어요. 어떤 스파이웨어(상대 몰래 정보를 빼가는 감시용 악성코드)를 뜯어봤더니, 기능과는 아무 상관도 없는 핵무기와 생물무기에 관한 텍스트가 코드 안에 박혀 있더라는 거예요. 처음 보면 '이게 무슨 정신 나간 짓이지?' 싶은데, 그 의도를 알고 나면 요즘 보안 현장이 어떻게 바뀌고 있는지가 보여요.

왜 지금 주목해야 하냐면, 이건 AI 안전장치 자체를 공격 도구로 역이용하는 새로운 흐름의 신호이기 때문이에요. 우리가 좋은 의도로 만든 가드레일이, 거꾸로 방어자를 방해하는 데 쓰일 수 있다는 거죠.

핵심은 'AI한테 분석을 거부당하게 만들기'

요즘 보안 연구자나 분석가들이 일하는 방식을 떠올려 보세요. 수상한 코드 조각을 발견하면, 그걸 챗봇 같은 AI 어시스턴트에 붙여넣고 '이 코드 뭐 하는 건지 설명해줘'라고 물어보는 일이 정말 흔해졌거든요. 분석 속도를 확 끌어올려 주니까요.

그런데 악성코드 제작자가 코드 안에 핵·생물무기 같은 위험 주제의 문구를 슬쩍 끼워두면 어떻게 될까요? 그 코드를 통째로 AI에 넣는 순간, AI의 안전 필터가 '이건 위험한 내용이네' 하고 판단해서 분석 자체를 거부해버릴 수 있어요. 정작 코드의 진짜 기능은 평범한 정보 탈취인데, 엉뚱한 안전장치가 발동해서 방어자가 AI의 도움을 못 받게 되는 거죠. 이게 뭐냐면, 일종의 '분석 방해(anti-analysis)' 기법이에요. 예전에는 코드를 난독화하거나 암호화해서 분석을 어렵게 만들었다면, 이제는 'AI가 거부하게 만드는 미끼'를 심는 방향으로 진화하고 있는 거예요.

비유하자면, 도둑이 훔친 물건 위에 일부러 '위험물·취급주의' 딱지를 붙여두는 것과 비슷해요. 그러면 검사하려던 사람이 지레 손을 못 대고 머뭇거리게 되잖아요. 안전을 위해 만든 규칙이 오히려 검사를 가로막는 셈이죠.

업계 맥락 — 가드레일과 공격의 쫓고 쫓기기

이건 더 큰 흐름의 한 조각이에요. AI가 보안 업무 곳곳에 들어오면서, 공격자들도 'AI를 어떻게 헷갈리게 하거나 역이용할까'를 연구하기 시작했거든요. 프롬프트 인젝션(AI한테 몰래 다른 지시를 주입하는 것)이 대표적이고, 이번 사례처럼 안전 필터를 의도적으로 건드려 거부를 유도하는 수법도 그 연장선이에요.

방어 진영 입장에서 보면 딜레마가 생겨요. AI 안전장치는 분명히 필요하지만, 너무 단순하게 '위험 키워드가 보이면 무조건 거부'하는 식이면 이렇게 역이용당하기 쉽거든요. 그래서 '왜 이 텍스트가 여기 있는지' 맥락을 읽고, 보안 분석이라는 정당한 목적은 정상적으로 도와주는 식의 더 정교한 판단이 중요해지는 거예요.

한국 개발자·보안 담당자에게 주는 시사점

실무에서 바로 새겨둘 교훈이 있어요. 첫째, 수상한 코드를 분석할 땐 범용 챗봇 하나에만 의존하지 마세요. AI가 거부했다고 해서 '별거 아니거나 분석 불가'라고 넘겨버리면 딱 공격자가 노린 함정에 빠지는 거예요. 디스어셈블러, 샌드박스, 정적 분석 도구 같은 전통적인 무기들을 함께 써야 해요. 둘째, AI의 거부 자체가 하나의 신호일 수 있다는 점이에요. 기능과 무관한 위험 키워드가 박혀 있다면, 그건 오히려 '누군가 분석을 방해하려 한다'는 의심 신호로 읽을 수 있거든요.

AI 기반 보안 도구나 코드 분석 파이프라인을 만드는 분이라면, 입력에 이런 미끼성 콘텐츠가 섞여 들어올 수 있다는 전제로 설계하는 게 좋아요. 단순 키워드 필터링은 우회당하기 쉽다는 걸 염두에 두고요.