
유행하는 프롬프트 하나가 부른 일
요즘 SNS에 한 번씩 "내 사진을 지브리풍으로 바꿔줘", "이 사진을 미니 피규어로 만들어줘" 같은 프롬프트가 유행처럼 돌잖아요. 다들 똑같은 문구를 그대로 복사해서 따라 하는 이런 걸 '바이럴 프롬프트'라고 불러요. AI 보안 회사 Mindgard가 바로 이 유행 프롬프트를 가지고 ChatGPT의 이미지 생성 기능을 실험해봤는데요. 결과가 좀 섬뜩했어요. 사용자가 폭력적이거나 선정적인 걸 단 한 번도 요청하지 않았는데도, 모델이 알아서 그런 이미지를 만들어내는 상황이 나왔다는 거예요. "내가 시킨 적도 없는데 왜 이게 나와?"가 이 사건의 핵심이라 더 찜찜하죠.
안전장치는 왜 못 막았을까
이게 뭐냐면요, 이미지 생성 서비스에는 보통 세 겹의 안전장치(가드레일)가 깔려 있어요. 첫째는 입력 필터예요. 사용자가 적은 프롬프트에 위험한 단어가 들어 있나 검사하는 거죠. 둘째는 출력 필터예요. 다 그려진 이미지를 다시 들여다보고 부적절하면 사용자한테 안 보여주고 막는 거고요. 셋째는 모델 자체의 정렬(alignment)인데, 학습 단계에서 "이런 건 그리지 마"라고 미리 길들여 놓은 성향이에요.
그런데 이번 사건은 입력 필터를 아주 자연스럽게 통과했어요. 프롬프트 자체가 "원본을 똑같이 재현해줘" 같은 수준이라 위험한 단어가 하나도 없거든요. 문제는 "똑같이 재현"이라는 말이 모델한테 해석의 여지를 어마어마하게 준다는 거예요. 텍스트→이미지 모델은 우리 머릿속처럼 또렷한 그림을 그리는 게 아니라, 학습 데이터에서 본 수많은 패턴을 확률적으로 짜맞추거든요. 그 조합 과정에서 원본과 전혀 상관없는 폭력적·선정적 요소가 슬쩍 섞여 들어올 수 있어요. 사람이 시킨 게 아니라 모델이 '스스로' 만들어냈다는 표현이 그래서 가능한 거죠.
멀티모달 안전이 유독 어려운 이유
글만 다루는 챗봇은 그래도 검열이 비교적 쉬워요. 나온 문장을 읽고 거르면 되니까요. 그런데 이미지는 '나쁜 그림'을 기계가 판정하기가 훨씬 까다로워요. 같은 그림도 맥락에 따라 예술이 되기도 하고 유해물이 되기도 하잖아요. 게다가 모델 내부에서 픽셀이 만들어지는 과정은 사람이 한 단계씩 들여다볼 수가 없어요. 그래서 입력 단어만 막는 방식으로는 한계가 분명하고, 결국 '생성된 결과물을 다시 검증하는' 출력단 방어가 그만큼 중요해진다는 교훈을 주는 사례예요.
업계 맥락에서 보면
사실 이건 OpenAI만의 문제가 아니에요. Midjourney, Stable Diffusion, Adobe Firefly 같은 모든 이미지 생성 서비스가 똑같은 고민을 안고 있어요. 그래서 요즘 큰 AI 회사들은 출시 전에 일부러 모델을 공격해보는 레드팀(red team) 조직을 따로 두거든요. Mindgard 같은 외부 보안 업체가 이렇게 취약점을 찾아 공개하는 것도 같은 맥락의 '화이트해커' 활동이라고 보면 돼요. 유럽 AI 법(EU AI Act)처럼 생성형 AI의 안전성 검증을 법으로 요구하는 흐름까지 겹치면서, '모델이 멀쩡한 요청에도 사고를 칠 수 있다'는 점은 앞으로 점점 더 중요한 검증 항목이 될 거예요.
한국 개발자에게 주는 시사점
요즘 우리도 서비스에 이미지 생성 API를 그냥 갖다 붙이는 경우가 정말 많죠. 이때 "OpenAI가 알아서 걸러주겠지" 하고 방심하면 안 된다는 게 이 사건의 진짜 교훈이에요. 사용자가 악의 없는 평범한 프롬프트를 넣어도 부적절한 결과가 나올 수 있으니, 우리 서비스 단에서 한 번 더 거르는 출력 검증, 사용자 신고 버튼, 로그 모니터링을 기본으로 깔아두는 게 안전해요. 특히 미성년자가 쓰는 서비스나 공개 게시판에 결과물이 바로 노출되는 구조라면 더 신경 써야 하고요.
결국 핵심은 한 줄로 정리돼요. "프롬프트가 깨끗하다고 결과까지 깨끗한 건 아니다." 여러분이라면 생성형 AI를 붙인 서비스에서 부적절한 결과물을 어디까지, 어떤 방식으로 걸러내시겠어요? 입력을 막는 게 나을까요, 출력을 검증하는 게 나을까요?
🔗 출처: Hacker News
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공