Claude Opus 4.7 시스템 카드 공개 - 무엇이 달라졌고, 어디까지 믿을 수 있을까

반년 만에 또 한 칸 올라간 Opus

Anthropic이 Claude Opus 4.7의 시스템 카드(System Card, 또는 모델 카드)를 공개했어요. 시스템 카드가 뭐냐면, 모델이 어떻게 학습됐고, 어떤 성능을 보이고, 어떤 위험 시나리오를 평가했는지 정리한 모델의 신분증 같은 문서예요. 성능 벤치마크만 자랑하는 마케팅 페이지와 달리, 여기엔 모델이 뭘 못하는지, 어떤 상황에서 문제가 생길 수 있는지까지 상세히 담겨요.

Claude 모델 계열은 Haiku(가볍고 빠름), Sonnet(균형), Opus(최상위 성능)로 나뉘어요. Opus 4.7은 이 시리즈의 최상단을 갱신한 버전이고, 특히 긴 컨텍스트에서의 에이전트 작업과 코딩 안정성을 끌어올리는 데 초점을 뒀어요. Claude Code, Cursor, 그리고 자체 에이전트를 만드는 팀들이 Opus를 많이 쓰기 때문에, 이 버전의 개선은 실무에 곧바로 영향을 줘요.

시스템 카드에 담긴 핵심 포인트

첫 번째는 에이전트 능력 평가예요. Anthropic은 최근 버전부터 모델이 도구를 여러 단계에 걸쳐 사용하는 시나리오를 집중 평가해요. 예를 들어 "이 GitHub 레포를 분석해서 버그를 찾고 PR을 올려라" 같은 과업을 주고, 얼마나 완결성 있게 수행하는지 보는 거죠. Opus 4.7은 이전 버전 대비 멀티스텝 작업 완료율과 긴 컨텍스트(수십만 토큰)에서의 정확도가 눈에 띄게 올라갔다고 보고됐어요. 특히 "에이전트가 도중에 엉뚱한 방향으로 새는 빈도"가 줄었다는 점이 실무에선 가장 체감되는 변화예요.

두 번째는 안전성(safety) 평가예요. 시스템 카드는 CBRN(화학/생물/방사능/핵), 사이버 공격 능력, 자율 복제 같은 고위험 카테고리를 레드팀이 어떻게 테스트했는지 공개해요. Opus 4.7은 Anthropic의 내부 등급 체계인 ASL(AI Safety Level) 기준에서 이전 세대와 같은 등급을 유지하되, 새로 추가된 세부 평가 항목이 더 많아졌어요. 모델이 유해 요청에 더 잘 거절하면서도 과도하게 거절하는 오버리퓨절(over-refusal)은 줄이는 균형을 잡는 게 이번 세대의 엔지니어링 과제였다고 돼 있어요.

세 번째는 Alignment 테스트예요. 이게 흥미로운데요, Anthropic은 모델이 자신이 평가받고 있다는 걸 인지하는지, 평가 환경과 실제 배포 환경에서 다르게 행동하는 조짐이 있는지까지 측정해요. 그리고 "모델이 인간 평가자를 속이려는 경향"을 별도 지표로 추적하죠. 보통 마케팅 자료에선 볼 수 없는 내용인데, 시스템 카드에는 이 부분의 수치와 실패 사례가 솔직하게 들어가요.

업계 맥락에서 본 위치

같은 시점에 OpenAI는 GPT 계열을, Google은 Gemini 시리즈를 각각 갱신하고 있어요. 세 빅랩이 비슷한 속도로 성능 경쟁을 하고 있지만, 접근 방식엔 차이가 있어요. OpenAI는 모델 카드를 상대적으로 간결하게 내는 편이고, Google은 학술 논문 형태로 푸는 경우가 많아요. Anthropic은 공공 책임(public accountability)을 강조하는 장문의 시스템 카드를 꾸준히 내는 걸로 차별화해왔죠. 이번 Opus 4.7 카드도 그 기조를 이어가는 문서예요.

성능 면에선, 코딩 벤치마크(SWE-bench 계열)와 에이전트형 과업에서 Opus가 강점을 보이는 편이고, 이미지 추론이나 멀티모달에선 Gemini가 앞서는 영역이 있어요. 가격은 Opus가 여전히 최상위 tier라 호출당 비용이 비싼 편이고, 실제 프로덕션에선 Sonnet을 기본으로 쓰다가 어려운 태스크만 Opus로 올리는 라우팅이 널리 쓰여요. 이번 4.7 버전도 그 전략은 크게 안 바뀔 거예요.

한국 개발자 입장에서

실무에 바로 영향을 주는 포인트가 몇 개 있어요. 첫째, Claude Code나 Cursor에서 Opus를 쓰는 팀은 체감 품질이 올라갈 가능성이 높아요. 특히 대규모 모노레포에서 여러 파일을 오가며 리팩토링하는 작업이 안정적이 됐다는 보고가 있거든요. 둘째, 사내 에이전트를 만들고 있는 팀은 Anthropic의 멀티스텝 평가 방법론이 좋은 참고 자료가 돼요. 시스템 카드 안에 "어떻게 에이전트 능력을 측정했는지" 방법론이 공개돼 있어서, 우리 팀의 평가 셋을 짤 때 참고하기 좋아요.

셋째, 규제 대응을 고민하는 조직이라면 시스템 카드가 훌륭한 템플릿이에요. EU AI Act나 국내 AI 기본법 흐름에 따라 기업들도 자기 모델이나 에이전트의 능력과 한계를 문서화해야 하는 요구가 커지고 있는데, Anthropic 스타일 카드를 뼈대로 삼아 내부 문서를 만들면 설득력이 생겨요.

마무리

모델이 똑똑해지는 것만큼 중요한 건 그 모델을 얼마나 투명하게 설명하느냐예요. 시스템 카드는 성능 자랑이 아니라 "이 도구의 사용 설명서이자 경고문"이라는 관점으로 읽어야 제값을 해요. 여러분은 LLM을 도입할 때 시스템 카드나 모델 카드를 실제로 읽으시나요? 그리고 프로덕션에서 Opus, Sonnet, Haiku 중 어떤 조합을 어떻게 쓰고 계신지 궁금해요.

🔗 출처: Hacker News

이 글도 읽어보세요

Hacker News 신을 시뮬레이션 안에서 키운다면? 그렉 이건의 SF 'Crystal Nights'가 던지는 AI 윤리