처리중입니다. 잠시만 기다려주세요.
TTJ 코딩클래스
정규반 단과 자료실 테크 뉴스 코딩 퀴즈
테크 뉴스
Hacker News 2026.06.20 35

영어 단어 17만 개 중 나는 몇 개나 알까? 어휘량 측정 웹앱의 원리

Hacker News 원문 보기

영어 단어 17만 개, 나는 몇 개나 알까

영어 공부를 좀 해보신 분이라면 한 번쯤 이런 생각 해보셨을 거예요. '내가 아는 영어 단어가 도대체 몇 개나 될까?' 그런데 막상 세보려고 하면 막막하죠. 사전을 펴놓고 하나하나 체크할 수도 없는 노릇이고요. 이번에 눈에 띈 건 바로 그 궁금증을 통계적으로 풀어주는 웹앱이에요. 영어 단어 약 17만 개 가운데 내가 아는 게 몇 개쯤인지를 몇 분 만에 추정해주거든요. 구글의 Cloud Run(서버를 직접 관리하지 않고 컨테이너만 올리면 알아서 돌아가는 서비스예요) 위에 가볍게 올라가 있는 작은 프로젝트인데, 그 안에 담긴 아이디어가 꽤 재미있어요.

어떻게 몇 개만 물어보고 전체를 맞힐까

핵심은 '표본조사'예요. 선거 출구조사를 떠올리면 쉬워요. 유권자 수천만 명한테 다 물어보지 않아도, 잘 고른 몇 천 명만 조사하면 전체 결과를 꽤 정확히 맞히잖아요. 어휘량 측정도 똑같아요. 17만 개를 다 물어볼 수는 없으니, 그중 대표성 있는 단어들만 골라서 '이 단어 아세요?'라고 묻고, 그 결과로 전체를 역산하는 거죠.

여기서 중요한 게 '빈도 순위'예요. 영어 단어는 실제 글과 말에서 얼마나 자주 쓰이는지에 따라 순위를 매길 수 있어요. the, of, and 같은 단어는 1~100위권이고, 아주 드물게 쓰이는 학술 용어나 고어는 10만 위 밖이고요. 사람의 어휘는 보통 '자주 쓰는 쉬운 단어는 거의 다 알고, 드문 단어로 갈수록 모르는 게 많아지는' 완만한 곡선을 그려요. 그래서 빈도 구간별로 골고루 단어를 뽑아 테스트하면, 내 어휘 곡선이 어디쯤에서 뚝 떨어지는지를 찾아낼 수 있어요. 그 지점까지의 단어 수를 합치면 대략적인 총 어휘량이 나오는 거죠.

또 하나 재미있는 장치가 '가짜 단어'예요. 사람들이 아는 척을 하면 추정이 엉망이 되거든요. 그래서 이런 테스트는 실제로 존재하지 않는, 그럴듯하게 생긴 가짜 단어를 슬쩍 섞어 넣어요. 가짜 단어에 '안다'고 체크하면 그만큼 점수를 깎아서 허세를 보정하는 거예요. 똑똑하죠?

비슷한 시도들과 비교하면

사실 이런 어휘량 추정은 언어학에서 꽤 오래된 연구 주제예요. 'Test Your Vocab' 같은 사이트가 대표적인데, 수십만 명의 응답을 모아서 '원어민은 평균 2~3만 단어, 영어 학습자는 보통 4500단어 안팎'이라는 식의 통계를 내놓기도 했어요. 교육 쪽에서는 Lexile 지수처럼 텍스트 난이도와 독자 수준을 같은 척도로 맞추는 시스템도 있고요. 시험 점수를 잠재 능력으로 환산하는 IRT(문항반응이론)라는 방법론도 이런 도구들의 뒤에 깔려 있어요. 한 마디로, '작은 표본으로 큰 전체를 추정한다'는 데이터 과학의 고전적인 문제를 단어에 적용한 셈이에요.

한국 개발자에게

이 프로젝트가 매력적인 이유는 '작지만 완결된 아이디어'라는 점이에요. 거창한 머신러닝 없이도, 잘 정리된 빈도 데이터에 표본 추출과 간단한 보정 로직만 더하면 사람들이 '오 신기하다' 하고 공유하는 서비스를 만들 수 있거든요. 사이드 프로젝트 소재를 고민 중이라면 좋은 본보기예요.

응용 범위도 넓어요. '한국어 어휘량 측정기'를 만든다면 국립국어원의 빈도 사전 데이터를 활용할 수 있고, 코딩 교육 서비스라면 '이 학습자가 어느 난이도 문제까지 풀 수 있나'를 같은 원리로 추정할 수 있어요. 표본으로 전체를 가늠하는 발상은 A/B 테스트, 설문, 추천 시스템 평가 등 실무 곳곳에서 그대로 써먹을 수 있고요. 그리고 '가짜 단어로 허세를 거른다'는 트릭은, 설문이나 사용자 입력의 신뢰도를 검증하는 장치(주의 집중 확인 문항 같은 것)로도 응용할 수 있어요.

마무리

작은 웹앱 하나지만, 그 안에는 '표본으로 전체를 추정하고, 거짓 응답을 보정한다'는 통계의 알맹이가 들어 있어요. 화려한 기술만이 좋은 프로젝트를 만드는 게 아니라는 걸 보여주는 사례죠. 여러분이라면 이 원리로 어떤 '○○량 측정기'를 만들어보고 싶으세요?


🔗 출처: Hacker News

이 뉴스가 유용했나요?

이 기술을 직접 배워보세요

파이썬으로 자동화를 시작해보세요

파이썬 기초부터 자동화까지 실전 강의.

파이썬 강의 보기

"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"

실제 수강생 후기
  • 비전공자도 6개월이면 첫 수익
  • 20년 경력 개발자 직강
  • 자동화 프로그램 + 소스코드 제공

매일 AI·개발 뉴스를 받아보세요

주요 테크 뉴스를 매일 아침 이메일로 전해드립니다.

스팸 없이, 언제든 구독 취소 가능합니다.