
100년 전 메뉴판이 검색 가능한 데이터가 되기까지
혹시 1900년 뉴욕의 어느 식당에서 굴 요리 한 접시가 얼마였는지 궁금했던 적 있으세요? 좀 뜬금없는 질문 같죠. 그런데 이게 실제로 검색되는 세상이 됐어요.
뉴욕 공립도서관(NYPL)에는 프랭크 버톨프라는 사서가 1900년 무렵부터 평생에 걸쳐 모은 식당 메뉴판이 1만 7천 장 넘게 보관돼 있거든요. 100년 넘게 서고에 잠들어 있던 이 종이 뭉치를 도서관이 한 장씩 스캔해서 디지털 이미지로 만들었는데, 진짜 재밌는 건 그 다음이에요.
종이를 어떻게 '데이터'로 바꿨을까
스캔만 해서는 그냥 그림 파일일 뿐이에요. 컴퓨터 입장에서 메뉴판 사진은 '여기 글씨가 있다' 정도만 알지, '이 식당은 굴 요리를 50센트에 팔았다' 같은 의미는 전혀 모르거든요.
요즘이라면 OCR(광학 문자 인식, 사진 속 글자를 텍스트로 바꿔주는 기술)을 돌리면 되지 않냐고 생각할 수 있는데, 100년 전 메뉴판은 손글씨에 장식 글꼴까지 섞여 있어서 기계가 읽기를 정말 못 해요. 그래서 NYPL은 시민들이 직접 메뉴 사진을 보고 요리 이름과 가격을 한 줄씩 타이핑해 옮겨 적는 크라우드소싱 프로젝트를 열었어요. 수많은 사람이 자발적으로 참여해서 수백만 개의 메뉴 항목을 텍스트로 바꿔놓은 거죠.
이렇게 하고 나면 메뉴판 한 장이 표(테이블)로 변신해요. 요리 이름이 한 행이 되고, 가격·등장한 연도·식당 이름이 각각 컬럼이 되는 거예요. 그러면 '1890년대에 가장 자주 등장한 요리는?', '어떤 음식이 메뉴에서 사라졌나?' 같은 질문을 데이터베이스에 쿼리하듯 던질 수 있게 됩니다.
데이터가 이야기가 되는 순간
이번 프로젝트는 이 1880~1920년 사이 5천 장의 메뉴를 가지고 인터랙티브 스토리로 엮었어요. 여기서 핵심 기술이 스크롤리텔링(scrollytelling)이에요. 이게 뭐냐면, 사용자가 마우스 휠로 스크롤을 내릴 때마다 차트나 그래픽이 그 흐름에 맞춰 살아 움직이면서 이야기를 들려주는 방식이에요. 글과 시각화가 따로 노는 게 아니라, 읽는 속도에 맞춰 데이터가 차곡차곡 펼쳐지는 거죠.
이렇게 보면 단순한 숫자가 갑자기 이야기가 돼요. 예를 들어 옛날엔 굴이 지금의 감자튀김처럼 흔하고 싼 음식이었다든가, 특정 요리가 한때 유행하다 자취를 감췄다든가 하는 식문화의 변화가 그래프 한 장에 드러나거든요.
업계 맥락에서 보면
이 작업은 '디지털 인문학(digital humanities)'이라는 흐름에 딱 들어맞아요. 도서관·박물관의 아날로그 자료를 디지털 데이터로 바꿔서 새로운 분석을 가능하게 하는 분야죠. 기술적으로는 뉴욕타임스의 인터랙티브 기사나 데이터 시각화 라이브러리 d3.js, Observable 같은 도구 생태계와 같은 계보에 있어요.
한국 개발자에게
우리에게도 비슷한 보물이 많아요. 국립중앙도서관 디지털 아카이브, 조선왕조실록 DB, 공공데이터포털에 잠자고 있는 수많은 데이터셋들이요. '이걸로 뭘 만들지?' 고민이 될 때, 이 메뉴 프로젝트는 좋은 교과서가 돼요. 원본 데이터를 정제(클렌징)하고, 적절한 시각화 기법을 골라서, 사람이 공감할 수 있는 이야기로 엮는 전 과정이 담겨 있거든요. 프론트엔드 포트폴리오로도, 데이터 분석 연습으로도 훌륭한 소재예요.
핵심만 정리하면, 잘 정리된 데이터는 그 자체로 콘텐츠가 된다는 거예요. 여러분이라면 우리나라의 어떤 아날로그 기록을 데이터로 만들어 이야기를 들려주고 싶으세요?
🔗 출처: Hacker News
TTJ 코딩클래스 정규반
월급 외 수입,
코딩으로 만들 수 있습니다
17가지 수익 모델을 직접 실습하고, 1,300만원 상당의 자동화 도구와 소스코드를 받아가세요.
"비전공 직장인인데 반년 만에 수익 파이프라인을 여러 개 만들었습니다"
실제 수강생 후기- 비전공자도 6개월이면 첫 수익
- 20년 경력 개발자 직강
- 자동화 프로그램 + 소스코드 제공