현재까지 수집된 152만여 한국인 트위터 계정 DB에 대한 “한국인 성씨” 분포를 간단하게 살펴봤습니다. 아래 결과 그래프는 “한국인의 성씨와 이름”에 대한 통계와 유사한 것을 볼 수 있습니다. 트위터 사용자의 이름(name)을 닉네임 등으로 명시해 제대로 성씨를 파악할 수 없는 경우가 과반 이상입니다. 때문에 아래 통계가 전체 사용자에 대한 정확한 성씨 분석이라고는 할 수 없지만 대략적인 성씨 분포의 파악은 가능한 것을 알 수 있습니다.
분석 대상은 김/이/박/최/정의 5대 대표 성씨에 대해서만 분석해 봤습니다. 성씨는 한글(김, 이, 박, 최, 정)과 영문(kim, lee, park, choi, jung/chung)으로 필터링 하였고 한글 성씨는 맨 앞의 글자, 영문 성씨는 앞(콤마 사용시)이나 뒤(공백으로 구분시)에 위치한 경우를 카운팅 하였습니다. 표기법에 따라 약간의 오차는 발생할 것으로 봅니다.
김: 243,148
이: 172,720
박: 93,493
정: 68,678
최: 51,741

(‘제빵왕 김탁구’ 최종회를 보다 문득 생각이 나서 한번 뽑아 봤습니다. ^^;)