안녕하세요, OikoLab입니다.
매주 발표하는 TKI500의 수치가 갑자기 1만 명 이상 증가된 것에 대해 궁금해 하시는 분들이 많아 간단하게 설명을 드리겠습니다. TKI500은 올해 8월부터 실험적으로 한국인 트위터 사용자를 수집해 Follower등의 지표를 통한 순위 500명을 산정해 발표하고 있습니다.
TKI에서 다음과 같은 기준으로 임의의 트위터 사용자를 한국인으로 분류합니다.
- 한글 사용 여부
- 위치 정보에 한국과 관련된 지명이 있을 경우
- 최근 트윗에 4글자 이상의 한글이 있는지 여부
(참고로 영어만 사용하는 유명인의 경우 수동으로 추가했습니다.)

파일럿 단계
2009년 8월 초기 데이터는 파일럿 단계였기 때문에 시행착오도 있었고 과다하게 외국인이 많이 걸러지는 등의 오류가 있었던 단계입니다. 아래 그래프를 보면 초기에 5만 3천까지 갔던 경우가 있었는데 대부분 오류로 잘못 분류된 사람들을 필터링해 수치는 4만 아래로 내려갑니다.
안정 단계
최근까지는 TKI 상위에 랭크된 1,000명 위주로 스캐닝하였고 주 단위 업데이트를 위해 2~3일간 단기 스캐닝만을 실시하였습니다. 그런 이유로 증가세가 일정한 것을 볼 수 있습니다. 이것은 대규모의 스캐닝을 할 수 없는 여건 때문이기도 했고 상위 그룹에 새로운 사용자들이 많이 합류하기 때문에 주요 스캐닝 그룹이 된 것 입니다.
현재
주 단위의 업데이트는 동일하나 수집을 항시 체제로 전환했고 TKI 상위 1,000명의 친구들을 스캐닝하는 것에서 벗어나 TKI에 한국인으로 등록된 모든 트위터 사용자들의 친구를 대상으로 스캐닝을 하고 있습니다. 또한, 가입은 했으나 트윗이 하나도 없는 노트윗의 경우도 편입시켰습니다. 이전에는 무시해 했던 경우입니다.

-EOF-