시밀러웹 원리, 시밀러웹 데이터 소스는?

인터넷소식/웹서비스

2018.12.13 10:27

시밀러웹에서 세계 트래픽 순위를 발표했다. 그것을 보다가 동료와 토론에 불이 붙었다. 시밀러웹이 어떻게 트래픽을 분석하는지 시밀러웹 원리에 대한 것이다. 동료는 시밀러웹도 시청률 조사처럼 샘플링을 할 것이라고 했다. 따라서 북미 데이터는 샘플링 결과가 정확하겠지만 한국 데이터에 대한 신뢰도는 떨어진다고 보았다. 필자는 트래픽을 추정하는 다른 툴이 있을 것이라고 생각을 했다. 필자의 블로그같은 변방의 블로그조차 분석해주기 때문이다. (- 시밀러웹 내 사이트 분석 방법)



시밀러웹 데이터 소스

시밀러웹에 'our data'라고 공개 되어 있었다. https://www.similarweb.com/ourdata

시밀러웹에서 다양한 출처에서 방대한 데이터를 수집하고 있으며 전세계 220국을 커버하는 패널을 갖추고 있다고 한다. 시밀러웹 데이터 소스부분만 캡쳐해보았다. 


시밀러웹 데이터 소스


마지막 단락이 핵심이다. 


시밀러웹 원리


대강 번역하면 다음과 같다. 

1. 세계 패널 데이터 - 수천만 대의 데스크탑과 모바일 장치에서 추출  

2. 글로벌 ISP 데이터 - 수백만명의 구독자가 있는 파트너들로 부터 추출

3. 공공 데이터 (공용 / 공개된 데이터) - 매달 10억개의 사이트 및 어플 페이지에서 추출

4. 직접 측정 데이터 - 수십만 개의 사이트와 앱에서 추출


.

시밀러웹 분석 원리

근사하게 쓰여 있지만, 결국 동료의 추측이 맞았다. 샘플링 규모가 엄청날 뿐, 시밀러웹도 샘플링 방식이었다. 시청률 조사할 때, 특정 가구에 (보통 4인 가구)를 대상으로 어떤 프로그램을 보는지 살펴본 뒤에 그것을 정리해서 시청률이 얼마 나왔다고 한다. 따라서 한국의 시청률에는 유튜브로 본 사람, 실시간 TV 어플 등을 통해서 본 사람은 포함되지 않았다. 지금은 어떤 대상을 샘플링하는지 모르겠으나, 과거에는 4인가구만 대상이어서, 독신자들은 시청률에 반영되지 않았다. 

시밀러웹의 경우도 방대한 데이터에서 추출하니 믿을만 하겠거니 추측하는 것일 뿐 정확한 데이터 소스를 알 수 없다. 따라서 동료의 주장대로 시밀러웹의 주 무대인 미국 / 영어권 국가가 아닌 한국에 대한 분석은 어느 정도 신뢰할 수 있을 지 모르겠다.

그냥 재미삼아 보는 것이 좋겠다.

by 엑스진

관련 게시글 더보기