Tor 프로젝트 측에서 유저 수를 셌다는 건 사실이 아니에요. 다만 저장소에서 받는 요청의 수는 세고 있어요. 이는 클라이언트가 중계기 목록을 업데이트할 때 발생하는 것으로, 이러한 요청 건수를 보고 간접적으로 유저 수를 추측할 수 있어요.
아니에요. 얼마나 많은 저장소가 국가코드를 보고했는지는 Tor 프로젝트 측에서 확인할 수 있어요. 또한 저희는 해당 보고를 기반으로 네트워크 내 유저 수 총계를 추정할 수 있어요.
Tor 프로젝트는 평균적인 클라이언트가 하루에 10번의 요청을 할 것이라고 가정해요.
1년 내내 접속된 Tor 클라이언트의 경우 하루에 15개 정도의 요청을 보내고 받어요. 그러나 모든 클라이언트가 항시 접속된 상태가 아니므로, 평균 클라이언트 수를 Tor 프로젝트에선 10으로 잡은 거예요.
Tor 프로젝트는 디렉터리 요청을 10으로 간단하게 나누어 해당 결과치를 사용자 수로 간주해요.
한 요청이 하루 중 1/10 가량, 즉 2시간에 24분 가량을 온라인에 머무르는 클라이언트 하나에 상응한다고 가정해 사용자 수를 계산하기도 해요.
동시 접속자의 평균 값으로, 하루동안 수집한 데이터를 토대로 추산됐어요. 사용자 수의 정확한 값은 Tor 프로젝트에서도 확인할 수 없어요.
없어요. 중계기에서는 발신국에서 전송된 요청과 24시간 동안의 사용자 수 총계만 보고하기에, 그런 류의 자료 외에는 없어요.
Tor 프로젝트에서 시간 당 사용자 수를 집계하기 위해 수집하는 통계자료는 저희가 생각하기엔 너무 자세할 뿐더러, 자칫 사용자를 위험에 노출시키지 않을까 우려돼요.
그 후 해당 사용자를 하나로 셉니다. 클라이언트를 세고 싶어요만, 대부분의 사람들에겐 클라이언트 보단 사용자라는 용어가 더 직관적이에요. 그래서 Tor 프로젝트에선 클라이언트라는 말을 안 쓰고 사용자라 굳이 표현하는 겁니다.
아뇨, 과표집되지 않아요. 하루에 IP 주소가 많이 바뀌었다 해서, 중계기 목록도 자주 바뀌었던 것은 아니기 때문이에요.
저장소에서 IP 주소를 국가코드로 분해하고 해당 코드를 종합해 보고해요. Tor에 GeoIP 데이터베이스가 같이 들어있는 이유기도 해요.
극소수의 브리지만이 전송 데이터나 IP 버전 데이터를 보고하는 상황이에요. 또한 기본적으로 Tor 프로젝트에선 '기본 OR 프로토콜'과 IPv4의 사용을 요청하는 게 적당하다고 보고 있어요.
더 많은 브리지에서 이러한 데이터를 보낼 수록, 더 정확한 수치를 낼 수 있어요.
중계기와 브리지에선 24시간 간격, 즉 매일 자정에 데이터를 보고해요.
그러한 간격을 바로잡은 후, 중계기와 브리지는 18시간 후 새로운 데이터를 보고할 겁니다.
사실 직전 일의 데이터는 그저 알고리즘에 의한 가공물일 뿐이고, 최근 트렌드 변화 정도만 나타날 수 있어요. Tor 프로젝트는 그래프의 마지막 데이터 지점에 이를 표시하는 걸 피하고자 직전 이틀을 그래프에서 잘라낸 거예요.
Tor 프로젝트에선 사용자 수가 더이상 눈에 띄게 변화하지 않을 것이라 자신할 때에, 해당 수치를 내놓기 때문에 그렇게 보이는 겁니다.
하지만 Tor 프로젝트에서 유저 수를 내놓은 후 몇 시간 뒤에야 데이터가 디렉터리에서 보고될 가능성이 무조건 존재해요. 하지만 그럴 경우 그래프를 살짝 바꿔주면 그만이고요.
Tor 프로젝트에서 기술자 아카이브를 구축한 게 2011년 이전이긴 해요. 그러나 유저 수를 추산할 때 사용하는 데이터가 해당 시기 이전의 기술자(descriptor)에 들어있지 않았어요.
다음 압축 파일에서 해당 시기를 찾아 더 자세히 알아보세요:
압축 파일
직접 사용자의 경우, Tor 프로젝트에서는 기존 방식에서 세지 못했던 모든 디렉터리를 산입해요.
Tor 프로젝트에서는 또한 디렉터리 요청에 대한 응답이 적혀있는 바이트만 담긴 이력만 사용해요. 따라서 일반적인 바이트 이력을 사용하는 것보다 더 정확한 값이 산출돼요.
음 이건 완전 다른 문제예요. 장장 13페이지나 되는 기술 보고서를 통해 기존 접근 방식을 버린 이유를 설명해두었으니 확인하세요.
한 줄 요약: 기존 접근 방식을 쓸 경우 잘못된 값이 측정됐어요. 그리고 이젠 올바른 값을 측정할 수 있고요.
Tor 프로젝트에선 '비정상 활동 기반 검열 탐지 시스템'을 구동하고 있어요. 해당 시스템은 주어진 기간의 사용자 에측치를 살펴본 후, 다음 날 사용자 수를 예측해요.
실제 값이 더 많거나 적다면, 이는 검열이 발생했거나, 검열에서 벗어났을 가능성이 있음을 뜻해요.
기술 보고서에서 더 자세히 알아보세요.