W sumie, to nie liczymy użytkowników, lecz liczymy ilość zapytań wysłanych do katalogów, klient co jakiś czas odświeża listę ich przekaźników i szacuje liczbę użytkowników pośrednio stamtąd.
Nie, lecz możemy zobaczyć jaka frakcja katalogów je zgłasza, a następnie jesteśmy w stanie ekstrapolować całkowitą liczbę w sieci.
Zakładamy, że przeciętny klient robi 10 takich zapytań dziennie.
Klient Tora, który jest podłączony 24/7 wykonuje około 15 zapytań dziennie, lecz nie każdy klient jest podłączony 24/7, więc wybieramy liczbę 10 jako średnia ilość dla każdego klienta.
Po prostu dzielimy ilość zapytań do katalogów przez 10 i zakładamy, że otrzymana liczba jest ilością użytkowników.
Innym sposobem patrzenia na to, jest założenie, że każde zapytanie reprezentuje klienta który jest online przez jedną dziesiąta dnia, więc 2 godziny i 24 minuty.
Średnia liczba jednoczesnych użytkowników, oszacowana z danych zebranych w ciągu dnia. Nie mamy możliwości podania informacji o ilości odrębnych użytkowników.
Nie, przekaźniki zgłaszają statystki agregując żądania według kraju pochodzenia oraz z okresu 24 godzin.
Statystyki które zbieralibyśmy w celu określenia liczby użytkowników na godzinę, byłyby zbyt dokładne, i mogłyby narazić użytkowników na niebezpieczeństwo.
Wtedy, liczymy tych użytkowników jako jednego. Tak naprawdę liczymy klienty, lecz bardziej intuicyjnym dla większości użytkowników jest myślenie o użytkownikach, dlatego mówimy że są to użytkownicy, nie klienty.
Nie, ponieważ ten użytkownik aktualizuje swoją listę przekaźników tak często, jak użytkownik, który nie zmienia adresu IP w ciągu dnia.
Katalogi zamieniają adresy IP na kody państw i raportują cyfry w agregowanej formie. To jeden z powodów, dlaczego Tor jest dostarczany z bazą danych GeoIP.
Niewiele mostów raportuje dane odnośnie transportowanej wersji IP, a domyślnie rozważamy żądania użycia domyślnego protokołu OR i IPv4.
Gdy więcej mostów zacznie raportować te dane, statystyki będą bardziej dokładne.
Przekaźniki i mosty zgłaszają dane w 24 godzinnych interwałach, które mogą minąć o jakiejkolwiek godzinie.
Po tym jak interwał minie, przekaźniki i mosty mogą mieć kolejne 18 godzin na zgłoszenie danych.
Usunęliśmy dwa ostatnie dni z wykresu, ponieważ chcemy uniknąć sytuacji, w której ostatni punkty danych na wykresie wskazuje ostatnią zmianę trendu, który jest wyłącznie artefaktem algorytmu.
Ponieważ publikujemy ilość użytkowników w momencie gdy jesteśmy na tyle pewni, że ich liczba się zbyt bardzo nie zmieni.
Lecz zawsze jest możliwość, że katalog zgłosił dane kilka godzin po tym jak byliśmy wystarczająco pewni, ale potem nieznacznie zmieniło to wykres.
Posiadamy archiwa deskryptorów sprzed tego okresu, lecz te deskryptory nie posiadają wszystkich danych, których używamy do określenia liczby użytkowników.
Więcej informacji można znaleźć w następującym archiwum:
Archiwum
Dla bezpośrednich użytkowników, dołączamy wszystkie katalogi, które nie były obecne w poprzednim podejściu.
Używamy również historii, które zawierają jedynie bajty wpisane w odpowiedzi na żądanie katalogu, co jest bardziej dokładne, niż używanie ogólnej historii bajtów.
Oh, to całkiem inna historia. Napisaliśmy 13 stronicowy raport techniczny wyjaśniający powód stojący za odejściem od starego podejścia.
tl;dr: w starym podejściu mierzyliśmy złą rzecz, a teraz mierzymy odpowiednią rzecz.
Prowadzimy system detekcji cenzury oparty na anomaliach, który patrzy na szacowane liczby użytkowników przez kilka dni i przewiduje liczbę użytkowników na następne dni.
Jeśli aktualna liczba jest wyższa lub niższa, może to sugerować możliwe ocenzurowane wydarzenie lub zwolnienie z cenzury.
Aby uzyskać więcej informacji, sprawdź nasz raport techniczny.