Tor Metrics

Aslında kullanıcıları saymıyoruz. Ancak istemcilerin düzenli aralıklarla aktarıcı listelerini güncellemek için yaptıkları istekleri sayarak dolaylı yoldan kullanıcı sayılarını kestiriyoruz.

Hayır, ancak dizinlerin hangi bölümünün bunları bildirdiğini görebiliriz ve buradan ağdaki toplam sayıyı kestirebiliriz.

We put in the assumption that the average client makes 10 such requests per day. A tor client that is connected 24/7 makes about 15 requests per day, but not all clients are connected 24/7, so we picked the number 10 for the average client. Basitçe dizin isteklerini 10 ile bölerek sonucu kullanıcı sayısı olarak kabul ediyoruz. Another way of looking at it, is that we assume that each request represents a client that stays online for one tenth of a day, so 2 hours and 24 minutes.

Bir günde toplanan verilerden kestirilen ortalama eşzamanlı kullanıcı sayısı. Farklı kaç kullanıcı olduğunu söyleyemeyiz.

Hayır. Bu istatistikleri bildiren aktarıcılar, istekleri kaynak ülkeye göre ve 24 saatlik aralıklar için derler. Saat başına kullanıcı sayısı için derlememiz gereken istatistikler çok ayrıntılı olur ve kullanıcıları riske atabilir.

Bu durumda bu kullanıcıları bir kişi olarak sayarız. İstemcileri gerçekten sayıyoruz, ancak çoğu insan sezgisel olarak sayıların kullanıcı olduğunu düşünür. Bu yüzden istemci sayısı yerine kullanıcı sayısı diyoruz.

Hayır, çünkü bu kullanıcı da aktarıcı listesini, IP adresini gün içinde değiştirmeyen bir kullanıcı ile aynı sıklıkta günceller.

Dizinler IP adreslerini ülke kodlarına çevirir ve bu sayıları toplu olarak bildirir. Tor uygulamasının GeoIP veritabanıyla birlikte sunulmasının nedenlerinden biri de budur.

Şu anda aktarımlar ya da IP sürümleri hakkında veri bildiren çok az sayıda köprü bulunuyor ve isteklerin varsayılan OR iletişim kuralı ile IPv4 kullandığını varsayıyoruz. Daha fazla köprü bu verileri bildirmeye başladığında daha doğru sayılar elde edilecektir.

Aktarıcılar ve köprüler, 24 saatlik aralıklarla günün herhangi bir saatinde bitebilen veriler bildirir.
Ve bu sürenin sonunda aktarıcılar ve köprülerin verileri bildirmesi 18 saat daha sürebilir.
Bir çizelgedeki son veri noktasının algoritmanın yapaylığından kaynaklanan yeni bir eğilim değişikliği göstermesini istemediğimizden son iki günü çizelgelere katmıyoruz,

Bu durum, kullanıcı sayılarını artık önemli ölçüde değişmeyeceğinden yeterince emin olduğumuzda yayınlamamızdan kaynaklanıyor. Ancak bir dizin, biz yeterince emin olduktan birkaç saat sonra yeniden veri bildirebilir. Bu durum da çizelgeyi biraz değiştirir.

O zamandan öncesine ait tanımlayıcı arşivlerimiz var. Ancak bu tanımlayıcılar kullanıcı sayılarını tahmin etmek için kullandığımız tüm verileri içermiyordu. Ayrıntılı bilgi almak için şu tarball paketine bakın:

Tarball

Doğrudan kullanıcılar için, eski yaklaşımda yapmadığımız şekilde tüm dizinleri katıyoruz. Ayrıca genel bayt geçmişlerini kullanmaya göre daha kesin olan ve yalnız dizin isteklerini yanıtlamak için yazılan baytları içeren geçmişleri kullanıyoruz.

Bu tamamen farklı bir hikaye. Eski yaklaşımdan vazgeçmemizin nedenini açıklayan 13 sayfa uzunluğunda bir teknik rapor yazdık.
tl;dr: Eski yaklaşımda yanlış şeyi ölçüyorduk şimdi doğru şeyi ölçüyoruz.

Bir kaç gün boyunca kestirilen kullanıcı sayılarına bakarak sonraki günlerdeki kullanıcı sayılarını öngören anormallik tabanlı bir sansür algılama sistemi çalıştırıyoruz. Gerçek sayı daha yüksek ya da daha düşükse, bu durum olası bir sansürlemeyi ya da sansürün kaldırıldığını gösterebilir. Ayrıntılı bilgi almak için taknik raporumuza bakabilirsiniz.