ما کاربران را نمیشماریم، اما درخواستها به دایرکتوریها که کلاینتها بهطور دورهای فهرست رلههای خود را بهروزرسانی میکنند و تعداد کاربران را بهطور غیرمستقیم از آنجا تخمین میزنند را میشماریم .
نه، ولی ما می توانیم ببینیم چه کسری از دایرکتوریها آنها را گزارش کرده اند، سپس مقدار کل را از شبکه استخراج می کنیم.
ما این فرض را داریم که کلاینت به طور متوسط 10 درخواست از این قبیل را در روز انجام میدهد.
یک کلاینت Tor که 24/7 متصل است حدود 15 درخواست در روز ارسال میکند، اما همه کلاینتها 24/7 متصل نیستند، بنابراین ما عدد 10 را برای کلاینت متوسط انتخاب کردیم.
ما درخواستهای دایرکتوری را تقسیم بر 10 میکنیم و نتیجه را به عنوان تعداد کاربر در نظر میگیریم.
روش دیگر بررسی این است که ما فرض کنیم که هر درخواست نشانگر کلاینتی است که یک دهم روز آنلاین میماند، یعنی 2 ساعت و 24 دقیقه.
میانگین تعداد کاربران همزمان، از داده جمعآوری شده در طول روز تخمین زده شده است. ما نمی توانیم بگوییم چند کاربر متمایز وجود دارند.
نه، رلههایی که این آمار را گزارش می کنند درخواستها را از کشورهای مبدا و در یک دوره 24 ساعته جمع میکنند.
آماری که نیاز به جمعآوری آن داریم تا بتوانیم تعداد کاربران در ساعت را بگوییم بسیار مشروح خواهد بود و ممکن است کاربران را به خطر بیاندازد.
اینطوری ما آن کاربران را یک کاربر در نظر میگیریم. ما در واقع کلاینتها را می شماریم، ولی برای اکثر افراد اینکه فکر کنند آنها کاربر هستند قابل درکتر است، برای همین است که میگوییم کاربر نه کلاینت.
نه، چون آن کاربر فهرست رلههای خود را به اندازه کاربری که نشانی IP خود را در طول روز تغییر نمی دهد بروزرسانی میکند.
دایرکتوریها نشانیهای IP را به کدهای کشورها تحلیل می کنند و این تعداد را در یک فرم جمع آوری گزارش می کنند. این یکی از دلایلی است که Tor همراه پایگاه داده GeoIP میآید.
تعداد کمی از پلها داده روی نقل و انتقال یا نسخههای IP گزارش می کنند، و به صورت پیشفرض ما در نظر میگیریم که درخواستها از پروتکل پیشفرض OR و IPv4 استفاده می کنند.
هر وقت پلها این داده ها را گزارش کردند، اعداد دقیق تر خواهند شد.
رلهها و پلها برخی دادهها را در بازههای 24-ساعت گذشته گزارش کرده اند که ممکن است در پایان روز به اتمام برسد.
و پس از اینکه چنین بازه ای پایان یافت رلهها و پلها ممکن است 18 است زمان ببرند تا دادهها را گزارش کنند.
ما دو روز آخر را از گرافها حذف کردیم، چون می خواهیم جلوی آخرین مشاهده در گراف که نشاندهنده یک روند تغییر است که در واقع دستساختی از الگوریتم است را بگیریم.
دلیل آن این است که ما زمانی تعداد کاربران را منتشر می کنیم که مطمئن باشیم به صورت قابل توجهی تغییر نخواهند کرد.
اما همیشه این احتمال وجود دارد که یک دایرکتوری داده را چند ساعت پس از اینکه ما به اندازه کافی اطمنیان داشتیم گزارش کند، که این باعث تغییر گراف شده است.
ما آرشیوهای توصیفی پیش از این زمان را داریم، اما آن توصیفگرها همهٔ دادههای مورد استفادهٔ ما برای تخمین تعداد کاربران را دربر نداشتند.
لطفاً تاربال زیر را برای جزئیات بیشتر پیدا کنید:
Tarball
برای کاربران مستقیم، ما همهٔ شاخهها را در نظر میگیریم، که در رویکرد قدیمی در نظر نمیگرفتیم.
ما از تاریخ هایی استفاده میکنیم که فقط حاوی بایت هستند تا بتوانند به درخواستهای دایرکتوری پاسخ دهند، که از استفاده تاریخهای کلی بایت دقیقتر هستند.
اوه، این یک داستان کاملاً متفاوت است. ما یک گزارش فنی 13 صفحه ای در توضیح دلایل برای کنار گذاشتن رویکرد قبلی نوشتیم.
tl;dr: در رویکرد قبلی چیزی که اندازه گیری می گرفتیم صحیح نبود، ولی الان صحیح است
ما یک سامانه شناسایی سانسور مبتنی بر بی هنجاری که به تعداد کاربران تخمین زده شده در یک سری روز نگاه می کند و تعداد کاربران در روزهای آتی را پیشبینی میکند را می گردانیم.
اگر عدد واقعی بیشتر یا کمتر باشد، این ممکن است نشاندهنده یک اتفاق سانسور احتمالی یا آزاد سازی سانسور باشد.
برای جزئیات بیشتر، گزارش فنی ما را ببینید.