معیار‌های تور

ما کاربران را نمی‌شماریم، اما درخواست‌ها به دایرکتوری‌ها که کلاینت‌ها به‌طور دوره‌ای فهرست رله‌های خود را به‌روزرسانی می‌کنند و تعداد کاربران را به‌طور غیرمستقیم از آنجا تخمین می‌زنند را می‌شماریم .

نه، ولی ما می توانیم ببینیم چه کسری از دایرکتوری‌ها آن‌ها را گزارش کرده اند، سپس مقدار کل را از شبکه استخراج می کنیم.

ما این فرض را داریم که کلاینت به طور متوسط 10 درخواست از این قبیل را در روز انجام می‌دهد. یک کلاینت Tor که 24/7 متصل است حدود 15 درخواست در روز ارسال می‌کند، اما همه کلاینت‌ها 24/7 متصل نیستند، بنابراین ما عدد 10 را برای کلاینت متوسط انتخاب کردیم. ما درخواست‌های دایرکتوری را تقسیم بر 10 می‌کنیم و نتیجه را به عنوان تعداد کاربر در نظر می‌گیریم. روش دیگر بررسی این است که ما فرض کنیم که هر درخواست نشانگر کلاینتی است که یک دهم روز آنلاین می‌ماند، یعنی 2 ساعت و 24 دقیقه.

میانگین تعداد کاربران ‌هم‌زمان، از داده جمع‌آوری شده در طول روز تخمین زده شده است. ما نمی توانیم بگوییم چند کاربر متمایز وجود دارند.

نه، رله‌هایی که این آمار را گزارش می کنند درخواست‌ها را از کشور‌های مبدا و در یک دوره 24 ساعته جمع می‌کنند. آماری که نیاز به جمع‌آوری آن داریم تا بتوانیم تعداد کاربران در ساعت را بگوییم بسیار مشروح خواهد بود و ممکن است کاربران را به خطر بیاندازد.

اینطوری ما آن کاربران را یک کاربر در نظر می‌گیریم. ما در واقع کلاینت‌ها را می شماریم، ولی برای اکثر افراد اینکه فکر کنند آن‌ها کاربر هستند قابل درک‌تر می باشد، برای همین است که می‌گوییم کاربر نه کلاینت.

نه، چون آن کاربر فهرست رله‌های خود را به اندازه کاربری که نشانی IP خود را در طول روز تغییر نمی دهد بروز‌رسانی می‌کند.

دایرکتوری‌ها نشانی‌های IP را به کد‌های کشورها تحلیل می کنند و این تعداد را در یک فرم جمع آوری گزارش می کنند. این یکی از دلایلی است که تور همراه پایگاه داده GeoIP می‌آید.

تعداد کمی از پل‌ها داده روی نقل و انتقال یا نسخه‌های IP گزارش می کنند، و به صورت پیش‌فرض ما در نظر می‌گیریم که درخواست‌ها از پروتکل پیش‌فرض OR و IPv4 استفاده می کنند. هر وقت پل‌ها این داده ها را گزارش کردند، اعداد دقیق تر خواهند شد.

رله‌ها و پل‌ها برخی داده‌ها را در بازه‌های 24-ساعت گذشته گزارش کرده اند که ممکن است در پایان روز به اتمام برسد.
و پس از اینکه چنین بازه ای پایان یافت رله‌ها و پل‌ها ممکن است 18 است زمان ببرند تا داده‌ها را گزارش کنند.
ما دو روز آخر را از گراف‌ها حذف کردیم، چون می خواهیم جلوی آخرین مشاهده در گراف که نشان‌دهنده یک روند تغییر می باشد که در واقع دست‌ساختی از الگوریتم است را بگیریم.

دلیل آن این است که ما زمانی تعداد کاربران را منتشر می کنیم که مطمئن باشیم به صورت قابل توجهی تغییر نخواهند کرد. اما همیشه این احتمال وجود دارد که یک دایرکتوری داده را چند ساعت پس از اینکه ما به اندازه کافی اطمنیان داشتیم گزارش کند، که این باعث تغییر گراف شده است.

ما بایگانی‌های توصیف‌گر که قبل از آن بودند را داریم، اما آن توصیف‌گر‌ها تمام داده برای تخمین تعداد کاربران را نداشتند. لطفاً تاربال زیر را برای جزئیات بیشتر پیدا کنید:

Tarball

برای کاربران مستقیم، ما تمام دایرکتوری‌ها را که در رویکرد قدیمی در بر گرفته نمی شد را در بر می‌گیریم. ما از تاریخ هایی استفاده می‌کنیم که فقط حاوی بایت هستند تا بتوانند به درخواست‌های دایرکتوری پاسخ دهند، که از استفاده تاریخ‌های کلی بایت دقیق‌تر می‌باشند.

اوه، این یک داستان کاملاً متفاوت است. ما یک گزارش فنی 13 صفحه ای در توضیح دلایل برای کنار گذاشتن رویکرد قبلی نوشتیم.
tl;dr: در رویکرد قبلی چیزی که اندازه گیری می گرفتیم صحیح نبود، ولی الان صحیح می باشد

ما یک سامانه شناسایی سانسور مبتنی بر بی هنجاری که به تعداد کاربران تخمین زده شده در یک سری روز نگاه می کند و تعداد کاربران در روز‌های آتی را پیش‌بینی می‌کند را می گردانیم. اگر عدد واقعی بیشتر یا کمتر باشد، این ممکن است نشان‌دهنده یک اتفاق سانسور احتمالی یا آزاد سازی سانسور باشد. برای جزئیات بیشتر، گزارش فنی ما را ببینید.