معیار‌های Tor

ما کاربران را نمی‌شماریم، اما درخواست‌ها به دایرکتوری‌ها که کلاینت‌ها به‌طور دوره‌ای فهرست رله‌های خود را به‌روزرسانی می‌کنند و تعداد کاربران را به‌طور غیرمستقیم از آنجا تخمین می‌زنند را می‌شماریم .

نه، ولی ما می توانیم ببینیم چه کسری از دایرکتوری‌ها آن‌ها را گزارش کرده اند، سپس مقدار کل را از شبکه استخراج می کنیم.

ما این فرض را داریم که کلاینت به طور متوسط 10 درخواست از این قبیل را در روز انجام می‌دهد. یک کلاینت Tor که 24/7 متصل است حدود 15 درخواست در روز ارسال می‌کند، اما همه کلاینت‌ها 24/7 متصل نیستند، بنابراین ما عدد 10 را برای کلاینت متوسط انتخاب کردیم. ما درخواست‌های دایرکتوری را تقسیم بر 10 می‌کنیم و نتیجه را به عنوان تعداد کاربر در نظر می‌گیریم. روش دیگر بررسی این است که ما فرض کنیم که هر درخواست نشانگر کلاینتی است که یک دهم روز آنلاین می‌ماند، یعنی 2 ساعت و 24 دقیقه.

میانگین تعداد کاربران ‌هم‌زمان، از داده جمع‌آوری شده در طول روز تخمین زده شده است. ما نمی توانیم بگوییم چند کاربر متمایز وجود دارند.

نه، رله‌هایی که این آمار را گزارش می کنند درخواست‌ها را از کشور‌های مبدا و در یک دوره 24 ساعته جمع می‌کنند. آماری که نیاز به جمع‌آوری آن داریم تا بتوانیم تعداد کاربران در ساعت را بگوییم بسیار مشروح خواهد بود و ممکن است کاربران را به خطر بیاندازد.

اینطوری ما آن کاربران را یک کاربر در نظر می‌گیریم. ما در واقع کلاینت‌ها را می شماریم، ولی برای اکثر افراد اینکه فکر کنند آن‌ها کاربر هستند قابل درک‌تر است، برای همین است که می‌گوییم کاربر نه کلاینت.

نه، چون آن کاربر فهرست رله‌های خود را به اندازه کاربری که نشانی IP خود را در طول روز تغییر نمی دهد بروز‌رسانی می‌کند.

دایرکتوری‌ها نشانی‌های IP را به کد‌های کشورها تحلیل می کنند و این تعداد را در یک فرم جمع آوری گزارش می کنند. این یکی از دلایلی است که Tor همراه پایگاه داده GeoIP می‌آید.

تعداد کمی از پل‌ها داده روی نقل و انتقال یا نسخه‌های IP گزارش می کنند، و به صورت پیش‌فرض ما در نظر می‌گیریم که درخواست‌ها از پروتکل پیش‌فرض OR و IPv4 استفاده می کنند. هر وقت پل‌ها این داده ها را گزارش کردند، اعداد دقیق تر خواهند شد.

رله‌ها و پل‌ها برخی داده‌ها را در بازه‌های 24-ساعت گذشته گزارش کرده اند که ممکن است در پایان روز به اتمام برسد.
و پس از اینکه چنین بازه ای پایان یافت رله‌ها و پل‌ها ممکن است 18 است زمان ببرند تا داده‌ها را گزارش کنند.
ما دو روز آخر را از گراف‌ها حذف کردیم، چون می خواهیم جلوی آخرین مشاهده در گراف که نشان‌دهنده یک روند تغییر است که در واقع دست‌ساختی از الگوریتم است را بگیریم.

دلیل آن این است که ما زمانی تعداد کاربران را منتشر می کنیم که مطمئن باشیم به صورت قابل توجهی تغییر نخواهند کرد. اما همیشه این احتمال وجود دارد که یک دایرکتوری داده را چند ساعت پس از اینکه ما به اندازه کافی اطمنیان داشتیم گزارش کند، که این باعث تغییر گراف شده است.

ما آرشیوهای توصیفی پیش از این زمان را داریم، اما آن توصیف‌گر‌ها همهٔ داده‌های مورد استفادهٔ ما برای تخمین تعداد کاربران را دربر نداشتند. لطفاً تاربال زیر را برای جزئیات بیشتر پیدا کنید:

Tarball

برای کاربران مستقیم، ما همهٔ شاخه‌ها را در نظر می‌گیریم، که در رویکرد قدیمی در نظر نمی‌گرفتیم. ما از تاریخ هایی استفاده می‌کنیم که فقط حاوی بایت هستند تا بتوانند به درخواست‌های دایرکتوری پاسخ دهند، که از استفاده تاریخ‌های کلی بایت دقیق‌تر هستند.

اوه، این یک داستان کاملاً متفاوت است. ما یک گزارش فنی 13 صفحه ای در توضیح دلایل برای کنار گذاشتن رویکرد قبلی نوشتیم.
tl;dr: در رویکرد قبلی چیزی که اندازه گیری می گرفتیم صحیح نبود، ولی الان صحیح است

ما یک سامانه شناسایی سانسور مبتنی بر بی هنجاری که به تعداد کاربران تخمین زده شده در یک سری روز نگاه می کند و تعداد کاربران در روز‌های آتی را پیش‌بینی می‌کند را می گردانیم. اگر عدد واقعی بیشتر یا کمتر باشد، این ممکن است نشان‌دهنده یک اتفاق سانسور احتمالی یا آزاد سازی سانسور باشد. برای جزئیات بیشتر، گزارش فنی ما را ببینید.