متریک‌های Tor

ما کاربران را نمی‌شماریم، اما درخواست‌ها به دایرکتوری‌ها که کلاینت‌ها به‌طور دوره‌ای فهرست رله‌های خود را به‌روزرسانی می‌کنند و تعداد کاربران را به‌طور غیرمستقیم از آنجا تخمین می‌زنند را می‌شماریم .

نه، ولی ما می توانیم ببینیم چه کسری از فهرست‌ها آنان را گزارش کردند، آنگاه می‌توانیم تعداد کل را در شبکه حدس بزنیم.

ما این فرض را داریم که کلاینت به طور متوسط 10 درخواست از این قبیل را در روز انجام می‌دهد. یک کلاینت Tor که 24/7 متصل است حدود 15 درخواست در روز ارسال می‌کند، اما همه کلاینت‌ها 24/7 متصل نیستند، بنابراین ما عدد 10 را برای کلاینت متوسط انتخاب کردیم. ما درخواست‌های دایرکتوری را تقسیم بر 10 می‌کنیم و نتیجه را به عنوان تعداد کاربر در نظر می‌گیریم. روش دیگر بررسی این است که ما فرض کنیم که هر درخواست نشانگر کلاینتی است که یک دهم روز آنلاین می‌ماند، یعنی 2 ساعت و 24 دقیقه.

میانگین تعداد کاربران همزمان، از داده‌های جمع‌آوری‌شده در طول یک روز تخمین زده می‌شود. ما نمی‌توانیم بگوییم چند کاربر متمایز وجود دارد.

نه، رله‌هایی که این آمار را گزارش می کنند درخواست‌ها را از کشور‌های مبدا و در یک دوره 24 ساعته جمع می‌کنند. آماری که نیاز به جمع‌آوری آن داریم تا بتوانیم تعداد کاربران در هر ساعت را بگوییم پرجزئیات خواهد بود و ممکن است کاربران را به خطر بیاندازد.

اینطوری ما آن کاربران را یک کاربر در نظر می‌گیریم. ما در واقع کلاینت‌ها را می شماریم، ولی برای اکثر افراد اینکه فکر کنند آن‌ها کاربر هستند قابل درک‌تر است، برای همین است که می‌گوییم کاربر نه کلاینت.

نه، چون آن کاربر فهرست رله‌های خود را به اندازه کاربری که نشانی IP خود را در طول روز تغییر نمی دهد بروز‌رسانی می‌کند.

فهرست‌ها نشانی‌های IP را به کدهای کشور ترجمه می‌کنند و این اعداد را در یک فرم تجمعی گزارش می‌کنند. این یکی از دلایلی است که Tor با یک پایگاه‌داده GeoIP عرضه می‌شود.

تعداد کمی از پل‌ها داده‌هایی در مورد انتقال‌ها و نسخه‌ٔ IP گزارش می‌کنند، و به‌صورت پیش‌فرض ما فرض می‌کنیم درخواست‌ها از پروتکل پیش‌فرض OR و IPv4 استفاده ‌می‌کنند. هنگامی که پل‌های بیشتری این داده‌ها را گزارش کنند، اعداد دقیق‌تر خواهند شد.

رله‌ها و پل‌ها برخی داده‌ها را در بازه‌های ۲۴-ساعتی گذشته گزارش می‌کنند که ممکن است در پایان روز به اتمام برسد.
و پس از اینکه چنین بازه‌ای تمام شد رله‌ها و پل‌ها ممکن است ۱۸ ساعت دیگر زمان ببرند تا داده‌ها را گزارش کنند.
ما دو روز آخر را از گراف‌ها حذف کردیم، چون می‌خواهیم از اینکه آخرین نقطهٔ داده در یک گراف نشان‌دهندهٔ یک تغییر روند باشد جلوگیری کنیم که در واقع آرتیفکتی از الگوریتم است.

دلیل آن این است که ما زمانی تعداد کاربران را منتشر می کنیم که مطمئن باشیم که دیگر به‌صورت قابل‌توجهی تغییر نخواهند کرد. اما همیشه این احتمال وجود دارد که یک فهرست، داده‌ها را چند ساعت پس از اینکه ما به اندازه کافی مطمئن بودیم، که این باعث تغییر گراف شده است.

ما آرشیوهای توصیفگرهای مربوط به پیش از این زمان را داریم، اما آن توصیف‌گر‌ها همهٔ داده‌هایی را که ما برای تخمین تعداد کاربران استفاده می‌کنیم، در بر نداشتند. لطفاً تاربال زیر را برای جزئیات بیشتر پیدا کنید:

Tarball

برای کاربران مستقیم، ما همهٔ شاخه‌ها را در نظر می‌گیریم، که در رویکرد قدیمی در نظر نمی‌گرفتیم. ما از تاریخ هایی استفاده می‌کنیم که فقط حاوی بایت هستند تا بتوانند به درخواست‌های دایرکتوری پاسخ دهند، که از استفاده تاریخ‌های کلی بایت دقیق‌تر هستند.

اوه، این داستانی کاملاً متفاوت است. ما یک گزارش فنی ۱۳ صفحه‌ای در توضیح دلایل کنارگذاری رهیافت قدیمی نوشتیم.
به‌طور خلاصه: در رهیافت قدیمی چیز اشتباهی را اندازه‌گیری می‌کردیم، و حالا چیز درستی را اندازه‌گیری می‌کنیم.

ما یک سیستم تشخیص سانسور مبتنی بر ناهنجاری اجرا می‌کنیم که به تعداد کاربران در چندین روز نگاه می‌کند و تعداد کاربران را در روزهای آتی پیش‌بینی می‌کند. اگر عدد واقعی بالاتر یا پایین‌تر باشد، این ممکن است یک رویداد سانسور ممکن یا قطع سانسور را نشان دهد. برای جزئیات بیشتر، گزارش فنی ما را ببینید.