Tor Metrics

На самом деле мы не считаем самих пользователей. Мы считаем обращения к управляющим серверам, где клиенты обновляют свои списки узлов, и таким косвенным образом оцениваем число пользователей.

Нет. Мы смотрим, какая часть управляющих серверов сообщила данные, а потом экстраполируем на всё сообщество и оцениваем общий результат.

Мы исходим из предположения, что средний клиент делает 10 подобных запросов ежедневно. Клиент Tor, который работает круглые сутки семь дней в неделю, совершает примерно 15 запросов ежедневно. Не все клиенты работают 24/7. Поэтому мы считаем среднее число запросов равным 10. Мы просто делим запросы на 10 и считаем результат количеством пользователей. Есть и другой подход: мы предполагаем, что каждый запрос относится к клиенту, который находится онлайн 1/10 часть суток, то есть, 2 часа 24 минуты.

Среднее число одновременно подключившихся пользователей. Рассчитывается из данных, собранных в течение дня. Мы не можем делать утверждения о точном числе пользователей.

Нет. Узлы, которые сообщают эту статистику, сортируют запросы по странам происхождения за период в 24 часа. Если бы мы собирали статистику о количестве пользователей в час, это были бы слишком точные данные: мы рисковали бы раскрыть наших пользователей.

Тогда мы считаем этих пользователей как одного. На самом деле, мы считаем клиентов, но большинству людей проще говорить и думать о пользователях. Поэтому мы говорим "пользователи", а не "клиенты".

Нет, поскольку такой пользователь обновляет свой список узлов так же часто, как и пользователь, который не меняет IP-адрес в течение дня.

Управляющие серверы преобразуют IP-адреса в коды стран. Эта информация собирается в обобщённом виде. (Одна из причин, по которой в комплект Tor включена база GeoIP).

Пока очень небольшое число мостов сообщает данные о транспортах или IP-версиях. По умолчанию мы считаем, что используются протокол OR и IPv4. Чем больше мостов будет сообщать эти данные, тем аккуратнее будут значения.

Узлы и мосты сообщают некоторые данные с промежутками в 24 часа. Эти промежутки могут сменяться в любое время суток.
По окончании такого промежутка мосту может понадобиться до 18 часов, чтобы сообщить данные.
Мы отбрасываем два последних дня сознательно. Мы не хотим, чтобы в последних значениях "обнаружился" новый тренд, который фактически отражает лишь погрешность алгоритма.

Причина в следующем. Мы публикуем статистику пользователей, когда уверены, что она уже существенно не изменится. Но всегда остается вероятность, что вскоре после публикации управляющий сервер сообщит новые данные, и это повлияет на статистику.

У нас есть архивы до 2011 года, но в них нет достаточных данных, чтобы оценить число пользователей. Если вам нужна более подробная информация, пожалуйста, загляните в этот архив:

Tarball

Для наших непосредственных пользователей мы включаем данные всех управляющих серверов, чего не было в прошлом. Мы также используем фрагменты данных, где содержатся только байты, отвечающие на запросы управляющих серверов. Это дает более точный результат, чем общие данные.

Это целая история. Мы написали 13-страничный технический отчет, в котором объясняется, почему мы отказались от прежнего подхода.
tl;dr: раньше мы измеряли неправильные вещи, а сейчас правильные.

У нас есть система определения цензуры на основе выявления аномалий. Эта система следит за числом пользователей на протяжении нескольких дней и предсказывает, сколько их будет в следующие дни. Если реальное число оказывается больше или меньше, это может сигнализировать об инциденте или о начале масштабной цензуры. Подробности можно прочесть в нашем техническом отчете.