Métricas do Tor

Na verdade, não contamos usuários, mas contamos solicitações para os diretórios que os clientes fazem periodicamente para atualizar sua lista de retransmissões e estimar indiretamente os números de usuários a partir daí.

Não, mas nós podemos ver qual fração desses diretórios reportam e então nós podemos extrapolar o número para o total da rede.

We put in the assumption that the average client makes 10 such requests per day. A tor client that is connected 24/7 makes about 15 requests per day, but not all clients are connected 24/7, so we picked the number 10 for the average client. Nós simplesmente dividimos as solicitações de diretórios por 10 e consideramos o resultado como o número de usuários. Another way of looking at it, is that we assume that each request represents a client that stays online for one tenth of a day, so 2 hours and 24 minutes.

Número médio de usuários concomitantes, estimados através da informação coletada durante o dia. Nós não podemos dizer quantos usuários distintos existem.

Não, os relês que reportam essas estatísticas agregam as solicitações por país de origem e a cada período de 24 horas. As estatísticas que nós deveríamos coletar para obter o número de usuários por hora precisariam ser muito detalhadas e poderiam por usuários em risco.

Então nós contamos esses usuários como um. Nós realmente contamos clientes, mas é mais intuitivo para a maioria das pessoas pensar em usuários, é por isso que nós dizemos usuários e não clientes.

Não, porque aquele usuário atualiza sua lista de relês com a mesma frequência que um usuário que não muda seu endereço de IP durante o dia.

Os diretórios determinam os endereços IP para os códigos de país e reportam esses números de maneira agregada. Esta é uma das razões por que o Tor vem com um banco de dados GeoIP.

Ainda há muito poucas pontes que reportam informação sobre transporte ou versões IP e por padrão nós consideramos solicitações para usar o padrão ou o protocolo e IPv4. Assim que mais pontes reportem essa informação, os números irão se tornar mais precisos.

Relês e pontes reportam uma parte dos dados em intervalos de 24 horas o que pode acabar em qualquer parte do dia.
E após esse intervalo acabar relês e pontes podem levar outras 18 horas até reportarem os dados.
Nós descartamos os últimos dois dias dos gráficos, porque nós queremos evitar que o ultimo ponto de dados em um gráfico indique uma mudança de tendência recente, o que de fato é apenas um artefato do algoritmo.

O motivo é que nós publicamos os números de usuários uma vez que temos confiança suficiente que eles não irão mudar significantemente mais. Porém é sempre possível que um diretório reporte dados algumas horas depois que nós ficamos confiantes o suficiente, os quais então alteram levemente o gráfico.

Nós temos arquivos descritores anteriores àquela época, porém esses descritores não contém toda a informação, nós costumávamos estimar os números de usuários. Por favor encontre o seguinte arquivo tarball para mais detalhes:

Tarball

Para usuários diretos, nós incluímos todos os diretórios o que nós não fazíamos na antiga abordagem. Nós também usamos históricos que apenas contém bytes escritos para responder solicitações de diretório, o que é mais preciso do que usar o histórico de bytes genérico.

Ah, isto é uma história totalmente diferente. Nós escrevemos um relatório técnico longo de 13 páginas explicando as razões para desativar a antiga abordagem.
tl;dr: na antiga abordagem nós mediamos a coisa errada e agora nós medimos a coisa certa.

Nós executamos um sistema de detecção de censura baseado em anomalias que procura por números de usuários estimados por uma séries de dias e prevê o número de usuários nos próximos dias. Se o número real é maior ou menos isto pode indiar um possível evento de censura ou o término de uma censura. Para mais detalhes, veja nosso relatório técnico.