Métricas do Tor

Na verdade, não contamos usuários, mas contamos solicitações aos diretórios que os clientes fazem periodicamente para atualizar sua lista de retransmissores e estimar o número de usuários indiretamente a partir daí.

Não, mas nós podemos ver qual fração desses diretórios reportam e então nós podemos extrapolar o número para o total da rede.

Colocamos como hipótese de que um cliente médio faz 10 solicitações desse tipo por dia. Um cliente tor que está conectado 24/7 faz cerca de 15 pedidos por dia, mas nem todos os clientes estão conectados 24/7, então escolhemos o número 10 para a média de um cliente. Nós simplesmente dividimos as solicitações de diretórios por 10 e consideramos o resultado como o número de usuários. Outra maneira de ver isso, é que assumimos que cada requisição representa um cliente que fica online por um décimo de dia, portanto 2 horas e 24 minutos.

Número médio de usuários concomitantes, estimados através da informação coletada durante o dia. Nós não podemos dizer quantos usuários distintos existem.

Não, os retransmissores que reportam essas estatísticas agregam as solicitações por país de origem e a cada período de 24 horas. As estatísticas que nós deveríamos coletar para obter o número de usuários por hora precisariam ser muito detalhadas e poderiam por usuários em risco.

Então nós contamos esses usuários como um. Nós realmente contamos clientes, mas é mais intuitivo para a maioria das pessoas pensar em usuários, é por isso que nós dizemos usuários e não clientes.

Não, porque aquele usuário atualiza sua lista de retransmissores com a mesma frequência que um usuário que não muda seu endereço de IP durante o dia.

Os diretórios determinam os endereços IP para os códigos de país e reportam esses números de maneira agregada. Esta é uma das razões por que o Tor vem com um banco de dados GeoIP.

Ainda há muito poucas pontes que reportam informação sobre transporte ou versões IP e por padrão nós consideramos solicitações para usar o padrão ou o protocolo e IPv4. Assim que mais pontes reportem essa informação, os números irão se tornar mais precisos.

Retransmissores e pontes reportam uma parte dos dados em intervalos de 24 horas o que pode acabar em qualquer parte do dia.
E após esse intervalo acabar retransmissores e pontes podem levar outras 18 horas até reportarem os dados.
Nós descartamos os últimos dois dias dos gráficos, porque nós queremos evitar que o ultimo ponto de dados em um gráfico indique uma mudança de tendência recente, o que de fato é apenas um artefato do algoritmo.

O motivo é que nós publicamos os números de usuários uma vez que temos confiança suficiente que eles não irão mudar significantemente mais. Porém é sempre possível que um diretório reporte dados algumas horas depois que nós ficamos confiantes o suficiente, os quais então alteram levemente o gráfico.

Nós temos arquivos descritores anteriores àquela época, porém esses descritores não contém toda a informação, nós costumávamos estimar os números de usuários. Por favor encontre o seguinte arquivo tarball para mais detalhes:

Tarball

Para usuários diretos, nós incluímos todos os diretórios o que nós não fazíamos na antiga abordagem. Nós também usamos históricos que apenas contém bytes escritos para responder solicitações de diretório, o que é mais preciso do que usar o histórico de bytes genérico.

Ah, isto é uma história totalmente diferente. Nós escrevemos um relatório técnico longo de 13 páginas explicando as razões para desativar a antiga abordagem.
tl;dr: na antiga abordagem nós mediamos a coisa errada e agora nós medimos a coisa certa.

Nós executamos um sistema de detecção de censura baseado em anomalias que procura por números de usuários estimados por uma séries de dias e prevê o número de usuários nos próximos dias. Se o número real é maior ou menos isto pode indiar um possível evento de censura ou o término de uma censura. Para mais detalhes, veja nosso relatório técnico.