Métricas do Tor

We actually don't count users, but we count requests to the directories that clients make periodically to update their list of relays and estimate number of users indirectly from there.

Não, mas nós podemos ver qual fração desses diretórios reportam e então nós podemos extrapolar o número para o total da rede.

Colocamos como hipótese de que um cliente médio faz 10 solicitações desse tipo por dia. Um cliente tor que está conectado 24/7 faz cerca de 15 pedidos por dia, mas nem todos os clientes estão conectados 24/7, então escolhemos o número 10 para a média de um cliente. Nós simplesmente dividimos as solicitações de diretórios por 10 e consideramos o resultado como o número de usuários. Outra maneira de ver isso, é que assumimos que cada requisição representa um cliente que fica online por um décimo de dia, portanto 2 horas e 24 minutos.

Número médio de usuários concomitantes, estimados através da informação coletada durante o dia. Nós não podemos dizer quantos usuários distintos existem.

Não, os retransmissores que reportam essas estatísticas agregam as solicitações por país de origem e a cada período de 24 horas. As estatísticas que nós deveríamos coletar para obter o número de usuários por hora precisariam ser muito detalhadas e poderiam por usuários em risco.

Então nós contamos esses usuários como um. Nós realmente contamos clientes, mas é mais intuitivo para a maioria das pessoas pensar em usuários, é por isso que nós dizemos usuários e não clientes.

Não, porque aquele usuário atualiza sua lista de retransmissores com a mesma frequência que um usuário que não muda seu endereço de IP durante o dia.

Os diretórios determinam os endereços IP para os códigos de país e reportam esses números de maneira agregada. Esta é uma das razões por que o Tor vem com um banco de dados GeoIP.

Ainda há muito poucas pontes que reportam informação sobre transporte ou versões IP e por padrão nós consideramos solicitações para usar o padrão ou o protocolo e IPv4. Assim que mais pontes reportem essa informação, os números irão se tornar mais precisos.

Retransmissores e pontes reportam uma parte dos dados em intervalos de 24 horas o que pode acabar em qualquer parte do dia.
E após esse intervalo acabar retransmissores e pontes podem levar outras 18 horas até reportarem os dados.
Nós descartamos os últimos dois dias dos gráficos, porque nós queremos evitar que o ultimo ponto de dados em um gráfico indique uma mudança de tendência recente, o que de fato é apenas um artefato do algoritmo.

O motivo é que nós publicamos os números de usuários uma vez que temos confiança suficiente que eles não irão mudar significantemente mais. Porém é sempre possível que um diretório reporte dados algumas horas depois que nós ficamos confiantes o suficiente, os quais então alteram levemente o gráfico.

Nós temos arquivos descritores anteriores àquela época, porém esses descritores não contém toda a informação, nós costumávamos estimar os números de usuários. Por favor encontre o seguinte arquivo tarball para mais detalhes:

Tarball

Para usuários diretos, nós incluímos todos os diretórios o que nós não fazíamos na antiga abordagem. Nós também usamos históricos que apenas contém bytes escritos para responder solicitações de diretório, o que é mais preciso do que usar o histórico de bytes genérico.

Ah, isto é uma história totalmente diferente. Nós escrevemos um relatório técnico longo de 13 páginas explicando as razões para desativar a antiga abordagem.
tl;dr: na antiga abordagem nós mediamos a coisa errada e agora nós medimos a coisa certa.

Nós executamos um sistema de detecção de censura baseado em anomalias que procura por números de usuários estimados por uma séries de dias e prevê o número de usuários nos próximos dias. Se o número real é maior ou menos isto pode indiar um possível evento de censura ou o término de uma censura. Para mais detalhes, veja nosso relatório técnico.