24 de maio de 2009

RBLs (SpamCOP, CBL, SpamHaus e Sorbs): uma análise probabilística

Hoje em dia o ponto de partida na luta para bloquear spams são as RBLs. Computadores que são detectados enviando spams na internet são cadastrados pelos sistemas que administram estas listas. Na maioria dos casos todos podem consulta-las para rejeitar o spam antes mesmo que ele seja recebido e analisado pelo servidor, o que geraria um custo computacional e de banda de internet desnecessário.

Agora imagine uma situação onde após a entrada de um novo vendedor na empresa é criada uma conta de e-mail para ele. O novo funcionário divulga seu e-mail, que passa a ser usado normalmente. Um dia depois, ao analisar uma mensagem direcionada a ele, verifica-se que o IP do remetente está bloqueada em uma RBL. Neste ponto eu faço duas perguntas:

  1. Qual a probabilidade deste e-mail ser um spam?
  2. Qual o risco que a empresa correrá de descartar uma mensagem autêntica se descartar este e-mail?
Este exemplo mostra que é necessário fazer uma análise estatística e probabilística em cada RBL disponível na internet para entendermos exatamente os riscos e os ganhos que nós estamos lidando.

Eu analisei o tráfego de e-mails do Supramail durante uma manhã para fazer estas análises. Uma porproção das mensagens que chegaram foram sorteadas para o teste. Eu testei 8 RBLs: SpamCOP, Sorbs DNSBL, Sorbs SPAM, CBL, SpamHaus SBL, SpamHaus PBL, SpamHaus XBL e NjaBL. Para ter certeza dos dados eu solicitei que o Filipe, novo desenvolvedor da MAV com foco exclusivo no antispam, analisasse a lista de e-mails manualmente (pelo assuntos) para não haver erros nos resultados. Vou citar aqui alguns resultados interessantes.

De cara 3 listas foram imediatamente descartadas: a Sorbs SPAM, a SpamHaus SBL, utilizada atualmente pelo MAV 4.4 - Mail Security, e a NjaBL. As três apresentaram uma taxa de detecção de spams baixa tendo um nivel de falsos positivos comparável com o das outras.

A análise mostrou que se as cincos listas tivessem sido utilizadas cegamente nós acabaríamos tendo um falso positivo superior a 2%. Por "cegamente" entenda descartar uma mensagem quando o IP do remetente estiver bloqueado em qualquer uma delas. Por cegamente também entenda "o procedimento normal utilizado por todos os softwares que eu conheço que consultam RBLs", inclusive o MAV 4.4. Se bem que o MAV 4.4 tem diversos recursos que detectam falsos positivos de forma separada. De qualquer forma, 2% de chance de descartar uma mensagem autêntica é um risco extremamente alto na minha opinião.

A RBL que se saiu melhor nos testes foi a Sorbs DNSBL. A probabilidade de que um e-mail recebido de um IP bloqueado na Sorbs DNSBL fosse spam foi de 99,94%. Ou seja, o risco de falsos positivos foi de 0,06% (ou 1 em 1667 mensagens).

Outro resultado super interessante é que combinar as listas obtém resultados completamente confiáveis. Na média, apenas 1 em 32000 mensagens serão bloqueadas incorretamente se a mensagem for descartada quando o IP do remetente estiver bloqueado em 2 as 5 listas. Subindo o número para três a proporção sobe para 1 em 14 milhões. O mais interessante é que ao exigir o bloqueio em pelo menos 2 das 5 listas a taxa de bloqueio de spams cai apenas 9%.

Para mim, qualquer taxa de erro inferior a 1 em 20.000 vale o mesmo que não errar. Neste nível um usuário médio teria cerca de 60% de chance de não ver nenhuma mensagem autêntica descartada incorretamente durante 6 meses.

No final das contas o correto é considerar todas as informações com uma análise probabilística. O antispam do MAV 5.0 é completamente baseado neste direção. Nenhum parâmetro é suficiente para bloquear ou liberar uma mensagem por conta própria. E-mails enviados para usuários que recebem pouco spam são tratados de forma completamente diferente de e-mail enviados para usuários que recebem muito spam. Os 25% dos usuários que recebem menos que 10% de spam não podem ter e-mails analisados com as mesma força dos 25% dos usuários em que mais de 70% dos e-mails que recebem são spams.

Só é uma pena que, devido a característica proprietária da informação, eu não possa discutir as diferenças entre os métodos que são bons para identificar e-mails autênticos que não necessariamente identificam spams bem, comparando-os com os métodos que identificam spams bem mas não são bons para identificar e-mails autênticos. Pessoalmente, eu tive surpresas muito curiosas nos estudos que nós temos desenvolvido há alguns meses nesta área.

Um abraço e tenham um bom dia.

Nenhum comentário: