+55 11 2189-0061

Escavando o Escavador

Por Maria Cecília Oliveira Gomes

 

O Escavador é um site de buscas que disponibiliza em seu conteúdo informações coletadas a partir da mineração de dados da Deep Web. Na página principal do Escavador é possível verificar a sua finalidade, ou melhor, como o próprio site diz o seu objetivo, o qual é: “coletar informações da web profunda, que se refere ao conteúdo disponível na rede que não é indexado pela maior parte dos buscadores, e disponibilizá-las de maneira significativa e organizada.”

Em relação a isto, vale elucidar alguns pontos. Ultimamente, o conceito de Deep Web tem sido entendido como a web que hospeda a Dark Web, onde você pode comprar quaisquer serviços ilícitos no Black Market (drogas, pornografia, pedofilia, etc.). Ainda, aquela que você só pode acessar utilizando o programa Tor, e que possui várias camadas de acesso. Mas este conceito está um pouco distorcido, senão vejamos.

Podemos entender a Deep Web como um gênero, onde todo o conteúdo disponibilizado na internet se encontra. A partir desse gênero, podemos ter duas espécies de Deep Web, as quais vamos intitular de: a comum e a underground.

A comum é a web que contém todo o conteúdo que pode ser acessado, mas que não é sempre indexado pelos buscadores. Estima-se que 85% dos usuários da internet, utilizam de buscadores para encontrar informações, assim, todo conteúdo que não é indexado por eles acaba ficando “escondido” da grande massa de usuários. Quando é afirmado que a internet é como um Iceberg, estando na parte mais profunda a Deep Web, e na ponta do Iceberg a Surface Web, significa que os sites de buscas, que são responsáveis pela grande concentração do conteúdo acessado, não chegam a indexar uma quantidade considerável de conteúdo, mas apenas uma pequena parcela de todo o conteúdo da rede.

Já a web underground, é aquela atribuída como responsável por todo conteúdo que não sofre monitoramento, ou seja, onde o tráfego de informações e disponibilizações não possuem restrições. O underground da Deep Web é conhecido na rede pelo seu Black Market, que no caso, são sites, fóruns, etc. Onde se vendem serviços ilegais, como assassinato, drogas, pornografia infantil, entre outros. Mas não se restringe a apenas isso, diante do monitoramento expressivo da Surface Web, alguns usuários que possuem expertise nessa parte, preferem se utilizar do underground para trocar informações, publicar livros e artigos sem restrições, como por exemplo os Wikileaks.

Feita uma breve síntese sobre a Deep Web, visto que já existem inúmeros artigos sobre isto, cumpre explicar o conceito do site Escavador. Este informa, como já foi exposto, que minera dados a partir da Deep Web mais profunda. Essa afirmação significa que o (a) usuário (a) do Escavador minera os dados da Deep Web comum, e indexa o conteúdo minerado em seu site, uma vez que os sites de pesquisa não indexam todo o conteúdo da rede. Ou seja, o site não extrai informações do submundo, mas apenas aquelas que diante do fluxo de dados da rede não são indexadas pelos buscadores.

Por conseguinte, geralmente as pessoas associam a mineração de dados automaticamente a mineração de Bitcoin, mas não é o presente caso. A mineração de dados ou o data mining se dá de diferentes formas, dependendo da escolha de padrões para a mineração. Considerando que a quantidade de dados existentes atualmente na internet, seja ela deep ou surface, é astronômica, para processar uma busca de dados, é necessário fixar padrões, através de fórmulas, para que o computador possa identificar e filtrar as informações que você deseja localizar.

Trazendo a mineração para o que é informado no Escavador, o qual computa em suahome a quantidade de dados minerados, este utiliza a priori três filtros: pessoas, instituições e processos. Provavelmente (é uma suposição), diante da enorme quantidade que pode ser encontrada dentro desses três filtros citados, o usuário do Escavador formulou dentro deles novos padrões, com a finalidade de refinar ainda mais o conteúdo procurado. Assim, pesquisando um nome por exemplo, você verá um filtro do seu nome, cuja base principal é o CNPQ, vulgo Lattes; instituições, cuja base são escolas e faculdades; e processos, cuja base são ações judiciais trabalhistas.

Ato contínuo, para realizar essa mineração de dados entre a Deep Web e a Sufarce Web são necessários um ou mais computadores, que trabalhem exclusivamente fazendo mineração. E que irão através das fórmulas de pesquisas selecionadas, direcionar os dados filtrados para uma database, e desta para o Escavador.

Em relação a isto, vale ressaltar que a mineração não é massiva, a contar da quantidade de dados que foram verificados no site, assim como, pela contagem de dados diários no último mês não ter aumentado de forma significativa.

Isto posto, cumpre fazer algumas considerações acerca do site Escavador. Este foi registrado em 06/10/2014, possuindo como serviço de Content Delivery Network (CDN) o Cloudflare, como proteção de domínio o Privacy Protection e como registro de domínio o Public Domain Registry.

Mas para entender a fundo o conceito do Escavador, é necessário entender o seu sistema. A princípio o Escavador possui três intermediários de acesso, no caso, um servidor de CDN, um servidor de proteção de domínio e um servidor de registro de domínio. O Cloudflare funciona como um CDN que redistribui todos os acessos a diversos servidores no mundo, fato este que acelera a velocidade de transmissão de dados, assim como, impede que o site seja invadido por DDoS, exploits, redes zumbis, etc, que geralmente diminuem a velocidade do site, e fazem ele sair do ar.

Ultrapassado isto, cumpre considerar o Privacy Protection, este é um serviço contratado que é adquirido com a finalidade de proteger o domínio. Quando uma pessoa compra um domínio e o registra sob o nome escolhido, ela precisa preencher um formulário com informações de cadastros, é o que acontece quando você registra um site utilizando o . Com ou . Com. Br. Assim, para o seus dados não serem localizados na pesquisa do Whois por exemplo e para proteger os seus dados de ataques, você adquire o serviço do Privacy Protection e os seus dados ficam todos sigilosos, direcionados para o servidor deste. Como por exemplo o site demonstra:

Analisando o Whois[1] do Escavador, podemos perceber que os dados registrados pelo site, são os mesmos indicados na coluna do lado direito na imagem, uma vez que não são dados reais, são dados padrões de registro do Privacy Protection.

E por fim, o Public Domain Registry, este possui como finalidade registrar o domínio do site, é como se fosse o registro. Br, lá você escolhe o nome do site, e sob qual domínio ele irá ser registrado (p. Ex.. Com,. Net,. Info, etc). Assim, contratando o serviço você paga pela utilização do domínio e seus dados ficam direcionados para a base deles.

A contratação dos três referidos serviços não é atípica, uma vez que tais serviços são utilizados por diversos sites ao redor do mundo, mas apenas demonstram que obter informações de forma legal sobre os dados cadastrais do site Escavador para eventual persecução judicial, não é algo possível através de uma simples consulta no Whois.

Ultimamente tem havido um aumento na quantidade de reclamações sobre o site Escavador, uma vez que ele disponibiliza, ou melhor, indexa na rede conteúdos relativos a informações pessoais, principalmente no que tange, a informações profissionais e/ou curriculares.

Grande parte dessas reclamações está direcionada para o Google, tanto no Reclame Aqui quanto na Remoção de conteúdo do Google. Em relação a isso, cumpre ainda salientar um fato interessante, possuindo menos de um ano o Escavador cresceu expressivamente nos últimos dois meses. Ocorre que para isto acontecer é necessária a reunião de vários fatores, os quais juntos culminam em um crescimento de acesso. Considerando o Google por exemplo, como principal site de pesquisa, existem ferramentas que ajudam ele a localizar o conteúdo de acordo com as palavras que o usuário busca na pesquisa. Assim, o fato de você digitar seu nome na pesquisa do Google e encontrar na primeira página o site do Escavador, não é algo por acaso.

O Google é famoso por utilizar uma ferramenta chamada Googlebot que nada mais é que um Crawler, Spider ou Bot[2], a qual filtra as informações disponibilizadas na rede de forma automática, mas inteligente, uma vez que o conteúdo é selecionado de acordo com a relevância. Assim, quanto mais relevante o conteúdo apresentado em um site for, mais fácil será dele aparecer em um dos primeiros itens de pesquisa. Considerando que o conteúdo disponibilizado no Escavador, é relevante, pois traz informações sérias relativas a currículo e processos judiciais, é natural que devido a isto, o Googlebot selecione ele para aparecer como um dos links relevantes.

A problematização envolvendo o site o Escavador é que ele está registrado em um servidor internacional, e protegido por proxies que não permitem a identificação do (a) usuário (a) do site. Além disso, o site não está registrado no Brasil, assim como, não existe registro de CNPJ, representante legal no País, ou empresa do mesmo grupo econômico que responda por ele. Fato este que dificulta a persecução dos direitos dos usuários da internet, e que traz a tona a dificuldade existente em aplicar de forma rápida e eficiente a legislação brasileira a este determinado caso.

Fonte:

[1] Disponibilizado em https://who.is/website-information/escavador.com

[2] Mais sobre emhttp://www.oficinadanet.com.br/artigo/otimizacao__seo/qualadiferenca-entre-robo-spiderecrawler

 


Maria Cecília Oliveira Gomes

Publicado por: Maria Cecília Oliveira Gomes

Membro da Comissão de Direito Eletrônico e Crimes de Alta Tecnologia da OAB/SP, especializada em Direito Internacional do Comércio e Direito Societário pela FGV e graduada pela Universidade Católica de Pernambuco.

Web Design BangladeshWeb Design BangladeshMymensingh