Fui conhecer o robots.txt quando precisei barrar os spiders(rôbos) dos buscadores de xeretarem em pastas aonde tinham páginas relacionadas a um sistema interno de um cliente, que está hospedado na web.
O que me levou a usar ele foi barrar e esconder informações como nome de diretório (o clássico seusite.com.br/admin) e páginas como login.html, login.php e essas coisas…
Porem até aonde eu li sobre o robots.txt ele tem que ser um arquivo público para que os rôbos consigam ler e seguir as regras inseridas no arquivo. Só que pensando um pouco mais… vi que isso já vai tirar um dos motivos de eu ter usado o robots.txt que era “esconder informações dos usuários como nomes de diretórios e páginas”.
Fiquei mais em dúvida ainda quando comecei a olhar o robots.txt de grandes sites…. vamos a alguns exemplos:
- www.google.com/robots.txt – até ai de boa… qual o problema visualizar essas informações?
- www.microsoft.com/robots.txt – um monte de aspx… eca.
- http://en.wikipedia.org/robots.txt – esse foi o robots.txt mais completo e complexo de todos.. tem até umas mensagens para quem ta lendo o robots.txt, hahahaaha, do tipo:
“Desculpe, wget, no seu modo recursivo é um problema freqüente.
Por favor, leia as instruções pelo man para utilizá-lo corretamente; há uma
opção –wait– que você pode usar para definir o atraso entre hits,
por exemplo.” - g1.globo.com/robots.txt – Hmm.. tem um Java ali, um Servlets, um Jornalismo.. será um novo projeto? =D
- E agora o mais bizarro, http://www.submarino.com.br/robots.txt , o robots.txt está simplesmente dando um “Disallow” no Dvd do Queen, hahahahahaha (vi isso em 31/07/08 )
Update 07/10/2008 – e o Dvd do Queen continua la.
Eu não manjo desse lance de segurança e bla bla bla, só que fico me perguntando se essas informações podem ficar públicas por aí, esses exemplos que eu dei foi de uma pesquisa de 10min e são grandes sites, fico pensando nos mais humildes(fracos) que na maioria das vezes são alvos fáceis na mão de desocupados querendo virar hacker.
E aí, o que vocês acham?