Para que serve o robots.txt ?

agosto 1, 2008 at 9:51 pm 1 comentário

Fui conhecer o robots.txt quando precisei barrar os spiders(rôbos) dos buscadores de xeretarem em pastas aonde tinham páginas relacionadas a um sistema interno de um cliente, que está hospedado na web.

O que me levou a usar ele foi barrar e esconder informações como nome de diretório (o clássico seusite.com.br/admin) e páginas como login.html, login.php e essas coisas…

Porem até aonde eu li sobre o robots.txt ele tem que ser um arquivo público para que os rôbos consigam ler e seguir as regras inseridas no arquivo. Só que pensando um pouco mais… vi que isso já vai tirar um dos motivos de eu ter usado o robots.txt que era “esconder informações dos usuários como nomes de diretórios e páginas”.

Fiquei mais em dúvida ainda quando comecei a olhar o robots.txt de grandes sites…. vamos a alguns exemplos:

  • www.google.com/robots.txt – até ai de boa… qual o problema visualizar essas informações?
  • www.microsoft.com/robots.txt – um monte de aspx… eca.
  • http://en.wikipedia.org/robots.txt – esse foi o robots.txt mais completo e complexo de todos.. tem até umas mensagens para quem ta lendo o robots.txt, hahahaaha, do tipo:

    “Desculpe, wget, no seu modo recursivo é um problema freqüente.
    Por favor, leia as instruções pelo man para utilizá-lo corretamente; há uma
    opção –wait– que você pode usar para definir o atraso entre hits,
    por exemplo.”

  • g1.globo.com/robots.txt – Hmm.. tem um Java ali, um Servlets, um Jornalismo.. será um novo projeto? =D
  • E agora o mais bizarro, http://www.submarino.com.br/robots.txt , o robots.txt está simplesmente dando um “Disallow” no Dvd do Queen, hahahahahaha (vi isso em 31/07/08 )
    Update 07/10/2008 – e o Dvd do Queen continua la.

Eu não manjo desse lance de segurança e bla bla bla, só que fico me perguntando se essas informações podem ficar públicas por aí, esses exemplos que eu dei foi de uma pesquisa de 10min e são grandes sites, fico pensando nos mais humildes(fracos) que na maioria das vezes são alvos fáceis na mão de desocupados querendo virar hacker.

E aí, o que vocês acham?

Anúncios

Entry filed under: segurança. Tags: , , .

Ajude a sustentar a Wikipédia e outros projetos sem colocar mão no bolso! O PHP MS sorteia 2 cupons de 50% de desconto para curso online de PHP

1 Comentário Add your own

  • 1. FelipeVR  |  agosto 7, 2008 às 1:27 pm

    li esse seu post por indicação.

    cara, concordo com vc.

    Mas na verdade minha duvida vai mais a fundo:
    Como q essas PORRAS de Spiders conseguem descobrir os arquivos e diretórios que meu site contém? Não listo em lugar algum, não faço referencia em lugar nenhum.
    Como que um spider entraria numa pasta “hellospider2008” que eu criei ???
    Não é o robots.txt, mas isso q falei q fica me tirando o sono 😛

    Responder

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s

Trackback this post  |  Subscribe to the comments via RSS Feed


Mudei de endereço

O blog mudou para www.porkaria.com.br

%d blogueiros gostam disto: