A maioria de nós deseja que o conteúdo de seu site seja indexado pelo Google, Altavista e outros mecanismos de busca.
Entretanto, para determinadas seções de nossos sites, isto pode não ser desejável. Como fazer para impedir que conteúdo reservado seja indexado?
A maioria dos softwares de indexação obedece a algumas convenções, entre elas a de respeitar as informações sobre o que pode ou não ser indexado, contidas em um arquivo chamado robots.txt e localizado no diretório raiz do servidor Web.
Este arquivo é bem simples (mas pode ficar complexo, dependendo das suas necessidades.
Um pequeno exemplo:
User-agent: *
Disallow: /cgi-bin/
Disallow: /fotos/
O arquivo acima indica que nenhum indexador pode indexar o conteúdo dos diretórios /cgi-bin e /fotos.
A opção User-agent pode indicar apenas um determinado indexador. O indexador do Google, por exemplo, chama-se googlebot. Se o googlebot estiver visitando o seu site e ver algo como
User-agent: googlebot
Disallow: /
nada será indexado.
Caso você crie um arquivo como este para o seu site e quiser ver se fez tudo corretamente, existe um serviço de validação de arquivos robots.txt em http://www.searchengineworld.com/cgi-bin/robotcheck.cgi (http://www.searchengineworld.com/cgi-bin/robotcheck.cgi)
Neste mesmo local, caso você queira saber mais, existem diversas informações adicionais sobre este protocolo e também alguns exemplos interessantes.
Fonte: SOSDesigners
HadeS
É muito útil saber e configurar o robots.txt.
Vlw pelo texto HadeS.
...by Cloudy
==> http://www.darkers.com.br/smf/index.php ... 861.0.html (http://www.darkers.com.br/smf/index.php/topic,1861.0.html)
vlw Hades!
Xiiiii...
Foi mal galera. É que sou novo aqui, não tinha visto seu post Kratos, que aliás, tá muito bom./
HadeS