Bloquando pesquisas do Google pelo robots.txt

Started by HadeS, 22 de May , 2006, 05:56:20 PM

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

HadeS

A maioria de nós deseja que o conteúdo de seu site seja indexado pelo Google, Altavista e outros mecanismos de busca.

Entretanto, para determinadas seções de nossos sites, isto pode não ser desejável. Como fazer para impedir que conteúdo reservado seja indexado?

A maioria dos softwares de indexação obedece a algumas convenções, entre elas a de respeitar as informações sobre o que pode ou não ser indexado, contidas em um arquivo chamado robots.txt e localizado no diretório raiz do servidor Web.

Este arquivo é bem simples (mas pode ficar complexo, dependendo das suas necessidades.

Um pequeno exemplo:


User-agent: *
Disallow: /cgi-bin/
Disallow: /fotos/

O arquivo acima indica que nenhum indexador pode indexar o conteúdo dos diretórios /cgi-bin e /fotos.

A opção User-agent pode indicar apenas um determinado indexador. O indexador do Google, por exemplo, chama-se googlebot. Se o googlebot estiver visitando o seu site e ver algo como


User-agent: googlebot
Disallow: /

nada será indexado.

Caso você crie um arquivo como este para o seu site e quiser ver se fez tudo corretamente, existe um serviço de validação de arquivos robots.txt em http://www.searchengineworld.com/cgi-bin/robotcheck.cgi

Neste mesmo local, caso você queira saber mais, existem diversas informações adicionais sobre este protocolo e também alguns exemplos interessantes.

Fonte: SOSDesigners

HadeS

Cloudy

É muito útil saber e configurar o robots.txt.

Vlw pelo texto HadeS.

...by Cloudy
"You have to be trusted by the people tou lied to, so when they turn their back on you, you have the chance to the put the knife in." (Roger Waters)

...by Cloudy

Kratos

::: "A vida é bela pra quem sabe curtir" :::





HadeS

Xiiiii...

Foi mal galera. É que sou novo aqui, não tinha visto seu post Kratos, que aliás, tá muito bom./

HadeS