Impedir indexação do Google [Googlebot]

Started by Kratos, 20 de April , 2006, 10:14:15 AM

Previous topic - Next topic

0 Members and 1 Guest are viewing this topic.

Kratos

Precisa remover conteúdo do índice do Google?

O Google considera como grande prioridade a manutenção de resultados de pesquisa completos. O Goolebot interromperá a indexação das páginas de um site somente quando solicitado pelo webmaster responsável pelas páginas, quando resultarem em spam no nosso índice ou se for obrigado por força da lei. Esta política é necessária para garantir que não haverá remoção inadequada de páginas do índice do Google.

Remover o seu site inteiro

Se você quiser excluir o seu site inteiro do índice do Google, coloque no diretório raiz do seu servidor um arquivo chamado robots.txt.

Este é o protocolo padrão que a maioria dos indexadores segue para excluir de um índice um servidor web ou diretório.

Note que o Googlebot não interpreta uma resposta 401/403 ("Não autorizado"/"Proibido") do robots.txt como sendo uma solicitação para não indexar as páginas do site.

Para remover o seu site dos mecanismos de busca e evitar que qualquer robô volte a indexá-lo, coloque o seguinte arquivo robots.txt no diretório raiz do seu servidor:

User-agent: *
Disallow: /


Para remover o seu site do Google e evitar que o Googlebot volte a indexá-lo, coloque o seguinte arquivo robots.txt no diretório raiz do seu servidor:

User-agent: Googlebot
Disallow: /


Cada porta deve ter o seu próprio arquivo robots.txt. Em especial, se você publica o seu conteúdo usando tanto http quanto https, você precisará de um arquivo robots.txt para cada um destes protocolos.

Por exemplo, para permitir que o Googlebot indexe todas as páginas http, mas não as páginas https, use os arquivos robots.txt mostrados abaixo.

Para o seu protocolo http (http://seuservidor.com.br/robots.txt):

User-agent: *
Allow: /


Para o protocolo https (https://seuservidor.com.br/robots.txt):

User-agent: *
Disallow: /

Observação: Se achar que a sua solicitação é urgente e não é possível esperar até a próxima indexação do Google, use o nosso sistema automático de remoção de URL. Para que esse processo automatizado funcione, o webmaster precisa criar e colocar um arquivo robots.txt no site em questão.

O Google continuará a excluir o seu site ou diretórios de indexações sucessivas se o arquivo robots.txt estiver no diretório raiz do seu servidor. Se você não tiver acesso ao nível raiz do seu servidor, coloque o arquivo robots.txt no mesmo nível que os arquivos a serem removidos. Se você proceder desta forma e usar o sistema automático de remoção de URLs, o seu site será removido do índice do Google temporariamente, por 180 dias, independentemente de você remover ou não o arquivo robots.txt após processarmos a sua solicitação (deixar o arquivo robots.txt no mesmo nível exigiria que você retornasse ao sistema de remoção de URL a cada 180 dias para refazer a remoção).
 
Remover parte do seu site

O Google aumentou a flexibilidade da norma do arquivo robots.txt com o uso de asteriscos. Os padrões Disallow podem incluir "*" para se referirem a qualquer seqüência de caracteres e podem terminar com "$" para indicar o fim de um nome.

Para remover todas as páginas de um diretório específico (por exemplo, lêmures), você pode usar a seguinte entrada no robots.txt:

User-agent: Googlebot
Disallow: /lemurs


Para remover todos os arquivos de um tipo específico (por exemplo, .gif), você pode usar a seguinte entrada no robots.txt:

User-agent: Googlebot
Disallow: /*.gif$


Para remover páginas geradas dinamicamente, você poderá usar a seguinte entrada no robots.txt:

User-agent: Googlebot
Disallow: /*?


Opção 2: Meta tags

Outro padrão, que pode ser mais conveniente para o uso página-a-página, é a adição de uma tag à página HTML para indicar aos robôs que a página não deve ser indexada. Este padrão é descrito em http://www.robotstxt.org/wc/exclusion.html#meta.

Para impedir que qualquer robô indexe uma página do seu site, coloque a seguinte meta tag na seção da sua página:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
Para permitir que qualquer robô indexe a página do seu site, exceto os robôs do Google, use a seguinte tag:

<META NAME="GOOGLEBOT" CONTENT="NOINDEX, NOFOLLOW">
Para permitir que qualquer robô indexe a página do seu site, mas impedir que sigam os links que levam para quaisquer outras páginas, use a seguinte tag:

<META NAME="ROBOTS" CONTENT="NOFOLLOW">
Bom Essa dica é super-importante para segurança de seu site, caso vc não queira que o Google mostre seu site nas buscas!

Espero ter ajudado !!!


Fonte: Google
::: "A vida é bela pra quem sabe curtir" :::





rog

hehe rog na area de novo

legal e bem explicado mesmo

tem algums robots que nao respeitam esses tags

para ser mais potente tem que usar .htaccess com o modulo mod_rewrite carregado no serviço apache

a condiçao seria

RewriteCond %{HTTP_USER_AGENT}   ^robot_malandro.*

a regra entao sera

RewriteRule ^.*$ /vai_passear_adiante.html  [L]

^.*$ ==> o robot pede um link começando por qualquer carater repetido nao sei quantas vezes
/vai_passear_adiante.html  ==> a pagina onde vai ser automaticamente redirigida
 [L] ==> last = termina o açao do modulo mod_rewrite no .htaccess

rog

talvez eu escrevo um tuto sobre o mod_rewrite para a turma
realty.sys is corrupt :  reboot the universe (Y/N)

Kratos

::: "A vida é bela pra quem sabe curtir" :::