Robots.txt
July 30, 2007 7:21 amFalarei hoje de algo que não é exatamente novo, mas como a cada dia temos novos fazedores de site, nunca é demais evidenciar o que é importante.
O Robots.txt nada mais é que um arquivo texto que é lido pelos robôs(bots) dos sistemas de busca como Google, Yahoo…
O que este arquivo de texto faz é informar ao robô quais diretórios e/ou arquivos não deve acessar, fora os diretórios/arquivos informados neste arquivo ele automaticamente pega tudo que tem no seu site, diretórios, sub-diretórios, arquivos.
Caso você não utilize este arquivinho os buscadores indexam o site todo, ou seja, se seu site tiver uma área reservada, intranet, extranet, o que for, sem esse arquivo, tudo isso será indexado, inclusive aquelas informações confidenciais que seu concorrente adoraria saber.
Sem mais delongas, o que deve ser colocado nesse arquivo?
Agora vem um processo muito “complexo”, primeiro devo destacar novamente que devem criar o arquivo exatamente com esse nome:
robots.txt
Não pode ser .html .php nada disso, deve ser exatamente robots.txt, um arquivo texto simples, use o notepad para criar se quiser.
Este arquivo deve ser colocado na raiz do seu site, será a primeira coisa lida pelo robozinho.
Agora alguns exemplos de como escrever esse seu arquivo.
Para que nada no site seja indexado por nenhum mecanismo de busca insira dentro do arquivo texto o seguinte:
User-agent: *
Disallow: /
O * ali indica que todos os buscadores devem obedecer o que vem na linha a seguir.
E o / significa todos os diretórios, e disallow é negar o acesso.
Logo ali estamos dizendo que para todos os buscadores devemos negar o acesso a todos os diretórios.
Pronto, seu site não será indexado.
Bom supondo que tenhamos um diretório chamado “admin” que deve ser bloqueado a todo custo dos buscadores, pois ali guardamos muita informação valiosa, e que não pode de forma alguma cair nas mãos maléficas da concorrência, como proteger esse diretório?
Simples assim:
User-agent: *
Disallow: /admin/ #diretorio bloqueado
O sinal #(tralha), serve como comentário, o que vem após dele não interfere na definição das regras de acesso.
Mas veja bem, na realidade, aquele diretório que bloqueamos tem apenas um arquivo que é importante e altamente secreto, que é o “formula_da_cocacola.doc”, o restante gostaria que fosse indexado.
Perfeito, porque não disse antes? Neste caso vamos bloquear apenas o segredo industrial mais bem guardado do século, e o faremos da seguinte forma:
User-agent: *
Disallow: /admin/formula_da_cocacola.doc #XooOOoo buscadores.
Agora para resumir, caso queira bloquear mais de um arquivo/diretório pode fazer assim:
User-agent: *
Disallow: /admin/ #diretorio bloqueado
Disallow: /intranet/ #diretorio bloqueado
Disallow: /segredos_roubados/formula_da_cocacola.doc #aqui nao, TOP SECRET.
No exemplo acima bloqueamos o acesso completo aos diretórios “admin” e “intranet”, e também ao arquivo “formula_da_cocacola.doc”, que está dentro do diretório “segredos_roubados”, o restante dos arquivos do diretório “segredos_roubados” está livre para ser indexado pelos buscadores.
E para finalizar, caso queira bloquear um determinado arquivo/diretório de apenas um buscador, basta ao invés do * em User-agent, escrever o nome do agente/buscador a ser bloqueado, assim:
User-Agent: Googlebot
Disallow: /admin/ #diretorio bloqueado
Oppsss acabamos de bloquear o acesso do google ao diretório “admin”.
![]()
Simples e eficaz.
Boa semana a todos!






Não me faça pensar
Ipod
Monitor LCD
Notebook
Celular
7 Comentários para “Robots.txt”
Então o .txt ficará assim:
*
/admin/
Só isto ?
Ou precisa colocar na frente User-Agent, e Disallow .. ?
Abraços,
Comenta ae..