Quando você se senta em frente ao computador e fazer uma busca no Google, você recebe quase instantaneamente uma lista de resultados de toda a web. Mas como o Google encontra páginas que correspondem à sua consulta e determinam a ordem dos resultados de pesquisa?
Em termos mais simples, você poderia pensar que pesquisar na web é como procurar em um livro muito grande com um índice impressionante que diz exatamente onde tudo está localizado. Quando você executa uma pesquisa no Google, os programas do Google verificam seu índice para determinar os resultados de pesquisa mais relevantes a serem retornados ("servidos") para você.
Os três processos-chave na apresentação de resultados de pesquisa são:
Rastreamento: o Google sabe sobre o seu site? Ele pode encontrá-lo?
Indexação: o Google pode indexar o seu site?
Publicação: o site tem conteúdo útil e bom que seja relevante para a pesquisa do usuário?
Abaixo descveremos cada um destes processos para que você possa compreende-los melhor.
Rastreamento
Rastreamento é o processo pelo qual o Googlebot descobre páginas novas e atualizadas para serem incluídas no índice do Google.
O Google utiliza um grande conjunto de computadores para buscar (ou "rastrear") bilhões de páginas na web. O programa que faz a busca é chamado Googlebot (também conhecido como robot, bot, spider ou crawler). O Googlebot usa um processo algorítmico: programas de computador que determinam quais sites devem ser rastreados, com que frequência e quantas páginas devem ser buscadas em cada site.
O processo de rastreamento do Google começa com uma lista de URLs de páginas web, gerada a partir de processos anteriores de rastreamento e aumentada com dados dos Sitemaps fornecidos por webmasters. Conforme o Googlebot visita cada um desses sites, ele detecta os links de cada página e adiciona-os à sua lista de páginas a serem rastreadas. Novos sites, alterações em sites existentes e links inativos serão detectados e usados para atualizar o índice do Google.
O Google não aceita pagamento para rastrear um site com mais freqüência, e mantemos a área de pesquisa de nossos negócios separada dos nossos serviços geradores de receita do AdWords.
Indexação
O Googlebot processa cada uma das páginas que ele rastreia para compilar um imenso índice com todas as palavras encontradas e sua localização em cada página. Além disso, o Googlebot processa informações incluídas nas tags, conteúdos-chave e atributos, como tags Title e atributos "ALT". O Googlebot pode processar muitos, mas não todos, os tipos de conteúdo. Não podemos processar o conteúdo de alguns arquivos de mídia elaborada ou páginas dinâmicas. Arquivos compilados como Flash, Java ou requisições através de AJAX não são rastreados.
Publicação
Quando um usuário insere uma consulta, nossas máquinas pesquisam o índice de páginas correspondentes e retorna os resultados que acreditamos ser o mais relevante para o usuário. A relevância é determinada por mais de 200 fatores, um dos quais é o PageRank de uma determinada página. O PageRank é a medida da importância de uma página com base nas ligações de entrada de outras páginas. Em termos simples, cada link para uma página em seu site a partir de outro site adiciona um PageRank ao seu site. Nem todos os links são iguais: o Google trabalha duro para melhorar a experiência do usuário, identificando links de spam e outras práticas que afetam negativamente os resultados da pesquisa de impacto. Os melhores tipos de links são aqueles que são dados com base na qualidade do seu conteúdo.
Para que seu site seja bem classificado nas páginas de resultados de busca, é importante certificar-se que o Google pode rastrear e indexar o seu site corretamente. Nossas Diretrizes para webmasters destacam algumas das melhores práticas que podem ajudar a evitar as armadilhas comuns e melhorar o ranking do seu site.