Para muitos, o Google é a internet. É o ponto de partida para encontrar novos sites, e é indiscutivelmente a invenção mais importante desde a própria internet. Sem motores de busca, o novo conteúdo da web seria inacessível para as massas.
Mas você sabe como funcionam os motores de busca? Todo mecanismo de pesquisa possui três funções principais: rastreamento (para descobrir conteúdo), indexação (para rastrear e armazenar conteúdo) e recuperação (para buscar conteúdo relevante quando os usuários consultam o mecanismo de pesquisa).
Rastejar
Crawling é onde tudo começa: a aquisição de dados sobre um site.
Isso envolve a digitalização de sites e a coleta de detalhes sobre cada página: títulos, imagens, palavras-chave, outras páginas vinculadas, etc. Diferentes rastreadores também podem procurar detalhes diferentes, como layouts de página, onde os anúncios são colocados, se os links estão abarrotados, etc.
Mas como um site é rastreado? Um bot automatizado (chamado de "aranha") visita página após página o mais rápido possível, usando links de páginas para descobrir onde ir em seguida. Mesmo nos primeiros dias, as aranhas do Google podiam ler várias centenas de páginas por segundo. Hoje em dia, está nos milhares.
Quando um rastreador da web visita uma página, ele coleta todos os links na página e os adiciona à sua lista das próximas páginas para visitar. Ele vai para a próxima página em sua lista, coleciona os links nessa página e repete. Os rastreadores da Web também revisitam páginas passadas de vez em quando para ver se alguma mudança aconteceu.
Isso significa que qualquer site vinculado a partir de um site indexado será rastreado. Alguns sites são rastreados com mais freqüência, e alguns são rastreados para maiores profundidades, mas às vezes um rastreador pode desistir se a hierarquia de uma página do site for muito complexa.
Uma maneira de entender como um rastreador da web funciona é construir um você mesmo. Nós escrevemos um tutorial sobre como criar um rastreador web básico em PHP , então verifique se você possui alguma experiência de programação.
A indexação é quando os dados de um rastreamento são processados e colocados em um banco de dados.
Imagine fazer uma lista de todos os livros que você possui, seus editores, seus autores, seus gêneros, suas contagens de páginas, etc. O rastreamento é quando você penteia cada livro enquanto a indexação é quando você os logar na sua lista.
Os algoritmos de classificação conferem sua consulta de pesquisa em bilhões de páginas para determinar a relevância de cada um. As empresas protegem seus algoritmos de classificação como segredos patenteados da indústria devido à sua complexidade. Um algoritmo melhor se traduz em uma melhor experiência de pesquisa.
Eles também não querem que os criadores da web usem o sistema e subam injustamente até o topo dos resultados da pesquisa. Se a metodologia interna de um motor de busca já acabou, todos os tipos de pessoas certamente explorariam esse conhecimento em detrimento de pesquisadores como você e eu.
Crédito de imagem: photovibes via Shutterstock
A exploração do mecanismo de pesquisa é possível, é claro, mas não é tão fácil.
Originalmente, os motores de busca classificavam os sites pela frequência com que as palavras-chave apareceram em uma página, o que levou a "preenchimento de palavras-chave" - preenchendo páginas com absurdo de palavras-chave pesadas.
Em seguida, veio o conceito de importância do link: os sites de motores de busca valiosos com muitos links recebidos porque eles interpretaram a popularidade do site como relevância. Mas isso levou a vincular spam em toda a web. Hoje em dia, os links de links dos motores de busca dependem da "autoridade" do site de ligação. Os mecanismos de pesquisa colocam mais valor em links de uma agência governamental do que links de um diretório de links.
Agora, você pode procurar "cookies sem glúten", mas os resultados podem retornar receitas para cookies sem glúten. Em vez disso, você pode encontrar receitas de cookies regulares que dizem "Esta receita não é sem glúten". Ele tem as palavras-chave corretas, mas o significado errado.
Com a semântica, você pode procurar receitas de cookies e, em seguida, remover certos ingredientes: farinha, nozes, etc. Você também pode reduzir os resultados para apenas receitas com tempos de preparação inferiores a 30 minutos e pontuações de 4/5 ou maiores. Isso seria legal, certo? É aí que estamos indo!
Ainda confuso sobre o funcionamento dos motores de busca? Veja como o Google explica o processo:
Comentários
Postar um comentário