Los Motores de búsqueda son sitios especiales en la Web que están diseñados para ayudar a las personas a encontrar información almacenada en otros sitios web. Hay diferencias en las maneras en que los diferentes motores de búsqueda trabajan, pero todos ellos realizan las siguientes tres tareas básicas:
· Buscan en Internet o en áreas seleccionadas de Internet basados en palabras importantes.
· Guardan un índice de las palabras que encuentran, y donde las encuentran.
· Permiten a los usuarios buscar palabras o combinaciones de palabras encontradas en dicho índice.
Los primeros Motores de búsqueda mantenian un índice de unos pocos cientos de miles de páginas y documentos, y recibían tal vez mil o dos mil consultas cada día. Hoy, un Motor de búsqueda mayor indexa cientos de millones de páginas, y responde a decenas de millones de consultas por día.
Antes de que un Motor de búsqueda pueda decirle donde esta un archivo o documento, primero debe de ser encontrado. Para encontrar la información en los cientos de millones de páginas web que existen, un Motor de búsqueda emplea robots de software especial, llamados arañas o spiders, para construir las listas de palabras encontradas en los sitios Web.
Cuando una araña o spider construye sus listas, el proceso es llamado web crawling. Con el fin de construir y mantener una lista útil de palabras, las arañas o spiders de un Motor de búsqueda tienen que revisar muchas páginas. ¿Cómo comienza cualquier araña sus revisiones en la web? Los puntos de partida habituales son las listas de los servidores mas fuertemente usados y en las paginas muy populares. La araña comenzará con un sitio popular, indexando las palabras en sus páginas y siguiendo cada enlace (link) encontrado dentro del sitio. De este modo, el sistema spidering rápidamente comienza a viajar, extendiéndose a través de las partes más extensamente usadas en la Web.
Una vez que las arañas han completado la tarea de encontrar la información en las páginas web, el Motor de búsqueda debe almacenar la información en un modo que la haga útil.
Hay dos componentes claves involucrados al hacer la recolección de los datos accesibles a los usuarios:
· La información almacenada con los datos
· El método por el cual la información es incluida en un índice (indexada).
En el caso más simple, un Motor de búsqueda podría solamente almacenar la palabra y la dirección URL donde fue encontrada. En realidad, esto conduciría a un motor de empleo limitado, dado que no habría ningún modo de decir si la palabra fue usada de una manera trivial o importante en la página, si la palabra fue usada una vez o muchas veces o si la página contenía vínculos o enlaces a otras páginas conteniendo la palabra. En otras palabras, no habría ningún modo de construir la lista de rankeo que intenta presentar las páginas más útiles en lo alto de la lista de los resultados de búsqueda.
Para dar los más útiles resultados, la mayor parte de los Motores de búsqueda almacenan más que solamente la palabra y el URL.
Un Motor de búsqueda podría almacenar el número de veces que la palabra
aparece en una página. El motor podría asignar un peso a cada entrada,con un aumento de los valores asignados a las palabras segun ellas aparezcan cerca de la cima del documento, en subtítulos, en vínculos, en las etiquetas META (metatags) o en el título de la página.
Cada Motor de búsqueda comercial tiene una fórmula diferente para asignar el peso a las palabras en su índice. Esto es uno de los motivos por los que una búsqueda para la misma palabra en diferentes Motores de búsqueda producirá listas diferentes, con las páginas presentadas en diferente orden.
Un índice tiene un solo objetivo: este es permitir que la información sea encontrada tan rápidamente como sea posible. Hay bastantes maneras para que un índice sea construido, pero uno de los más efectivos es construir una tabla hash (mapa de datos). Al construir la tabla de datos, una fórmula es aplicada para adjuntar un valor numérico a cada palabra.
La fórmula está diseñada para uniformemente distribuir las entradas a través de un predeterminado número de divisiones. Esta distribución numérica es diferente de la distribución de las palabras a través del alfabeto, y esta es la clave para la eficacia de una tabla Hash (mapa de datos).
Cuando una persona solicita una búsqueda sobre una palabra clave o frase, el software del Motor de búsqueda busca el índice para la información relevante. El software entonces provee un informe de regreso a la persona que efectua la busqueda con las páginas web más relevantes listadas primero.