3. BUSCADORES: CLASIFICACIÓN Y FUNCIONAMIENTO El motor de búsqueda (Search Engine) está basado en la búsqueda de información a través de la Red y su almacenamiento en grandes bases de datos. Un motor de búsqueda está instalado en una página web a la que se accede para usar sus servicios de búsqueda. En concreto, estos buscadores se componen de tres elementos.
La araña (spider): se trata de un programa que recorre Internet y va explorando todos los documentos de la Red en busca de páginas nuevas.
Índices: Base de datos que contienen las URL (direcciones) de cada fichero HTML que la araña ha ido recopilando.
Motor de búsqueda: Programas (software) que permiten al usuario plantear una búsqueda al índice mediante unas palabras claves (keywords). El motor recorre todas las páginas indexadas y presenta los resultados en una lista de resultados ordenada siguiendo un criterio de relevancia.
Sistema de ranking. El buscador ordena los resultados de la búsqueda según unos parámetros que pueden ser públicos o no. Por ejemplo, Google utiliza su algoritmo matemático conocido como "PageRank".
Los buscadores semánticos efectúan la búsqueda atendiendo al significado del grupo de palabra escritas sin basarse en las etiquetas o palabras claves. Interpretan las búsquedas de los usuarios y los textos de los documentos en la Web a través del uso de algoritmos que representan comprensión o entendimiento, ofreciendo resultados correctos de una manera rápida sin que el usuario tenga que abrir los documentos e inspeccionarlos por sí mismo. Los buscadores semánticos reconocen el contexto correcto para las palabras o sentencias de búsqueda.
¿CÓMO CLASIFICAN LA INFORMACIÓN? La mayoría de las herramientas de búsqueda en Internet presenta los resultados de una búsqueda en forma de lista ordenada que sigue un criterio de relevancia propio de cada herramienta. El orden en el que aparecen los resultados que el buscador ha obtenido es determinado en base a unos campos concretos de cada página localizada. El buscador decide cuál de ellas se ajusta más a la pregunta, qué página es más relevante, y por lo tanto cuál se situará en la cabecera de la lista.
1
Pero, ¿cómo un motor de búsqueda puede determinar si una página es más relevante que otra, y, en consecuencia, condicionar nuestra búsqueda al dirigirnos hacia una u otra página? Los procedimientos son variados los más comunes son:
Relevancia de palabras claves: Método por el cual el motor de búsqueda calcula cuántas veces se repite una misma palabra en el documento HTML.Cuanto más se repita la palabra clave en el documento, más relevante considerará que es esa página.
Popularidad del enlace: El número de enlaces de otras páginas web hacia la página que estamos buscando también puede ser un factor que otorgue más relevancia a esta página: cuantos más enlaces, mayor es su relevancia.
Actualización: Una página reciente o actualizada a menudo tendrá un mejor ranking.
Número de visitas: Cuantas más personas visiten la página, mayor será su relevancia.
En 2011 Google ha introducido un cambio sustancial en su algoritmo de búsqueda: "Panda". Sus efectos han sido catastróficos para quienes en lugar de hacer contenido propio replican lo que hacen otros. El componente semántico es muy fuerte en esta mejora. Desde 2003 no se había hecho un cambio tan grande. El objetivo según Google es ofrecer resultados de mayor calidad. Algunas de las cuestiones que deja caer Google son: ¿Este artículo ha sido escrito por un experto, por una persona entusiasta que conoce bien el tema, o es más bien superficial?, ¿Contiene este artículo errores de ortografía, estilísticos o de facto?, ¿Describe el artículo las dos caras de cada historia? ¿Cuánto control de calidad se realiza sobre el contenido? Incluso algún interrogante que destaca el valor que desprende el papel como soporte: "¿Esperarías ver este artículo impreso en una revista, una enciclopedia o un libro?". Los hay también, más polémicos: "¿Te sentirías a gusto si tuvieses que dar los datos de tu tarjeta de crédito en este sitio?", "¿Contiene este artículo una cantidad excesiva de anuncios que distraigan o interfieran con el contenido principal?".
Información complementaria: Search Engine Algorithm Research & Testing
TIPOS DE BUSCADORES 1.- Internacionales: Dan cobertura a todo tipo de temática a nivel mundial. Estos son algunos de los Buscadores más utilizados en la Red:
Google (Ver monográfico en la Guía Online).
Bing
Yahoo
Wolfram Alpha (buscador semántico)
Blekko (buscador semántico) - Skrenta
2. - Geográficos: Indexan de forma preferente webs de regiones o países concretos, como
2
Yandex (Rusia)
Sapo.pt (Portugal)
Buscopio (apartado geográfico)
La versiones nacionales de los grandes buscadores: Google France...
3.- Temáticos: Surgen como una iniciativa que pretende paliar el problema de la dispersión de la información en la Red. En vez de plantear una pregunta a una base de datos genérica como ocurre con los buscadores comentados en el punto anterior, se formula la pregunta a un buscador especializado en el tema de nuestra consulta. Los buscadores temáticos recogen pocos enlaces pero tiene los más adecuados para su materia por lo que los resultados serán más ajustados. Existen buscadores temáticos de derecho, informática, medicina, empresas, países, negocios etc. Sin embargo no todo está en ellos por lo que utilizaremos estas herramientas como complemento de las herramientas de búsqueda tradicionales. Algunos de los buscadores temáticos más usados son:
Beaucoup
Buscopio
Para saber más: (Ver apartado 6.2.- Motores de Búsqueda de la Guía On-line)
Searchenginewatch: Todo sobre los buscadores (ver sección "Web searching tips")
Search Features Chart: Comparativa de comandos entre buscadores. http://searchenginewatch.com/2155981
Subject Directories es una tabla con distintos directorios organizados según varios parámetros.
How to Choose a Search Engine or Directory. Web de la Universidad de Albany que organiza los buscadores según el tipo de búsquedas a realizar.
3