Algoritmos de busqueda by Julieth Poulin

ALGORITMOS DE BÚSQUEDA Todos los motores de búsqueda poseen un sistema de bases de datos, en el que almacena la información de todas las páginas web, allí los datos se ordenan de muchas maneras según un sistema de clasificación y recolección que es propio de la compañía a la que pertenece el motor de búsqueda. Pero esa búsqueda y almacenamiento de direcciones e información la realiza un sistema automático (robot, araña o spider) que se encarga de mirar todas las direcciones URL de la red, recogiendo palabras y frases claves de cada una e incluyéndolas en la base de datos del buscador. Algunos nombres de robots importantes son: Googlebot (Google), MSNbot (MSN), Yahoo! SLURP o SLURP (Yahoo!), Teoma (Ask), Scooter (AltaVista), MantraAgent (LookSmart), WebCrawler (Webcralwer) y Fluffy the spider (SearchHippo). El rastreador se mueve a través de los enlaces de un sitio web. Cuando el robot sale a la red, se le da una lista de sitios web donde debe moverse, mirando en sus enlaces (moviéndose dentro y fuera del sitio web), leyendo el contenido, etc. Al leer la información, el rastreador envía una petición al servidor web para que le envíe páginas (el número varía según como esté programado), de la misma forma que el navegador pide que se muestren las páginas, pero para el rastreador es todo un interfaz de texto en HTML. Si un sitio web (o su servidor) tiene problemas para cumplir la petición, el rastreador se marchará. Puede que vuelva, pero tras varios intentos no regresará al sitio web. Existe, además, una serie de consideraciones para que el rastreador no meta el sitio en el índice: página en construcción, páginas llenas únicamente de enlaces (granjas de enlaces) o páginas de contenido desfasado (en Internet lo importante es la novedad). Ahora bien, para poder acceder a la información se requiere de un algoritmo de búsqueda, el cual a partir de la palabra o frase clave insertada mirará en la base de datos las direcciones que más se ajusten al criterio de búsqueda, devolviendo las direcciones a esas páginas web. Los algoritmos varían de unos motores de búsqueda a otros, lo que lleva a que las búsquedas de la misma palabra pueden arrojar resultados diferentes en motores distintos. Algunos de los algoritmos más empleados son*:

•Búsqueda en lista (list search): Hace una búsqueda muy lineal y el resultado suele ser un solo elemento y poco más, perdiendo mucho tiempo para tan pocos resultados. •Búsqueda en árbol (tree search): Busca entre grupos y subgrupos (ramificaciones) de datos, en una estructura que, en cierta manera, imita el modelo de la Red en sí. El problema está en que es una búsqueda muy jerárquica, por lo que la información se busca según cómo esté clasificada en un ranking. •Búsqueda SQL (SQL search): Este tipo de búsqueda elimina el problema de las jerarquías de la búsqueda en árbol, por lo que se puede buscar entre cualquier grupo de datos sin seguir un orden específico. •Búsqueda informada (informed search): Este algoritmo busca respuestas específicas a problemas específicos en un árbol de datos. Sin embargo, las respuestas suelen ser muy generales. •Búsqueda adversa (adversarial search): Este algoritmo mira en todas las posibles soluciones a un problema. Este algoritmo es difícil de usar en búsquedas web ya que da un número exagerado de respuestas. •Búsqueda concreta (constraint satisfaction search): En este tipo de algoritmo, la solución se descubre al satisfacer una serie de condiciones, y se pue de buscar entre los datos sin seguir un procedimiento lineal, lo que hace este algoritmo muy útil. Los algoritmos de cada buscador son diferentes, cambiantes y “secretos”, éste último entre comillas, porque aunque se conoce el manejo general, qué factores intervienen en ellos y en qué orden de importancia, no se tiene acceso a toda su estructura sistémica. ALGORITMOS DE GOOGLE: Está conformado, principalmente, por 2 algoritmos: el de PageRank y el de Relevancia. Googlebot es el robot que utiliza Google para 'rastrear' los sitios de Internet. No solamente indexa páginas web (HTML), sino que también extrae información de ficheros PDF, PS, XLS, DOC y algunos otros más. La frecuencia con la que Googlebot accede a un sitio web depende del PageRank de éste. Entonces, entre más alto sea el valor del PageRank, el robot accederá más constantemente a sus páginas.

Una vez que Googlebot haya 'rastreado' una página, seguirá los enlaces que en ella encuentre. Por lo tanto, si se quiere que Googlebot indexe una página web, solamente es necesario que algún otro sitio tenga un enlace a ésta. Si no es así, siempre puede añadirse directamente la URL. Además de este robot Googlebot, existe otro, llamado FreshBot que 'rastrea' con mayor frecuencia los sitios webs con las noticias 'más frescas' [1]. Algoritmo de Google: PageRank (PR) Es un valor numérico desarrollado por los fundadores de Google Larry Page y Sergey Brin, que representa la importancia que una página web tiene en Internet. Google se hace a la idea de que cuando una página coloca un enlace (link) a otra, es de hecho un voto para esta última. Cuantos más votos tenga una página, será considerada más importante por Google. Además, la importancia de la página que emite su voto también determina el peso de este voto. El PageRank es uno de los factores más importantes que determinan la posición que va a tener una página dentro de los resultados de la búsqueda, pero no el único. Google admite que una página no puede controlar los links que apuntan hacia ella, pero sí que controle los enlaces que esta página coloca hacia otras páginas. Por ello, una página debe tener mucho cuidado al colocar enlaces hacia sitios penalizados, ya que pueden perjudicar su PageRank, el cual va de 0 a 10. Si un sitio web tiene PR0, generalmente es una web penalizada, y podría ser poco inteligente colocar un link hacia ella. Para conocer el PageRank de una página web se debe descargar la barra de búsqueda de Google. ¿Cómo aumentar el PageRank de Google? -

Aumentar el número de enlaces en webs de terceros que recomiendan la página. Conseguir que enlacen sitios web que tengan el PageRank alto. Conseguir enlaces en páginas web donde no haya muchos enlaces ya que el valor del suyo queda dividido por el número total de enlaces que salen de esa página [2].

Algoritmo de Google de Relevancia La lógica de este algoritmo es la siguiente: Google desea saber si realmente una página

trata sobre el tema que el usuario está buscando. Para ello comprueba si la palabra buscada aparece en la página y en qué partes de ella lo hace. Google considera que por ejemplo, si la palabra está en el título principal de la página, seguramente esta página sí estará dedicada al tema que está buscando el usuario. Si la palabra además aparece varias veces en el texto de la página en cuestión, y en muchas otras páginas de esa web, aun con más razón esa página estará dedicada al tema que busca el usuario, por lo que la situará en mejor posición. Para representar todo esto de forma matemática Google utiliza el algoritmo de Relevancia, que tiene en cuenta los siguientes factores: - Relevancia de la palabra en el contexto general de páginas indexadas: en cuantas páginas de la web aparece esta palabra (en forma de densidad: núm/total pág.) - La relevancia de las palabras que otras webs han utilizado para realizar los enlaces a una página web. - Relevancia de la palabra en cada una de las páginas. Cada una de las palabras que forman una página web es contada y divida por el número total de palabras. De esta manera se obtiene la densidad de esa palabra. A su vez, cada espacio de una página web, tiene un valor diferente para Google y la densidad de la palabra se multiplica por un factor que viene determinado por dónde está situada esa palabra. El orden de importancia (aproximado) de cada una de las localizaciones es el siguiente: 1.- Densidad en la URL 2.- Densidad en el Titulo de la página (tag "title") 3.- Densidad en la descripción (Google no lo tiene en cuenta, para buscadores que no son Google sí es importante) 4.- Densidad en cabeceras (H1,H2, etc...) 5.- Densidad en el nombre de enlaces 6.- Densidad en palabras en negrita 7.- Densidad en textos alternativos (ALT) De ahí se deduce que para que una página aparezca en las primeras posiciones para una búsqueda determinada, se debe conseguir que la palabra que el usuario busca, aparezca en la URL (en forma de subdominio, de directorio o de nombre de fichero), en el título de

la página, en la descripción y en las cabeceras. Existe una página web que ofrece una herramienta útil para conocer el posicionamiento de una página a nivel de relevancia: Ranks NL, en ella se introduce la URL de la página web que se desea analizar y se hace clic sobre "submit". Entonces, aparecerá un listado con las palabras de esa página, ordenadas por densidad y relevancia. También analiza frases de 2 palabras y frases de 3 palabras. Obviamente, también debe conseguir que la palabra por la que desea posicionarse la página web esté en el máximo número de páginas y que sea la que la gente utiliza para buscar [3]. Para conocer cuántas páginas tiene indexadas Google tiene un comando que permite saberlo, este mismo comando suele funcionar en otros buscadores . El PageRank de una página fue y sigue siendo uno de los parámetros más conocidos para el orden de los links en una búsqueda. Manber (Udi Manber, Gerente de búsqueda de Google desde el 2006 dice: “Las personas tienden a confiar en el PageRank, pero existen otras cosas que incrementaron la relevancia. Ahora se tienen nuevos parámetros como por ejemplo el idioma, la localización, etc” [4]. ALGORITMO DE BÚSQUEDA DE YAHOO Yahoo! Slurp es el robot rastreador (araña) de Yahoo! para el indexado de páginas web. Yahoo! Slurp recopila documentos de la Web para construir un índice rastreable para servicios de búsqueda que usan el motor de búsqueda de Yahoo! [5]. Existen diversos factores que influyen a la hora de aparecer como primer resultado en Yahoo!. Algunos de estos factores son [6]: •Asignación de pesos denominada WebRank. •Interfaz. •Directorio Yahoo!. Algoritmo de Yahoo: WebRank El WebRank sería análogo al PageRank de Google, y es la escala (de 1 a 10) que Yahoo! utiliza para medir la popularidad de una página web. Sin embargo, el WebRank no se calcula en función del número de enlaces hacia dicha página (como lo hace Google), sino

que depende de la información obtenida a través de la barra instalada en los navegadores de los usuarios. Si se instala la versión "beta" de esta barra, la "Companion Toolbar", desde su navegador se enviará la información de la URL visitada a los servidores de Yahoo!, los cuales realizarán los cálculos del WebRank. Además, se puede ver el valor del WebRank en color lila. Esta misma información sirve al robot de Yahoo!, Slurp, para rastrear (si no lo ha hecho ya) los sitios web visitados por los usuarios para incorporarlos a los resultados de las búsquedas. Interfaz A diferencia de Google, Yahoo! tiene en cuenta diversos aspectos de la interfaz a la hora de realizar la recuperación de la información: •Etiquetas META: Yahoo! sigue teniendo en cuenta la Meta Tag Keywords. Esta etiqueta Meta va colocada en la cabecera del código HTML. La Meta Tag Keywords, en desuso por los buscadores desde hace tiempo, cobra una importancia vital en Yahoo!. Su peso es similar a la utilización de las keywords (palabras claves) en el body de la página. Yahoo! está valorando las 27 primeras palabras que van en esta Meta Tag o los 160 primeros caracteres. •Título: Yahoo! sigue teniendo en cuenta el título de la página. Para conseguir buenas posiciones en Yahoo! es recomendable utilizar un título profesional. Directorio Yahoo! El único directorio actualmente comparable a Dmoz es el directorio de Yahoo!, el gran dinosaurio de Internet que ha logrado adaptarse a cada nueva época de la red. Si se quiere conseguir una buena posición en una búsqueda de información en Yahoo, no basta con tener una buena organización de la información. Es recomendable darse de alta en su directorio en el apartado que mejor se adapte a la temática de tu web. Esto es debido a que Yahoo! prevalece la búsqueda de Webs en su directorio. A continuación se describen cinco factores que el algoritmo de Yahoo! evalúa cuando realiza las búsquedas [7]:

Factor #1: Contenido relevante El contenido es siempre uno de los factores clave en las búsquedas. Al optimizar un sitio web para Yahoo!, entre más contenido se proporcione, mejor. Esto puede significar añadir contenido al sitio web regularmente. Un buen ejemplo de la adición de contenido es tener un blog. Factor #2: Densidad de las palabras clave Yahoo! es muy fuerte en el idioma. Se debe incluir sinónimo y plural de una palabra clave cuando se considera la densidad de palabras clave en una página web. La densidad de palabras es la cantidad de veces que aparece una palabra en un texto, entonces Yahoo! permite una densidad de palabras clave de hasta 8%, por ello es importante usar sinónimos para variar. Factor #3: Estructura del sitio web Una buena estructura de página web es de vital importancia por dos razones. En primer lugar, la estructura del sitio determina el orden en que se ve el contenido de la página por los motores de búsqueda. Al contenido que se presenta en la parte de arriba en el código de una página web se le da una mayor prioridad y por lo tanto un peso mayor que el contenido que está abajo en el código. En segundo lugar, el código de diseño hay que dejarlo en un archivo aparte para que el contenido de texto quede de primero. Factor #4: Enlaces entrantes Aunque Yahoo! pone un gran énfasis en el contenido, los enlaces entrantes también son importantes. Con Yahoo!, la relevancia textual es uno de los factores más importantes. Ser capaz de controlar las páginas web donde aparecen los enlaces entrantes y el texto de anclaje de cada uno es esencial. Factor #5: Mapa del sitio Aún con Yahoo, se desea que su araña (Yahoo! Slurp) rastree la totalidad o la mayoría de páginas web. Además, desea que se rastreen con la mayor frecuencia posible. Esto significa que se debe prestar atención a la creación de un mapa legible y mantenerlo actualizado con la mayor regularidad posible. ALGORITMO DE BÚSQUEDA DE ALTAVISTA

Overture adquirió a AllTheWeb y a AltaVista. Yahoo! adquirió a Inktomi (en diciembre de 2002) y luego a Overture (en julio de 2003), debido a esta adquisición se han combinado las tecnologías, por ende, el algoritmo de búsqueda de Altavista es similar al de Yahoo!. ALGORITMO DE BÚSQUEDA DE MSN MSN Search ha tenido muchas encarnaciones, sus búsquedas habían sido realizadas por Inktomi y Looksmart durante varios años. Después de que Yahoo! compró a Inktomi y a Overture era obvio que Microsoft necesitaba desarrollar su propio producto de búsqueda. Así que lanzaron una muestra de la tecnología de su motor de búsqueda alrededor del 1 de julio de 2004. Formalmente pasaron de los resultados de búsqueda orgánicos de Yahoo! a los de su propio departamento de tecnología el 31 de enero de 2005. MSN anunció que ya no iban a utilizar el programa de anuncios en la búsqueda de Yahoo! el 4 de mayo de 2006. Ahora bien, se conocen cierto tipo de factores del algoritmo de MSN los cuales son [8]: 1. El robot y el motor de Microsoft funcionan como versiones viejas del Inktomi. Esto hace que Sitios con gran cantidad de texto oculto figuren en primer lugar. 2. Ausencia de búsquedas locales. Al igual que Altavista, MSN restringe búsquedas por idiomas o por algunos países (EUA y Europa), lo cual lo aleja de los usuarios que desean hacer búsquedas locales. 3. El motor privilegia a links absolutos antes que a relativos. 4. Es más que conveniente posicionarnos bien en MSN como inversión a futuro dado que Microsoft planea incorporarlo en los nuevos Sistemas Operativos. Como sucedió con el Internet Explorer, los planes futuros de Microsoft incluyen utilizar el motor en casi todos sus productos, incluyendo versiones locales para su PC (como actualmente el Google Desktop Search). 5. A causa de todas estas variantes, los resultados son muy distintos a los de cualquier otro motor de búsqueda. FORTALEZAS Y DEBILIDADES DE LOS ALGORITMOS GOOGLE: Tiene una ventaja por encima de los demás y es que ha desarrollado un algoritmo que comprender con mayor entendimiento la necesidad informativa del

usuario, traduce lo que se escribe, mientras que otros buscadores lo toman todo literal, siendo una debilidad en los demás. YAHOO!: Es muy interesante el directorio Yahoo!, puesto que complementa la búsqueda de una excelente manera. Y otro aspecto que se convierte en ventaja es que aún da prioridad de búsqueda a la interfaz, siendo el único (factor diferencial). Éstos dos algoritmos, a mi modo de ver, tienen una debilidad y es la de jerarquizar la información por un ranking, por lo que muchos sitios con información relevante y de alta producción intelectual pueden quedarse atrás si su autor no emprende estrategias de posicionamiento, lo cual puede desembocar en dos situaciones igualmente graves en términos de ofrecer información al usuario: que el rastreador deje de consultar el sitio o que estas páginas nunca aparezcan entre los primeros resultados. ALTAVISTA: Se quedó en el tiempo fue importante en su época pero ahora se percibe como obsoleto, siendo una debilidad para éste buscador pero una oportunidad para los demás. MSN: Una fortaleza es su confidencialidad en el algoritmo de búsqueda, lo cual se convierte en una debilidad, por ejemplo, para Google, ya que, por ser el buscador más popular lo pone en la mira de muchas personas que han avanzado en descifrar el algoritmo para beneficio propio y de sus páginas web, lo que puede generar el diseño de estrategias sistémicas para alterar dicho algoritmo. Pese a las ventajas que tengan unos sobre otros, considero que todos los buscadores, independientemente de su potencial y reconocimiento actual son una herramienta muy útil para obtener información y esto lo demuestran las últimas estadísticas presentadas por Experian Hitwise en donde se demuestra que las tendencias en el uso de los buscadores se han modificado, pero que el número de personas utilizando los buscadores sigue en aumento. Éxitos para todos. CIBERGRAFÍA * Motores de Búsqueda. (Marzo, 200). Tomado el día 04 de marzo desde: http://vidateleco.wordpress.com/2009/03/25/motores-de-busqueda-parte-2/ [1]. WEBSITEMASTER. Algoritmos de ordenación de los buscadores. Tomado el día 04 de

marzo desde: http://www.websitemaster.com.ar/algoritmos_de_ordenacion.htm [2]. WEBSITEMASTER. Qué es el PageRank™ de Google? Tomado el día 04 de marzo desde: http://www.websitemaster.com.ar/google_pagerank.htm [3].MAILXMAIL. Capítulo 11: El algoritmo de relevancia. Tomado el día 04 de marzo desde: http://www.mailxmail.com/curso-posicionamiento-buscadores/algoritmo-relevancia [4]. Wired nos explica cómo funciona el algoritmo de búsqueda de Google. Tomado el día 04 de marzo desde: http://articulos.eresseasolutions.com/destacados/wired-nos-explicacomo-funciona-el-algoritmo-de-busqueda-de-google/ [5].YAHOO! ¿Cómo es rastreado mi sitio? (Julio, 2008). Tomado el día 04 de marzo desde: http://help.yahoo.com/l/es/yahoo/search/slurp/slurp01.html;_ylt=Al6_7sfrdHEh_mhxdIOKZaB6PCl4 [6]. MARTÍN, C. Algoritmos de posicionamiento en Yahoo. Tomado el día 04 de marzo desde: http://www.oocities.org/es/algoritmosdeposicionamiento/recuperacionOrganizacionAlgo ritmoYahoo.htm [7].CHOI, G. Gordon Choi's Blog. Tomado el día 04 de marzo http://www.gordonchoi.com/6-factors-on-yahoo-search-algorithm-20061215

desde:

[8]. MARTÍN, S. Recuperación y organización de la información. Tomado el día 04 de marzo desde: http://www.telefonica.net/web2/algoritmos-posicionamiento/algoritmosde-posicionamiento-msn.htm LEVY, S. (Febrero, 2010) Exclusive: How Google’s Algorithm Rules the Web. Tomado el día 04 de marzo desde: http://www.wired.com/magazine/2010/02/ff_google_algorithm/all/1