¿Qué es el Análisis de Hiperenlaces y cómo afecta al SEO? PageRank y Factores de Posicionamiento Web

serp
Para preparar la página de resultados sobre el film 2001, Google ha tenido en cuenta el análisis de hiperenlaces
Última actualización: Octubre 2016. 

Google fue el primer buscador que aplicó una técnica basada en el análisis de hiperenlaces (enlaces entre páginas web) para determinar la importancia relativa de cada página y, a partir de aquí, determinar el orden en el que debía presentar su lista de resultados.

Esta lista suele llamarse SERP (por Search Engine Results Page), así que retengamos este nombre. Concretamente, desarrollaron a la vez una forma determinada de analizar los hiperenlaces y una escala que sirve para expresar, de forma sintética, ese resultado y que responde al nombre de PageRank (literalmente: Rango de Página, ¿o Rango de Page, por Larry Page, uno de los fundadores de Google?).

En su forma visible, esta escala va de 0 a 10. Las páginas que tienen muy pocos enlaces de entrada consiguen puntuaciones bajas, por ejemplo 2 o menos; mientras que las páginas que recibe decenas (o centenares) de miles de enlaces pueden obtener puntuaciones muy altas, de entre 8 y 10. Las páginas con mayores puntuaciones son las que quedan situadas en las primeras posiciones de la SERP. De aquí su importancia.

Google ha influenciado de manera duradera la forma en la cual los motores presentan sus páginas de resultados, de modo que los demás motores (Yahoo, Bing, Ask), aunque cada uno a su manera, utilizan la misma idea básica: aplicar el análisis de hiperenlaces para determinar la importancia de una página, y por tanto el orden en el cual se presentan los resultados en respuesta a una búsqueda.

orden
Una clase de orden: temas en una biblioteca. Roman Boed https://www.flickr.com/photos/romanboed/13356494013/

¿Porqué es tan importante el orden de los resultados?

Si alguien necesita formarse o acceder a informaciones sobre, por ejemplo, el cambio climático, ni el ordenamiento por títulos de los documentos ni ningún otro orden rígido garantiza nada en absoluto. Es por esta razón que los ordenamientos rígidos se pueden equiparar en la mayor parte de las situaciones a conjuntos no ordenados

Y en un conjunto no ordenado, no hay ningún motivo por el cual el documento más relevante (más útil) no pueda ser el primero, pero tampoco para que no pueda ser el último. Esto hace que el número de documentos a examinar en un conjunto no ordenado sea directamente proporcional al número total de documentos encontrados. Y esto nos lleva al problema de la fórmula n/2.

Esto no se aprecia en conjuntos pequeños. Cualquiera puede constatar que ante un grupo de documentos sobre un tema determinado, después de un mero examen, algunos le parecerán más relevantes que otros. Pero, dado que el tiempo para examinar 10 o 20 documentos es relativamente pequeño, no otorgará ningún valor especial al posible acierto con el que se los hayan presentado.

informacionCaos
Conjuntos no ordenados exigen exploración secuencial. Fuente: Jorge Franganillo https://www.flickr.com/photos/franganillo/3554010670/

 

 Volumen de información

Ahora bien, imaginemos que la respuesta a una petición de información, consiste en un conjunto de mil documentos. ¿Tiene el más mínimo sentido presentarlos de forma no ordenada? Por supuesto que no. Los buscadores dejarían de tener usuarios (y perderían sus contratos publicitarios) si los resultados no fueran entregados de acuerdo a algún principio de relevancia.

Si la ordenación por relevancia es acertada, entonces tiene un efecto casi mágico. Hace que sea indiferente, a casi todos los efectos, que el número de documentos encontrados se cuente por miles o incluso por millones porque en todos los casos, al estar ordenados por relevancia, se supone que al usuario le bastará con revisar los primeros documentos.

Relevancia

Pero, ¿qué es la relevancia? Se han dedicado ríos de tinta a discutir esta cuestión que incluye aspectos lógicos, matemáticos, psicológicos, etc. En sus términos más simples, se considera que la relevancia es la propiedad que tiene un documento (en nuestro caso, una página web) para satisfacer una necesidad de información.

Uno de los puntos más interesantes de la cuestión es que esta propiedad es, en realidad, una co-producción entre las propiedades del documento y las características del usuario (su nivel de formación, sus expectativas, conocimientos previos, localización, tiempo disponible, etc.).

Además, la relevancia no es solamente una cuestión de todo o nada, sino que oscila entre un mínimo (cero por cien) y un máximo (cien por cien relevante). En la vida cotidiana todos tenemos la experiencia de haber visto que, sobre un mismo tema, y dado un grupo de documentos para nosotros algunos tendrán una relevancia cercana a cero (por ejemplo, por estar escritos en idiomas que no conocemos) y otros serán tal vez cien por cien relevantes (nos gusta el estilo, el nivel de especialización, la actualización, la selección de temas, las ilustraciones, etc.).

Heterogeneidad

Otro aspecto que determina la naturaleza de los algoritmos de los buscadores es que la Web aportó, literalmente el espacio de búsqueda más heterogéneo de la historia de la humanidad: compuesto por documentos de todos los temas imaginables, sobre aspectos y puntos de vista totalmente diversos, y publicados por parte de actores completamente diversos, con intereses distintos, idiomas y culturas diferentes, etc., e insistimos, todo ellos en un espacio de acceso unificado.

spam
Página de Google, donde explican su “lucha contra el spam”: http://www.google.es/intl/es/insidesearch/howsearchworks/fighting-spam.html

Recuperación con adversario

Por último, debemos señalar uno de los aspectos más característicos de la Web y para el cual la RI clásica no estaba en absoluto preparada. Se trata de lo que se denomina recuperación de información con adversario.

En la Web, los autores de páginas y los administradores de sitios están interesados en conseguir que sus sitios queden bien posicionados en las páginas de resultados de los motores. Una parte de esos autores y administradores carecen de escrúpulos a la hora de perseguir sus objetivos de posicionamiento. Como es sabido, este intento más o menos sistemático de alterar o influir la SERP de los buscadores también tiene varios nombres, siendo los más habituales: spam en buscadores o blackhat SEO.

Con millones de sitios, aunque los administradores no éticos fueran una minoría, podríamos estar hablando de miles y miles de sitios y decenas de miles de páginas sin interés real copando los primeros puestos en las páginas de resultados de los motores de búsqueda si éstos siguieran usando técnicas tan ingenuas como la que aplicaron durante los años 90.

Por lo tanto, por primera vez, los sistemas de información (buscadores en este caso) tuvieron que vérselas con una clase de documentos expresamente “trucados” para aparecer en posiciones de relevancia. Por tanto, a las anteriores razones a favor de un cálculo de relevancia eficiente, se une esta peculiar característica de la web. Dicho de otro modo: sea cual sea el algoritmo de posicionamiento que utilice un motor de búsqueda debe ser inmune (o al menos, relativamente inmune) a los intentos de manipulación de los propios autores de las páginas web y los administradores de documentos.

red de enlaces
Un grafo representando un análisis de enlaces. Fuente: FAS.research. Flickr: https://www.flickr.com/photos/fasresearch/3507916578/

Análisis de hiperenlaces

Como hemos señalado, la primera respuesta verdaderamente eficiente a todos los desafíos señalados hasta ahora los aportó Google a finales de los noventa con un nuevo concepto: el análisis de enlaces. Fue una idea verdaderamente revolucionaria, aunque al principio ninguna empresa del sector de la búsqueda se dio cuenta.

En concreto, la nueva idea que aportó Google (mejor dicho, los fundadores de Google: Sergei Brin y Larry Page) es la siguiente: en lugar de calcular la relevancia exclusivamente por las características intrínsecas de la página, cómo el número de veces que aparece la palabra clave, añadamos también características extrínsecas, en este caso, consideremos las características de los enlaces de entrada que recibe una página. Para entendernos: una página, llamémosla A, recibe un enlace de entrada cada vez que otras páginas, llamésloslas B, C, etc., incluyen un link que apunta a la página A.

¿Cuál es la racionalidad? Grosso modo, se trata de algo muy simple: dadas dos páginas del mismo tema, se considera que será probablemente más importante la que reciba un mayor número de enlaces de entrada. Por la misma lógica, si tenemos una lista de páginas web sobre el mismo tema, las podemos ordenar en función del número de enlaces que reciben (en lugar de presentarlas de forma aleatoria).

A partir de aquí, las dos principales dificultades con las que se topa un análisis de enlaces son del siguiente tipo: (1) ¿valen lo mismo todos los enlaces de entrada?; (2) dado que la Web está compuesta por miles de millones de documentos y que además es dinámica, ¿cómo implementamos un sistema de análisis que no entre en un bucle sin fin?.

 

pageRank
Una ilustración de la transmisión de PageRank entre tres páginas. Fuente: Anicic. Flickr: https://www.flickr.com/photos/inchoo/4711514102/

PageRank

El PageRank (PR a partir de ahora) es, a la vez, un método de análisis de enlaces (un algoritmo) y el resultado del mismo, a saber, una medida estadística, o métrica. En este último sentido es una medida de la importancia o de la popularidad de una página calculada a partir de: (1) el número de enlaces de entrada que recibe y (2) la calidad de los enlaces de entrada que recibe.

En este punto hay que señalar que, aunque PageRank ha sido históricamente el algoritmo más famoso del mundo del SEO, y a la vez el más influyente, esta influencia ahora es inexistente. ¿Porqué nos ocupamos entonces de él?

Una primera razón es porque entender el PageRank sigue útil para entender el SEO. Otra es que, cualquier estudioso del SEO se va a tropezar con este concepto, y más vale que lo entienda, aunque sea con la idea añadida de que, desde el año 2013 ha ido perdiendo su influencia, con un declive rapidísimo hasta nuestros días. Más adelante volveremos sobre esta cuestión. Por el momento, regresemos al análisis de qué es el PageRank.

Por lo que hemos dicho, podemos ver que se trata de un rasgo recursivo: una página es muy importante si recibe enlaces de páginas que a su vez son muy importantes.Por la misma razón, una página que recibe muchos enlaces transmite más PR que una página que recibe pocos enlaces. Pero, a la vez, las páginas reparten fracciones de su PR de manera proporcional entre cada uno de sus enlaces de salida.

Por tanto, también es cierto que puede suceder que un sitio con un alto PR transmita menos PR a las páginas que enlaza que otro sitio con menor PR relativo pero que tiene menos enlaces de salida. Un sitio puede tener, por ejemplo, una página con un PR de 6, y tener 20 enlaces de salida. Según esto, transmite 0.3 puntos de PR. Mientras que una página con un PR de 4, y 10 enlaces de salida está transmitiendo 0.4 puntos de PR. Los enlaces que recibe una página con un PR determinado cambian su PR, y por tanto, el PR que transmite. Si seguimos así corremos el riesgo de sufrir un auténtico mareo por el tremendo efecto recursivo de este cálculo.

Como se ve, calcular el PR de todas y cada una de las páginas de la Web (o al menos de todas y cada una de las páginas en el índice de Google) requiere cálculos que son a la vez recursivos e intensivos. El problema de los cálculos recursivos lo indica su nombre: no tienen una parada. El mérito de Brin y Page fué desarrollar una fórmula que hacía que el cálculo fuera eficiente con un número limitado y muy manejable de iteraciones (ocho en total, según explican en su artículo de 1998).

La cuestión es que, al final de tales cálculos, el PR de una página consiste en un número que será más alto cuantos más enlaces recibe de páginas que, a su vez, tengan un alto PR. En su página para webmasters, Google lo explicaba usando el símil de un sistema de cómputo de votaciones:

PageRank interpreta un enlace desde la página A a la página B como un voto para la página B por parte de la página A. PageRank determina entonces la importancia de una página por el número de votos que recibe. También considera la importancia de cada página que emite el voto, por lo que los votos de algunas páginas se consideran de mayor valor, dando así a la página enlazada mayor valor. Las páginas más importantes tienen un mayor PageRank y aparecen en la parte superior de los resultados de búsqueda.

Sabemos que hace tiempo que Google añade varios elementos adicionales a este análisis. En concreto, tiene en cuenta también al menos otros dos aspectos muy importantes: (1) la relación temática de los enlaces de entrada. Dicho de otro modo, si una página recibe muchos enlaces pero el contenido de  las páginas que envían los enlaces con la página que enlaza tiene poca relación temática, entonces dichos enlaces de entrada tiene poco o ningún valor. Además, (2) tiene en cuenta el texto que sirve para activar el enlace o que están cercanas al enlace.

El aspecto más importante que podemos concluir del PR es que otorgó a Google el enorme poder y dominio del mercado de las búsquedas que actualmente posee. Fue el primer buscador que pensó en añadir, vía el PR, los datos procedentes del análisis de enlaces para ordenar sus resultados y esta idea, aunque ahora ha cambiado, sigue siendo muy potente.

alexa
Alexa

Tendencias

Han aparecido diversas empresas que han desarrollando sus propios “PageRank”. Alexa, una empresa de Amazon, es una de ellas. Otras dos empresas muy destacadas son Moz y Majestic; pero como son análisis propios no tienen porqué coincidir con los del PageRank oficial y ni siquiera entre ellos, aunque suele haber una alta correlación.

Aunque los enlaces de entrada se siguen considerando un factor esencial en el posicionamiento, por una parte su importancia ha ido decreciendo hasta el punto de desaperecer en 2016.

toolbarGoogle
Toolbar de Google (http://www.google.com/intl/es/toolbar/ie/index.html)

Google a través de herramientas como la Toolbar  daba a conocer periódicamente el nuevo PR de cada página web. Este PR se actualizaba ( se recalculaba) varias veces al año, hasta que Google dejó de hacerlo a finales del 2013.

De modo que actualmente, se ha comprobado que páginas con un PR relativamente bajo pueden quedar mejor posicionadas (al menos, para ciertas palabras clave) que páginas con un PR más alto. 

Entre las principales tendencias que sirven para matizar o rebajar la importancia del PR a la hora de componer la SERP se encuentran las siguientes:

  • El énfasis que los últimos algoritmos de Google ponen en la calidad de los contenidos: cantidad, variedad, uso de imágenes, etc.
  • El llamado TrustRank, vinculado con la reputación de la página y el dominio, la antigüedad del dominio, la reputación de enlaces que recibe, la reputación de los enlaces a los que apunta, etc.
  • El perfil del usuario que hace las búsquedas: su procedencia geográfica y sus búsquedas anteriores, incluso otros datos demográficos como el género y la edad.
  • Las intenciones que Google cree que contiene la consulta del usuario: si es una pregunta para hacer una compra, para saber más de alguna cosa o para encontrar la sede de una página web.

Vamos a considerarlos con más atención. En el primer punto, hemos señalado que las nuevas revisiones del algoritmo general del cálculo de relevancia de Google se han ido centrando en detectar cada vez de forma más eficaz la calidad de los contenidos sin necesidad de confiar en el análisis de enlaces, así como en la eficacia para entender la semántica de la pregunta del usuario.

La cuestión es que aunque Google consideraba hasta hace muy poco el PageRank como factor principal dentro de su algoritmo general de ordenación, nunca fue el único. En concreto, entre 2013 y 2014 adquirió cierta fama un conjunto de modificaciones o refinamientos de su algoritmo que ha recibido el nombre no oficial (Google no lo reconoce) de TrustRank. Este nombre responde a otras de las grandes tendencias de Google (y con él, de los otros motores de búsqueda), a saber, confiar también en la reputación del sitio (además de en el resultados del conteo de citas o de enlaces de entrada).

Por otro lado, Google cada vez pone más énfasis en el análisis de las preguntas, es decir, en intentar determinar la, así llamada, “intención de búsqueda”. Esto significa que el ranking con el que compone sus SERP también queda afectado por lo que Google “cree” que  quiere el usuario: ¿quiere encontrar un sitio web, quiere información para hacer una transacción o quiere saber más sobre un tema? En este apartado, para Google es importante también la ubicación del usuario y esto supone que, para algunos tipos de búsquedas, la ordenación de resultados en la SERP será diferente en función de la ubicación geográfica del usuario, entre otras cosas.

De acuerdo con todo lo anterior, cada vez menos se puede decir que una página tiene asegurada de forma inmutable una importancia determinada, como daría a entender el PageRank, ya que, en realidad, la SERP que ofrece actualmente Google es el cruce de, al menos, tres grupos de factores:

  1. Las propiedades OnPageOffPage de las páginas web, y entre estos últimos el análisis de enlaces.
  2. El perfil del usuario.
  3. La intención de búsqueda.
SEO-Diagrama
Factores SEO

Conclusiones: impacto en Cibermedios

Es seguramente por estas razones que algunos afirman que Google ya no tiene en cuenta el análisis de enlaces. Pero esto significa confundir las cosas. En primer lugar es difícil de creer que Google, la empresa más inquieta del mundo a la hora de reunir información de todo tipo, renuncie a ese conocimiento, un conocimiento que le proporciona una información privilegiada. Por el contrario, todas las evidencias indican que sigue existiendo una correlación muy alta entre las primeras posiciones ocupadas en la SERP y un buen número de enlaces de entrada.

Para entender lo que ha pasado con el PR y el análisis de enlaces hay que diferenciar entre cuatro cosas distintas que en los últimos años se han combinando entre ellas como si fueran una sola (pero no lo son):

  • PR cómo una métrica concreta. Una cosa es la métrica concreta, que recibe el nombre de PageRank, y que posiblemente ha quedado en desuso por parte de Google. Al menos, de forma externa, se sabe que ya no se actualiza.
  • La filosofía del análisis de enlaces. Y otra es el análisis de enlaces como elemento que ayuda a determinar la calidad y la importancia de una página. Sigue siendo un indicador de primera magnitud que nadie descuida cuando desea conocer el SEO de un sitio, entre otras cosas porque es insustituible.
  • Los componentes del análisis. Lo que ha vuelto obsoleto a PR es que ahora el análisis es (aún) más sofisticado. Es decir, lejos de haberse abandonado, añade nuevos factores que no contemplaba el PR original, como el texto del enlace, cuándo se adquirió, cuándo se perdió, a qué ritmo se ganaron, la calidad del sitio que enlaza, si es un sitio editorial, la proximidad temática, etc.
  • La ponderación como parte de los factores SEO. Finalmente, el cuarto aspecto a considerar es el peso del análisis de enlaces en el conjunto de los factores SEO. Posiblemente antes este peso era exagerado, lo que permitió actividades fáciles de blackhat SEO. Ahora parece que ha perdido puntos a favor de aspectos de calidad del contenido y de las llamadas señales de usuario que están vinculadas con la web social. Aún así, todos lo análisis indican que sigue siendo uno de los factores relativos más importantes. Par ilustrarlo de alguna forma, si antes su peso estaba, por decirlo de alguna forma, en la franja del 8-9 sobre 10, ahora, posiblemente, «solamente» sea del 6-7 sobre 10.

Como consecuencia general, el esfuerzo por conseguir enlaces por parte de los responsables del SEO siendo totalmente válido y justificado, primero por su indudable influencia como factor de posicionamiento, y segundo porque es una forma directa de conseguir tráfico y (con suerte) reputación, lo que nos lleva al nuevo y valioso TrustRank.

Además, cuando queremos saber la importancia social de un sitio web, el número de enlaces orgánicos (no comprados ni manipulados) de entrada es un dato insustituible y un elemento de comparación entre sitios web de primer orden.

Eso sí, ya no nos debe impresionar más de la cuenta que nos digan que la página A tiene un PR de 8 y en cambio la página B “solo” lo tiene de 6. Sin saber más, actualmente, ya no significa que la página A siempre va a estar mejor posicionada.

Sabemos que no se pueden obtener (o es muy difícil) enlaces sin contenidos de calidad. Por eso, ahora la lucha por el posicionamiento se centra en producir y reutilizar de forma creativa contenidos: variados, originales y de calidad. Pero hay una enorme oferta de contenidos de calidad y de acceso libre en la web. Sin una planificación y las acciones SEO correspondientes en paralelo (mejor dicho, antes y después de la creación de los contenidos) es muy difícil conseguir visibilidad y para eso hacen falta los enlaces. En realidad es una situación circular en la que contenidos y enlaces se retroalimentan. Por tanto, la calidad de los contenidos, lo primero.  Pero después un buen SEO, sin el cual esa calidad puede diluirse en la inmensidad de la web actual. 

Si pensamos en sitios de medios de comunicación la situación es buena. Los contenidos siempre han sido y serán el punto más fuerte de los cibermedios. Ningún actor social produce contenidos de la calidad y del interés social que producen los medios. Además, los análisis (ver la tesis de Carlos Gonzalo citada en las Referencias) muestran que Google tiende a privilegiar la visibilidad de los contenidos de los medios de comunicación.

Las amenazas para los medios vienen de otros aspectos, que no hemos tratado en esta entrada, pero al menos podemos mencionar. Entre ellos: una cierta pérdida de exclusividad de la información de actualidad en manos de las redes sociales, y por este mismo motivo tal vez una excesiva dependencia de tales redes. Esto último, en el sentido de que una parte de su tráfico ya no viene de los buscadores sino de redes como Facebook, lo que provoca según parece una tendencia a preferir géneros periodísticos y estilos de titulares no siempre acordes con la mejor filosofía del periodismo de calidad.

Pero nunca se supo de una época histórica donde todo fueran ventajas. Siempre han consistido en un balance de amenazas y oportunidades. Aprovechemos estas últimas e intentemos minimizar las primeras con un buen trabajo: los periodistas con los contenidos, los documentalistas con el SEO. Y esperemos, o a menos, intentemos, que el ganador sea una sociedad libre de ciudadanos informados y activos. 

Referencias

  • Brin, S.; Page, L. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Stanford Univ., 2000. Acceso: http://infolab.stanford.edu/~backrub/google.html
  • Castillejo, Miguel. Redes Temáticas en la Web: Estudio de caso de la Red Temática de la Transparencia en Chile. Barcelona: Univ. Pompeu Fabra, 2016 [tesis doctoral, fecha de lectura prevista enero 2016].
  • Castillejo, Miguel; Codina, Lluís; Pont, Carles. «Redes temáticas en la web: una propuesta de componentes y caracterización.» Hipertext.net [online], 2014. Núm. 12. http://raco.cat/index.php/Hipertext/article/view/274307/364485
  • Codina, Lluís; Pedraza, Rafael; Díaz Noci, Javier; Rodríguez-Martínez, Ruth; Pérez-Montoro, Mario; Cavaller-Reyes, Víctor. «Sistema Articulado de Análisis de Cibermedios (SAAC): Una propuesta sobre el qué y el cómo para estudiar medios de comunicación digitales.» Hipertext.net [online], 2014, Núm. 12. http://raco.cat/index.php/Hipertext/article/view/275560/364530.
  • Gonzalo-Penela, Carlos. «Tipología y análisis de enlaces web: aplicación al estudio de los enlaces fraudulentos y de las granjas de enlaces». BiD: textos universitaris de biblioteconomia i documentació. Universitat de Barcelona. Núm. 16., 2006
  • Gonzalo-Penela, Carlos; Codina, Lluís; Rovira, Cristòfol. «Recuperación de Información centrada en el usuario y SEO: categorización y determinación de las intenciones de búsqueda en la Web». Index Comunicación, Núm. 5 (3), 2015, pp. 19-27. http://journals.sfu.ca/indexcomunicacion/index.php/indexcomunicacion/article/view/197/175
  • Gonzalo-Penela, Carlos. Posicionamiento web y dinámicas de información en motores de búsqueda: propuestas de análisis y estudio comparativo de visibilidad de contenidos digitales en el caso de procesos electorales. [Tesis doctoral] 2015.  http://hdl.handle.net/10230/23621
  • Google. Dentro de Google. 2015. Acceso: http://www.google.es/intl/es/insidesearch/howsearchworks/
  • Kleinberg, J. “Authoritative sources in a hyperlinked environment”. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms , 1998 (versión extendida en: Journal of the ACM 46(1999).
  • Serrano-Cobos, Jorge. SEO: Introducción a la disciplina del posicionamiento en buscadores. Colección EPI Scholar. Barcelona: Editorial UOC, 2015 ISBN 978 84 9064 956 5
  • Thelwall, M. Link Analysis: An Information Science Approach. Academic Press, 2004
  • Ties, D.; Davies, D. “Link Analysis” En: The Search Engine Marketing Kit. Melbourne: Sitepoint, 2007

Cómo citar esta artículo:
Codina, Lluís. ¿Qué es el Análisis de Hiperenlaces y cómo afecta al SEO? Evolución del PageRank y de los Factores de Posicionamiento Web. Última edición, Octubre 2016. Acceso: https://www.lluiscodina.com/analisis-hiperenlaces-pagerank/