Google para Periodistas (2): La fórmula N/2 o lo que Google quiere y no quiere que veamos


Fuente: Flaticon


1. Introducción

Suponga que alguien le dice: “en alguno de estos cien documentos está la información que necesitas para completar con éxito tu reportaje, pero no tenemos ni idea de en cual de ellos”. Ahora imagine esta otra (interesante) propuesta: “hemos hecho una ordenación de los cien documentos y aquí están los 10 más útiles, pero todo parece indicar que si revisas los cinco primeros, ya tienes la información que estabas buscando”.

¿Quién se resistiría a este trato? Pues éste és, justamente, el que ha conseguido establecer Google con sus usuarios. Y en la medida en que lo consigue, podemos entender que, desde hace 10 años sea el buscador líder en buena parte del mundo (aunque se le resisten Rusia y China).

2. El precio

Este trato se puede expresar así: Google se ocupa de seleccionar, primero y ordenar, después, nuestras fuentes de información (páginas y sitios web). A cambio, cedemos a Google la decisión estratégica de qué es lo que nos conviene saber o ignorar.

La consecuencia: delegamos en Google qué y cómo debemos pensar sobre la realidad, la construcción de nuestra identidad y de paso le dejamos determinar qué vamos a contar a nuestros lectores.

3. Otra visión

Un momento. Hasta aquí la visión conspirativa. Podría continuar argumentando sobre el enfermizo deseo de los poderosos de gobernar nuestras mentes; y si pusiera la directa podría acabar preguntándome si detrás de Google no habrá en realidad una inteligencia alienígena que quiere apoderarse de la Tierra.

Sin embargo, la respuesta es mucho realista (y sin duda más aburrida). Es una cuestión que combina intereses (confesables) y limitaciones (tecnológicas). Vamos a intentar esa visión más neutra, o más técnica, como quieran. Una vez expuesta, quien lo desee tendrá argumentos igualmente para la línea de razonamiento tipo control de la mente (con o sin alienígenas). La parte más técnica es neutra por algo.

4. N/2 o porqué queremos que Google ordene los resultados

La razón por la cual bailamos con el diablo (o sea, delegamos en Google, o en cualquier otro buscador, la decisión de qué leer y que no) se llama N/2 (no es exactamente el “3 por ciento”,  pero ya verán que es también una expresión aritmética que explica muchas cosas).

Ya hemos jugado con la idea de que una lista de cosas puede ser muy poco útil si no está ordenada. La razón es que, en el caso de documentos tendremos que recorrerlos secuencialmente, y la probabilidad de que el documento buscado sea el primero es progresivamente más pequeña conforme aumenta el número de ellos.

Esto se puede formalizar. Hay una ecuación muy simple que nos dice cuántos ítems deberíamos examinar en promedio dado el número de los mismos. Llamemos N al número total de ítems (documentos, listas en enlaces, lo que sea) que debemos examinar. En promedio, tendremos que recorrer exactamente N/2 ítems para encontrar el que necesitamos.

Si una búsqueda en Internet nos propone una lista sin ordenar de 100.000 enlaces, la ecuación pronostica que deberíamos revisar 50.000 documentos para encontrar el que nos interesa. N/2 hace que la lista de elemento a recorrer sea brutalmente dependiente del número total de documentos encontrados. Necesitamos algo que nos libre de esa maldición.

Y aquí está el punto al que quería llegar. Google (y los demás buscadores en general) nunca entregan resultados desordenados; sino que los presentan por orden de relevancia, es decir en función de la probabilidad que tiene cada resultado (cada página, cada documento) de resolver nuestra necesidad de información.

Y esto hace que el número de ítems a examinar sea razonablemente independiente del número total de resultados encontrados. Si el cálculo de relevancia se ha hecho bien, este número podrá estar alrededor de unas pocas decenas (incluso menos). Nos hemos librado de la maldición del N/2.

5. Cómo Google ordena los resultados

Recordemos primero cuál es el negocio de Google: la publicidad. Google necesita que volvamos una y otra vez a usar sus servicios, principalmente el buscador. Pero no hay muchas probabilidades de que volvamos si no consigue concentrar los mejores resultados en la primera página (nadie mira la segunda, y no digamos las siguientes). A esa primera página de resultados se le suele llamar el top 10 porque tiene justamente 10 enlaces.

Ahora bien, para conseguir que el top 10 sea útil la mayor parte de las veces, Google tiene que afrontar, al menos, tres problemas:

  • La web es enorme
  • El spam en buscadores
  • La diversidad humana

Vamos a examinar esas tres cuestiones y empezaremos a saber que és lo que Google quiere que veamos y lo que no, y sobre todo, entenderemos que aunque no hace falta imaginar una voluntad malvada detrás de Google (recordemos la navaja de Ockham) es importante ser muy consciente de esos aspectos. Más aún si estamos en el negocio de la información.

5.1. La web es enorme

Aquí volvemos al tema del principio, si por cada búsqueda es extraño que no aparezcan al menos varios miles e incluso varios millones de páginas como respuesta, ¿cómo conseguimos ordenar los resultados para que (por ejemplo), los diez primeros sean con mucha probabilidad los diez mejores (para esa pregunta)?

Históricamente, Google encontró la solución analizando los enlaces que entran y salen de las páginas web, y decidió algo que es muy familiar a los académicos cuando hablamos de revistas de impacto y de índices h. Decidió que las web más citadas (más enlazadas) eran probablemente las mejores.

El sistema es un poco más sofisticado y se puede enunciar así: las páginas más enlazadas por páginas, a su vez muy enlazadas, probablemente son las mejores en su especialidad. Cada página de la web tenía un número que expresaba ese rango de calidad, y nada casualmente se llamaba PageRank. A partir de aquí, una vez filtradas las páginas que contenían la palabra clave de la consulta, era cuestión de ordenarlas por su PageRank (había otros factores, pero el PageRank era con diferencia el más importante).

Poner en práctica esta idea destruyó a su competencia. Literalmente. Había casi una decena de buscadores y otros sistemas de información importantes (como directorios) antes de Google. Desde entonces, importante de verdad solo hay uno: el propio Google (salvo en Rusia y en China, como ya hemos mencionado).

Si se está preguntando cómo ordenaban los resultados los otros buscadores, la respuesta es, básicamente por el número de veces que aparecía la palabra clave en cada página. Tan tosco que era rarísimo que en el top 10 hubiera algo demasiado útil.

5.2. El spam en buscadores

Desde el punto de vista de la calidad, la búsqueda en la web tiene lugar con un adversario: sitios web que quieren situarse en el top 10 independientemente de la calidad de sus contenidos. Es como si en el negocio del periodismo hubiese empresarios buscando una manera de capturar mucha publicidad con contenidos de interés ínfimo (¿porqué lo habré puesto en condicional?). Esto es spam en buscadores.  Si el spam del correo llena nuestro buzón de basura, el de buscadores lleva la basura a los resultados de una consulta.

La cuestión es que, poco a poco, fueron apareciendo cada vez más profesionales del spam en buscadores que podían conseguir que casi cualquier contenido, por malo y fraudulento que fuera, apareciera en el top 10 en base a manipular el análisis de enlaces (comprándolos, por ejemplo).

Así, que actualmente, el análisis de enlaces, aunque sigue siendo un componente importante, ha perdido peso en comparación con el pasado.

Entonces, ¿qué es lo que, según Google, hace que ahora una página sea importante? Según los analistas, y suponiendo siempre una inversión mínima en contenido de calidad, lo que cuenta para Google ahora son las señales que proceden directa o indirectamente de los usuarios, y en particular cosas como las siguientes:

  • Señales sociales (presencia en Twitter, Facebook y Google+, especialmente,)
  • Tiempo de permanencia en el sitio
  • Tasa de rebote (número de clics en el sitio)
  • Número de clics en la página de resultados

5.3. Los usuarios somos muy distintos

En el punto hemos visto que Google no deja de tener a los usuarios en el centro de mira. En los últimos años, Google ha hecho al menos otras dos cosas más en su doble lucha contra el spam y para atraer y fidelizar a los usuarios de sus sistema de búsqueda:

  • Por un lado, ha añadido a una serie de aspectos de personalización que hace que cada página de resultados del buscador sea diferente en función del perfil del usuario. En este perfil entra no solamente su zona geográfica, sino sus datos demográficos (idioma, edad, estado civil), el historial de sus búsquedas pasadas e inclusos sus aficiones (casi todos estos datos los obtiene del ordenador con el que se hacen las búsquedas y con los perfiles de los servicios de Google, como Gmail y Google+)
  • Ha añadido funciones de minería de consultas de modo que ahora intenta interpretar de forma global las preguntas y además intenta adivinar la intención que hay detrás de cada pregunta.

6. El resultado combinado: qué quiere Google que veamos, y qué no

Todo ello combinado genera páginas de resultados que cada vez se parecen menos entre sí, si las hacen diferentes personas, aunque usen las mismas palabras clave en sus consultas; incluso si las hace la misma persona en momentos distintos.

El perfil del usuario y la historia de sus búsquedas anteriores puede hacer que, para la misma pregunta, la página de resultados sean distintas si las hacen distintas personas, no digamos si una vive en Barcelona y otra en Moscú. Incluso la censura que Google aplica por orden de diversos gobiernos, afecta de forma distinta según la procedencia geográfica del que busca; p.e. resultados eliminados por el derecho al olvido en la Unión Europea, se muestran en otras zonas geográficas (aunque parece que están apretando las clavijas a Google para que deje de ser así). De modo que Google:

Sí quiere que veamos:

  • Anuncios de su sistema Adwords que se ajusten lo mejor posible a nuestro perfil e intereses (es su compromiso con los anunciantes)

  • Contenidos que se ajusten a nuestra visión del mundo (es su compromiso con nosotros):
    • En nuestro idioma
    • De nuestro ámbito geográfico
    • Vinculados con búsquedas anteriores
    • Coherentes con nuestro perfil demográfico
  • Que respondan a su idea de calidad (es su sistema de garantías):

  • Que tengan vida social

  • Que acumulen muchos clics

  • Que sean muy actuales

No quiere que veamos:

  • Contenidos publicados en zonas geográficas desvinculadas de la nuestra (p.e. de Eslovenia, aunque estén en inglés)
  • Que carecen de vida social, aunque sean contenidos académicos de máxima solvencia
  • De páginas poco enlazadas y con poco tráfico
  • Censurados por los gobiernos, cuyo contenido depende de nuestro lugar de consulta (p,e, en Alemania, páginas nazis, en Europa en general páginas afectadas por el derecho al olvido; en EEUU, páginas afectadas por la Patriot Act, etc.)

6. Conclusiones

Podemos ver que ahora una página muy bien situada (en el top 10) casi seguro que no será de muy mala calidad, pero tampoco tiene porque ser ni mucho menos la mejor en cuanto a contenidos, ni la que publique los informes más solventes, sino la que tenga un mejor equipo de marketing o de community management detrás.

Esto tiene, al menos, dos dimensiones, y ambas nos afectan:

  • Como creadores: cuando publicamos contenidos en medios de comunicación
  • Como usuarios: cuando buscamos contenidos de calidad para hacer mejor nuestro trabajo.

Como creadores de contenidos: podemos ver que esto ha significado una ayuda real a los medios; se puede comprobar cómo, con el tiempo, los contenidos generados por los medios han ido desplazando a otros contenidos, sobre todo, a los generados por los usuarios.

Como buscadores de información: hemos de saber que, cuando consultamos Google estamos aceptando las siguientes limitaciones:

  • Ahora es difícil que aparezca en el top 10 una página descuidada y sin una mínima inversión en diseño y contenidos, y es difícil que no tenga relación con el tema, sin embargo, nada nos asegura que sea la mejor página para el tema. Precisamente la que nos podría dar la clave solucionar el problema con el que estamos lidiando.
  • Probablemente, la mayor parte de los resultados del top 10 estarán seguramente relacionados con la pregunta y corresponderán a páginas con una mínima inversión en contenidos, pero nada garantiza que sean las mejores.

  • Lo anterior sucederá muy especialmente si hacemos una búsqueda informacional (y no meramente navegacional o transaccional). Es decir si necesitamos contenidos informativos, solventes y de calidad, es posible que no sean éstos los que veamos en el top 10, porque carecerán de las señales de usuario y otras que ahora considera Google, según hemos visto más arriba.
  • El idioma que usemos para buscar reforzará aún más lo anterior. Si necesitamos documentarnos sobre un tema y solamente usamos términos en nuestra lengua, perderemos contenidos si están publicados en la lengua que, por razones intrínsecas al tema o meramente demográficas (inglés), más probable es que tengan los mejores contenidos sobre ese tema.

  • Nuestras búsquedas pueden estar afectadas por algunas formas de censura que, en otras fuentes podríamos sortear. Por ejemplo, por el derecho al olvido. Google se ha visto obligado a retirar de los resultados de búsqueda en Europa, al parecer varios cientos de miles de páginas que afectan a personas que han invocado con éxito el derecho al olvido. Algunas fuentes dijeron en su momento que un buen número correspondían a casos de corrupción y pederastia. Sin confirmar.

Las soluciones a lo anterior son sencillas: primero tenerlo presente. Esto solo ya es un avance. Segundo, usar la búsqueda avanzada en lugar de la simple, tercero triangular nuestras búsquedas añadiendo otros sistemas de información, al menos siempre que estemos en misiones críticas, si me permiten la expresión (p.e. si debemos hacer un buen reportaje a ver si nos hacen un contrato digno por fin).

En próximas entregas iremos tratando estos aspectos.


Anexo: dos curiosidades

(1) Uno de los fundadores de Google se llama Larry Page (el otro, Serguéi Brin), así que el término PageRank puede significar a la vez el rango de página web, y el rango de Larry Page.

(2) Hay una situación, dado un conjunto desordenado, que arroja un resultado aún peor que el de n/2. Se da si no sabemos previamente cuántos ítems cumplen la condición. Por ejemplo, necesitamos todas las noticias publicadas en un año que mencionen a la empresa X. En este caso, encontrar una noticia que mencione a X no nos libera de seguir recorriendo la lista de ítems, porque no sabemos si hay una segunda; encontrar una segunda, igual porque no sabemos si hay una tercera, etc. En esta situación, la fórmula que expresa el número de ítems a recorrer, dados N ítems, es… ¡N! Para que después algunos sigan sin entender para qué sirven los sistemas de documentación.


Icon made by Freepik from www.flaticon.com