Google para Periodistas | 2: Lo que Google quiere y no quiere que veamos

Tiempo estimado de lectura: 9 minutos
Google para periodistas: Icono que representa el análisis de Google de la calidad de un sitio web
Fuente: Flaticon

Google para periodistas (y comunicólogos): una entrega de esta serie no podemos dejar de considerar las ideas que tiene este buscador sobre qué debemos y qué no debemos ver los usuarios a través de su página de resultados. Solamente así se puede entender de forma cabal el alcance que tiene utilizar Google como la plataforma privilegiada de media humanidad para acceder a la información.


Edición Junio 2019


Lo primero que haremos será intentar entender la clave del éxito de Google, esto es, vamos a intentar llegar al núcleo duro del verdadero contrato de este buscador con sus usuarios. Para ello, nos vamos a preguntar qué es lo que, de verdad, ofrece Google para que, siendo una empresa amada, pero también odiada a partes iguales se mantengan en la cumbre.

El contrato de Google con sus usuarios

Para situar la discusión, suponga que alguien le dice: «en alguno de estos mil documentos está la información que necesitas para completar con éxito tu reportaje, pero no tenemos ni idea de en cuál de ellos».

Ahora imagine que le dicen esto otro: «hemos ordenado los documentos en función de su posible utilidad y aquí están los 10 más relevantes, y todo parece indicar que si revisas los cinco primeros ya tienes la información que estabas buscando, los demás los puedes ignorar porque serán inadecuados, obsoletos o redundantes».

¿Quién se resistiría a este trato? Pues éste és, justamente, el que ha conseguido establecer Google con sus usuarios. Y en la medida en que lo consigue, podemos entender que, desde hace lustros años sea el buscador líder en buena parte del mundo (se le resisten Rusia y China).

El precio del contrato

Este trato se puede expresar así: Google se ocupa de seleccionar y ordenar por relevancia nuestras fuentes de información (en forma de páginas y sitios web). A cambio, cedemos a Google la decisión estratégica de qué es lo que nos conviene saber o ignorar, puesto que solamente atenderemos a los primeros documentos que nos presente e ignoraremos el resto.

Esto es algo que se puede afirmar de modo contundente porque es lo que hace el 95% de los usuarios, a saber, no pasar de la primera página de resultados. Lo que significa que la inmensa mayoría de los usuarios examinan solamente los 5 o 10 primeros resultados que muestra Google, en el orden que decide Google, aunque haya cientos o miles de documentos en total como parte de la respuesta.

La consecuencia: delegamos en Google qué y cómo debemos pensar sobre la realidad, la construcción de nuestra identidad y de paso le dejamos determinar qué vamos a contar a nuestros lectores, si el periodismo es nuestro oficio, con lo cual nos comportamos como agentes de Google.

Otra visión

Un momento. Con esto es fácil dar paso a la visión conspirativa. Podría continuar argumentando sobre el enfermizo deseo de los poderosos de gobernar nuestras mentes; y por esta vía podría acabar preguntándome si detrás de Google no habrá en realidad una inteligencia alienígena que quiere apoderarse de la Tierra.

Sin embargo, la respuesta es mucho realista (y más aburrida). Es una cuestión que combina intereses (confesables) y limitaciones (tecnológicas). Google quiere que usemos su buscador para colocar su publicidad, y nos ofrece su servicios gratis precisamente para que usemos su buscador y no otros.

Además, procura proporcionarnos otros servicios (GMail, p.e.) para obtener cuantos datos de los usuarios sea posible, con lo cual ofrecerá una publicidad más certera, etc. Esta es la versión que asegura que cuando un producto es gratuito, esto indica que en realidad la mercancía es el usuario. Es una forma brillante de explicar el negocio de Google pero creo que innecesariamente truculenta.

Como sea, a partir de ahora vamos a intentar una visión más neutra, o más técnica, como quieran sobre lo que Google quiere que veamos (o no). Una vez expuesta, quien lo desee tendrá argumentos igualmente para la línea de razonamiento conspirativo. La parte más técnica es neutra por algo.

Puede que al final tengamos una buena razón para ceder a Google la capacidad de decidir por nosotros qué debemos ver (y qué no). El motivo lo presento a continuación. También veremos que podemos atenuar las consecuencias menos positivas.

N/2 o porqué en realidad queremos que Google ordene los resultados

La razón por la cual bailamos con el diablo (o sea, delegamos en Google, o en cualquier otro buscador, la decisión de qué leer y que no) se llama N/2. Enseguida explicamos esta ecuación.

Ya hemos manipulado la idea de que una lista de cosas puede ser muy poco útil si no está ordenada. La razón es que, en el caso de documentos tendremos que recorrerlos secuencialmente, y la probabilidad de que el documento buscado sea el primero es progresivamente más pequeña conforme aumenta el número de ellos.

Esto se puede formalizar. Hay una ecuación muy simple que nos dice cuántos ítems deberíamos examinar en promedio dado el número de los mismos. Llamemos N al número total de ítems (documentos, sitios web, listas en enlaces, lo que sea) que debemos examinar. En promedio, tendremos que recorrer exactamente N/2 ítems para encontrar el que necesitamos.

Si una búsqueda en Internet nos propone una lista sin ordenar de 100.000 enlaces, la ecuación pronostica que deberíamos revisar 50.000 documentos para encontrar el que nos interesa. N/2 hace que la lista de elemento a recorrer sea brutalmente dependiente del número total de documentos encontrados. Necesitamos algo que nos libre de esa maldición.

Y aquí está el punto al que quería llegar. Google (y los demás buscadores en general) nunca entregan resultados desordenados; sino que los presentan por orden de relevancia, es decir en función de la probabilidad que tiene cada resultado (cada página, cada documento) de resolver nuestra necesidad de información.

Y esto hace que el número de ítems a examinar sea razonablemente independiente del número total de resultados encontrados. Si el cálculo de relevancia se ha hecho bien, este número podrá estar alrededor de unas pocas decenas (incluso menos). Nos hemos librado de la maldición del N/2.

Ser conscientes de este contrato es MUY importante

Seguramente tenemos buenas razones para llevar a cabo esta cesión sobre qué hemos de ver y qué no, si el argumento anterior tiene algún acierto. Pero, precisamente por esto, es muy importante ser conscientes de esta cesión que estamos haciendo.

Solamente de este modo entenderemos que aunque la mayor parte del tiempo Google nos presenta resultados relevantes, no podemos saber sí son los más relevantes, en otras palabras, no podemos saber si son los mejores o los que más nos conviene conocer.

La posible solución a esto, o al menos su atenuación al máximo, puede pasar por dos cosas:

  • Primero, usando la búsqueda avanzada (en lugar de la simple). De este modo, dejamos menos margen a Google para que decida. No evitaremos que, al final, sea Google quien decida, con sus algoritmos, cómo ordena los resultados. Pero el primer filtro, esto, es el conjunto de resultados sobre el cual hará la ordenación, lo podemos determinar nosotros en buena parte gracias a la búsqueda avanzada.
  • Segundo, al menos en misiones críticas, podemos usar además de Google, otros sistemas. Esto justifica la enorme conveniencia de ampliar nuestra cartera de recursos, en especial si estamos en una profesión vinculada con la comunicación, en la cual acabaremos amplificando lo que encontremos en los buscadores.

Cómo Google ordena los resultados

Volvamos al núcleo de nuestro tema, para poder entender mejor lo que Google quiere que veamos (y lo que no). Recordemos primero cuál es el negocio de Google: la publicidad. Google necesita que volvamos una y otra vez a usar sus servicios, principalmente el buscador.

Pero no hay muchas probabilidades de que volvamos si no consigue concentrar los mejores resultados en la primera página (casi nadie mira la segunda, y no digamos las siguientes). A esa primera página de resultados se le suele llamar el top 10 porque tiene justamente 10 enlaces.

En una serie dedicada a Google para periodistas hemos de considerar también que para que un buscador pueda determinar cuáles podrían ser los mejores resultados (el top 10) Google tiene que afrontar, al menos, tres problemas de solución nada fácil:

  • La enormidad de la web. Tratar con terabytes de datos no es una tarea fácil y menos si las respuestas se deben proporcionar en fracciones de segundo.
  • El spam, esto es contenido de pésima calidad, pero que utiliza trucos para que un buscador crea que es de mucha calidad. en buscadores
  • La diversidad humana, esto es cada persona tiene un perfil de intereses específico y cada área cultura-geográfica tiene preferencias diferentes, empezando por ejemplo por el idioma de los documentos.

Vamos a examinar esas tres cuestiones y empezaremos a saber que és lo que Google quiere que veamos y lo que no, y sobre todo, entenderemos que aunque no hace falta imaginar una voluntad malvada detrás de Google (recordemos la navaja de Ockham) es importante ser muy consciente de esos aspectos. Más aún si estamos en el negocio de la información.

La web es enorme

Aquí volvemos al tema del principio, si por cada búsqueda es extraño que no aparezcan al menos varios miles e incluso varios millones de páginas como respuesta, ¿cómo conseguimos ordenar los resultados para que (por ejemplo), los diez primeros sean con mucha probabilidad los diez mejores (para esa pregunta)?

Históricamente, Google encontró la solución analizando los enlaces que entran y salen de las páginas web, y decidió algo que es muy familiar a los académicos cuando hablamos de revistas de impacto y de índices h. Decidió que las web más citadas (más enlazadas) eran probablemente las mejores.

El sistema es un poco más sofisticado y se puede enunciar así: las páginas más enlazadas por páginas, a su vez muy enlazadas, probablemente son las mejores en su especialidad. Cada página de la web tenía un número que expresaba ese rango de calidad, y nada casualmente se llamaba PageRank. A partir de aquí, una vez filtradas las páginas que contenían la palabra clave de la consulta, era cuestión de ordenarlas por su PageRank (había otros factores, pero el PageRank era con diferencia el más importante).

Poner en práctica esta idea destruyó a su competencia. Literalmente. Había casi una decena de buscadores y otros sistemas de información importantes (como directorios) antes de Google. Desde entonces, importante de verdad solo hay uno: el propio Google (salvo en Rusia y en China, como ya hemos mencionado).

Si se está preguntando cómo ordenaban los resultados los otros buscadores, la respuesta es, básicamente por el número de veces que aparecía la palabra clave en cada página. Tan tosco que era rarísimo que en el top 10 hubiera algo demasiado útil.

El spam en buscadores

Desde el punto de vista de la calidad, la búsqueda en la web tiene lugar con un adversario: sitios web que quieren situarse en el top 10 independientemente de la calidad de sus contenidos. Es como si en el negocio del periodismo hubiese empresarios buscando una manera de capturar mucha publicidad con contenidos de interés ínfimo (¿porqué lo habré puesto en condicional?). Esto es spam en buscadores.  Si el spam del correo llena nuestro buzón de basura, el de buscadores lleva la basura a los resultados de una consulta.

La cuestión es que, poco a poco, fueron apareciendo cada vez más profesionales del spam en buscadores que podían conseguir que casi cualquier contenido, por malo y fraudulento que fuera, apareciera en el top 10 en base a manipular el análisis de enlaces (comprándolos, por ejemplo).

Así, que actualmente, el análisis de enlaces, aunque sigue siendo un componente muy importante, ha perdido algo de peso en comparación con el pasado.

Entonces, ¿qué es lo que, según Google, hace que ahora una página sea importante? Según los analistas, y suponiendo siempre una inversión mínima en contenido de calidad, lo que cuenta para Google ahora son las señales que proceden directa o indirectamente de los usuarios, y en particular cosas como las siguientes:

  • Intención de búsqueda, o para qué puede ser útil una información a un usuario.
  • Señales sociales, esto es señales procedentes de interacciones de los usuarios de Twitter y Facebook principalmente con los contenidos de un sitio.
  • Tiempo medio de permanencia de los usuarios en un sitio
  • Tasa de rebote, o interacciones, en base a clics en enlaces, de los usuarios de un sitio.
  • Número de clics que recibe un sitio en la página de resultados

Los usuarios somos muy distintos

En el punto hemos visto que Google no deja de tener a los usuarios en el centro de mira. En los últimos años, Google ha hecho al menos otras dos cosas más en su doble lucha contra el spam y para atraer y fidelizar a los usuarios de sus sistema de búsqueda:

  • Por un lado, ha añadido a una serie de aspectos de personalización que hace que cada página de resultados del buscador sea diferente en función del perfil del usuario. En este perfil entra no solamente su zona geográfica, sino sus datos demográficos (idioma, edad, estado civil), el historial de sus búsquedas pasadas e inclusos sus aficiones (casi todos estos datos los obtiene del ordenador con el que se hacen las búsquedas y con los perfiles de los servicios de Google, como Gmail y Google+)
  • Ha añadido funciones de minería de consultas de modo que ahora intenta interpretar de forma global las preguntas y además intenta adivinar la intención que hay detrás de cada pregunta.

El resultado combinado: qué quiere Google que veamos, y qué no

Todo ello combinado genera páginas de resultados que cada vez se parecen menos entre sí, si las hacen diferentes personas, aunque usen las mismas palabras clave en sus consultas; incluso si las hace la misma persona en momentos distintos.

El perfil del usuario y la historia de sus búsquedas anteriores puede hacer que, para la misma pregunta, la página de resultados sean distintas si las hacen distintas personas, no digamos si una vive en Barcelona y otra en Moscú. Incluso la censura que Google aplica por orden de diversos gobiernos, afecta de forma distinta según la procedencia geográfica del que busca; p.e. resultados eliminados por el derecho al olvido en la Unión Europea, se muestran en otras zonas geográficas (aunque parece que están apretando las clavijas a Google para que deje de ser así). De modo, llegamos al punto esencial que, en una modesta entrega de esta serie sobre Google para periodistas como esta, queríamos alcanzar:

Google SÍ quiere que veamos:

  • Anuncios de su sistema Adwords que se ajusten lo mejor posible a nuestro perfil e intereses (es su compromiso con los anunciantes). Esto es, por supuesto, su prioridad número uno, la parte que conviene al buscador. Otra cosa es que, para conseguirla, debe ofrecer resultados lo más relevantes posible. Y esta es la parte que nos conviene a nosotros.
  • Contenidos que se ajusten a nuestra visión del mundo, ya que es parte de su compromiso con nosotros:
    • En nuestro idioma
    • De nuestro ámbito geográfico
    • Vinculados con búsquedas anteriores
    • Coherentes con nuestro perfil demográfico
  • Que respondan a su idea de calidad, cosa que forma parte de su sistema de garantías. Un documento oficial de Google donde se recogen bien sus ideas sobre la calidad de sitios web se puede obtener de este enlace.
  • Que tengan vida social
  • Que acumulen numerosos clics
  • Que sean muy actuales
  • Que contengan componentes multimedia

Google NO quiere que veamos:

  • Contenidos publicados en zonas geográficas desvinculadas de la nuestra (p.e. de Eslovenia, aunque estén en un idioma muy universal, como el inglés).
  • Que carecen de vida social, aunque sean contenidos académicos de máxima solvencia.
  • De páginas poco enlazadas y con poco tráfico.
  • Censurados por los gobiernos, cuyo contenido depende de nuestro lugar de consulta (p,e, en Alemania, páginas nazis, en Europa en general páginas afectadas por el derecho al olvido; en EEUU, páginas afectadas por la Patriot Act, etc.).

Conclusiones de la segunda entrega de Google para periodistas

Ahora podemos entender que una página muy bien situada (en el top 10) casi seguro que no será de muy mala calidad, pero tampoco tiene porque ser ni mucho menos la mejor en cuanto a contenidos, ni la que publique los informes más solventes. Probablemente será la que tenga un mejor equipo de SEO o de community management detrás, además de ser la que esté más próxima a nuestra área cultural-geográfica.

Esto tiene, al menos, dos dimensiones, y ambas nos afectan:

  • Como creadores: cuando publicamos contenidos en medios de comunicación. Los aspectos que conocemos nos deberían orientar sobre la forma de optimizar la visibilidad de nuestros contenidos en la web.
  • Como usuarios: cuando buscamos contenidos de calidad para hacer mejor nuestro trabajo hemos de conocer los criterios que aplicará Google a la hora de ordenar los resultados. Y esta ordenación determinará de forma absoluta qué veremos y qué no veremos.

Otras consideraciones adicionales son las siguientes: podemos ver que, como creadores de contenidos, históricamente esto ha significado una ayuda real a los medios. Se puede comprobar cómo, con el tiempo, los contenidos generados por los medios han ido desplazando a otros contenidos, sobre todo, a los generados por los usuarios.

Como buscadores de información: hemos de saber que, cuando consultamos Google estamos aceptando las siguientes limitaciones:

  • Actualmente es muy difícil que aparezca en el top 10 una página descuidada y sin una mínima inversión en diseño y contenidos, y es difícil que no tenga relación con el tema, sin embargo, nada nos asegura que sea la mejor página para el tema. Precisamente la que nos podría dar la clave solucionar el problema con el que estamos lidiando.
  • Probablemente, la mayor parte de los resultados del top 10 estarán seguramente relacionados con la pregunta y corresponderán a páginas con una mínima inversión en contenidos, pero nada garantiza que sean las mejores.
  • Lo anterior sucederá muy especialmente si hacemos una búsqueda informacional (y no meramente navegacional o transaccional). Es decir si necesitamos contenidos informativos, solventes y de calidad, es posible que no sean éstos los que veamos en el top 10, porque carecerán de las señales de usuario y otras que ahora considera Google, según hemos visto más arriba.
  • El idioma que usemos para buscar reforzará aún más lo anterior. Si necesitamos documentarnos sobre un tema y solamente usamos términos en nuestra lengua, perderemos contenidos si están publicados en la lengua que, por razones intrínsecas al tema o meramente demográficas (inglés), más probable es que tengan los mejores contenidos sobre ese tema.
  • Nuestras búsquedas pueden estar afectadas por algunas formas de censura que, en otras fuentes podríamos sortear. Por ejemplo, por el derecho al olvido. Google se ha visto obligado a retirar de los resultados de búsqueda en Europa, al parecer varios cientos de miles de páginas que afectan a personas que han invocado con éxito el derecho al olvido. Algunas fuentes dijeron en su momento que un buen número correspondían a casos de corrupción y pederastia. Sin confirmar.

Las soluciones a lo anterior son sencillas: primero tenerlo presente. Esto solo ya es un avance. Segundo, usar la búsqueda avanzada en lugar de la simple, tercero triangular nuestras búsquedas añadiendo otros sistemas de información, al menos siempre que estemos en misiones críticas, si me permiten la expresión (p.e. si debemos hacer un buen reportaje a ver si nos hacen un contrato digno por fin).


Anexo: dos notas para el apartado de curiosidades de la serie Google para periodistas:

(1) Uno de los fundadores de Google se llama Larry Page (el otro, Serguéi Brin), así que el término PageRank puede significar a la vez el rango de página web, y el rango de Larry Page.

(2) Hay una situación, dado un conjunto desordenado, que arroja un resultado aún peor que el de N/2. Se da si no sabemos previamente cuántos ítems cumplen la condición. Por ejemplo, necesitamos todas las noticias publicadas en un año que mencionen a la empresa X. En este caso, encontrar una noticia que mencione a X no nos libera de seguir recorriendo la lista de ítems, porque no sabemos si hay una segunda; encontrar una segunda, igual porque no sabemos si hay una tercera, etc. En esta situación, la fórmula que expresa el número de ítems a recorrer, dados N ítems, es… ¡N! Para que después algunos sigan sin entender para qué sirven los sistemas de documentación.


Icon made by Freepik from www.flaticon.com


Las cuatro entradas que forman la serie completa de Google para periodistas y comunicadores: