8 búsquedas avanzadas para conseguir que Google sea quien haga lo que nosotros queremos (y no al revés) | Google para Periodistas · 3

Búsqueda avanzada: sus tres sabores

Edición Junio 2019

La búsqueda avanzada es la mejor forma de garantizar que un periodista o un profesional de la comunicación está en condiciones de explotar de forma adecuada la inmensa riqueza de internet y de acceder a sus mejores recursos. Forma parte, por tanto, de su responsabilidad profesional conocer el funcionamiento efectivo de la búsqueda en Internet.


Navegación rápida


Además, su uso solamente le reportará ventajas profesionales, como esperamos, si no demostrar, al menos argumentar, porque si un periodista está en condiciones óptimas de usar las fuentes abiertas de Internet hará mejor su trabajo y seguramente con menos esfuerzo.

Ahora bien, a la persona ultra práctica que casi todo periodista lleva dentro ya la imagino preguntándose: si hasta un niño puede utilizar la búsqueda simple, ¿para qué queremos la avanzada?

Parte de la respuesta está en el artículo anterior de esta serie, pero si no quiere desviarse de la lectura, aquí tiene tres respuestas:

  • Para no delegar la toma de decisiones en Google, y así evitar que piense por nosotros.
  • Para que sea Google quien haga lo que necesitamos que haga, y no lo que le parezca por nuestra falta de precisión (en realidad, es una variación de la anterior).
  • Para conseguir información más relevante y que nos ayude más en nuestro trabajo al no perder información valiosa que estaba al alcance de cualquiera que hubiera sabido cómo buscar.

Contexto

¿Necesitamos siempre la búsqueda avanzada? Molestarse en ir a la búsqueda avanzada para encontrar el sitio web del Museo del Prado o la fecha de nacimiento de Lionel Mesi es una tontería. Así, que veamos cuando la necesitamos y cuando no:

– NO necesitamos la búsqueda avanzada en:

  • Búsquedas navegacionales, como cuando queremos encontrar un sitio web previamente conocido, pero sin necesidad de entrar la URL.
  • Búsquedas transaccionales, como cuando queremos encontrar vuelos baratos a Londres para el próximo puente.

– SÍ necesitamos búsquedas avanzadas en las llamadas búsquedas informacionales. Tres ejemplos fáciles:

  • Documentarnos o saber más sobre un tema determinado (p.e.: qué són los paraísos fiscales y cómo afectan a la economía)
  • Descubrir información (p.e: cuáles son los principales medios y actores clave en periodismo y realidad virtual)
  • Saber si ya se han publicado artículos sobre el tema en el que estamos trabajando y quién y cómo ha sido tratado el tema.

Los ejemplos de búsquedas informacionales se podrían multiplicar: son aquellas búsquedas en las que tenemos una necesidad de información cognitiva, más o menos compleja, en lugar de necesitar un simple dato.

Esta necesidad de información tiene unos perfiles: un tema o un cruce de temas, tal vez una acotación temporal o geográfica, etc., pero la cuestión es que una cifra o un dato, no nos resuelve nada; necesitamos rellenar huecos cognitivos en nuestra comprensión del tema para lo cual necesitamos sobre todo discurso, razonamiento y, sí, seguramente datos también.

Tipología de necesidades de información

Algunos teóricos dicen que las búsquedas navegaciones y transaccionales son búsquedas de la clase NIC: Necesidades de Información Concretas; mientras que las informacionales son de la clase NIOP: Necesidades de Información Orientadas a un Problema.

Para las NIC nos basta la búsqueda simple, para las NIOP necesitamos la búsqueda avanzada. Esto nos dice también que, seguramente, la mayoría de nuestras búsquedas serán NIC y por eso nos limitaremos la mayor parte de las veces a usar la página principal de Google.

Pero, si somos afortunados y tenemos la posibilidad de hacer, de tanto en tanto, algo más que copiar y pegar una nota de prensa, entonces necesitaremos la avanzada, porque estaremos ante una NIOP. ¿Qué porcentaje solemos tener de unas y otras? Posiblemente, estamos ante la famosa relación del 80/20: 80% NIC, contra 20% NIOP. Pero seguramente, este 20 por ciento es el que marca la diferencia.

Si sabemos usar la búsqueda avanzada, tendremos muchas satisfacciones, porque encontraremos cosas relevantes sobre el tema que nos permitirán hacer un trabajo sofisticado. Nos permitirá evitar lo peor que se le puede reprochar a un trabajo periodístico: la ingenuidad, la credulidad o la simpleza de miras.

La clave de las búsquedas avanzadas

El formulario de búsqueda avanzada de Google puede resultar disuasorio, pero se puede interpretar fácilmente si reparamos en que tiene dos zonas claramente diferenciadas, cada una de ellas pensada para hacer un tipo de búsqueda:

  • Booleanas: para poder expresar cómo queremos combinar dos o más conceptos, p.e. ¿queremos documentos dónde aparezca alguno de los conceptos, como en TV y televisión; o queremos cruzarlos y por tanto páginas en las que aparezcan todos los conceptos,  como en Grecia y Euro; o queremos páginas dónde aparezca uno de los conceptos, siempre que no aparezca el otro, como en Deportes pero no fútbol? Con la mera yuxposición de palabras, o sea poniéndolas una después de otra, como haríamos en la caja de búsqueda simple, Google no puede saber qué queremos, así que tomará la decisión por nosotros.
  • Parametrizadas: son las que consisten en restringir los resultados a páginas o documentos en los que la palabra clave aparece en una zona determinada, por ejemplo, en el título (en lugar de en cualquier parte del documento), o en un fecha determinada, como mayo de 2018 (el lugar de en cualquier momento desde la extinción de los dinosaurios), o en un idioma determinado, o con una licencia de dominio público, etc.

La siguiente captura señala las dos zonas del formulario de Google que nos permiten hacer búsquedas o bien parametrizadas o bien booleanas (o ambas, como veremos):

Formulario de búsqueda avanzada de Google
Zonas de la búsqueda avanzada

Como resulta posible conectarlas (si nos fijamos, podemos ver que Google considera que es lo normal, porque en el formulario aparece un par de frases que invitan a hacer esa conexión) podemos pensar en un tercer tipo de búsqueda que combina ambas y que, nada imaginativamente, vamos a llamar:

  • Combinadas: es decir, podemos especificar que las palabras clave se combinen entre ellas de una forma determinada y a la vez podemos restringir los resultados a una lengua, fecha, formato, etc.

Las tres clases de búsqueda avanzada más potentes

A partir de lo anterior, en nuestra experiencia con los estudiantes de Periodismo haciendo prácticas y simulaciones muy realistas (trabajamos siempre sobre la base de producir noticias reales de prensa), algunas de las combinaciones de búsqueda más eficaces son las siguientes:

  • Parametriza restringida al título
  • Booleana con al menos dos términos, más sinónimos
  • Combinada, conectando las dos anteriores

Vamos a verlas con detalle.

I · Parametrizada restringida al título

Consisten en restringir los resultados a palabras clave que aparezcan en el título. Motivo: eliminan de golpe el ruido y producen salidas de mucha precisión. Una variación interesante es usar la opción «esta palabra o frase exactas» (en lugar de «todas estas palabras«) ya que reduce y ajusta aún más los resultados, al buscar documentos que tengan exactamente esa cadena de caracteres y en el mismo orden.

imag#033
Ejemplo de búsqueda parametrizada: restringimos resultados a páginas donde la palabra clave aparezca en el título

II · Booleana cruzando términos y uso de sinónimos

Se consiguen combinando dos o más conceptos, al menos uno de ellos con dos o más sinónimos. Motivo: queremos conseguir precisión conceptual, y por eso cruzamos dos conceptos; pero no queremos perder información por el hecho de que en el lenguaje natural hay muchas maneras de referirse a alguno de los conceptos. Opcionalmente, a veces no queremos información sobre el concepto X porque hemos visto que añade ruido de forma sistemática.

Por ejemplo, nosotros hemos simulado que queremos buscar casos de innovación en periodismo, pero no queremos cursos de formación porque en este caso no estamos buscando dónde formarnos (¿qué mejor sitio que la UPF?), sino que buscamos informes y estudios sobre prácticas innovadoras en periodismo, tal vez para un número especial sobre el sector, pero enfocado de forma optimista centrándolo en las empresas que lo están haciendo mejor.

imag#034
Búsqueda booleana: combinamos dos conceptos, uno de ellos con varios sinónimos

III · Combinada: cruzando términos + parametrizando al título

Ya sabemos que se pueden combinar ambas zonas de búsqueda. Motivo: necesitamos aumentar mucho la precisión porque nos encontramos con demasiado ruido incluso usando una de las variaciones anteriores. Podríamos hacer una variación de la búsqueda booleana anterior, pero en esta ocasión con la restricción que nos convenga por campos (p.e. título), por fechas (p.e. último año) o por formatos (excel, pdf), etc.

001
Ejemplo de búsqueda combinada: dos grupos de términos, más ka restricción (parámetro) de que aparezcan en el título

Ocho variaciones de búsqueda avanzada que siempre funcionan


Hemos visto los tres tipos básicos de búsqueda. Con la práctica, como digo, hemos podido comprobar que hay, al menos, ocho variaciones sobre las tres clases vistas antes que producen casi siempre excelentes resultados, al menos cuando se trata de buscar materiales para ampliar la información que, típicamente, un periodista o un comunicador en general suele necesitar. Haciendo un resumen y uniéndolas a las tres anteriores, son estas:

1. Buscar por frases exactas usando comillas.
Esta es la opción más sencilla de todas, y se puede utilizar sin problemas desde la búsqueda simple. En la avanzada consiste en usar la caja de búsqueda rotulada de esa forma (esta palabra o frase exacta), y en la simple consiste en añadir comillas que rodeen las palabras que queremos que Google trate como frase literal. Por ejemplo en el caso de una búsqueda como periodismo digital, es mejor usar comillas: «periodismo digital» y así evitaremos falsas coordinaciones.

2. Restringir la búsqueda a sitios web determinados.
Esta opción es de una extremada potencia y consiste en buscar solamente en servidores de educación (edu) si queremos materiales académicos o científicos, o queremos buscar expertos sobre un tema; o buscar en servidores de una empresa determinada (indracompany.com) o en páginas de la Administración central (gob.es); o en páginas de un instituto de investigación (cis.es) o de un medio de comunicación (nytimes.com), etc. Es una de las opciones más potentes y siempre es sorprendente la calidad de la información (por la precisión) que encontramos.

3. Usar el campo de negación.
El espacio en el formulario para entrar un negación («Ninguna de estas palabras«) es útil cuando aparezca ruido, y lo hace además siguiendo una pauta, esto es cuando el ruido lo produce una determinada palabra clave, como cuando necesitamos información deportiva, pero no sobre fútbol. En este caso, utilizar el NOT booleano mediante este campo del formulario será de enorme utilidad al retirar muchos resultados que para nosotros son falsos positivos.

4. Restringir por títulos.
Al exigir que la palabra clave aparezca en el título, los resultados tienen siempre mucha más precisión. Casi cualquier palabra sin relación significativa con el tema principal puede aparecer en el cuerpo de un documento, pero esta no es la norma si aparece en el título. Por ejemplo, en una parte de este artículo aparece la palabra «nuclear», pero este artículo no trata sobre física y menos sobre armas nucleares. En cambio, aparece la palabra «Google» y la palabra «búsqueda», ¡y vaya si trata de ello!

5. Restringir por formato
Esta opción nos permite restringir los resultados a un formato documental determinado, por ejemplo:

  • pdf si estamos buscando algo así como reports, informes, libros blancos, estados de la cuestión, etc. Evita muchísimo ruido y nos conduce a resultados con frecuencia tremendamente valiosos.
  • excel, si estamos buscando información en forma de datos en un formato que luego, además, podamos editar. Ideal para periodismo de datos.

6. Utilizar sinónimos.
El lenguaje natural es rico en sinónimos. Si usamos solamente una de las diferentes formas en las que se puede expresar un mismo concepto, casi con toda seguridad perderemos información relevante. Por ejemplo, si buscamos por el término «5G» podemos perder información. En cambio si combinamos con un OR «5G» y «5 generación», podemos evitar falsos negativos. Ahora bien, utilizar sinónimos también amplia mucho el resultado. Lo mejor es usar sinónimos pero a la vez cruzar más de un concepto, como en [«5G» OR «5 generación» AND telefonia].

7. Para la búsqueda de imágenes utilizar el campo de derechos de uso
De este modo, podremos seleccionar las que dispongan de licencia que permite usarlas o compartirlas libremente, y así, en caso necesario, las podremos publicar como parte de nuestro trabajo, si nos interesa, siempre haciendo la atribución de autoría correspondiente.

8. Por último, combinar restricción al título + un formato
Si en las búsquedas iniciales tenemos exceso de ruido, ya sabemos que es muy efectivo combinar una búsqueda booleano-parametrizada para poder restringir o bien a título o bien a un formato (pdf, p.e). Pero si el ruido persiste, a veces se demuestra extremadamente útil combinar ambas cosas, esto es restringir las palabras clave al título y además a un formato, y en este caso, normalmente, pdf da muy buen resultado. El precio es que a veces perdemos muchos resultados o incluso podemos ver una auténtica rareza, esto es que Google diga que tiene 0 resultados. Pero otras veces aporta resultados de un extrema precisión, de modo que es una opción que vale la pena tener prevista.

Problemas con la búsqueda avanzada

La búsqueda avanzada no está exenta de problemas. Aquí presentamos cuatro. Los dos primeros creo que caen más del lado del periodista que del sistema (y eso que el sistema tampoco es perfecto):

  • Ultra localismo y ultra presentismo. El periodista piensa casi siempre en términos de «aquí y ahora», o sea en forma ultra local y ultra pegada a la actualidad. En parte es inevitable, porque es así como han ido modelando sus conexiones neuronales en las clases de la Facultad y luego en las redacciones. Pero la cuestión es que esto le impide a veces pensar en las posibilidades de obtener información más global y más intemporal. El periodista que no es capaz de pensar también en términos más abstractos para afrontar el tema, nunca tenderá a usar la búsqueda avanzada, y si lo intenta, se equivocará con las palabras clave, no pensará por elevación y elegirá los mismos términos con los que piensa titular su reportaje. No encontrará nada; o no encontrará nada distinto del uso de la búsqueda simple.
  • Mala interpretación lógica. La búsqueda avanzada usa una lógica muy precisa denominada lógica booleana. En realidad, se supone que la aprendimos en algún momento en la escuela. Está relacionada con la teoría de conjuntos (aunque es otra cosa). La cuestión es que parece intuitiva, pero no lo es. El formulario de Google intenta acercar la lógica booleana a la intuición usando frases como «todas estas palabras» (esto es un AND booleano), o «cualquiera de estas palabras» (esto es un OR), «ninguna de estas palabras» (un NOT booleano). Pero si no tenemos ninguna formación (o no la recordamos de la escuela) o hemos desdeñado formarnos en el tema, es más fácil confundirse que acertar (el interesado tiene aquí una presentación que explica la lógica booleana aplicada a las búsquedas en Google).
  • Confundir concepto y palabra. Este no es un problema de los periodistas. Es universal. Consiste en olvidar que los ordenadores no entienden los conceptos. Solo las palabras. Cuando un periodista busca sobre «guarderías», por decir algo (y me viene este ejemplo por un caso real), le cuesta recordar que este concepto se expresa con diferentes palabras, y a veces, con muchos rodeos. Cuando el periodista no cae en la cuenta de este hecho, no usará sinónimos para asegurar resultados en su búsqueda, sino las mismas palabras con las que, como decíamos, está pensando en titular su reportaje o crónica.
  • Malas interfaces de usuario. Aquí, para no cargar todo sobre el pobre periodista, un auténtico héroe de nuestros días (cuando hace bien su trabajo), cabe decir que la informática y los diseñadores tienen la tarea pendiente de diseñar una buena interfaz de consulta que permita a los seres humanos usar bien los sistemas de información. Por alguna razón, todas las innovaciones sobre este terreno, las que permitían confiar en que no hicera falta saber lógica booleana, p.e., o las que animaban a combinar conceptos de forma creativa, han ido desapareciendo, o por ineficaces o imposibles de implementar de forma práctica. El resultado es que de lo mejor que tenemos en este momento, es el formulario de Google que no solamente no ganará ningún premio de diseño, sino que es absolutamente disuasorio. La gran excepción son algunas bases de datos de imágenes, que siguen innovando en este terreno. En otras entregas, nos ocuparemos.

Conclusiones

Si queremos escapar, aunque sea en parte, al determinismo de lo que Google piensa que nos debería gustar, usemos la búsqueda avanzada. Además, basta hacer una pocas pruebas para comprobar de qué modo con búsquedas avanzadas alcanzamos unos resultados de una precisión extremada. Esto no solamente nos va a ahorrar muchas horas de trabajo, es que nos pueden permitir presentar trabajos mucho mejores o incluso nos puede evitar hacer el ridículo, ignorando informaciones valiosas que teníamos a nuestro alcance.

Atención que al inicio del párrafo anterior hemos dicho «aunque sea en parte». Si usamos Google, estamos limitados a lo que Google tiene en sus índices. Usar la búsqueda avanzada nos libera de muchas de las constricciones invisibles que Google aplica (no tiene otro remedio) para conseguir ordenaciones sin saber bien qué es lo que queremos. Cómo no lo sabe, decide por nosotros. Como no quiere parecer invasivo, tampoco nos pregunta, ni nos da muchas pistas de cómo ha hecho la ordenación.

Pero no nos libramos del todo de su influencia, para ello, deberíamos triangular añadiendo otros buscadores. Pero el propósito de este artículo es, al menos, no perder información de calidad al ceder tanta iniciatia a Google. Con la búsqueda avanzada recuperamos nosotros la mayor parte de la misma y en comparación con la simple, ya hemos dado un gran paso adelante porque en muchas búsquedas, ciertamente la respuesta de Google será suficiente porque seguramente será la mejor.

Dominar por completo las búsquedas avanzadas requiere entrenamiento, esto es cierto. No es intuitiva o, peor, puede llegar a ser falsamente intuitiva, de modo que sin algo de formación y entrenamiento estemos usando mal la búsqueda avanzada, pero convencidos de hacerlo bien, con lo cual podemos estar perdiendo muchas oportunidades.

El lector interesado encontrará en este sitio más información sobre el tema: por ejemplo, indicaciones detalladas de cómo usar los operadores booleanos de una forma muy completa, incluso de cómo usarlos en forma de sintaxis directa en la caja de búsquedas de Google, sin necesidad de usar el formulario de búsqueda avanzada.

Lo importante es que la inversión de tiempo necesario para formarse en esta clase de búsquedas ofrece un rendimiento multiplicado por un factor enorme, incalculable. El que va desde disponer o no disponer de la información adecuada para resolver un problema y producir periodismo de calidad.

Anexo – Vídeos y otros recursos sobre búsqueda avanzada y Google para Periodistas


Las cuatro entradas de la serie Google para periodistas y comunicadores:

  1. Cómo funciona un rastreador
  2. Cómo se determina la calidad de una página web
  3. Cómo funciona la búsqueda avanzada
  4. Buscadores alternativos a Google y cómo usarlos