Ecuaciones de búsqueda · 2: Operadores de proximidad y de delimitación

Los operadores de proximidad y de delimitación forman parte de las ecuaciones de búsqueda de las bases de datos académicas. Los primeros se utilizan para especificar el número máximo de palabras que separan a las palabras clave entre ellas, así como otras condiciones similares de proximidad.

Por su parte, los operadores de delimitación tienen a su cargo las importantes búsquedas parametrizadas. Éstas nos permiten focalizar las búsquedas en campos concretos tales como el título o el resumen, consiguiendo así una precisión extrema.

Estos operadores forman parte de un conjunto más amplio de componentes vinculados con las ecuaciones de búsqueda en bases de datos. Como algunos de los cuales ya han sido tratados, a continuación un enlace a artículos anteriores:

Operadores de proximidad

Los operadores de proximidad no gozan del mismo grado de estandarización que los booleanos. En primer lugar, no todas las bases de datos los incluyen. Además, aquellas que los tienen, no siempre tienen los mismos. Por último, los mismos operadores pueden tener identificaciones distintas.

Por ejemplo, Scopus presenta W/n y PRE/n, pero no SAME. Mientras que Web of Science, tiene por su parte, W/n y SAME, pero no el tercero. Ahora bien, si los mapeamos, aparecen tres, porque W/n y NEAR/n son el mismo. Por tanto, si tomamos como modelo a estas dos bases de datos, tenemos los siguientes:

  • SAME
  • W/n | NEAR/n
  • PRE/n

Una primera observación es que todos ellos incorporan el operador AND. Por tanto, podemos decir que los operadores de proximidad son una variación del operador AND especialmente exigente, porque además de incorporar una intersección, incorpora la exigencia de que las palabras clave tengan un determinada relación de vecindad, como veremos a continuación.

SAME

Esta expresión, como ya hemos dicho, incluye un operador AND y equivale al siguiente requerimiento: “las palabras clave deben estar presentes en el mismo párrafo o en el mismo campo”. Por ejemplo, si consideramos la ecuación:

barcelona SAME spain

lo que indica es que, además de ejecutar un AND, entre ambas palabras clave, tanto la palabra barcelona como la palabra spain deben estar en el mismo párrafo o (según la base de datos) en el mismo campo. Concretamente, en algunas bases de datos (como en Web of Science) SAME solamente se puede utilizar en el campo de dirección de los autores. 

W/n | NEAR/n

W/n (por “whitin n“) es el símbolo que representa: “n número máximo de palabras entre las palabras clave consideradas”. Por ejemplo, si consideramos la ecuación:

robot W/4 journalism

lo que indica es que, además de ejecutar un AND, entre ambas palabras clave, entre la palabra robot y la palabra journalism puede haber un máximo de otras cuatro palabras.

Ejemplo de uso del operador Whitin (W/n) en una búsqueda con Scopus.

El operador NEAR/n tiene el mismo significado en Web of Science.

operadores de proximidad: NEAR en Web of Science
Una búsqueda con uno de los aperadores de proximidad: en este caso NEAR en Web of Science.

La captura siguiente muestra uno de los resultados obtenidos con la ecuación de la captura anterior, en la que podemos ver que se cumple la exigencia ya que en el resumen aparecen dos ocurrencias de la pareja de palabras clave con una separación igual o inferior a 4 caracteres.

Este es un resultado válido de búsqueda con operadores de proximidad (en Web of Science), porque se producen dos casos en que las palabras clave aparecen separadas por menos de 4 palabras.

PRE/n

Con PRE/n aumentamos aún más la precisión, ya que es el símbolo que representa “n número máximo de palabras de separación entre las palabras clave consideradas, y en el mismo orden de precedencia”. Si consideramos ahora, la ecuación:

robot PRE/4 journalism

lo que indica es que, además de ejecutar un AND, entre ambas palabras clave, entre la palabra robot y la palabra journalism puede haber como máximo otras cuatro palabras, y además, robot preceda a journalism.

Operadors de proximidad en Scopus
Una búsqueda con uno de los operadores de proximidad, PRE/n, en este caso de Scopus

Como vemos, con la ecuación precedente, Scopus ha seleccionado 17 documentos en los que la palabra robot precede a la palabra journalism, y en todos ellos, hay como máximo 4 palabras de separación. La adyacencia, es  decir “robot journalism”, también es válida con este operador.

Ejemplo de uno de los documentos que satisfacen la ecuación anterior.

Como podemos ver por este ejemplo tomando el primero de los 17 obtenidos en la ecuación anterior, se cumple el requerimiento porque en el título podemos ver una ocurrencia de las dos palabras clave separadas por una sola palabra.

Para comparar, hemos llevado a cabo la misma búsqueda pero solamente utilizando el operador AND. Podemos ver en la siguiente captura la considerable diferencia:

La misma búsqueda, pero empleando un AND en lugar del operador de proximidad.

Como vemos,con AND (en lugar del operador de proximidad) obtenemos 386 documentos en lugar de 17. Nos encontramos aquí un buen ejemplo de la lucha entre precisión y exahustividad tan característica de la recuperación de información.

Con AND, es evidente que hemos ganado en exhaustividad, pero muchos de los resultados no son relevantes, obligándonos a dedicar tiempo a examinar falsos positivos. Por ejemplo, en el caso de esta búsqueda concreta, el examen de los 10 primeros resultados muestra que solamente 4 son relevantes. La siguiente captura muestra tal resultado:

Páginas de resultados de Scopus
40% de relevancia en los 10 primeros resultados con un AND (clic para hacer zoom)

En cambio, con PRE/4 hemos hemos perdido exhaustividad, ya que algunos de los no recuperados (falsos negativos) podrían ser relevantes, pero hemos obtenido una enorme precisión, ya que los 17 documentos son todos verdaderos positivos, es decir todos son relevantes, como muestra la captura de la página de resultados.

Página de resultados de Scopus. Búsqueda con un operador de proximidad
100% de relevancia con operadores de proximidad (clic para hacer zoom)

Operadores de delimitación

Son operadores de importancia fundamental, porque permiten llevar a cabo búsquedas parametrizadas. Los símbolos para estos operadores son los nombres de los campos, y más exactamente, las etiquetas que utilizan las bases de datos para identificar cada campo.

Por ejemplo, en algunas bases de datos la etiqueta TI suele utilizarse para identificar el campo que contiene el título del artículo, por tanto, una ecuación que utilice esta etiqueta indica que la palabra deben estar presente en el título. Por ejemplo si tenemos esta ecuación:

TI=robot AND TI=journalism

lo que indica es que ambas palabras clave deben formar parte del título del documento.

Estos operadores permiten como hemos señalado las búsquedas parametrizadas. Los campos, o parámetros, más utilizados para las búsquedas de documentos son los siguientes:

  • Título
  • Resumen
  • Palabras clave

Dado que son tan utilizados, tanto Scopus como WoS disponen de una opción para lanzar las consultas a estos tres campos a la vez si usamos el modo asistido (con formulario).

La siguiente captura muestra su uso en el caso de la base de datos Scopus.

formulario de búsqueda avanzada de Scopus para búsquedas por campos
El formulario de las bases de datos, como en el caso de Scopus, nos permite llevar a cabo una búsqueda por campos, o parametrizada, seleccionando los campos (en este caso, un grupo de campos) de un menú desplegable.

El resultado, lo vemos aquí (en este caso, como sintaxis directa, generada de modo automático por el asistente de Scopus):

scopus sintaxis directa
La ecuación de la captura anterior, expresada en el formulario con uso de menús desplegables, aquí mostrado en forma de sintaxis directa y (arriba) el número de documentos encontrados. Nótese que hemos limitado la búsqueda a documentos publicados a partir del 2010.

Y la siguiente, en el caso de Web of Science:

web of science busqueda avanzada
La misma búsqueda en este caso usando el muy eficaz sistema de Web of Science. En este caso, el campos seleccionado es Tema, que en realidad son varios campos a la vez (título, resumen y palabras clave)

Podemos focalizar la búsqueda en cualquier campo, bien utilizando la opción desplegable de los formularios o bien mediante sintaxis directa si conocemos la etiqueta que debe usarse para cada campo. La ilustración siguiente muestra las que utiliza Web of Science.

Etiquetas de campos en Web of Science
Lista de etiquetas de los campos por los cuales podemos hacer búsquedas parametrizadas en la base de datos Web of Science.

Por su parte, Scopus utiliza las siquientes etiquetas:

Etiquetas de campos en Scopus.
Etiquetas de campos (field codes) para búsquedas parametrizadas en Scopus.

Símbolos reservados

Como en cualquier clase de ecuaciones lógicas, las de búsqueda admiten símbolos como ya hemos visto, puesto que obviamente, AND, OR y NOT son símbolos. Pero además, se utilizan los llamados símbolos reservados (por influencia de los lenguajes de programación). Se trata de los siguientes:

  • Comillas
  • Paréntesis
  • Wildcards

Comillas

Se utilizan para indicar que los términos encerrados entre las comillas deben buscarse como una cadena unitaria de caracteres. Por tanto, todos los términos están unidos por un AND y además deben aparecer en el orden exacto de la cadena.

Por ejemplo si tenemos esta ecuación:

“innovations in database driven journalism”

no solamente deben aparecer todas y cada una de las 5 palabras, sino que deben aparecer en este mismo orden. También se utilizan para asegurarnos que no se producirán falsas coordinaciones en el caso de palabras clave compuestas por dos o más términos, como en el caso de “virtual reality”. 

Ejemplo del uso de comillas para buscar una expresión literal o frase.

Paréntesis

Se utilizan para especificar (en caso de ambigüedad real o potencial) el alcance y/o el orden en el que deben ejecutarse las operaciones. Seguramente, estaremos de acuerdo que una ecuación aritmética como la siguiente: 

3×4+10 = x

podría tener una ambigüedad inherente si alguien no aplica alguna regla previa, como calcular de izquierda a derecha, o primero las multiplicaciones y luego las sumas. En cambio, su utilizamos paréntesis, estos cálculos siempre se ejecutan primero, Por tanto, dependiendo de cómo se sitúen los paréntesis, la ecuación se resuelve con un resultado distinto:

  • (3×4)+10 = 22, porque primero hemos calculado 3×4 (y después hemos sumado 10)
  • 3(4+10) = 42, porque primero hemos calculado 4+10 (y después hemos multiplicado por 3)

Por tal motivo, una ecuación de búsqueda como la siguiente:

(journalism OR newspapers) AND (video OR audiovisual)

indica al sistema de búsqueda que primero calcule la unión entre journalism + newspapers; después, la unión entre video + audiovisual y, finalmente, que interseccione los dos conjuntos resultantes anteriores en un nuevo conjunto.

La siguiente captura ilustra el uso de paréntesis en Scopus:

Uso de paréntesis en una búsqueda con Scopus.
Ejemplo de uso de paréntesis en una busqueda (Scopus). No hemos limitado años de publicación en beneficio de la claridad de la captura, por eso esta enorme cantidad de documentos.

La captura anterior muestra una ecuación en la que, con el uso de paréntesis, nos hemos asegurado de que primero el sistema calcule la unión de video + photography, y luego intersecte el conjunto resultante con journalism.

Wildcards

Los wildcard characters, por su parte, son una de las formas más rápidas, fáciles y elegantes de evitar pérdidas de información debidas a las muchas variaciones de deletreo, o a las muchas formas de flexionar un término, que utiliza el lenguaje natural. Suelen utilizarse estos dos tipos de símbolos:

  • Truncamientos, con el símbolo asterisco: *
  • Máscaras, con el símbolo de cierre de interrogación: ?

Veamos en primer lugar los truncamientos, que sirven para buscar términos por su raíz o lema. Por ejemplo, la expresión:

  • journal*

buscará por igual todas estas palabras:

  • journal
  • journals
  • jorunalism
  • journalist
  • journalists

Las máscaras sirven para sustituir uno o más caracteres (letras, p.e.) que pueden ser dudosos por problemas de deletreo o por variaciones en su escritura, Por ejemplo, 

  • abogad?

buscará:

  • abogado
  • abogada

Las máscaras pueden usarse en el interior de una palabras. Por ejemplo:

  • abogad?s

buscará:

  • abogados
  • abogadas

La siguiente captura muestra una búsqueda utilizando un truncamiento en Web of Science:

Obsérvese el asterisco truncando el término journal* para poder encontrar diversas flexiones del término combinadas con la palabra verification en Web of Science

Conclusiones

Con este artículo, y uno anterior dedicado a operadores booleanos, hemos completados la revisión de los componentes de una ecuación de búsqueda al revisar los operadores de proximidad y los de delimitación. Hemos visto con cierto detalle el mapa completo de tales operadores, incluyendo el uso de otros símbolos, así como su significado.

Ahora ya disponemos de una referencia razonablemente completa para poder abordar el uso de las búsquedas avanzadas en bases de datos con esperanza de obtener resultados estratégicos.

Ahora bien, tener que considerar todos y cada uno de los diferentes operadores, nos ha ayudado a ver los diferentes tipos de árboles, pero nos ha obligado a perder de vista el bosque en su conjunto.

Por ello, dedicaremos una tercera y próxima entrega a presentar lo que los anglosajones denominan the big picture, es decir, la visión de conjunto. Pero, como decimos, esto será en un futuro artículo.

ANEXO – El problema de la exhaustividad vs precisión

En la teoría de recuperación de información, que es la está detrás del diseño de sistemas de búsqueda, se considera prácticamente irresoluble el problema de la relación entre exhaustividad y precisión (o relevancia). Esta relación consiste en lo siguiente: en general, si aumentamos la exhaustividad, perdemos precisión; y si aumentamos la precisión perdemos exhaustividad. 

Esto a veces se expresa también hablando de falsos positivos y de falsos negativos. Un falso positivo es un documento recuperado, pero no relevante. Un falso negativo es un documento no recuperado, pero que es relevante. Entonces se puede decir que la exhaustividad implica falsos positivos, y la relevancia, falsos negativos.

Se puede intentar optimizar la máximo la relación, de modo que haya un mínimo de falsos negativos y de falsos positivos, cosa que queda al cargo de los diferentes operadores de búsqueda, pero se considera virtualmente imposible

Los amantes de las fórmulas deben saber que existen sendas ecuaciones para expresar ambos conceptos. Tomamos la versión del artículo de Wikipedia para mostrar las ilustraciones de ambas:

Precisión

Fuente: Wikipedia

Exhaustividad

Fuente: Wikipedia

Para saber más


Próxima entrega: Búsquedas al futuro: los servicios de Alerta. Fecha prevista: 24 de abril. Suscríbase si desea recibir las entradas por correo (ver la opción en la navegación de la derecha).