Estructura y funciones de las bases de datos académicas · 2: la búsqueda

Diagrama sobe Funciones principales de búsqueda en bases de datos académicas
Funciones principales de búsqueda en bases de datos académicas

Edición Septiembre 2020

La interfaz de búsqueda de una base de datos académica es el componente más importante desde el punto de vista del diseño centrado en el usuario, por lo cual resulta ser el elemento central en la eficacia global del sistema. De su buen diseño depende:

  • que los usuarios puedan expresar de forma adecuada sus necesidades de información,
  • que puedan interactuar de forma eficaz con los resultados.

El primer artículo de esta serie dedicado a la estructura y funciones de una base de datos académica estuvo dedicado al registro.


Además de búsquedas puntuales, una base de datos académica debe proporcionar soporte para llevar a cabo revisiones bibliográficas, ya sean tradicionales o sistemáticas. Esto último, en particular, exige que el sistema de búsqueda deba ser lo más completo posible.

En concreto, un sistema de búsqueda que proporcione soporte a las actividades más exigentes, como las de un revisión bibliográfica y sus criterios de inclusión y exclusión, debe proporcionar al menos las siguientes funciones:

Búsqueda por palabra clave

  • Parametrizada
  • Booleana
  • Mixta
Operadores complementarios
  • Proximidad
  • Wildcards characters
Búsqueda por índices
  • Índices
Historia de búsqueda
  • Combinación de conjuntos de resultados 
Funciones principales de una interfaz de búsqueda completa en bases de datos académicas

Además de las opciones anteriores, es frecuente (y sumamente útil) que la interfaz de búsqueda, casi siempre mediante un formulario, permite añadir otros filtros, entre los cuales los más habituales son los siguientes:

  • Rangos de fechas
  • Idioma
  • Tipo de documento

Una importante función flotante: las alertas

Antes de pasar al análisis de las funciones de la búsqueda, debemos señalar una función flotante, por así decirlo, ya que la podemos encontrar y activar en diversos módulos de una base de datos.

Se trata de las alertas, una función de monitorización que está disponible en las mejores bases de datos. Es la siguiente operación lógica una vez hemos llevado a cabo una operación de búsqueda exitosa, en el caso de aquellos proyectos en los necesitamos seguir monitorizando un tema determinado sin necesidad de repetir la misma búsqueda.

Dado su importante estatus es una función a la que hemos dedicado un trabajo aparte, y al que remitimos a todo lector interesado en explotar de la mejor forma posible una base de datos:


La búsqueda por palabra clave

Esta clase de consultas es la más característica de las bases de datos. Implica utilizar una o más palabras clave para expresar de la manera más precisa el significado de la consulta. Las palabras clave se pueden utilizar en las siguientes búsqueda:

  • Parametrizadas
  • Booleanas
  • Combinadas

La búsqueda combinada es la más habitual en bases de datos académicas, aunque la presentado como la tercera opción por motivos de claridad expositiva. Por esta misma razón vamos a considerar primero la búsqueda parametrizada para seguir luego con las otras dos.

Búsqueda parametrizada

Se denomina así a cualquier consulta en la que identificamos, además de una(s) palabras clave, un parámetro o filtro que debe cumplir el resultado para ser considerado válido. Por ejemplo, si indicamos una palabra clave como argumento de búsqueda, pero exigimos que esta palabra aparezca en el título del artículo, estamos haciendo una búsqueda parametrizada.

Lo mismo sucede si especificamos un rango de fechas y esperamos que los resultados se restrinjan, por ejemplo, a artículos publicados en los últimos 6 años, o entre tales y tales fechas específicas, o cuando exigimos que hayan sido publicados por una determinada revista, etc.

Búsqueda booleana

Cuando hacemos consultas en bases de datos académicas raramente usamos un solo concepto o idea. Normalmente, necesitaremos combinar al menos dos conceptos y, a su vez, cada uno de estos conceptos los representaremos con una o más palabras clave concretas.

Conceptos diferentes vs sinónimos

El resultado es que, para poder expresar con precisión el sentido de una necesidad de información, necesitamos combinar determinados grupos de palabras con el operador OR, cuando éstos son sinónimos gramaticales o documentales; mientras que otros grupos de palabras los combinaremos con el operador AND, cuando son conceptos distintos.

Finalmente, podemos necesitar mejorar el conjunto de resultados excluyendo términos, para lo cual necesitamos el operador NOT. En algunas bases de datos se expresa como AND NOT, ya que, efectivamente, según el álgebra booleana, el NOT es en realidad un operador compuesto (por AND y NOT).

Un sistema de consulta booleano debe proporcionar al menos estos tres operadores y su utilización debe ser lo más transparente e intuitivo posible. Una solución general consiste en utilizar un formulario con distintos campos para grupo de palabras y un selector de operadores asociado a cada campo (en un lateral o en la parte superior).

Búsqueda combinada

Pese a que hemos mostrado, por motivos de claridad expositiva las opciones booleanas y parametrizadas por separado, la opción más común (y la más operativa) consiste en realizar búsquedas mixtas en las que, concretamente, utilizamos dos o mas conceptos combinados con uno o más operadores booleanos y tales conceptos exigimos que aparezcan en zonas clave del documento, típicamente en el título o en el resumen, etc.

La ilustración que podemos ver más abajo es un buen ejemplo. Vemos varios conceptos en sendas líneas horizontales y o bien el operador AND o bien el operador OR antes de algunas de tales líneas, pero además cada línea está parametrizada, es decir está referida a unos parámetros, que en este caso son un grupo de campos.

Si nos limitamos al punto de vista booleano, la ecuación de la figura, en concreto, equivale a ésta:

newspapers AND («mobile web» OR «virtual reality» OR «augmented reality»)

Operadores complementarios

Adicionalmente, las mejores interfaces de consulta ofrecen otras posibilidades mediante dos grupos de operadores complementarios: de proximidad y los así llamados wildcards characters. Los revisamos a continuación.

Operadores de proximidad

Sirven para precisar que los términos de la consulta se presenten en un determinado orden y con un máximo de palabras de separación entre ellos. Suelen identificarse en dos variedades, reconocidas con las expresiones PRE/ y W/

Por ejemplo, periodismo PRE/5 crisis indica que buscamos documentos donde la palabra periodismo preceda a la palabra crisis y no estén separadas entre ellas por más de cinco palabras.

Por su parte, periodismo W/5 crisis solamente especifica que haya como máximo cinco palabras entre las dos indicadas sin preferir ningún orden.

Algunas bases de datos añaden un tercer operador que permite precisar que ambos términos deben formar parte del mismo párrafo u oración. 

Wildcards characters: truncamientos y máscaras

Consisten en el uso de símbolos, como el asterisco (*), para expresar un truncamiento, lo que permite buscar por raíces o lemas. Por ejemplo, informa* buscaría por igual información, informativo, informacional, etc.

Una máscara (?) por otro lado, permite sustituir el símbolo utilizado por cualquier letra. P.e. abogad?buscaría por igual abogados y abogadas. En inglés, estos caracteres, cuando están utilizados con estos fines, se denominan wildcard characters.

Normalmente, el uso de tales operadores y opciones adicionales implica el uso de sintaxis directa. Es decir, es necesario conocer exactamente cuáles son los operadores y como se expresan para poder utilizar esa clase de búsquedas, ya que los símbolos que hemos usado aquí pueden variar (son, en concreto, los que usa Scopus y otras bases de datos).

Búsqueda por navegación

Además de activar operaciones de búsqueda mediante palabras clave, podemos navegar por listas de títulos u otros tipos de índices para poder encontrar la información que necesitamos. Los tipos de títulos más habituales en una base de datos académica son, a su vez, de dos tipos:

  • Títulos derivados de los contenidos
    • Títulos de publicaciones
    • Nombre de autores
  • Índices de términos utilizados para categorizar contenidos:
    • Índices de descriptores
    • Listas de categorías

De hecho, nada impide que, después de lanzar una operación de consulta, la siguiente actividad del usuario sea desplazarse por navegación por algún tipo de lista. Incluso esta navegación puede preceder a la búsqueda en sí, por ejemplo, para consultar índices de términos de indización o de categorización.

Historia de búsqueda

La realización de consultas en una base de datos académica tiene un importante componente de ensayo y error, así como un importante carácter exploratorio. La mejor forma en la cual una interfaz de consulta es capaz de recoger este aspecto es mediante la opción denominado historia de búsqueda.

La historia de búsqueda es una lista de las búsquedas realizadas a lo largo de una  misma sesión de consulta. Mediante esta opción, el usuario volver sobre esta lista después de haber lanzado diversas consultas y puede retomar distintos conjuntos resultantes y combinarlos entre sí mediante operadores booleanos.

Ilustración: la búsqueda según Scopus y WoS


Para poder mostrar las funciones principales de búsqueda de una base de datos necesitamos un caso en el que todas ellas estén disponibles, cosa que, por desgracias no siempre sucede. A día de hoy, dos de las bases de datos con interfaces de búsqueda mejor diseñadas y más completas son las de Scopus y Web of Science. Destacan también las de otras bases de datos, como las de ProQuest y Emerald.

En esta ocasión, para ilustrar las funciones que hemos presentado más arriba, usaremos principalmente Scopus, ocasionalmente con ejemplos de Web of Science (WoS)

Formulario de búsqueda

Formulario inicial de búsqueda en Scopus
Formulario inicial de consulta en Scopus

El formulario de consulta en Scopus sigue un diseño bastante limpio y de tipo minimalista hasta donde es posible. Podemos ver que queda preseleccionada una búsqueda de documentos, de tipo parametrizada porque presenta un conjunto de campos: título, resumen y palabras clave (tal como hemos destacado). También hemos destacado la opción Limit, que permite acotar por años y tipos de documento.

Una vez en este formulario, el usuario puede entrar palabras clave en la fila disponible o puede ampliar el número de filas (con el botón que indica el signo +), como mostraremos después para añadir diferentes conceptos.

Para complementar estas ideas, podemos ver que la base de datos WoS utiliza un pattern de muy similar aunque con otras soluciones de diseño:

Formulario de búsqueda de WoS
El formulario de búsqueda en el caso de WoS

En la variación de WoS podemos apreciar las filas (dos en este caso, aunque es lo de menos, porque en ambos casos se pueden añadir o borrar) para introducir las palabras clave y la opción para filtrar por años.

Consulta mixta: booleana y parametrizada

Búsqueda combinada en Scopus
Consulta combinada en Scopus

El formulario de consultas de Scopus mostrando una consulta booleana con tres conceptos: diarios (newspapers), web móvil y realidad virtual/realidad aumentada, con estos últimos tratados como sinónimos. Al mismo tiempo, es una consulta parametrizada al restringir todos los conceptos a un grupo de campos determinados.

Opciones de filtrado desde el formulario de búsqueda

Filtros en el formulario de búsqueda de Scopus
Opciones de filtrado del formulario de búsqueda

En Scopus, el formulario de búsqueda dispone de unas opciones de filtrado o parametrización adicionales. En concreto vemos tres opciones: rangos de fechas, tipología de los documentos y tipo de revista por tipo de acceso (open access o tradicional).

Para ilustrar el uso, hemos seleccionado documentos publicados a partir del 2015 hasta la actualidad (simulamos así una revisión bibliográfica de los últimos 5 o 6 años). Hemos seleccionado artículos como tipo de documento (dejamos así fuera comunicaciones o capítulos de libro) y finalmente, queremos artículos de cualquier tipo de revista (open access o tradicional).

La página de resultados de estas bases de datos ofrecen otras opciones de filtrado, pero como no están disponibles hasta que hacemos una búsqueda, no las trataremos aquí (pero se pueden consultar en la tercera parte de esta serie).

Búsqueda por proximidad

Búsqueda avanzada en Scopus
Una búsqueda de proximidad en Scopus utilizando la sintaxis directa: queremos que la palabra clave journalism aparezca antes que la palabra clave crisis y no estén separadas por más de cinco palabras.

Los operadores disponibles en Scopus incluyen dos operadores de proximidad: PRE/, es decir, un término debe preceder a otro y entre ambos puede haber como máximo N palabras de distancia, y W/ que permite especificar el número de palabras entre dos términos sin importar el orden. Estos operadores están disponibles en la opción de búsqueda mediante sintaxis directa.

No está indicado en esta captura, pero si consultamos la ayuda de Scopus, veremos que la mediante sintaxis directa podemos usar también los wildcard characters, tanto el truncamiento (*) como la máscara (?).

Óbservese que, en caso de querer usar la sintaxis directa, esta opción suele encontrarse en bases de datos bajo el rótulo Advanced Search, y que en el caso del NOT, hay que utilizar AND NOT.

Historia de búsqueda

Historia de búsqueda en Scopus
La historia de búsqueda en Scopus

Las diferentes búsquedas de una misma sesión mostradas en una lista que permite su combinación. Ver la indicación superior: «Combine queries…»

Búsquedas mediante índices

Consulta por índices
Una de las búsquedas por índices en Scopus, en este caso, el índice jerárquico de las áreas temática

Las búsquedas mediante índices en Scopus se limita a las fuentes, esto es, a las revistas o publicaciones, y pueden hacer por las siguientes facetas:

  • Subject area
  • Title
  • Publisher
  • ISSN

A cambio, la información sobre las publicaciones es sumamente rica, como mostramos en la siguiente captura donde vemos el caso de la lista de revistas de comunicación social:

CiteScore es uno de los índices de Scopus
Lista de revistas de comunicación ordenadas por impacto (CiteScore)

La versión equivalente de la base de datos Web of Science (WoS). En este caso, la consulta de estos índices se encuentra en el módulo denominado Journals Citation Reports:

Opciones de consulta por índices en el caso de WoS

Conclusiones

Incluso la base de datos con los mejores contenidos puede perder una buena parte de su utilidad si no dispone de un buen diseño de la interfaz de consultas.

En esta segunda parte de la serie dedicada a la estructura y las funciones de las bases de datos académicas primero hemos presentado los conceptos fundamentales sobre las búsquedas, y después un breve recorrido por la interfaz de Scopus para intentar ilustrarlos, con apoyo ocasional en WoS.

Algunas de las mejores bases de datos académicas disponen de opciones similares, en cada caso resueltas de forma peor o mejor desde el punto de vista del diseño gráfico. Pero no todas. Por desgracia alguna no presentan la búsqueda parametrizada, en concreto, o no permiten búsquedas combinadas con la necesaria flexibilidad. La consecuencia es que operaciones de búsqueda muy importantes, p.e., relacionadas con revisiones bibliográficas, no se pueden llevar a cabo.

Como sea, hemos visto que al menos dos de las mejores, Scopus y WoS sí presentan estas opciones, muy bien acompañadas por otras como Emerald o ProQuest.


ANEXO – Formas de expresión de una ecuación de búsqueda

Recordemos que existen varias formas de expresar una ecuación de búsqueda. Repasemos las cuatro principales.

  1. Lenguaje natural: «necesito información sobre periodismo y crisis, pero no sobre temas deportivos». Es la expresión humana de una necesidad de información.
  2. Pseudo código: (periodismo AND crisis) NOT deporte. Es la forma más estandarizada para representar ecuaciones de búsqueda independientemente del sistema o de la base de datos que vayamos a usar.
  3. Sintaxis directa: Es la forma concreta y específica de cada base de datos, en Scopus, por ejemplo, se debe indicar AND NOT para la negación. En Google, el AND se representa como un espacio en blanco y el NOT como el símbolo menos o guión alto,  etc. Por tanto, en Scopus la ecuación del punto 2 se expresaría así:
    (periodismo AND crisis ) AND NOT deporte, pero en Google, sería así:
    periodismo crisis  -deporte . En cambio, en pseudo código es igual para todas las bases de datos.
  4. Formulario de consulta. El formulario que nos ayuda a entrar palabras clave y elegir operadores de una lista desplegable, por ejemplo.