Estructura y Funciones de las Bases de Datos Académicas · 2: La Búsqueda


Icono de la búsqueda de documentos

En el diseño centrado en el usuario, la búsqueda es el componente esencial de una base de datos.


El sistema de búsqueda (o de consulta) de una base de datos académica es el componente más importante desde el punto de vista del diseño centrado en el usuario, por lo cual resulta ser el elemento central en la eficacia global del sistema.

Esto es debido a que, de su buen diseño, depende de manera crítica que las búsquedas de los usuarios tengan éxito, porque del mismo depende: (1) que los usuarios puedan expresar de forma adecuada sus necesidades de información y (2) que puedan interactuar de forma eficaz con los resultados.


El primer artículo de esta serie dedicado a la estructura y funciones de una base de datos académica estuvo dedicado a considerar el modelo de registro.


La cuestión es que, un sistema de búsqueda completo proporciona, al menos, las siguientes funciones:

Búsqueda por palabra clave

  • Parametrizada
  • Booleana
  • Mixta

Operadores complementarios

  • Proximidad
  • Wildcards characters

Búsqueda por navegación

  • Consulta de Índices

Historia de búsqueda

  • Combinación de conjuntos de resultados 

La búsqueda por palabra clave

Esta clase de consultas es la más característica de las bases de datos. Implica utilizar una o más palabras clave y, opcionalmente, algunos operadores para combinar las palabras entre sí y expresar de manera precisa el significado de la consulta.

La búsqueda combinada es la más habitual en bases de datos académicas, aunque hemos la presentado como la tercera opción por motivos de claridad expositiva. Por esta misma razón vamos a considerar primero la búsqueda parametrizada para seguir luego con las otras dos.

Búsqueda parametrizada

Se denomina así a cualquier consulta en la que identificamos, además de una(s) palabras clave, un parámetro o filtro que debe cumplir el resultado para ser considerado válido. Por ejemplo, si indicamos una palabra clave como argumento de búsqueda, pero exigimos que esta palabra aparezca en el título del artículo, estamos haciendo una búsqueda parametrizada.

Lo mismo sucede si especificamos un rango de fechas y esperamos que los resultados se restrinjan, por ejemplo, a artículos publicados en los últimos 6 años, o entre tales y tales fechas específicas, o cuando exigimos que hayan sido publicados por una determinada revista, etc.

Búsqueda booleana

Cuando hacemos consultas en bases de datos académicas raramente usamos un solo concepto o idea. Normalmente, necesitaremos combinar al menos dos conceptos y, a su vez, cada uno de estos conceptos los representaremos con una o más palabras clave concretas.

Conceptos diferentes vs sinónimos

El resultado es que, para poder expresar con precisión el sentido de una necesidad de información, necesitamos combinar determinados grupos de palabras con el operador OR, cuando éstos son sinónimos gramaticales o documentales; mientras que otros grupos de palabras los combinaremos con el operador AND, cuando son conceptos distintos.

Finalmente, podemos necesitar mejorar el conjunto de resultados excluyendo términos, para lo cual necesitamos el operador NOT. En algunas bases de datos se expresa como AND NOT, ya que, efectivamente, según el álgebra booleana, el NOT es en realidad un operador compuesto (por AND y NOT).

Un sistema de consulta booleano debe proporcionar al menos estos tres operadores y su utilización debe ser lo más transparente e intuitivo posible. Una solución general consiste en utilizar un formulario con distintos campos para grupo de palabras y un selector de operadores asociado a cada campo (en un lateral o en la parte superior).

Búsqueda combinada

Pese a que hemos mostrado, por motivos de claridad expositiva las opciones booleanas y parametrizadas por separado, la opción más común (y la más operativa) consiste en realizar búsquedas mixtas en las que, concretamente, utilizamos dos o mas conceptos combinados con uno o más operadores booleanos y tales conceptos exigimos que aparezcan en zonas clave del documento, típicamente en el título o en el resumen, etc.

La ilustración que encabeza este artículo es un buen ejemplo. Vemos varios conceptos en sendas líneas horizontales y o bien el operador AND o bien el operador OR antes de algunas de tales líneas, pero además cada línea está parametrizada, es decir está referida a unos parámetros, que en este caso son un grupo de campos.

Si nos limitamos al punto de vista booleno, la ecuación de la figura, en concreto, equivale a ésta:

newspapers AND (“mobile web” OR “virtual reality” OR “augmented reality”)

Operadores complementarios

Adicionalmente, las mejores interfaces de consulta ofrecen otras posibilidades mediante dos grupos de operadores complementarios: de proximidad y los así llamados wildcards characters. Los revisamos a continuación.

Operadores de proximidad

Sirven para precisar que los términos de la consulta se presenten en un determinado orden y con un máximo de palabras de separación entre ellos. Suelen identificarse en dos variedades, reconocidas con las expresiones PRE/ y W/

Por ejemplo, periodismo PRE/5 crisis indica que buscamos documentos donde la palabra periodismo preceda a la palabra crisis y no estén separadas entre ellas por más de cinco palabras.

Por su parte, periodismo W/5 crisis solamente especifica que haya como máximo cinco palabras entre las dos indicadas sin preferir ningún orden.

Algunas bases de datos añaden un tercer operador que permite precisar que ambos términos deben formar parte del mismo párrafo u oración. 

Wildcards characters: truncamientos y máscaras

Consisten en el uso de símbolos, como el asterisco (*), para expresar un truncamiento, lo que permite buscar por raíces o lemas. Por ejemplo, informa* buscaría por igual información, informativo, informacional, etc.

Una máscara (?) por otro lado, permite sustituir el símbolo utilizado por cualquier letra. P.e. abogad?buscaría por igual abogados y abogadas. En inglés, estos caracteres, cuando están utilizados con estos fines, se denominan wildcard characters.

Normalmente, el uso de tales operadores y opciones adicionales implica el uso de sintaxis directa. Es decir, es necesario conocer exactamente cuáles son los operadores y como se expresan para poder utilizar esa clase de búsquedas, ya que los símbolos que hemos usado aquí pueden variar (son, en concreto, los que usa Scopus y otras bases de datos).

Búsqueda por navegación

Además de activar operaciones de búsqueda mediante palabras clave, podemos navegar por listas de títulos u otros tipos de índices para poder encontrar la información que necesitamos. Los tipos de títulos más habituales en una base de datos académica son, a su vez, de dos tipos:

  • Títulos derivados de los contenidos
    • Títulos de publicaciones
    • Nombre de autores
  • Índices de términos utilizados para categorizar contenidos:
    • Índices de descriptores
    • Listas de categorías

De hecho, nada impide que, después de lanzar una operación de consulta, la siguiente actividad del usuario sea desplazarse por navegación por algún tipo de lista. Incluso esta navegación puede preceder a la búsqueda en sí, por ejemplo, para consultar índices de términos de indización o de categorización.

Historia de búsqueda

La realización de consultas en una base de datos académica tiene un importante componente de ensayo y error, así como un importante carácter exploratorio. La mejor forma en la cual una interfaz de consulta es capaz de recoger este aspecto es mediante la opción denominado historia de búsqueda.

La historia de búsqueda es una lista de las búsquedas realizadas a lo largo de una  misma sesión de consulta. Mediante esta opción, el usuario volver sobre esta lista después de haber lanzado diversas consultas y puede retomar distintos conjuntos resultantes y combinarlos entre sí mediante operadores booleanos.

Ilustraciones: La Búsqueda según Scopus


Formulario de inicio

Formulario inicial de consulta en Scopus

Formulario inicial de consulta en Scopus

La primera presentación del formulario de consultas en Scopus es muy limpia, siguiendo la tendencia a la simplicidad en el diseño de la interacción. Podemos ver que queda preseleccionada una búsqueda parametrizada con un conjunto de campos de contenido: título, resumen y palabras clave.

Consulta mixta: booleana y parametrizada

Búsqueda combinada en Scopus

Consulta combinada en Scopus

El formulario de consultas de Scopus mostrando una consulta booleana con tres conceptos: periodismo, web móvil y realidad virtual/realidad aumentada, con estos últimos tratados como sinónimos. Al mismo tiempo, es una consulta parametrizada al restringir todos los conceptos a un grupo de campos determinados.

Opciones de filtrado

Opciones de filtrado en Scopus

Opciones de filtrado

En Scopus, el formulario de búsqueda siempre dispone de unas opciones fijas de filtrado o parametrización: rangos de fechas y tipología de los documentos.

Búsqueda por proximidad

Una búsqueda de proximidad en Scopus utilizando la sintaxis directa: queremos que la palabra clave journalism aparezca antes que la palabra clave crisis y no estén separadas por más de cinco palabras.

Los operadores disponibles en Scopus incluyen dos operadores de proximidad: PRE/, es decir, un término debe preceder a otro y entre ambos puede haber como máximo N palabras de distancia, y W/ que permite especificar el número de palabras entre dos términos sin importar el orden. Estos operadores están disponibles en la opción de búsqueda mediante sintaxis directa.

No está indicado en esta captura, pero si consultamos la ayuda de Scopus, veremos que la mediante sintaxis directa podemos usar también los wildcard characters, tanto el truncamiento (*) como la máscara (?).

Óbservese que, en caso de querer usar la sintaxis directa, esta opción suele encontrarse en bases de datos bajo el rótulo Advanced Search, y que en el caso del NOT, hay que utilizar AND NOT.

Historia de búsqueda

La historia de búsqueda en Scopus

Las diferentes búsquedas de una misma sesión mostradas en una lista que permite su combinación. Ver la indicación superior: “Combine queries…”

Búsquedas mediante navegación

Navegación por los títulos de las publicaciones

Las búsquedas por navegación en Scopus son un tanto limitadas. Contempla la navegación por títulos de fuentes, pero carece de índices de términos de indización o categorización.

Conclusiones

Incluso la base de datos con los mejores contenidos puede perder una buena parte de su utilidad si no dispone de un buen diseño de la interfaz de consultas.

En esta segunda parte de la serie dedicada a la estructura y las funciones de las bases de datos académicas primero hemos presentado los conceptos fundamentales y después un recorrido por la nueva interfaz de Scopus para intentar ilustrarlos. Pero la mayoría de las bases de datos disponen (o deberían) de opciones muy similares, en cada caso resultas de forma peor o mejor.


ANEXO – Formas de expresión de una ecuación de búsqueda

Recordemos que existen varias formas de expresar una ecuación de búsqueda. Repasemos las cuatro principales.

  1. Lenguaje natural: “necesito información sobre periodismo y crisis, pero no sobre temas deportivos”. Es la expresión humana de una necesidad de información.
  2. Pseudo código: (periodismo AND crisis) NOT deporte. Es la forma más estandarizada para representar ecuaciones de búsqueda independientemente del sistema o de la base de datos que vayamos a usar.
  3. Sintaxis directa: Es la forma concreta y específica de cada base de datos, en Scopus, por ejemplo, se debe indicar AND NOT para la negación. En Google, el AND se representa como un espacio en blanco y el NOT como el símbolo menos o guión alto,  etc. Por tanto, en Scopus la ecuación del punto 2 se expresaría así:
    (periodismo AND crisis ) AND NOT deporte, pero en Google, sería así:
    periodismo crisis  -deporte . En cambio, en pseudo código es igual para todas las bases de datos.
  4. Formulario de consulta. El formulario que nos ayuda a entrar palabras clave y elegir operadores de una lista desplegable, por ejemplo.

Icon made by Vectors Market from www.flaticon.com