Procedimiento gráfico para generar ecuaciones de búsqueda en bases de datos académicas

Diagrama de la L invertida para ecuaciones de búsqueda
Ejemplo de primeros pasos en el diagrama de la L invertida para generar ecuaciones de búsqueda

Edición Octubre 2017

(But there are also unknown unknowns -Rumsfeld)

En el contexto de las bases de datos académicas, una ecuación de búsqueda consiste en una combinación de palabras clave y de operadores para expresar una necesidad de información. Por diversas razones, el lenguaje natural no funciona bien en esta bases de datos. Debido a ello, solamente las ecuaciones bien formadas podrán proporcionar información relevante al usuario.

En esta entrada intentaremos ilustrar un sistema que nos puede ayudar a formular ecuaciones de búsqueda y que está basado en un simple diagrama. Éste proporciona una ayuda considerable a la hora de generar la primera versión de una ecuación de búsqueda utilizando diversos términos, incluyendo sinónimos, y los operadores booleanos pertinentes para combinarlos.

Para presentar su forma de utilización, plantearemos un escenario en el que supondremos la necesidad de llevar a cabo una revisión sistemática, presentaremos algunos datos más para centrar el problema y buscaremos la solución aplicando el diagrama a fin de mostrar el uso del mismo.

Escenario

Un joven investigador necesita llevar a cabo una revisión bibliográfica, supongamos para afrontar con garantías su tesis doctoral o su trabajo de final de máster, y para ello desea acogerse al procedimiento de las revisiones sistematizadas.

No ignora que, en tal caso, debe empezar por diseñar una búsqueda utilizando bases de datos académicas. Para simplificar, imaginaremos que para una de las investigaciones de su trabajo necesita establecer el estado de la cuestión (o state of art) de la interactividad en medios de comunicación (digitales).

En concreto, supongamos que, de acuerdo con su supervisor (director de tesis o tutor de su trabajo) ha acordado llevar a cabo una exploración en bases de datos académicas para localizar las investigaciones previas más relevantes más relevantes de los últimos años sobre el tema indicado.

Con los artículos que encuentre, planean constituir el banco de artículos para su revisión, y una vez analizados, presentar una síntesis de tipo narrativocrítica que, eventualmente, podrá constituir de este modo una parte (o uno de los artículos) de su trabajo.

Se han propuesto identificar patrones en la investigación, así como las corrientes principales, pero también relacionar, contrastar y criticar aportaciones y teorías, y eventualmente, identificar carencias y nuevas oportunidades de investigación.

Revisión sistemática

Todo lo anterior implica que no pueden arriesgarse a llevar a cabo una revisión bibliográfica sesgada. De aquí que necesiten asegurarse de que van a utilizar la ecuación (o ecuaciones) de búsqueda que garantizará que van a ser capaces de identificar los artículos relevantes sobre el tema publicados en los últimos años.

También, para simplificar, damos por supuesto que ya han seleccionado las fuentes de información, que podrían ser las dos bases de datos multidisciplinares más importantes a nivel internacional: Scopus y Web of Science, así como la más importante a nivel nacional, Dialnet. Por último, seguramente habrán identificado al menos dos bases de datos especializadas para el caso, como Taylor and Francis y Sage Journals.

Problema

Las bases de datos académicas pueden arrojar cero resultados útiles si no se utiliza la combinación adecuada de palabras clave y operadores de búsqueda. Esto puede ser así aunque, en realidad, tengan abundante información útil para el proyecto.

Las barreras para conseguir una ecuación de búsqueda bien formada son de dos tipos:

  • Es necesario identificar las palabras clave adecuadas.
  • Es necesario combinar las palabras clave con los operadores adecuados.

En concreto, no utilizar sinónimos, o combinarlos con el operador inadecuado puede llevar a conseguir pocos o ningún resultado, con la consiguiente pérdida de información en una sus peores categorías: estamos perdiendo información y encima no sabemos que la estamos perdiendo (unknown unknowns).

Datos para el problema

Los dos operadores principales para combinar palabras clave (y tener éxito en una revisión sistemática) se denominan AND y OR. Existe además el operador NOT, que para simplificar, por ahora no trataremos.

  • AND es el operador que se utiliza para cruzar o conceptos distintos. Por ejemplo, en nuestra investigación sobre interactividad y cibermedios, vemos en seguida que aquí tenemos, al menos, estos dos conceptos distintos. Este operador nos permite por tanto, llevar a cabo intersecciones lógicas.

  • OR, por su parte, es el operador que se utiliza para relacionar los sinónimos (reales o funcionales) de cada concepto. Como las bases de datos trabajan a nivel de cadenas de caracteres, no pueden entender que cibermedios y medios de comunicación son sinónimos, y más exactamente, cuasi sinónimos, o sinónimos documentales. Si no usamos ambos términos, podemos tener pérdidas de información. Este operador nos permite hacer sumas lógicas.

Vamos a ilustrar los anterior con tres ejemplos:

  • Ejemplo 1. Para cruzar el concepto de cibermedio con el concepto de interactividad, podemos usar esta ecuación: cibermedios AND interactividad.

  • Ejemplo 2. Para relacionar el término cibermedios con el término sinónimo medios de comunicación, puedo usar esta ecuación: cibermedios OR “medios de comunicación”.

  • Ejemplo 3. Para utilizar los dos conceptos y sus sinónimos en una sola ecuación, puedo hacerlo así: (cibermedios OR “medios de comunicación”) AND (interactividad OR participación)

Pero, para poder mostrar los ejemplos anteriores hemos supuesto que ya sabemos lo que queríamos hacer, cuando es precisamente a esta situación a la que no siempre es fácil llegar, en cuyo caso nos vendrá bien alguna clase de ayuda.

Propuesta de solución

Ante una necesidad de información (que en nuestro caso de ejemplo vamos a llamar “interactividad en cibermedios”) el primer paso consiste en usar un sencillo diagrama, tan sencillo de hecho como esta L invertida que presentamos a continuación, y en la cual, convenientemente, hemos colocado el operador AND en la parte superior y el operador OR en el lateral:

Diagrama en forma de L invertida para generar ecuaciones de búsqueda
Preparación inicial del diagrama de la L invertida para generar ecuaciones de búsqueda

El segundo paso sigue siendo muy simple. Consiste en disponer en la parte horizontal, bajo el palo superior del la L invertida, los diferentes conceptos que intervienen en nuestra investigación, dos en el ejemplo que estamos usando: el de cibermedios y el de interactividad.

Añadimos en horizontal los conceptos que necesitamos cruzar para nuestra investigación

El tercer paso consiste en disponer, en vertical, bajo cada término sus correspondientes sinónimos. Si vamos a trabajar sobre un tema se supone que estamos familiarizados con la terminología y nos será fácil deducirlos.

De no ser así ¿qué demonios haces trabajando en este tema? podremos hacer algunas búsquedas en enciclopedias y diccionarios, preguntar a algún experto, por ejemplo a nuestro supervisor u otros colegas.

En último extremo, la exploración de los resultados de búsquedas iniciales con las palabras clave de partida debería darnos ideas, en particular, si sabemos consultar los metadatos de cada referencia, donde aparecerán el resumen y las palabras clave y también términos de categorización que nos darán ideas.

Ejemplo de un registro en Scopus con indicación de puntos de información para obtener palabras clave.

Como sea, en nuestro ejemplo, usaremos los términos de participación y difusión como sinónimos funcionales (también llamados sinónimos documentales) de interactividad; mientras que usaremos los de medios de comunicación y periodismo como sinónimos de cibermedios. De este modo:

Añadimos los sinónimos en vertical de cada concepto

Primera versión de la ecuación

A la vista de este resultado ya podemos preparar la primera versión de la posible ecuación de búsqueda. Entonces, el último paso consiste en relacionar los términos en horizontal con un AND, tal como sugiere el diagrama, y los términos en vertical con un OR, con lo cual obtenemos esta ecuación (en pseudo código):

(cibermedios OR “medios de comunicación” OR periodismo) AND (interactividad OR participación OR difusión)

¿Y con esto ya lo tenemos todo? Sería muy raro. Lo más normal es que esta primera ecuación sea solamente el inicio de un proceso de pruebas y transformaciones de esta ecuación inicial hasta tener la ecuación (o, más probablemente, ecuaciones, en plural) que nos proporcione el grueso de la información buscada. Pero de este modo, ya tenemos un punto de partida muy solvente.

Procedimientos operativos

Nótese que hemos expresado la ecuación booleana en pseudocódigo. Es decir, de una forma independiente de la lengua de trabajo y de la sintaxis concreta de la base de datos. Las ecuaciones expresadas en pseudo código ignoran estos aspectos para facilitar la ideación y la comunicación, si es el caso, entre los miembros del equipo.

Necesidad de pruebas

Para poner a prueba la bondad de esta ecuación tendremos que usar una base de datos concreta, y entonces habrá que pasar las palabras clave a la lengua de trabajo de la base de datos concreta: puede ser el castellano si usamos, efectivamente, una base de datos producida en España como la del CSIC o la de Dialnet.

Además, puede haber variaciones en cuanto a otros aspectos formales tales como el uso o no de paréntesis, dobles paréntesis, comillas, forma de indicar los operadores booleanos, etc. El pseudo código utilizado aquí es compatible con las bases de datos más importantes, pero puede haber pequeñas variaciones en cada sistema.

Cabe insistir, además, en el componente de ensayo y error. Tal vez alguna de las palabras clave que hemos elegido para la primera versión de la ecuación haya que cambiarlas a la vista de los resultados, o tal vez haya que añadir algún sinónimo más. Por ejemplo, además del término participación, tal vez descubrimos que es conveniente añadir el término audiencias, etc.

Para estas mejoras nos ayudará examinar la primera lista de resultados, en particular los títulos y las palabras clave de los artículos más relevantes encontrados con la primera versión de la ecuación.

Traducción de las palabras clave

También será necesario un trabajo de adaptación a la hora de traducir los términos al inglés para poder usar la ecuación en bases de datos internacionales, porque las traducciones directas no siempre funcionan. Por ejemplo, en inglés, no podemos usar el equivalente literal de cibermedios (¿cibermedium?), sino que habrá que probar con “news media”, “online newspapers”, etc.

La cuestión es que el uso de este sencillo diagrama nos ayuda a transformar una necesidad de información en una primera versión plausible de ecuación de búsqueda. Haremos tantos diagramas y/o pondremos en la zona horizontal tantas palabras clave como conceptos necesitemos cruzar.

Por último, me encanta poder señalar que debo el conocimiento de este sistema a Tomàs Baiget, gracias a un mítico postgrado del que fue uno de los profesores y miembro del cuerpo directivo, y yo uno de los afortunados estudiantes allá por, un momento, ¿fines de los 80, inicios de los 90? (¡como pasa el tiempo!, y sí, ya teníamos bases de datos académicas, aunque no se accedían desde Internet y mucho menos desde un navegador).

Ejemplo de un formulario de búsqueda: Scopus

Adaptación a cada sistema de consulta

Una vez tenemos una o más ecuaciones de búsqueda, necesitamos llevarlas a cabo en la(s) base(s) de datos que necesitemos utilizar.

Para ello, en la mayoría de sistemas dispondremos, al menos, de dos opciones de búsqueda:

  • Mediante un formulario
  • Con sintaxis directa

El modo más fácit y recomendable consiste en utilizar un formulario. Las mejores bases de datos, notablemente, Scopus y Web of Science, así como muchas otras, disponen de formularios en los cuales es muy fácil trasladar la ecuación que hemos desarrollado en pseudocódigo.

En otra serie de artículos, hemos tratado con detalle, la manera de hacerlo en las principales bases de datos, como por ejemplo, en este dedicado a Scopus.

El operador NOT

Hemos dicho que dejábamos de lado el tercero de los operadores habituales, a saber, el NOT. Sirve para retirar del conjunto de documentos, aquellos que tengan la palabra clave a la que precede este operador.

Sea, por ejemplo, esta ecuación:

((cibermedios OR “medios de comunicación” OR periodismo) AND (interactividad OR participación OR difusión))

A partir de aquí, de ser necesario, podríamos añadir el operador NOT que hemos dejado antes de lado. Por ejemplo, imaginemos que no queremos artículos que traten sobre deporte. Entonces, nuestra ecuación la podríamos modificar así:

((cibermedios OR “medios de comunicación” OR periodismo) AND (interactividad OR participación OR difusión)) NOT deporte

Una última aclaración sobre el operador NOT: conviene manejarlo con cuidado porque retira documentos del conjunto, aunque sean relevantes. Es fácil verlo: en la ecuación anterior, podríamos perder un buen artículo porque, además de tratar de temas de periodismo en general, dedicara un pequeño apartado al periodismo deportivo.

En general, es un operador que personalmente solo utilizo cuando no veo otra forma de reducir el ruido (o sea, cuando estoy desesperado). 

operadores booleanos mediante un diagrama de Venn
Con un ejemplo de mascotas aquí tenemos un eficaz diagrama de Venn donde podemos ver de forma gráfica el significado de cada operador. Fuente: Ohio University Library

Resumen de los tres operadores

A continuación, mostramos el significado de los tres operadores. Desde el punto de vista lógico, lo que hacen estos operadores equivale a llevar a cabo operaciones con conjuntos. Cada palabra clave se considera un conjunto: el de los documentos que tienen asignada tal palabra clave. 

Cada operador, de este modo, puede crear un nuevo conjunto de documentos. Vamos a examinarlo con unas palabras clave que designaremos como T1 y T2, donde T1 puede ser “periodismo” y T2 puede ser “realidad virtual”, por decir algo. Entonces, T1 AND T2 sería equivalente a periodismo AND realidad virtual.

  • Sea una ecuación del tipo T1 AND T2. Dados dos conjuntos de documentos, uno de ellos con la palabra clave T1, y el otro con la palabra clave T2, en una intersección (operador AND), se formará el conjunto de los documentos que tengan tanto la palabra clave T1 como la palabra clave T2.

  • Sea una ecuación del tipo T1 OR T2. En cambio, en una suma (operador OR), el conjunto resultante, deberá contener todos los documentos que tengan la palabra clave T1, todos los que tengan la palabra clave T2 y todos los que tengan ambas palabras clave. 

  • Sea una ecuación del tipo T1 NOT T2. En una resta, el conjunto resultante, en cambio, será el de los documentos que tengan la palabra clave T1, siempre que no tengan también la palabra clave T2. (En algunos sistemas se expresa como  T1 AND NOT T2)

La siguiente tabla, lo resume:

Tabla 1: Operadores booleanos principales

Operador Significado
AND Intersección lógica: crea un conjunto con los documentos que contengan todas las palabras clave.
Esto es: un documento puede formar parte del conjunto  si y solamente si tiene todas las palabras clave.
OR Suma lógica: crea un conjunto con los documentos que tengan al menos una de las palabras clave.
Esto es: basta tener una palabra clave para formar parte del conjunto, por lo cual los docmentos que las tienen todas deben formar parte del conjunto.

NOT 
(AND NOT) 

Resta lógica: excluye del conjunto de documentos aquellos que posean la palabra clave precedida por el operador.
Esto es, un documento forma parte del conjunto si y solamente si tiene la primera palabra clave pero no tienen la segunda.

Consideraciones finales

Todos querríamos que el uso de las bases de datos académicas fuese más fácil o al menos que se asemejara más al uso, mucho más intuitivo, de un buscador como Google. Pero, por la razón que sea, no es así y resulta una pésima idea ahorrar esfuerzos en esta fase. 

En cambio, dedicar una o dos sesiones de ¿3, 4 horas? a planificar con calma, usando diagramas como éstos y haciendo pruebas de forma sistemática y rigurosa, es una de las mejores inversiones en el inicio de toda nueva investigación, especialmente en una tesis doctoral.

Retorno de la inversión

En total, a cambio de estas pocas horas de dedicación, el rendimiento será espectacular, obtendremos un conjunto solvente de resultados que no solamente nos ayudará a establecer el estado de la cuestión en el tema en el que pretendemos hacer avances, sino que además nos dará ideas para tener un discurso convincente y, sobre todo, nos aportará una gran seguridad.

En realidad, es la única forma de evitar sorpresas y disgustos una vez todo esté ya demasiado avanzado para rectificar, y no digamos si las carencias nos las señalan en el momento de la defensa, cuando ya no hay marcha atrás posible.

Por último, una reflexión Pérez-Montoro style: queda clara la potencia cognitiva de diagramas y sistemas de visualización de la información, incluso en casos como éste.

Para saber más