Procedimiento gráfico para generar ecuaciones de búsqueda en bases de datos académicas


Diagrama de la L invertida para ecuaciones de búsqueda

Ejemplo de primeros pasos en el diagrama de la L invertida para generar ecuaciones de búsqueda


But there are also unknown unknowns. -Rumsfeld

En el contexto de las bases de datos académicas, las ecuaciones de búsqueda consisten en una combinación de palabras clave y operadores para expresar una necesidad de información de cara a poder lanzar una búsqueda. Las ecuaciones bien formadas son las únicas que pueden proporcionar información relevante.

En esta entrada intentaremos ilustrar un sistema basado en un simple diagrama. Éste proporciona una ayuda considerable a la hora de generar la primera versión de una ecuación de búsqueda utilizando diversos términos, incluyendo sinónimos, y los operadores booleanos pertinentes para combinarlos.

Para presentar su forma de utilización, plantearemos un escenario en el que supondremos la necesidad de llevar a cabo una revisión bibliográfica sistemática, presentaremos algunos datos más para centrar el problema y buscaremos la solución aplicando el diagrama a fin de mostrar el uso del mismo.

Escenario

Un joven investigador necesita llevar a cabo una revisión bibliográfica sistemática en bases de datos académicas para una investigación vinculada (por ejemplo) con su tesis doctoral. Para simplificar, imaginaremos que en uno de los capítulos o en uno de los artículos (supongamos que es una tesis por compendio) necesita presentar el estado de la cuestión (o state of art) de la interactividad en los medios de comunicación (digitales).

En concreto, su director de tesis le ha encargado que haga un barrido en bases de datos académicas para localizar los artículos más relevantes de los últimos años sobre el tema indicado. Con los artículos que encuentre, planean llevar a cabo una revisión sistemática y después presentar una síntesis de tipo narrativocrítica que, eventualmente, podrá constituir de este modo una parte (o uno de los artículos) de su tesis.

Quieren identificar patrones en la investigación, así como las corrientes principales, pero también inconsistencias, así como poder relacionar, contrastar y criticar aportaciones y teorías, y eventualmente, identificar carencias y nuevas oportunidades de investigación.

Revisión sistemática

Todo lo anterior implica que no pueden arriesgarse a llevar a cabo una revisión bibliográfica sesgada. De aquí que necesiten asegurarse de que van a utilizar la ecuación (o ecuaciones) de búsqueda que garantizará que van a ser capaces de identificar los artículos relevantes sobre el tema publicados en los últimos años.

También, para simplificar, damos por supuesto que ya han seleccionado las fuentes de información, que podrían ser las dos bases de datos multidisciplinares más importantes a nivel internacional: Scopus y Web of Science, así como la más importante a nivel nacional, Dialnet. Por último, seguramente habrán identificado al menos dos bases de datos especializadas para el caso, como Taylor and Francis y Sage Journals.

Problema

Las bases de datos académicas pueden arrojar cero resultados útiles si no se utiliza la combinación adecuada de palabras clave y operadores de búsqueda. Esto puede ser así aunque, en realidad, tengan abundante información útil para el proyecto.

Las barreras para conseguir una ecuación de búsqueda bien formada son de dos tipos:

  • Es necesario identificar las palabras clave adecuadas.
  • Es necesario combinar las palabras clave con los operadores adecuados.

En concreto, no utilizar sinónimos, o combinarlos con el operador inadecuado puede llevar a conseguir pocos o ningún resultado, con la consiguiente pérdida de información en una sus peores categorías: estamos perdiendo información y encima no sabemos que la estamos perdiendo (unknown unknowns).

Datos para el problema

Los dos operadores principales para combinar palabras clave (y tener éxito en una revisión sistemática) se denominan AND y OR. Existe además el operador NOT, que para simplificar, ahora no trataremos.

  • AND es el operador que se utiliza para cruzar conceptos distintos. Por ejemplo, en nuestra investigación sobre interactividad y cibermedios, vemos en seguida que aquí tenemos, al menos, estos dos conceptos distintos.

  • OR, por su parte, es el operador que se utiliza para relacionar los sinónimos (reales o funcionales) de cada concepto. Como las bases de datos trabajan a nivel de cadenas de caracteres, no pueden entender que cibermedios y medios de comunicación son sinónimos, y más exactamente, cuasi sinónimos, o sinónimos documentales. Si no usamos ambos términos, podemos tener pérdidas de información.

Vamos a ilustrar los anterior con tres ejemplos:

  • Ejemplo 1. Para cruzar el concepto de cibermedio con el concepto de interactividad, podemos usar esta ecuación: cibermedios AND interactividad.

  • Ejemplo 2. Para relacionar el término cibermedios con el término sinónimo medios de comunicación, puedo usar esta ecuación: cibermedios OR “medios de comunicación”.
  • Ejemplo 3. Para utilizar los dos conceptos y sus sinónimos en una sola ecuación, puedo hacerlo así: (cibermedios OR “medios de comunicación”) AND (interactividad OR participación)

Pero, para poder mostrar los ejemplos anteriores hemos supuesto que ya sabemos lo que queríamos hacer, cuando es precisamente a esta situación a la que no siempre es fácil llegar, en cuyo caso nos vendrá bien alguna clase de ayuda.

Propuesta de solución

Ante una necesidad de información (que en nuestro caso de ejemplo vamos a llamar “interactividad en cibermedios”) el primer paso consiste en usar un sencillo diagrama, tan sencillo de hecho como esta L invertida que presentamos a continuación, y en la cual, convenientemente, hemos colocado el operador AND en la parte superior y el operador OR en el lateral:

Diagrama en forma de L invertida para generar ecuaciones de búsqueda

Preparación inicial del diagrama de la L invertida para generar ecuaciones de búsqueda

El segundo paso sigue siendo muy simple. Consiste en disponer en la parte horizontal, bajo el palo superior del la L invertida, los diferentes conceptos que intervienen en nuestra investigación, dos en el ejemplo que estamos usando: el de cibermedios y el de interactividad.

Añadimos en horizontal los conceptos que necesitamos cruzar para nuestra investigación

El tercer paso consiste en disponer, en vertical, bajo cada término sus correspondientes sinónimos. Si vamos a trabajar sobre un tema se supone que estamos familiarizados con la terminología y nos será fácil deducirlos. De no ser así ¿qué demonios haces trabajando en este tema? tendremos que hacer algunas búsquedas en enciclopedias y diccionarios y/o preguntar a algún experto.

Como sea, en nuestro ejemplo, usaremos los términos de participación y difusión como sinónimos funcionales (también llamados sinónimos documentales) de interactividad; mientras que usaremos los de medios de comunicación y periodismo como sinónimos de cibermedios. De este modo:

Añadimos los sinónimos en vertical de cada concepto

Primera versión de la ecuación

A la vista de este resultado ya podemos preparar la primera versión de la posible ecuación de búsqueda. Entonces, el último paso consiste en relacionar los términos en horizontal con un AND, tal como sugiere el diagrama, y los términos en vertical con un OR, con lo cual obtenemos esta ecuación (en pseudo código):

(cibermedios OR “medios de comunicación” OR periodismo) AND (interactividad OR participación OR difusión)

A partir de aquí, de ser necesario, podríamos añadir el operador NOT que hemos dejado antes de lado. Por ejemplo, imaginemos que no queremos artículos que traten sobre deporte. Entonces, nuestra ecuación la podríamos modificar así:

((cibermedios OR “medios de comunicación” OR periodismo) AND (interactividad OR participación OR difusión)) NOT deporte

¿Y con esto ya lo tenemos todo? Sería raro. Lo más normal es que esta primera ecuación sea solamente el inicio de un proceso de pruebas y transformaciones de esta ecuación inicial hasta tener la ecuación (o ecuaciones) que nos proporcione el grueso de la información buscada. 

Observaciones operativas

Nótese que hemos expresado la ecuación booleana en pseudo código. Es decir, de una forma independiente de la lengua de trabajo y de la sintaxis concreta de la base de datos. Las ecuaciones expresadas en pseudo código ignoran estos aspectos para facilitar la ideación y la comunicación, si es el caso, entre los miembros del equipo.

Necesidad de pruebas

Para poner a prueba la bondad de esta ecuación tendremos que usar una base de datos concreta, y entonces habrá que pasar las palabras clave a la lengua de trabajo de la base de datos concreta: puede ser el castellano si usamos, efectivamente, una base de datos producida en España como la del CSIC o la de Dialnet.

Además, puede haber variaciones en cuanto a otros aspectos formales tales como el uso o no de paréntesis, dobles paréntesis, comillas, forma de indicar los operadores booleanos, etc. El pseudo código utilizado aquí es compatible con las bases de datos más importantes, pero puede haber pequeñas variaciones en cada sistema.

Cabe insistir, además, en el componente de ensayo y error. Tal vez alguna de las palabras clave que hemos elegido para la primera versión de la ecuación haya que cambiarlas a la vista de los resultados, o tal vez haya que añadir algún sinónimo más. Por ejemplo, además del término participación, tal vez descubrimos que es conveniente añadir el término audiencias, etc.

Para estas mejoras nos ayudará examinar la primera lista de resultados, en particular los títulos y las palabras clave de los artículos más relevantes encontrados con la primera versión de la ecuación.

Traducción de las palabras clave

También será necesario un trabajo de adaptación a la hora de traducir los términos al inglés para poder usar la ecuación en bases de datos internacionales, porque las traducciones directas no siempre funcionan. Por ejemplo, en inglés, no podemos usar el equivalente literal de cibermedios (¿cibermedium?), sino que habrá que probar con “new media”, “online newspapers”, etc.

La cuestión es que el uso de este sencillo diagrama nos ayuda a transformar una necesidad de información en una primera versión plausible de ecuación de búsqueda. Haremos tantos diagramas y/o pondremos en la zona horizontal tantas palabras clave como conceptos necesitemos cruzar.

Por último, me encanta poder señalar que debo el conocimiento de este sistema a Tomàs Baiget, gracias a un mítico postgrado del que fue uno de los profesores y miembro del cuerpo directivo, y yo uno de los afortunados estudiantes allá por, un momento, ¿finales de los 80? (¡¿nos estamos haciendo mayores?!).

Consideraciones finales

Todos querríamos que el uso de las bases de datos académicas fuese más fácil o al menos que se asemejara más al uso, mucho más intuitivo, de un buscador como Google. Pero, por la razón que sea, no es así y resulta una pésima idea ahorrar esfuerzos en esta fase. 

En cambio, dedicar una o dos sesiones de ¿3, 4 horas? a planificar con calma, usando diagramas como éstos y haciendo pruebas de forma sistemática y rigurosa, es una de las mejores inversiones en el inicio de toda nueva investigación, especialmente en una tesis doctoral.

Retorno de la inversión

En total, a cambio de estas pocas horas de dedicación, el rendimiento será espectacular, obtendremos un conjunto solvente de resultados que no solamente nos ayudará a establecer el estado de la cuestión en el tema en el que pretendemos hacer avances, sino que además nos dará ideas para tener un discurso convincente y, sobre todo, nos aportará una gran seguridad.

En realidad, es la única forma de evitar sorpresas y disgustos una vez todo esté ya demasiado avanzado para rectificar, y no digamos si las carencias nos las señalan en el momento de la defensa, cuando ya no hay marcha atrás posible.

Por último, una reflexión Pérez-Montoro style: queda clara la potencia cognitiva de diagramas y sistemas de visualización de la información, incluso en casos tan simples como éste.

Para saber más