Ecuaciones de búsqueda: qué son y cómo se utilizan en bases de datos académicas ·1: operadores booleanos

La necesidad de información de un investigador debe expresarse como una ecuación de búsqueda para poder utilizar de forma adecuada una base de datos. Fuente: elaboración propia.

En el contexto de las bases de datos académicas, las ecuaciones de búsqueda se utilizan para expresar de la forma más exacta posible las necesidades de información de los usuarios. 

Se componen de conceptos expresados en forma de unas palabras claves y de uno o más operadores de búsqueda que articulan la relación entre ellas. En definititiva, se trata de utilizar un lenguaje de intermediación entre la necesidad de información de un ser humano, que por definición es inobservable, y el robot al que le pedimos que la solucione (o al menos, que lo intente).

Aunque el uso de formularios evita la necesidad de conocer los detalles técnicos de las ecuaciones de búsqueda, no evita la necesidad de conocer la lógica de los operadores. La situación es parecida al uso de una calculadora aritmética: nos evitan hacer los cálculos, pero para poder emplearla necesitamos saber qué significa cada opción.

En esta serie de artículos presentaremos los principales operadores de búsqueda disponibles en bases de datos académicas. Su conocimiento es el único modo de garantizar que, ante una necesidad de información de importancia crítica, como la de completar un banco de artículos para un estado de la cuestión o la de llevar a cabo una revisión sistemática, seamos capaces de diseñar las búsquedas de forma adecuada.

PRIMERA PARTE
Necesidades de información y ecuaciones de búsqueda


Una búsqueda tiene lugar porque antes el futuro usuario de la base de datos ha experimentado una necesidad de información. Esta necesidad de información se caracteriza por ser un estado mental, y por tanto, es algo inobservable directamente por definición.

Para que deje de serlo y se transforme en algo operativo, debe convertirse en una pregunta, y si la misma se dirige a un sistema de información, tal como una base de datos, entonces debe articularse de una manera que un programa informático la pueda procesar, de aquí la neesidad de una mínima formalización que se conoce como ecuación de búsqueda.

El nombre de ecuación no es casual. Hay un claro paralelismo entre las ecuaciones aritméticas y las de búsqueda, en las que usamos conceptos (en lugar de números) y operaciones de tipo lógico, como la unión o la intersección (en lugar de operaciones artiméticas como sumas o multiplicaciones).

Componentes

En las ecuaciones de búsqueda tenemos tres tipos de componentes:

  • Palabras clave
  • Operadores
  • Símbolos reservados

Vamos a considerarlos en los siguientes apartados. 

Palabras clave

Como no podemos utilizar conceptos directamente con un programa informático,  en su lugar, usamos palabras clave. Su función es representar la semántica de la necesidad de información del usuario investigador.

Lógicamente, estos conceptos o palabras clave proceden de la representación de las diferentes dimensiones de su proyecto de invcestigación: objeto de estudio, objetivos, marco teórico, marco metodológico, etc.

Por ejemplo, un proyecto de investigación sobre la interactividad y la hipertextualidad en medios de comunicación digitales podría necesitar palabras clave tales como interacción, hipertextualidadmedios de comunicación, sitios web, web móvil, etc.

Las palabras clave pueden incluir nombres propios, como cabeceras de diario, si seguimos con este ejemplo, o topónimos, si necesitamos centrar nuestra investigación en un país o zona geográfica, etc. Por la misma razón, pueden incluir metodologías, si, por ejemplo, deseamos estudiar el uso de entrevistas en profundidad o de análisis de contenido, etc.

En cuanto a su morfología, se puede distinguir entre palabras clave formadas por uno solo, o por varios términos. En este segundo caso, a veces se denominan frases. En este contexto, por ejemplo, interactividad es una palabra clave, mientras que video 360 o medios de comunicación son frases.


Existen recomendaciones sobre la forma de derivar palabras clave a partir de un proyecto gracias a la metodología de las sistematic reviews. En estos artículos se puede consultar procedimientos más detallados:


Operadores

Además de las palabras clave, sin las cuales, simplemente no tenemos ecuación, los operadores son los componentes que permiten combinarlas con la mínima ambigüedad posible.

¿Cuáles son concretamente estos operadores? La siguiente lista se ha obtenido de la revisión previa de las principales bases de datos académicas internacionales, incluyendo las dos más importantes del mundo: Scopus y Web of Science. Se trata de los siguientes:

Booleanos

  • OR
  • AND
  • NOT

De proximidad

  • W/n
  • PRE/n
  • SAME

De delimitación

  • Búsquedas parametrizadas

Símbolos reservados

Para poder expresar algunas especificaciones, las ecuaciones pueden usar símbolos especiales (además de los operadores)Por ejemplo, las comillas expresan que una palabra clave compuesta debe tratarse de forma literal, como en «video 360«, lo que evita que la base de datos busque esas palabras clave por separado, con lo cual evita falsas coordinaciones.

Los paréntesis, por su parte, se pueden utilizar para ordenar el sentido de las operaciones y evitar que los operadores de combinan de forma inadecuada entre ellos, etc, como en:

(radio OR televisión) AND (deporte OR fútbol)

En su momento, trataremos con detalle el uso de estos símbolos. Auqque cada base de datos tiene su lista propia de símbolos reservados, hay al menos tres grupos muy comunes, que son los siguientes:

  • comillas (««)
  • wildcard characters (*, ?)
  • paréntesis (())

A continuación, una aclaración sobre el formato que utilizamos para presentar los ejemplos (como el de más arriba), denominado pseudocódigo.

Pseudocódigo

En cada base de datos concreta, tanto el diseño de los formularios como el formato de la sintaxis directa presenta variaciones propias. Por este motivo, existe una tercera forma de presentar estos operadores, que puede denominarse pseudocódigo.

Este pseudocódigo consiste en una forma estándar de presentar las ecuaciones que es independiente del lenguaje concreto utilizado por cada bases de datos. Se utiliza, como haremos en este artículo, o bien para enseñar su uso, o bien para planificar una búsqueda como parte, por ejemplo, de una revisión sistemática.

Tenemos así, en realidad, tres procedimientos para representar las ecuaciones y sus operadores de búsqueda:

Procedimiento de expresiónRelación con las bases de datos

Formulario

Búsqueda asistida, evita al usuario tener que conocer los detalles del lenguaje de interrogación.

Diferentes en cada bases de datos, a causa de un software diferente y de un diseño propio.

Sintaxis directa

Uso directo del lenguaje de interrogación (query language) del software que gestiona la base de datos.

Pseudocódigo

Basado en la lógica booleana y sin considerar aspectos de idioma de la base de datos o el tipo de sofware empleado

Unificado, ya que es independiente de cada base de datos

Para ilustrar esta tres manera de representar los operadores de búsqueda, utilizaremos el caso del operador NOT (después examinaremos su significado lógico) para una búsqueda en la que, por poner un ejemplo, quisiéramos obtener artículos sobre periodismo (journalism) pero no sobre radio o televisión (broadcasting).

En un formulario:

Ecuaciones de búsqueda en la base de datos Ebsco
Ecuaciones de búsqueda con NOT en el formulario de Communication Source (Ebsco)

Como podemos ver, se trata de entrar uno o más términos en los campos del formulario y de hacer alguna selección de los menús desplegables.

Con sintaxis directa:

Operadores de búsqueda en Scopus
El mismo operador, en este caso mediante la sintaxis directa del lenguaje de interrogación de Scopus, donde vemos que para expresar el NOT deberíamos usar el término «AND NOT» (ALL se refiere a que buscamos en todos los campos)

En el ejemplo, vemos que el uso del lenguaje de interrogación exige utilizar algunos símbolos, en este caso paréntesis, comandos (ALL) y el operador booleano elegido en su formato AND NOT.

En pseudocódigo:

journalism NOT broadcasting

En pseudocódigo, en cambio, escribimos únicamente las palabras clave y el operador. En este caso, NOT en lugar de AND NOT.

Por tanto, cabe señalar que, cada bases de datos, puede haber variaciones sobre la manera de utilizar los formularios o de representar cada operador. Incluso, debemos contar con el hecho de que algunas bases de datos no permiten el uso de todos los operadores que veremos aquí.

La base de datos imaginaria MINI

En este artículo utilizaremos el pseudocódigo para presentar los operadores más importantes e ilustraremos su utilización con ejemplos de los formularios de búsqueda de las bases de datos Scopus y Communication Sources (Ebsco).

Además, usaremos una base de datos imaginaria, que llamaremos MINI y que tiene únicamente 6 documentos. En la tabla siguiente representamos cada uno de los seis documentos mediante su número de identificación (ID) y las palabras clave con las que ha sido categorizado cada uno de ellos.

Lista de documentos de la base de datos MINI

IDPalabras
clave
1Facebook, journalism, social networks, Twitter
2broadcasting, citizen journalism, interaction, new media,
3journalism, newspapers, virtual reality
4digital media, newspapers, New York Times, 360 video
5journalism, news media, Twitter, YouTube,
6Facebook, newspapers, Spain, 360 video

SEGUNDA PARTE
Operadores booleanos: fundamento y utilización


El término procede del matemático Georges Boole. En su momento, (siglo XIX) propuso un sistema lógico (un álgebra, exactamente) para poder llevar a cabo operaciones con ideas (en lugar de números).

Tras su adaptación a la informática y las telecomunicaciones, y posterior aplicación a los lenguajes de búsqueda en bases de datos documentales, este sistema derivó en el uso de los tres operadores ya mencionados: OR, AND y NOT, con un cuarto operador, aunque no suele utilizarse demasiado, XOR.

La idea original del álgebra booleana era disponer de unos operadores y de unas reglas de uso que permitieran decidir sobre la verdad o la falsedad lógica de determinadas combinaciones de sentencias.

En bases de datos se utilizan para expresar de qué forma queremos combinar dos o más conceptos diferentes. Por ejemplo, si usamos los términos journalism más el término broadcasting, ¿lo que queremos es encontrar documentos solamente en el caso de que tengan ambos términos?, o bien ¿queremos documentos que tengan cualquiera de ellos?

Un (mal) ejemplo de ecuación de búsqueda con términos meramente yuxtapuestos, es decir, sin indicar relación entre las palabras clave usando (mal) el formulario de Scopus)

Si nos limitamos a la yuxtaposición de los términos, como solemos hacer en una búsqueda simple en Google, por ejemplo, es decir, sin indicar la relación que esperamos entre ellos, la base de datos utilizará uno de los operadores por defecto, generalmente, el AND, que indica que queremos documentos que tengan ambos términos.

La ecuación anterior, pero después de lanzar la búsqueda. Vemos que Scopus ha añadido un AND. ¿Era esta relación la que queríamos?

El problema cuando en una base de datos como Scopus, esta añade un operador por su cuenta (ya que el usuario ha descuidado ponerlo) es que si acierta será por casualidad. De aquí la necesidad para un investigador al que le guste tener el máximo control sobre su trabajo, de conocer los fundamentos de las ecuaciones de búsqueda.

En lo que resta de este artículo, examinaremos el significado lógico y el uso adecuado en bases de datos de los operadores booleanos OR, AND, NOT. Para que no se confudan con términos equivalentes del lenguaje natural, es costumbre escribirlos siempre en mayúsculas.

Operador OR: suma lógica

Para entender el operador OR hay que considerar dos cosas: primero, que no es lo mismo un concepto que una palabra. En concreto, un mismo concepto se puede expresar mediante diversas palabras. Es el fenómeno conocido como sinonimia. Por ejemplo, «terremotos» y «movimientos sísmicos» son sinónimos.

Además, en el contexto de las bases de datos existe los llamados sinónimos documentales. «Journalism» no es lo mismo que «newspapers» pero en el momento de buscar información, sí lo son, porque ambos pueden ser igual de útiles en una búsqueda

El problema de la diferencia entre conceptos y palabras es que, para las máquinas no existen los conceptos, solo hay palabras. Una búsqueda con uno de los sinónimos dará resultados diferentes que una búsqueda con otro de los sinónimos. Si buscamos con el término «audiovisual», no buscará por «televisión», ni por «vídeo».

En segundo lugar, hay que considerar que en el lenguaje coloquial la partícula gramatical equivalente (o) puede tener dos significados: incluyente, como en «se aceptan pagos en dólares o en euros»; y excluyente: como en «esta tarde voy a ir al cine o al teatro».

Por tanto, ya tenemos aquí el escenario que nos permite entender el uso de OR. Por un lado, necesitamos sumar documentos que usen diferentes palabras (sinónimos) para expresar el mismo concepto. Por otro lado, debemos saber que en la lógica booleana, el OR siempre es incluyente. Esto se suele enunciar así:

o uno, u otro, o ambos

Significa que si utilizo la expresión: journalism OR newspapers en una base de datos, estoy pidiendo artículos que tengan, o uno (journalism), u otro (newspapers) o ambos conceptos.

Para que no haya dudas: de los documentos de nuestra base de datos MINI, la búsqueda journalism AND newspapers, nos entregaría en este caso todos los documentos. Repasemos: nos entregaría el 1, 2 y 5, porque tienen la palabra clave journalism; el 4 y 6 porque tienen la palabra clave newspapers y el 3 porque tiene ambas.

Como ya hemos señalado, la razón por la cual utilizamos OR es porque no queremos perder información debido al fenómeno de la sinonímia del lenguaje humano. No podemos saber a priori si los autores de los artículos más relevantes para nuestra necesidad de información utilizarán el término journalism o el término newspapers. La única solución consiste en combinar estos dos términos con un OR. En pseudo código, esta relación se expresa así:

journalism OR newspapers

En el caso del formulario de Scopus sería así:

Uso del operador OR en Scopus con la búsqueda asistida (formulario)

En el caso de Communication Source podemos ver que es muy similar:

Uso del operador OR en Communication Source con la búsqueda asistida (formulario)

En sintaxis directa, tampoco tendríamos ningún problema especial, en casi todos los sistemas de búsqueda se haría exactamente igual que en forma de pseudocódigo.

Para volver al ejemplo de la búsqueda por el concepto «audiovisual», la única forma de resolverlo en una base de datos sería con esta ecuación:

audiovisual OR cine OR televisión OR vídeo

Cuando combinamos más de dos términos con un OR (como en el caso anterior) la expresión verbal que puede utilizarse es: «cualquiera de estas palabras».

Operador AND: intersección lógica

La declaración de The Verde es un ejemplo de AND narrativo: «… covers the intersection of…»

Este operador exige que ambos términos estén presentes en el documento. Se utiliza por tanto para expresar la intersección o el cruce de conceptos, una de las operaciones intelectuales más características de una investigación.

A veces, expresamos esto con mucha claridad cuando decimos, cosas como, por ejemplo, «para esta investigación estoy interesado en la intersección entre arte y tecnología». En esta frase, estamos diciendo que nos interesa el arte, pero siempre que tenga relación con la tecnología, o nos interesa la tecnología, pero solo si tiene relación con el arte.

También debemos tener presente para este operador que la partícula gramatical equivalente, «y» en lenguaje natural puede usarse de modo intercambiable con una «o».

Por ejemplo, en «necesito información sobre China y Estados Unidos», el uso de la conjunción «y» no resuelve la ambivalencia. ¿Quiero documentos tanto de China como de Estados Unidos, o quiero estudiar la relación entre China y Estados Unidos? ¿Estamos ante una suma o ante una intersección?. Sin aclaraciones adicionales no podemos saberlo.

En cambio, en el lenguaje booleano, el AND solo puede interpretarse de un modo: como una intersección. Su significado es el más fácil de enunciar, porque es así:

ambos conceptos

Significa que para una ecuación como América AND China ambos términos deben estar presentes. Por tanto, si queremos intersectar el concepto «broadcasting» con el de «journalism», usaremos esta expresión (en pseudo código):

broadcasting AND journalism

En el caso de Scopus:

Uso del operador AND con la búsqueda asistida en Scopus

Si aplicamos esta búsqueda a nuestra fabulosa bases de datos MINI, el resultado sería el documento número 2, porque es el único que tiene ambas palabras clave. Hay otros documentos en la base de datos MINI que tienen la palabra journalism, pero no tienen la palabra broadcasting, así que en el caso de un AND, no son relevantes.

Ya hemos dicho que en muchas frases en idioma natural usamos una «y» con valor de OR (no con valor de AND). Vemos este ejemplo: «necesito información sobre ayudas y becas para producciones de cine y televisión».

Es evidente que, siendo esta frase completamente correcta en lenguaje natural, en cambio, en lenguaje booleano no podríamos traducir cada «y» por un AND. En este caso las dos «y» son, en realidad, sendos «OR» (ver Anexo 2).

Naturalmente, podemos utilizar más de dos palabras clave con el operador AND, como en video AND web AND «virtual reality». El equivalente verbal, entonces podría ser «todas estas palabras».

Operador NOT: resta lógica

Posiblemente, es el más intuitivo de los tres, aunque también puede arrojar confusiones. Por si acaso, asegurémonos de entender su significado. Sirve para retirar resultados de un conjunto previo, aquellos que tienen el término con el operador NOT delante.

Normalmente, tiene la misión de reducir el número total de resultados obtenidos si experimentamos, por ejemplo, un gran número de resultados (no relevantes) que arroja ruido a la búsqueda. Se suele enunciar así:

el primero, pero no con el segundo

Por ejemplo, si por alguna razón quiero encontrar artículos que traten de periodismo pero no de televisión, podríamos utilizar la ecuación, en pseudocódigo, siguiente:

journalism NOT broadcasting

En nuestra base de datos MINI, cumplen la condición el 1, 3 y 5. No sería válido el número 2, porque aunque tiene la plabra clave journalism, tiene también la palabra broadcasting, de modo que no puede formar parte del resultado.

En Scopus, en el formulario, esta búsqueda sería así:

NOT, o resta lógica en el formulario de Scopus

Lo que debemos tener en cuenta aquí es que el NOT realiza su operación con la misma delicadeza de quien se dedica a repartir hachazos. Al perder algunos artículos con la palabra journalism, ya que también tienen broadcasting, nunca estaremos seguros de qué hemos perdido. Para su uso deben extremarse las precauciones o limitarlos a casos muy seguros.

Representación con diagramas

Fuente: School Onalaska

El diagrama anterior, basado en teoría de conjuntos, ofrece una representación gráfica de los tres operadores en la que podemos ver de modo gráfico las diferencias que resultan de utilizar cada operador con las mismas palabras clave, representadas aquí mediante conjuntos.

Cada conjunto representa documentos que tienen o bien la palabra clave puppy, o bien la palabra clave kitten, o ambas. En el caso del AND, solamente quedan seleccionados los documentos que tienen las dos palabras clave.

En el caso del OR, quedan seleccionados todos los documentos, los que tienen una de ellas, los que tienen la otra, y los que tienen ambas. En el caso del NOT quedan seleccionados los que tienen la primera palabra clave, menos los que también tienen la segunda.

Representación con formulaciones verbales

Búsqueda avanzada de Google. Vemos que las operaciones de suma e intersección lógicas se indican con expresiones verbales

Reunimos también en esta tabla la forma verbal de expresar los operadores, que nunca será tan precisa como la representación con diagramas, pero puede ayudar. En la siguiente tabla recogemos las que utiliza Google en su formulario de búsqueda avanzada.

Operador Expresión
verbal 
ANDtodas estas palabras
ORcualquiera de estas palabras
NOTninguna de estas palabras

En la captura de pantalla de Google podemos ver una cuarta opción: «esta palabra o frase exactas» que nosotros trataremos en la próxima entrega de esta serie, junto con otros operadores, como los de proximidad.

Conclusiones

Hemos visto cuál es la función de las ecuaciones de búsqueda, así como hemos examinado sus componentes principales, los operadores booleanos, y hemos examinado cuál es la lógica de cada uno de los tres operadores más utilizados en bases de datos académicas.

Si comprendemos bien su significado estamos en condiciones de convertir nuestras necesidades de información en ecuaciones de búsqueda bien formadas, ya sea mediante el uso de la búsqueda asistida (formularios) o con sintaxis directa.

Además, con el recurso al pseudocódigo, podemos representar ecuaciones de búsqueda en nuestra planificación, para después aplicarlas de manera adecuada en cada bases de datos. También podemos documentar así los pasos dados para nuestra revisión sistemática, etc.

En la próxima entrega revisaremos el resto de operadores, y en una tercera plantearemos el uso conjunto (the big picture) con ejemplos prácticos y con las utilidades de Scopus y Web of Siences.


Anexo 1 – XOR

Existe un cuarto operador que ha sido desterrado de la mayor parte de las bases de datos documentales, incluyendo las académicas, pero que no nos resistimos a explicar.

Utilizar XOR con dos términos, digamos, A y B, en la forma A XOR B,  tiene el siguiente significado: selecciona documentos indizados con uno de ellos, ya sea A o B, y rechaza los que están indizados con ambos. Se suele enunciar así: «o bien uno, o bien otro, pero no ambos».

Por tanto, en una ecuación como journalism XOR broadcasting los documentos válidos serían 1, 3, 4, 5, 6. O sea, todos menos el 2, ya que en éste aparecen ambos términos.

Seguramente, mientras que en el diseño de circuitos electrónicos, por mencionar otro contexto, tiene alguna función, parece que en recuperación de información no es así, razón por la cual suponemos que ha ido desapareciendo de las bases de datos documentales.

Anexo – 2 La solución a la necesidad de información sobre becas y ayudas

La solución a la expresión: «necesito información sobre ayudas y becas para producciones de cine y televisión» es la siguiente (en pseudo código):

(ayudas OR becas) AND (cine OR televisión)

Con este ejemplo de solución, nos hemos avanzando en el uso de paréntesis, que explicaremos junto con otros operadores en la próxima entrega de esta serie.

Anexo -3 ¿Porqué decimos que son ecuaciones de búsqueda?

Todos sabemos que en una ecuación hay dos partes unidas por el símbolo de la igualdad, como en la famosa a2 + b2 = c2, o en la (aún) más famosa e = mc2.

¿Dónde está la segunda parte de la igualdad en una ecuación como journalism AND broadcasting? Para entenderlo, podemos representar así la forma general de una ecuación de búsqueda mínima en la que intervienen solo dos términos y un operador:

t1 OP t2 = {D}

Aquí, t1 y t2 representan palabras tales como journalism, broadcasting; OP es uno de los tres operadores booleanos, y {D} representa el conjunto de los documentos que satisfacen la ecuación, es decir, el conjunto de los documentos que cumplen la operación lógica que corresponda al operador OP.

En el caso de journalism AND broadcasting, como se trata de una intersección, los documentos del conjunto D serán los que tengan ambas palabras; en cambio, en el caso de journalism OR broadcasting, el conjunto D será la suma, etc.

Recordemos aquí que existe el conjunto vacío, de manera que a veces el conjunto D no tendrá elementos, situación que corresponde a cuando la base de datos nos dice que hemos obtenido cero documentos en nuestra búsqueda.

Anexo 4 – El concepto de validez en las ecuaciones con pseudocódigo

Una ventaja del pseudocódigo es que resulta independiente de la lengua de trabajo de la base de datos. Por ejemplo, podemos planificar todas nuestras ecuaciones en inglés (o en castellano) para luego traducirlas a cada base de datos concreta si usamos bases de datos en más de una lengua.

Además, en pseudocódigo la única regla de validez es que las ecuaciones estén bien formadas desde el punto de vista lógico, esto es, que en cada caso estemos utilizando el operador que corresponda para combinar las palabras clave. De este modo, cuando planificamos la búsqueda nos podemos centrar en este aspecto estratégico. Luego, una vez estemos trabajando en las bases de datos concretas, haremos los cambios tácticos necesarios con el fin de conseguir el máximo rendimiento.


Referencia – Guías oficiales de búsqueda


Las otras entregas de esta serie sobre ecuaciones de búsqueda: