
Una parte de las revisiones de la literatura de tipo sistemático, como las scoping review y otras, presentan como punto débil una fase de búsqueda mal documentada y en ocasiones directamente mal resuelta, como reportan en su estudio al respecto De Kock et al. (2021).
En este déficit suelen tener un protagonismo especial unas ecuaciones de búsqueda mal diseñadas. El problema puede variar en gravedad, e ir desde ecuaciones de búsqueda mejorables hasta errores groseros en el uso de operadores. Estos déficits amenazan la validez de todo el estudio porque la base de la evidencia la obtenemos a partir de la fase de búsqueda.
Mientras algunos problemas son fáciles de resolver, como informar qué base de datos fueron utilizadas o en qué fechas, etc., los que se refieren a las ecuaciones de búsqueda pueden resultar mucho más difíciles de afrontar de manera adecuada, desde el momento en el que intervienen los operadores booleanos.
En esta entrada nos proponemos explicar qué son las ecuaciones de búsqueda basadas en operadores booleanos y cuáles son sus condiciones de validez a la hora de diseñar una revisión sistemática o una scoping review.
Veremos que estas condiciones son dos: por un lado necesitamos una validez relacional, la que conecta la ecuación de búsqueda con los temas de la investigación. Por otro lado, la validez lógica que implica un uso adecuado de los operadores booleanos.
¿Qué son las ecuaciones de búsqueda?
Una ecuación de búsqueda es una combinación de palabras clave y operadores que se utiliza en una base de datos para recuperar documentos susceptibles de resolver una necesidad de información.
Las palabras clave expresan conceptos, y los operadores son los que proporciona la lógica booleana, dado que es la parte de la lógica que permite combinar conceptos de una forma precisa, y en todo caso, son los que una máquina (una base de datos) puede entender.
El término ecuación sugiere algo que está formado por dos partes. En la primera, tenemos las palabras clave y lo operadores que ya hemos mencionado, y en la segunda los documentos relevantes que se suponen van a poder solucionar nuestra necesidad de información. Lo formalizamos un poco en el siguiente punto.
Ecuaciones de búsqueda booleanas simples
En forma esquemática una ecuación de búsqueda básica tiene al menos dos palabras clave, {PC1}, y {PC2}, que representan sendos conjuntos (el de los documentos que tienen esas palabras clave) y al menos un operador, OP, que sirve para combinar tales conjuntos de una forma determinada.
El resultado es un tercer conjunto, el de los documentos relevantes, {CDR}. Según qué operador se utilice, este tercer conjunto puede contener documentos muy distintos y puede tener dimensiones que varían en varios órdenes de magnitud.
Formato
Una ecuación de búsqueda básica se puede representar así:
- {PC1} OP {PC2} = {CDR}
En la forma anterior, PC1 y PC2 son dos palabras clave cualesquiera que expresan los dos temas principales de una investigación, y OP puede ser cualesquiera de estos tres operadores: AND, OR, NOT (hay al menos un cuarto, XOR, que se utiliza raramente, no obstante, más adelante lo explicaremos).
Por ejemplo, PC1 podría ser la palabra clave «artificial intelligence» y PC2 podría ser la palabra clave «journalism». Si el objetivo de la investigación es explorar la intersección entre los conceptos que representan ambas palabras clave, OP necesariamente tiene que ser el operador AND. Entonces la ecuación de búsqueda quedaría así:
- «artificial intelligence» AND journalism
Semántica y errores
La semántica de la ecuación precedente, expresada en lenguaje natural sería algo como esto:
- «[necesito] documentos que traten la relación entre inteligencia artificial y periodismo».
Obsérvese que en la frase anterior, la «y» gramatical se corresponde bien con el AND booleano. Pero mucha atención porque la «y» gramatical NO siempre corresponde con el AND booleano, y este es uno de los problemas de las ecuaciones de búsqueda.
Ciertamente, en el lenguaje natural solemos usar las expresiones «y», «o», de manera que coinciden con AND, OR. Pero no siempre, porque en el lenguaje natural el significado depende del contexto. En la lógica booleana, no sucede tal cosa. Por ejemplo, un hablante puede decir algo como lo que sigue:
- «[necesito] documentos sobre inteligencia artificial y redes neuronales en el periodismo y en las empresas de noticias»
En la frase anterior hay dos «y» que en este caso NO se corresponden con la semántica del AND booleano. En realidad, estas «y» gramaticales deberían ser sendos OR si se pasan a una ecuación booleana. Por eso es muy importante entender qué significa de manera estricta cada uno de los operadores y no podemos dejarnos llevar por la intuición.
Por si tiene curiosidad, la frase anterior (con palabras clave en inglés) consistiría exactamente en esta ecuación:
- («artificial intelligence» OR «neural networks») AND (journalism OR «news outlets»)
Palabras clave = conjuntos
Esta idea es importante. Para entender el uso de las ecuaciones de búsqueda en bases de datos, hemos de entender que las palabras clave representan conjuntos. ¿Conjuntos de qué? Exactamente, cada palabra clave representa el conjunto de los documentos que incluye esa palabra clave como parte de su contenido, p.e, como parte del título (o del resumen, etc.)
Por tanto, la palabra clave «journalism» indica el conjunto de todos los documentos de la base de datos que contienen la palabra clave «journalism». De este modo, las ecuaciones de búsqueda las resuelve la base de datos mediante operaciones de lógica de conjuntos, de aquí que los operadores booleanos AND, OR, NOT, se pueden representar mediante diagramas de Venn como vemos en la siguiente ilustración:
Si nos acostumbramos a pensar en conjuntos nos será más fácil entender toda la lógica que hay detrás de las ecuaciones de búsqueda y sus operadores respectivos. Además, con un poco de suerte es posible que nos acordemos de lo que aprendimos en la escuela sobre teoría de conjuntos.
Ecuaciones de búsqueda mediante formulario
Una vez ejecutada en una base de datos, el lado derecho de la ecuación queda automáticamente presentado mediante la lista de los documentos recuperados. La siguiente captura de una búsqueda con la base de datos Scopus lo ilustra:

Como vemos por la captura, la ecuación de búsqueda anterior queda resuelta con un conjunto formado por 100 documentos. Este conjunto es el resultado de la intersección lógica, AND, de dos conjuntos, cada uno de ellos representado en las dos filas superiores de palabras clave. El conjunto resultante es la lista detallada que se ve muestra parcialmente en la siguiente captura de pantalla:

Ecuaciones de búsqueda booleanas complejas · Formato
En una ecuación de búsqueda podemos tener más de dos palabras y más de un operador, como en el siguiente esquema (obviamos a partir de ahora el símbolo de los conjuntos, {…}, para simplificar la representación):
- (PC1 OP PC2) OP (PC3 OP PC4)
Con ejemplos concretos, podría ser esta ecuación:
- («artificial intelligence» OR «neural networks») AND (journalism OR «news outlets»)
Mostrado en el formulario de búsqueda de Scopus quedaría así:

Ahora podemos ver que al añadir sinónimos (documentales), hemos ampliado teóricamente la base de la evidencia, al pasar de 100 a 103 documentos. Queda claro que en la primera ecuación ya habíamos captado las palabras clave que señalan la corriente principal. Pero nunca podemos estar seguros, y por eso es necesario convertir los conceptos en grupos de sinónimos, como estamos haciendo en estos ejemplos.
La cuestión es que eemos ido avanzado diferentes aspectos de los operadores booleanos y su rol en las ecuaciones de búsqueda pero corresponde ahora examinarlos con cierto detalle,
Los operadores booleanos: ¿cuáles son y qué significan?
Lo primero a señalar es que los operadores booleanos deben su nombre al matemático y lógico del siglo XIX que los inventó, George Boole. Lo que Boole pretendía era desarrollar unos operadores lógicos que permitiera operar con ideas de forma similar a la que operamos con números gracias a los operadores aritméticos. Los tres operadores booleanos más utilizados y su significado es el que sigue:
Operador | Significado en la búsqueda en bases de datos |
AND | Todos los términos relacionados mediante este operador deben estar presentes en el documento. Corresponde a la intersección lógica en la teoría de conjuntos. Por ejemplo <«artificial intelligence» AND journalism> crea el conjunto de los documentos que tienen a la vez ambos términos. La frase nemotécnica justamente es «ambos«, es decir: «ambos términos deben estar presentes». |
OR | Es suficiente con que uno solo de los términos relacionados mediante este operador esté presente en el documento para que forme parte del conjunto resultante. También será válido si tiene todos los términos. Por ejemplo, en <«artificial intelligence OR «neural networks»> un documento que tenga solamente uno de los términos, cualquiera de ellos, formará parte del conjunto, pero también será un miembro válido del conjunto un documento que tenga ambos. La frase nemotécnica es: «uno u otro o ambos«, es decir: «uno u otro de los términos debe estar presentes, o ambos términos pueden estar presentes» |
NOT | Retira de la lista de resultados los documentos que tengan la palabra clave precedida por NOT. Por ejemplo, en <journalism NOT sport>, para que un documento forme parte del conjunto resultante debe tener la palabra clave journalism, pero no debe tener la palabra clave sport. Como se puede ver, en realidad, NOT es un operador combinado, y por eso en algunas bases de datos se representa como <AND NOT>. La frase nemotécnica es «el primer término, pero no el segundo». |
En lo que sigue, nos centraremos en los dos primeros operadores, AND, OR, que son los que ofrecen problemas de interpretación, mientras que el NOT se ajusta al mismo significado que le damos a la partícula «no» en el lenguaje natural, con lo que no hay peligro de confusiones. Ahora bien, para poder explicarlos, necesitamos considerar cuál es la estructura completa de una búsqueda avanzada.
Estructura lógica de una ecuación de búsqueda avanzada
Vamos a explicar cuál es la estructura lógica de una ecuación de búsqueda compleja aunque seguramente el lector más atento ya la habrá detectado. Pero no queremos dejar dudas en este caso y por eso abrimos una pequeña sección específica al respecto.
Para entender este formato, vamos a considerar que tenemos, por un lado, conceptos, y por otro, sinónimos con los que podemos expresar tales conceptos. Entonces, la idea básica es tan simple como lo que sigue:
- Sinónimos: los relacionamos mediante OR, y más concretamente los sumamos mediante este operador.
- Conceptos: los relacionamos mediante AND, y más concretamente los intersectamos mediante este operador.
Ejemplo. Sea el caso de los conceptos siguientes:
- Artificial intelligence > Concepto 1
- Journalism > Concepto 2
Para cada concepto derivamos un anillo de sinónimos, tal como se muestra en la siguiente tabla:
Concepto | Anillo de sinónimos |
1 | «artificial intelligence», «neural networks», «machine learning» |
2 | journalism, «news outlets», newspapers |
Entonces, para crear la ecuación de búsqueda sabemos ahora que los sinónimos los tenemos que sumar con sendos OR, y los conceptos los tenemos que intersectar con un AND, de este modo:
Concepto | Anillos de sinónimos |
1 | «artificial intelligence» OR «neural networks» OR «machine learning» |
AND | |
2 | journalism OR «news outlets» OR newspapers |
Lo anterior, en forma de ecuación linealizada quedaría así:
(«artificial intelligence» OR «neural networks» OR «machine learning»)
AND
(journalism OR «news outlets» OR newspapers)
Entonces ya tenemos la regla general:
- Cada concepto puede tener uno o varios sinónimos, y estos se SUMAN entre ellos mediante OR en una misma fila.
- Las diferentes filas o ristras se INTERSECTAN mediante AND.
¿Qué son los sinónimos de búsqueda?
Cabe señalar que usamos el término sinónimos no necesariamente con el mismo sentido de la gramática. Los sinónimos en las ecuaciones son sinónimos de búsqueda, o sinónimos documentales. Esto significa que consideremos sinónimos no solamente los de tipo gramatical, sino también los términos que tienen la capacidad de identificar la misma clase de contenidos a efectos de nuestra investigación.
Por ejemplo, «journalism» y «news outlets» no son sinónimos gramaticales. Tampoco «artificial intelligence» y «neural networks». Cada una de esos pares de palabras sirve para significar cosas diferentes. Pero es casi seguro que, en una investigación sobre inteligencia artificial aplicada al periodismo, nos interesan por igual trabajos que traten sobre la IA aplicada al periodismo (journalism), o a las empresas periodísticas (news outlets).
Una vez aclarado esto, véase ahora la ecuación de nuevo en el caso del formulario de búsqueda con Scopus:

¿Una ecuación o varias?
En todo lo anterior, hemos dado por supuesto que una sola ecuación puede ser suficiente. Esto puede ser así en algunas revisiones. Casi siempre, eso sí, bajo la forma de una ecuación compuesta por varios sinónimos, como hemos visto en los últimos ejemplos.
Otras posibilidades consisten en usar varias ecuaciones simples y luego combinar los conjuntos resultantes gracias a la función Historia de Búsqueda de bases de datos como Scopus o Web of Science.
Por ejemplo, primero podríamos buscar todos los documentos que responden al concepto de periodismo, con todos sus sinónimos, la ecuación entonces sería esta:
- journalism OR «news outlets» OR newspapers
Estos nos daría el conjunto #1. Después, podríamos buscar todos los documentos que que responden al concepto de inteligencia artificial, con esta ecuación:
- «artificial intelligence» OR «neural networks» OR «machine learning»
Esta nueva búsqueda nos daría el conjunto #2. A partir de aquí, podríamos hacer la ecuación siguiente:
- #1 AND #2
Esta, a su vez, nos daría el conjunto #3, que tendría los mismos 103 documentos que hemos visto antes. La única diferencia es que hemos resuelto por pasos sucesivos en lugar de una sola vez. En ocasiones, a los investigadores les resulta más intuitivo seguir esta vía sistemática, incluso les puede llegar a proporcionar más ideas.
Los interesados en esta modalidad de uso de los operadores booleanos pueden consultar esta entrada:
Más allá de los operadores booleanos: otros aspectos importantes en la búsqueda avanzada
Nos queda al menos considerar estas cuestiones importantes:
- Las palabras clave compuestas se deben marcar mediante comillas, como en «artificial intelligence».
- Los anillos de sinónimos se deben rodear con paréntesis, como en («artificial intelligence» OR «neural networks» OR «machine learning»).
- En bases de datos internacionales, como en Scopus o WoS, las palabras clave se deben escribir en inglés, mientras que los documentos así recuperados pueden estar escritos en cualquier idioma. En cambio, en DialnetPlus, usaremos el castellano.
- Hay otros operadores, además de los booleanos, particularmente los de proximidad, que sirven para añadir condiciones extra al operador AND o los de truncamiento que nos permiten buscar por raíces de palabras.
- Además, están parámetros como los campos, que nos permiten limitar la búsqueda a los documentos en los que la palabra clave aparezca en una zona del documento, como en el título, etc.
Los interesados en profundizar en estas cuestiones pueden encontrar información útil aquí:
Validez de una ecuación de búsqueda: doble consistencia
Con todo lo anterior ya podemos determinar las condiciones de validez de una ecuación de búsqueda, que debe responder a una doble exigencia como vamos a explicar en lo que sigue.

- Validez relacional. Esto implica consistencia con los temas de la investigación. Ningún concepto debe quedar fuera, pero ningún concepto ajeno debe formar parte, porque dada la lógica booleana nos haría perder información. El conjunto de conceptos y palabras clave deben representar de forma fiel el tema y alcance de la investigación. En concreto, si el tema de la investigación es la aplicación de la (1) inteligencia artificial al (2) periodismo, estos dos conceptos deben estar representados en la ecuación. No uno u otro, sino ambos. Pero ningún otro. No podemos añadir, p.e., la publicidad si no hemos declarado esto como parte de nuestro tema. Además, hemos de saber que esos conceptos se pueden expresar con diferentes palabras, de modo que hemos de identificar al menos los tres o quatro sinónimos de búsqueda (tal vez más) que representan la corriente principal de cada tema. Hay siempre una larga cola de términos, de modo que no podemos estar obligados a conocerlos todos, pero sí, como decimos, al menos los tres o cuatro (incluso más) que sean los más importantes.
- Validez lógica. Esto implica consistencia con el uso de los operadores booleanos. Los operadores deben ser los adecuados en cada caso. Los sinónimos deben unirse mediante OR, y los conceptos diferentes deben intersectarse mediante AND. Cualquier otro uso distinto como en *<«artificial intelligence» AND «neural networks» AND journalism AND «news outlets> determinará una ecuación completamente inválida porque tendremos una base de la evidencia incompleta.
Por tanto, la consistencia de la ecuación de búsqueda con los temas de la investigación no es suficiente, debe darse a la vez una consistencia con el uso de los operadores booleanos a la hora de combinar las palabras clave.
Bonus 1: operador XOR
El operador XOR sirve para ejecutar la relación lógica que expresa esta frase: «uno u otro, pero no ambos». Es decir, en la siguiente ecuación: <Madrid XOR Barcelona>, los documentos relevantes sería aquellos que o bien tienen la palabra Madrid o bien tienen la palabra Barcelona, pero no ambas. Podría servir para estudiar medios de comunicación que tienen sede o bien en una ciudad o bien en otra, pero no en ambas. Debemos decir que nosotros nunca hemos necesitado este operador, así que el ejemplo anterior es una pura improvisación.
Bonus 2: PRISMA fo Searching
El fabuloso equipo de investigadores que producen los famosos frameworks PRISMA, ha generado en su momento PRISMA for Searching. Se trata de una sofisticada lista de chequeo que permite verificar la calidad global de la fase de búsqueda en una revisión sistemática.
Para quién esté interesado en ir más allá de la validez de la ecuación de búsqueda, los puntos de chequeo de PRISMA son un recurso especialmente recomendable. Algunos enlaces útiles al respecto:
- Sitio oficial PRISMA for Searching
- Análisis detallado de los ítems de verificación de PRISMA for Searching
Conclusiones
La ecuación de búsqueda debe satisfacer un doble criterio de validez, según hemos visto: el de la relación con la investigación y el de uso consistente con los operadores booleanos. Sin esta doble validez, la base de la evidencia puede tener fallos importantes, hasta al punto de invalidar toda la investigación.,
El consejo es que el diseño de la ecuación de búsqueda sea consensuado por los miembros del equipo de trabajo. También puede ser sometido a peer review en caso de duda o a partir de una cierta complejidad de la búsqueda. Esta evaluación por pares puede hacerse bajo la forma de solicitar al menos a un colega de confianza que sepamos que es experto que verifique la validez de la ecuación. Por supuesto, en el caso de equipos de investigación que trabajen en una universidad, siempre pueden solicitar la ayuda a profesionales de su biblioteca universitaria.
Lo importante es que, o bien porque en el equipo de investigación haya personas expertas en búsquedas avanzadas o bien porque se haya sometido a revisión (o ambas cosas), las ecuaciones de búsqueda en las revisiones sistemáticas deben estar plenamente garantizadas. Lo contrario, insistimos una vez más, puede invalidar toda la investigación.
Referencias
- Codina, Lluís; Lopezosa, Carlos; Freixa, Pere (2021). «Scoping reviews en trabajos académicos en comunicación: frameworks y fuentes». En: Larrondo Ureta A, Meso Ayerdi K, Peña Fernández S, editores. Información y Big Data en el sistema híbrido de medios – XIII Congreso Internacional de Ciberperiodismo; 15-17 nov 2021; País Vasco. [Leioa]: Universidad del País Vasco; 2021. p. 67-85. http://hdl.handle.net/10230/53155
- De Kock, S., et al. (2021). «Systematic review search methods evaluated using the Preferred Reporting of Items for Systematic Reviews and Meta-Analyses and the Risk Of Bias In Systematic reviews tool». International Journal of Technology Assessment in Health Care, 37(1), E18.
https://doi,org/10.1017/S0266462320002135 - PRISMA Group (2021) PRISMA for Searching
http://www.prisma-statement.org/Extensions/Searching - Rethlefsen, Melissa L. et al. (2021) «PRISMA-S: an extension to the PRISMA Statement for Reporting Literature Searches in Systematic Reviews». Systematic Reviews 10, n39
https://doi.org/10.1186/s13643-020-01542-z
Para saber más
- Cómo diseñar las búsquedas con PRISMA for Searching
- Scoping reviews en trabajos académicos en comunicación: frameworks y fuentes
- Estructura y funciones de las bases de datos académicas
- Cómo utilizar la historia de búsqueda en bases de datos académicas
- Ecuaciones de búsqueda: qué son y cómo se utilizan en bases de datos académicas
- Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo