Bases de datos académicas de acceso abierto: guía, caracterización y análisis comparativo

The Lens es un ejemplo de bases de datos académicas
Fuente: The Lens

Las bases de datos académicas de acceso abierto permiten un uso sin barreras. Ni siquiera necesitan de alguna forma de membresía (aunque esta siempre aporta ventajas cuando está disponible).

Vamos a presentar un grupo seleccionado de bases de datos académicas que se han ido abriendo paso en los últimos años en lo que comienza a ser un mercado bastante concurrido. Esto al menos comparado con el panorama tradicional, en el que durante décadas reinó en exclusiva Web of Science (bajo el nombre ISI), a la que después se unió Scopus para pasar a formar un duopolio de facto durante varios años.

La cuestión es que, en contraste con un contexto de ciencia abierta, estas dos bases de datos académicas, que son las más importantes del mundo, son recursos que están situados detrás de un muro de pago. Nótese que en esta entrada no estamos abogando para que estos sistemas pasen (o no) a ser abiertos. Ponemos una constatación sobre la mesa.

Por suerte, el ecosistema académico no deja de enriquecerse (y complicarse). En esta ocasión vamos a presentar un pequeño conjunto de bases de datos académicas que, además de ser de acceso abierto, pueden actuar como alternativas por un lado, de los dos sistemas ya mencionados y, por otro, del buscador académico por excelencia, Google Scholar (del que el lector interesado, no obstante puede encontrar información en esta entrada).

Organización de la guía de bases de datos académicas abiertas

Para presentar esta guía, usaremos: (1 ) una captura significativa de la interfaz centrada en la página de resultados; (2) los datos de identificación de cada sistema; (3) los datos estadísticos básicos disponibles en cada sistema y (4) los resultados de un test simple de resultados consistente en presentar el número de resultados para una misma consulta. El test consistió en usar como palabra clave «immersive journalism» en todas las bases de datos usando la búsqueda simple sin aplicar ningún parámetro (en algunas de las bases de datos, otras opciones no son posibles).

Utilidad teórica para revisiones de la literatura

Además, (5) añadiremos una apreciación de su utilidad teórica para soportar revisiones de la literatura de tipo sistematizado. Para ello, es necesario que el sistema disponga de (1) búsqueda avanzada y (2) de un sistema de filtros y ordenaciones en la página de resultados. Usaremos la escala simple habitual en análisis heurísticos, que va de 0 a 3 puntos (indicados mediante estrellas), donde:

  • 0 implica que la función que se analiza no está implementada.
  • 1 indica que hay alguna forma de implementación pero con carencias fundamentales.
  • 2 presenta algunas de las funciones pero no todas, por lo que necesita mejorarse.
  • 3 presenta las funciones principales de manera adecuada.
    (Al lado de cada puntuación presentaremos una breve argumentación).

Otras funcionalidades e innovaciones

Para apreciar otras funciones, (6) añadiremos otra apreciación sobre sus otras funcionalidades o sobre aportaciones innovadoras en otros aspectos, p.e, en el diseño de la página de resultados, los análisis presentados o la forma de presentar los documentos individuales u otras funciones específicas propias que sean destacables. Usaremos en este caso una escala Baja/Media/Alta/Muy Alta, así como añadiremos siempre un comentario al respecto. Por último, en una zona de notas añadiremos notas o comentarios específicos para cada caso.

Nota: el orden en el que se presentan las bases de datos no es significativo.

GUÍA
BASES DE DATOS ACADÉMICAS DE ACCESO ABIERTO


1 · Semantic Scholar

Semantic Scholar es una de las bases de datos académica
Fuente: Semantic Scholar
Denominación Semantic Scolar
OrganismoAllen Institute for AI (institución sin ánimo de lucro)
Datos
básicos
205 millones de documentos
Test235 resultados
Búsqueda
avanzada
Calificación: *
No presenta un sistema de búsqueda avanzada, pero las página de resultados proporciona funciones de filtro y ordenación.
Funcionalidad
o innovación
Calificación: Alta
Destaca en la forma de analizar los documentos individuales, así como la forma de presentar la página de resultados, con datos útiles, así como por las funciones de filtrado. También están elaborando un sistema semántico que facilita la lectura de artículos.
NotasEs un sistema en desarrollo continuado, y probablemente su sistema de lectura semántica aporte importantes novedades. El número de documentos es más que notable, denotando una preocupación por ofrecer una alta cobertura de la producción científica internacional.

2 · ScienceOpen

ScienceOpen es un ejemplo de bases de datos académicas
Fuente: ScienceOpen
Denominación ScienceOpen
OrganismoScience Open (empresa de servicios editoriales)
Datos
básicos
79 millones de documentos
Test59 resultados
Búsqueda
avanzada
Calificación: **
Permite el uso de operadores booleanos. No es posible utilizar operadores de parametrización (buscar por campos, p.e.). No hay un formulario de búsqueda avanzada.
Funcionalidad
o innovación
Calificación: Media
Presenta una página de resultados con numerosas funcionalidades y amplias opciones de análisis. Ofrece una plataforma para que los autores den a conocer su perfil.
NotasSe trata del producto abierto de una empresa de servicios editoriales.

3 · The Lens

The Lens es un ejemplo de bases de datos académicas
Fuente: The Lens
Denominación The Lens
OrganismoCambia (instituto sin ánimo de lucro)
Datos
básicos
247 millones de artículos académicos; 142 millones de patentes
Test204 resultados
Búsqueda
avanzada
Calificación: ***
Proporciona las funciones básicas más importantes de una búsqueda avanzada, incluyendo el uso de operadores y de formularios asistidos.
Funcionalidad
o innovación
Calificación: Muy Alta
Es un sistema a la vez enormemente innovador en el tratamiento de la información y los análisis e intersecciones de datos que ofrece, y sumamente completo a nivel funcional. El diagrama que hemos utilizado en la cabecera de este artículo es una ilustración de las intersecciones de datos que proporciona este sistema.
NotasA juzgar por su amplio alcance, las nuevas funcionalidades, la inclusión de otros documentos científicos, como las patentes, y el cruce de datos que hace con estas y los artículos, parece con diferencia el sistema más ambicioso de todos los que se reseñan aquí. Destaca en casi todos los aspectos, tanto de diseño como de funcionalidades.

4 · Dimensions

Dimensions
Fuente: Dimensions
Denominación Dimensions
OrganismoDigital Science & Research Solutions (empresa)
Datos
básicos
130 millones de documentos, 12 millones de datasets y 147 millones de patentes
Test136 resultados
Búsqueda
avanzada
Calificación: *
No aporta ningún elemento o componente significativo de búsqueda avanzada, pero la página de resultados ofrece un conjunto notable de análisis.
Funcionalidad
o innovación
Calificación: Alta
La página de resultados proporciona un conjunto muy notable de vistas analíticas.
NotasLlama la atención en un producto de esta calidad general el pobre sistema de búsqueda.

5 · Base

Base
Fuente: Base
Denominación Base (Bielefeld Academic Search Engine)
OrganismoUniversidad de Bielefeld
Datos
básicos
310 millones de documentos
Test282 resultados
Búsqueda
avanzada
Calificación: ***
Presenta soporte completo para el uso de operadores booleanos mediante sintaxis directa. Aporta también un formulario de búsqueda parametrizado, así como opciones de ordenación en la página de resultados.
Funcionalidad
o innovación
Calificación: Media
El esfuerzo innovador principal que este sistema exhibe es en la capacidad de recolección de datos y su agregación para permitir su búsqueda y explotación de un forma integrada.
NotasSistema más que notable por el alcance de su base de datos, con más de 310 millones de documentos, y un completo sistema de búsqueda.

6 · DOAJ

DOAJ
Denominación DOAJ
OrganismoDOAJ es un organización independiente sin ánimo de lucro
Datos
básicos
8 millones de documentos
Test12 resultados
Búsqueda
avanzada
Calificación: ***
Proporciona soporte completo al uso de operadores booleanos y proporciona un formulario de búsqueda parametrizada, así como opciones de filtro y ordenación en la página de resultados.
Funcionalidad
o innovación
Calificación: Baja
Este sistema centra sus esfuerzos en evaluar y categorizar revistas open access. Es uno de los directorios de revistas que actúa como lista blanca de revistas open access legítimas (no depredadoras). La búsqueda de artículos es un elemento adicional que enrique el sistema.
NotasDOAJ apareció con la misión de clarificar el panorama de las revistas open access, proporcionar fiable sobre las mismas y ayudar a la promoción de la ciencia abierta, y entiendo que sigue siendo su principal misión. No es en realidad comparable con las demás bases de datos si miramos los datos numéricos debido al motivo fundacional señalado.

Resumen

Base de
datos
N. Docs
(mill.)
Búsq.
Avan
.
Innov.
Semantic
Scholar
295*Alta
Science
Open
79**Media
The Lens247***Muy
Alta
Dimensions130*Alta
Base310***Media
DOAJ8***Baja
Nota: mill = millones

Bonus: Google Scholar y autores sobre el tema

Había pensado en dejar a Google Scholar fuera de esta revisión porque es un recurso sumamente conocido por muy buenas razones. Por cierto, el lector interesado tiene un análisis en profundidad en una entrada dedicada a la creación de alertas con Google Scholar.

Pero creo que no está de más llevar a cabo al menos el test de la búsqueda con la palabra clave «immersive journalism». El resultado lo tenemos en la captura siguiente y es muy significativo: 1.870 resultados.

Fuente: Google Scholar

Cabe señalar que Google Scholar abarca una mayor variedad de fuentes que todos los sistemas considerados, ya que no se limita a publicaciones académicas en sentido estricto (artículos, capítulos de libro, patentes, etc.), sino que puede incluir informes o literatura gris, ya que no se limita a editoriales científicas, sino también repositorios, entre otros. Esto puede explicar la enorme cantidad de resultados, que habría que ver hasta qué punto son todos relevantes. Una exploración superficial hasta la página 22 (=220 resultados) mostraba que se mantenía la relevancia aparente.

Estimaciones sobre el volumen de documentos de Google Scholar y expertos en el tema

Tampoco está bien delimitada la cantidad de documentos que indexa en total, un dato que según tengo entendido Google nunca ha facilitado. Un estudio del 2018 (Gusenbauer, 2018) daba el resultado de 389 millones de documentos. Han pasado casi seis años desde entonces, por lo que el número solo puede ser mayor (y seguramente, muy mayor).

Lo más interesante es que el estudio del 2018 que hemos mencionado de Gusenbauer cita hasta cinco trabajos previos sobre el tema que tienen como primer autor al profesor de la Universidad Politécnica de Valencia, Enrique Orduña Malea. De los trabajos de este mismo autor, se hace eco también un artículo del 2014 publicado en Science sobre cómo de grande es Google Scholar.

Como el artículo cita también extensamente a Emilio Delgado Lopéz-Cózar, y ambos son colegas de universidades españolas y muy buenos amigos, me ha alegrado mucho esta circunstancia de la que me encanta dejar constancia aquí.

Alberto Martín-Martín, es otro de los grandes autores que han trabajado sobre el tema, y también aparece ampliamente citado en el trabajo de Gusenbauer.

Al final, he puesto la lista de referencias de estos tres grandes autores sobre el tema que aparecen en el trabajo porque resulta ser una compilación significativa de trabajos previos, aún recientes la mayoría, que sin duda serán útiles para los estudiosos del tema. Por último, he añadido las referencias a tres trabajos recientes de los que soy coautor.

Conclusiones

Por fortuna, el panorama de las bases de datos u otros recursos de información documental similares en el ecosistema académico se está enriqueciendo desde hace años, aunque no sin pasar por períodos en los que hemos tenido pérdidas dolorosas.

Los sistemas de que hemos presentado aquí tienen la característica de ser de acceso abierto, en crudo contraste con las dos grandes bases de datos académicas dominantes, Scopus y Web of Science.

Hemos examinado estas bases de datos con algunas preguntas en mente, tales como cuál es su cobertura en numero de documentos y cuál sería su facilidad funcional para llevar a cabo una revisión de la literatura en lugar de utilizar Scopus o Web of Science. La tabla de resumen y las fichas individuales permiten responder a esas preguntas. Vemos que hay al menos dos, The Lens y Base que combinan una enorme cobertura con funcionalidades completas de búsqueda avanzada. En un hipotético caso podrían servir a los efectos que nos hemos planteado, el de una revisión de la literatura.

¿Sustituyen a Scopus y Web of Science?

Un sistema puede sustituir a otro si subsume todas sus funciones y añade alguna nueva. Entonces, para poder decir alguna cosa sobre la eventualidad de que estos sistemas puedan sustituir a otros, habría que extender los análisis y comparar de manera sistemática las funciones en cada caso. Además, habría que hacer prospecciones sistemáticas sobre los documentos de cada sistema.

Personalmente, no estoy convencido de la viabilidad de esta teórica sustitución, porque tanto Scopus como Web of Science, además de una solidez funcional comparativa mayor, llevan a cabo una serie de funciones y proporcionan un conjunto de análisis que no hemos visto en los sistemas tratados aquí. Aunque es cierto que alguns de ellos, notablemente Dimensions y The Lens ofrecen otras que las bases de datos mencionadas no poseen. Esto, entonces, y al menos por el momento, nos habla más de un panorama de necesaria agregación de nuevos actores al ecosistema que de sustituciones viables.

Pero, al menos lo que si podemos decir es que en el caso de ciudadanos, investigadores o centros que por alguna razón no tengan acceso a costosos sistemas comerciales, aquí tienen recursos abiertos y alternativos de enorme calidad que pueden suplir perfectamente sus necesidades de información, más aún si consideramos a Google Scholar como parte de este ecosistema.

¿Sustituyen a Google Scholar?

Desde el cierre de Microsoft Academic, Google Scholar se ha quedado como representante único de su categoría, de modo que las bases de datos consideradas aquí no sustituyen, en mi siempre discutible opinión, a Google Scholar. Ambos grupos de sistemas se complementan, desde el momento que las bases de datos se centran en publicaciones académicas en sentido estricto, como artículos, comunicaciones y patentes, mientras que Google Scholar es mucho más inclusivo e incorpora informes, materiales académicos no publicados en revistas ni editoriales y literatura gris. Google Scholar, se dice a veces, es la ciencia real, porque incluye toda clase de publicaciones que tienen como fuente, de alguna manera, al mundo académico. Esa es su ventaja específica. Pero no olvidemos que también tiene sentido lo contrario, a saber, fuentes de información, como las examinadas aquí que delimiten muy bien qué incluyen entre sus fondos, de manera que en teoría son documentos con cierto sello de calidad. Así pues, son sistemas que se solapan pero solo en parte, por lo que, hasta donde yo soy capaz de ver, los necesitamos a todos, o dicho de otro modo, en el ecosistema de la comunicación académica, raramente sobra algún actor.

Anexos: els test y las escalas no son científicos

El test que hemos aplicado a las bases de datos con la palabra clave «immersive journalism» nos aporta un dato de primera aproximación, pero carece de validez científica. Para tener validez científica tendría que haber utilizado un conjunto de palabras clave diversas (y no una sola palabra clave).

La escalas y apreciaciones utilizadas no están exentas de riesgo de sesgos por mi parte. Primero son de grano muy grueso, y segundo las he aplicado siguiendo un criterio más fenomenológico que sistemático. No obstante, he intentado aplicar lo mejor de lo que sé sobre estos sistemas, pero no se puede considerar un sistema de valoración científico.

Hay un punto, no obstante, en la escala sobre búsqueda avanzada que deja poco margen a la interpretación: si un sistema no proporciona tal tipo de búsqueda, aquí hay poco espacio para la subjetividad, literalmente, no tiene y punto. Es lo que hay.

A día de hoy sigo sorprendiéndome de que los responsables que participan en el diseño de algunas de estas bases de datos sigan creyendo que basta un cajita para meter palabras clave para tener un sistema de recuperación realmente útil para sus usuarios. Absurdo. Pero, de nuevo, es lo que hay.

Enlaces a las bases de datos

Enlaces relacionados

Referencias

El trabajo que hemos usado para discutir sobre el tamaño de Google Scholar:

  • Gusenbauer, M. (2018). «Google Scholar to overshadow them all? Comparing the size of 12 academic search engines and bibliographic databases». Scientometrics (2019) 118:177–214 https://doi.org/10.1007/s11192-018-2958-5

Trabajos de Martín-Marín, Orduña Malea, López-Cozar et al.

A continuación, las referencias de Orduña Malea, Martín-Martín y López-Cózar, junto con otros, obtenidas del trabajo de Gusenbauer:

  • Martín-Martín, A., Orduña-Malea, E., Ayllón, J. M., & López-Cózar, E. D. (2015). Does Google Scholar contain all highly cited documents (1950–2013)? Granada: EC3 Working Papers (19).
  • Martín-Martín, A., Orduna-Malea, E., & Delgado López-Cózar, E. (2018a). Coverage of highly-cited documents in Google Scholar, Web of Science, and Scopus: A multidisciplinary comparison. Scientometrics, 116, 2175–2188. https://doi.org/10.1007/s11192-018-2820-9.
  • Martín-Martín, A., Orduna-Malea, E., Harzing, A.-W., & Delgado López-Cózar, E. (2017). Can we use Google Scholar to identify highly-cited documents? Journal of Informetrics, 11, 152–163. https://doi.org/10.1016/j.joi.2016.11.008.
  • Martín-Martín, A., Orduna-Malea, E., Thelwall, M., & López-Cózar, E. D. (2018b). Google Scholar, Web of Science, and Scopus: A systematic comparison of citations in 252 subject categories. Journal of Informetrics, 12, 1160–1177. https://doi.org/10.31235/osf.io/42nkm.
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2014). About the size of Google Scholar: playing the numbers. EC3 Working Papers, 18(23).
  • Orduña-Malea, E., Ayllón, J. M., Martín-Martín, A., & Delgado López-Cózar, E. (2015). Methods for estimating the size of Google Scholar. Scientometrics, 104, 931–949. https://doi.org/10.1007/s11192-015-1614-6.
  • Orduña-Malea, E., & Delgado López-Cózar, E. (2014). Google Scholar Metrics evolution: An analysis according to languages. Scientometrics, 98, 2353–2367. https://doi.org/10.1007/s11192-013-1164-8.
  • Orduña-Malea, E., Martín-Martín, A., Ayllon, J. M., & Delgado López-Cózar, E. (2014b). The silent fading of an academic search engine: The case of Microsoft Academic Search. Online Information Review, 38, 936–953. https://doi.org/10.1108/oir-07-2014-0169.
  • Orduna-Malea, E., Martín-Martín, A., & López-Cózar, E. D. (2017). Google Scholar as a source for scholarly evaluation: A bibliographic review of database errors. Revista española de Documentación Científca, 40(4), 185.

Trabajos con coautoría propia sobre Google Scholar y otras bases de datos

  • Rovira, Cristòfol; Guerrero-Solé, Frederic; Codina, Lluís (2018). “Received citations as a main SEO factor of Google Scholar results ranking”. El profesional de la información, v. 27, n. 3, pp. 559-569. https://doi.org/10.3145/epi.2018.may.09
  • Rovira, Cristòfol; Codina, Lluís; Guerrero-Solé, Frederic and Carlos Lopezosa (2019). «Ranking by Relevance and Citation Counts, a Comparative Study: Google Scholar, Microsoft Academic, WoS and Scopus» Future Internet 11, no. 9: 202. https://doi.org/10.3390/fi11090202
  • Rovira, Cristòfol; Codina, Lluís; Lopezosa, Carlos (2021). «Language Bias in the Google Scholar Ranking Algorithm». Future Internet 2021, 13, 31. https://doi.org/10.3390/fi13020031

Nota de progreso: Scilit ha presentado un rediseño de su base de datos, que será incorporada a estos análisis próximamente.