Semantic Scholar: buscador académico con componentes de Inteligencia Artificial

Logos del buscador académico Semantic Scholar
Semantic Scholar es un buscador académico. En la captura, os tres logos que identifican su función: obtener artículos de repositorios académicos, analizarlos y determinar sus relaciones semánticas.

Tal como señala en su propia página web, Semantic Scholar es un buscador académico resultado de un proyecto del Allen Institute for Artificial Intelligence (AI2).  Se trata de un centro de investigación que fue creado para llevar a cabo ingeniería e investigación “de alto impacto en el campo de la inteligencia artificial”.

Entre sus fundadores se encuentran Paul Allen y  Oren Etzioni, investigadores con un alto reconocimiento en el campo de las ingenierías. El primero, concretamente, fue cofundador de Microsoft.

Se trata de un prometedor proyecto paralelo al de Google Académico y Microsoft Academic, por lo cual debería presentar prestaciones iguales al menos en determinados aspectos y superiores al menos en otros.

Se da la circunstancia de que este es el caso justamente, según hemos podido apreciar.  Sus aportaciones específicas se manifiestan en aspectos como la información añadida en la página de resultados, la asociación semántica de temas y el uso de grafos y de interelaciones para mostrar información tanto de autores como de temas, aspectos que ilustraremos en la siguientes secciones mediante capturas de pantalla.

Sin embargo, queda lejos, en cuanto a cobertura, de los dos buscadores que actualmente lideran el sector, Google Scholar y Microsoft Academic. Se podría alegar, que a cambio, Semantic Scholar asegura la relevancia de los resultados, al limitarse a repositorios académicos (los otros, notablemente, Google Scholar, amplían mucho más el tipo de servidores indizados).

En todo caso, consideramos que se trata de un proyecto de enorme interés que debe ser muy bienvenido, y al que deseamos todo el éxito posible. Nosotros vamos a incorporarlo desde ahora a nuestra caja de herramientas, y desde aquí recomendamos a todos los interesados en esta clase de recursos académicos que consideren incluirlo entre las suyas. 

En cambio, lamentamos la ausencia de un sistema de búsqueda avanzada, cosa que lastra mucho las posibilidades para expresar necesidades de información. Como especulación, nos tememos que se trata de la (por desgracia) típica desconfianza de algunos diseñadores por los formularios, combinada con la creencia (injustificada hasta el momento) en la capacidad de los algoritmos para adivinar las intenciones de los usuarios. 

Caracterización de Semantic Scholar

Ya hemos señalado que se trata de un desarrollo del AI2 un instituto dedicado a la Inteligencia Artificial. En concreto, Semantic Scholar se presenta literalmente como un proyecto “gratuito y sin ánimo de lucro”, algo que siempre es especialmente bienvenido en el ámbito de la academia.

Así mismo, se declara abiertamente orientado hacia la Biomedicina y las Ingenierías. Concretamente, en la página del AI2 se define como  “an AI-based academic search engine, into biomedicine”, y la página principal de Semantic Scholar, indica:

What if a cure for an intractable cancer is hidden within the results of thousands of clinical studies? We believe that in 20 years’ time, AI will be able to connect the dots between studies to identify hypotheses and suggest experiments that would otherwise be missed. That’s why we’re building Semantic Scholar and making it free and open to researchers everywhere.

También es fácil identificar esta inclinación hacia las Ciencias  Biomédicas y las Ingenierías, por si hubiera dudas, en el tipo de fuentes que menciona:  “We’ve pulled over 40 million scientific papers from sources like PubMed, Nature, and ArXiv”.

No obstante, como resultado de nuestra pruebas hemos observado que incluye también contenidos propios de las Ciencias Humanas y Sociales. Suponemos que se debe a que incluyen repositorios académicos completos, muchos de los cuales, a su vez, incluyen publicaciones de Ciencias Humanas y Sociales.

Solamente esperamos que esta naturaleza multidisciplinar se consolide con el tiempo, porque lo cierto es que la situación actual de la ciencia admite mal los compartimientos estancos.

Guía visual del buscador académico
Semantic Scholar


Para las siguientes pruebas, usaremos la palabra clave computational journalism, ya que reúne aspectos de Ingeniería pero también de Ciencias Humanas y Sociales. Tal como esperábamos, los resultados han sido altamente relevantes. En lo que sigue, mostraremos el tratamiento que Semantic Scholar proporciona a la información.

Página principal y caja de búsqueda

En la página principal la caja de búsqueda ocupa un lugar destacado a la vez que ofrece información de sus contenidos.

Página de resultados

La página de resultados incluye un tipo de snippets (fragmentos) con información adicional como hemos procurado destacar con las flechas.

Una búsqueda con la palabra clave Computational Journalism ofrece un buen número de documentos, y es fácil apreciar la alta relevancia de los primeros resultados, lo que indica un buen sistema de cálculo de relevancia. También comprobamos la existencia de informaciones añadidas que desarrollamos en las siguientes capturas.

Información asociada a los resultados – 1

Si hacemos clic en el enlace “More”, vemos que podemos obtener la referencia en forma de citación bibliográfica del documento y que podemos guardar la misma en nuestra cuenta.

Información asociada a los resultados – 2

Además, en la parte superior de la página de resultados vemos el resultado de un análisis automático que revela numerosas asociaciones de palabras clave que pueden proporcionar amplias opciones de exploración. Vemos que algunas asociaciones son especialmente afortunadas: Digital journalism, Blogosphere, etc. También vemos opciones de filtrado que mostraremos completas después.

Expansión de la información – 1

Debajo de algunos resultados, vemos dos opciones para expandir información. La primera nos indica el número de citaciones de alta influencia que ha recibido el artículo en cuestión. Esto nos proporciona una excelente indicación de la influencia de este trabajo concreto, sin duda, una plausible inferencia de su calidad.

Expansión de la información – 2

El segundo indicador que encontramos en algunos resultados es el de la velocidad de citación del artículo. Otro indicador claro de su posible influencia.

Opciones de filtrado

Las posibilidades de filtrado que aparecen en la parte superior de la página de resultados permiten refinar el conjunto final con base en cuatro facetas distintas: tipo de publicación, rango de fechas, autoría y fuente (revistas o congresos).

Análisis de conceptos – 1

En el lado derecho de la página de resultados, Semantic Scholar muestra una tarjeta o ficha de información sobre el concepto utilizado en la búsqueda. Vemos que esta tarjeta se compone de una distribución por años, una definición tomada (sin complejos) de la Wikipedia y de palabras clave o conceptos asociados.

Análisis de conceptos – 2

Si expandimos el término (Computational Journalism), haciendo clic en el símbolo del grafo, obtenemos información adicional, así como una lista de artículos asociados, sobre los cuales podemos enviar información sobre su relevancia.

Análisis de conceptos – 3

El análisis de los conceptos se completa finalmente con un estudio de las palabras clave relacionadas y su distribución temporal.

Información de documento – Registro

Si hacemos clic sobre una referencia encontramos una ficha o registro completo con una amplia información sobre el mismo.

Información de un documento (registro) – 1

En esta otra captura, podemos ver con más detalle el amplio abanico de informaciones que Semantic Scholar ofrece en la ficha o registro de un documento. En este caso, se trata de la tesis doctoral de David Domingo (actualmente en la Universidad Libre de Bruselas). Hemos desplegado en este caso la opción Referencias, es decir, los documentos citados por el documento en cuestión.

Información de un artículo (registro) – 2

 

Si hacemos clic sobre la opción Excerpts vemos fragmentos del documento citado. Además, de cada referencia citada nos indica si se trata de un documento a su vez muy citado (Highly influential). Es una excelente indicación de la calidad de las fuentes utilizadas por el autor.

Información de autor

El grafo de las influencias de un autor en dos direcciones (los que le han influenciado y a los que ha influenciado) forma parte del dossier sobre el mismo, junto con sus publicaciones.

En las fichas de autor, en este caso de Isidro Aguillo, un investigador del CSIC, vemos el grafo de los autores que al parecer han influenciado más su trabajo (basado en citaciones) y aquellos que han sido más influenciados por el autor considerado (por la misma razón).

Hice la prueba conmigo mismo (egosurfing inevitable) y debo reconocer que en mi caso (que puedo juzgar con una cierta seguridad) funciona razonablemente bien. Si por alguna extraña razón alguien está interesado, lo puede ver aquí.

Opciones de navegación por los resultados de un autor


En la ficha de cada autor, además del grafo que hemos visto más arriba, tenemos una lista de sus artículos con las posibilidades de navegación que muestra esta captura.

Conclusiones

Tal como hemos señalado, se trata de un esperanzador proyecto de buscador académico que reúne varios atributos muy valiosos: en primer lugar se trata de un proyecto gratuito y sin ánimo de lucro, vinculado a su vez a un centro de investigación que reúne esas mismas características.

Sus resultados son relevantes y la página de resultados es rica y llena de opciones de expansión de la información. Proporciona prestaciones exclusivas basados en análisis que, a su vez, están basados en Inteligencia Artificial.

Destacan en este sentido sus capacidades de asociación semántica (en honor a su nombre) y las informaciones en forma de grafos y relaciones que ofrece tanto de autores como de temas.

Lamentamos en cambio  que no ofrezca, ni en opción, la posibilidad de utilizar un formulario de búsqueda avanzada, ni tampoco un lenguaje de interrogación a quien prefiera hacerlo. Tampoco hemos encontrado una manera de editar los datos de nuestra cuenta, pese a que permite en cambio crear una utilizando una red social como Facebook (p.e.).

Por otro lado, en cobertura, tanto en amplitud (áreas cubiertas) como en profundidad (número total de documentos) queda todavía lejos de los dos buscadores líderes por el momento, a saber, Google Scholar y Microsoft Academic.

Confiamos que, al tratarse de un proyecto iniciado en el año 2015 todavía se encuentre en pleno desarrollo y veamos nuevas opciones en futuras actualizaciones. También esperamos que se consolide y se una a la, hasta ahora solitaria pareja que formaban Google Académico y Microsoft Academic en este panorama.

Anexo – El SEO siempre es importante

En las fechas de nuestro análisis (mediados de enero del 2018) si alguien busca el sitio web de Semantic Scholar a través de Google, encontrará que el primer resultado corresponde al buscador en cuestión. Hasta aquí todo bien. La anécdota es que el título indica “Error”, obviamente por un error.

El snippet de Semantic Scholar en Google en la fecha de este análisis (15 de enero 2018)

Lo cual demuestra que el SEO, entendido como la correcta adaptación de un contenido al contexto digital, siempre es importante. ¿Les hará perder tráfico? Posiblemente, no, pero es una lástima. Hemos revisado superficialmente el código fuente y no hemos detectado el problema. En todo caso, esperemos que pronto se percaten los responsables y subsanen el error.