Manifiesto de Leiden y DORA: situemos las métricas en su lugar

Cabecera del sitio de la Declaración de Evaluación de la Investigación (DORA) de San Francisco

La proliferación de métricas para medir la actividad científico-académica, y el aumento en paralelo de instrumentos para la obtención de las mismas, lleva al siguiente y necesario paso: reflexionar sobre las condiciones adecuadas de su utilización, sobre todo para la evaluación de carreras académicas, puesto que hablamos de vidas humanas.

Por fortuna, nos pueden ayudar dos declaraciones sumamente importantes (de 2014 y 2012, respectivamente), apoyadas por miles de investigadores de primera linea de todo el mundo, y que trataremos en lo que sigue. Se trata de las siguientes:

En los dos casos, lo que haré será reproducir los puntos esenciales de cada uno, como parte de una modesta contribución a su difusión, y después presentaré alguna síntesis. Creo que, como motivación para considerar ambas declaraciones, pueden servir dos párrafos seleccionados y procedentes de cada una de las declaraciones.

El que sigue, es del Leiden Manifesto (el destacado es mío):

Los indicadores han proliferado: normalmente bien intencionados, no siempre bien informados, y a menudo mal aplicados. Cuando organizaciones sin conocimiento sobre buenas prácticas e interpretación apropiada de indicadores llevan a cabo las evaluaciones, corremos el riesgo de dañar el sistema científico con los mismos instrumentos diseñados para mejorarlas.

Fuente: Leiden Manifesto

Este párrafo, por su parte, procede de DORA:

The Journal Impact Factor, as calculated by Thomson Reuters, was originally created as a tool to help librarians identify journals to purchase, not as a measure of the scientific quality of research in an article. With that in mind, it is critical to understand that the Journal Impact Factor has a number of well-documented deficiencies as a tool for research assessment.
Fuente DORA

A continuación, primero presentaré una síntesis de ambas declaraciones, para pasar después a tratarlas por separado de una forma detallada.

Además, al final de esta entrada he añadido varios enlaces de publicaciones de la máxima solvencia sobre el uso inadecuado del factor de impacto. Uno de ellos, nada menos que de la revista número uno ¡por factor de impacto!

Así es, incluso estas revistas que se benefician de un factor de impacto estratosférico denuncian sus graves problemas intrínsecos. Algo, al menos, muy significativo.

SÍNTESIS LEIDEN/DORA

Recomendación general
  • Los indicadores cuantitativos ofrecen un buen apoyo para la evaluación, pero las métricas no pueden sustituir las decisiones informadas. La valoración de la calidad de una investigación o de un artículo debe basarse en la investigación misma y por métricas a su nivel y no solamente, por ejemplo, por el factor de impacto de la revista donde se haya publicado. No hacerlo así significa que los evaluadores abandonan su responsabilidad.

Recomendaciones específicas

  • En la evaluación de carreras académicas, deben tenerse en cuenta las diferencias entre: (1) áreas de conocimiento (p.e. Ciencias vs Ciencias Sociales), (2) perfiles personales (p.e. investigador novel vs investigador sénior) y (3) las prácticas de publicación de cada área (libros en humanidades, comunicaciones en informática, artículos en economía, etc.).

  • La ciencia relevante publicada en lenguas diferentes del inglés debe ser reconocida y preservada.

  • El factor de impacto de las revistas es un indicador orientativo, pero no puede utilizarse para valorar la calidad de los artículos que se someten a evaluación, tampoco como elemento decisivo para evaluar carreras académicas
  • en las cuales deben combinarse, además criterios cualitativos y cuantitativos

Fuente: Síntesis de Manifiesto de Leiden y DORA

A continuación, procedemos a presentar con más detalle ambas declaraciones, comenzando por el Manifiesto de Leiden.

Leiden Manifesto for Research Metrics
Cabecera del sitio web del Leiden Manifesto for Research Metrics

El Manifiesto de Leiden sobre indicadores de investigación


El Manifiesto de Leiden debe su nombre a la ciudad y la Universidad del mismo nombre. Fue elaborado con motivo de una conferencia celebrada en el año 2014 en el Centre for Science and Technology Studies de la Leiden Universiteit (Holanda). Fue publicado seguidamente en Nature, una de la revistas científicas más importantes del mundo.


Referencia: Hicks, D.; Wouters, P.; Waltman, L.; de Rijcke, S.; Rafols, I. «Bibliometrics: The Leiden Manifesto for research metrics«. Nature, 22 April 2015, n. 520, p. 429-431.  PDF en ingles | PDF en castellano


Los diez puntos en los que se concreta el Manifiesto de Leiden son los siguientes:

01. La evaluación cuantitativa tiene que apoyar la valoración cualitativa por expertos
02. El desempeño debe ser medido de acuerdo con las misiones de investigación de la institución, grupo o investigador
03. La excelencia en investigación de relevancia local debe ser protegida
04. Los procesos de recopilación y análisis de datos deben ser abiertos, transparentes y simples
05. Los datos y análisis deben estar abiertos a verificación por los evaluados
06. Las diferencias en las prácticas de publicación y citación entre campos científicos deben tenerse en cuenta
07. La evaluación individual de investigadores debe basarse en la valoración cualitativa de su portafolio de investigación
08. Debe evitarse la concreción improcedente y la falsa precisión
09. Deben reconocerse los efectos sistémicos de la evaluación y los indicadores
10. Los indicadores deben ser examinados y actualizados periódicamente

Quiero destacar que cada uno de los 10 puntos anteriores está desarrollado en el Manifiesto original, al que remito a todos los interesados.

Por su especial interés, voy a reproducir el contenido de los puntos 1, 3, 6 y 7 (como en los casos anteriores, los destacados son míos):

1. La evaluación cuantitativa tiene que apoyar la valoración cualitativa por expertos

Los indicadores pueden corregir la tendencia a perspectivas sesgadas que se dan en revisión por pares y facilitar la deliberación. En este sentido, los indicadores pueden fortalecer la evaluación por pares puesto que tomar decisiones sobre colegas es difícil sin varias fuentes de información. Sin embargo, los evaluadores no deben ceder a la tentación de supeditar las decisiones a los números. Los indicadores no pueden sustituir a los razonamientos informados. Los decisores tienen plena responsabilidad sobre sus evaluaciones

3. La excelencia en investigación de relevancia local debe ser protegida

En muchas partes del mundo, excelencia en investigación se asocia únicamente con publicaciones en inglés. La ley española, por ejemplo, explicita el deseo y la conveniencia que los académicos españoles publiquen en revistas de alto impacto. El factor de impacto se calcula para revistas indexadas por Web of Science, que es una base de datos basada en los Estados Unidos y que contiene una gran mayoría de revistas en inglés. Estos sesgos son especialmente problemáticos en las ciencias sociales y las humanidades, áreas en las que la investigación está más orientada a temas regionales y nacionales. Muchos otros campos científicos tienen una dimensión nacional o regional -por ejemplo, epidemiología del VIH en el África subshariana.

Este pluralismo y la relevancia social tienden a ser suprimidos cuando se crean artículos de interés a los guardianes del alto impacto: las revistas en inglés. Los sociólogos españoles muy citados en Web of Science han trabajado en modelos abstractos o estudiado datos de los Estados Unidos. En ese proceso se pierde la especificidad de los sociólogos con alto impacto en las revistas en castellano: temas como la ley laboral local, atención médica para ancianos o empleo de inmigrantes. Indicadores basados en literatura de alta calidad no inglesa servirían para identificar y recompensar la excelencia en investigación localmente relevante.

6. Las diferencias en las prácticas de publicación y citación entre campos científicos deben tenerse en cuenta

La mejor práctica en evaluación es proponer una batería de indicadores y dejar que los distintos campos científicos escojan los indicadores que mejor les representan. Hace unos años, un grupo de historiadores recibió una puntuación relativamente baja en una evaluación nacional de pares porque escribían libros en vez de artículos en revistas indexadas por Web of Science. Estos historiadores tuvieron la mala suerte de formar parte del departamento de psicología. La evaluación de historiadores y científicos sociales requiere la inclusión de libros y literatura en la lengua local; la evaluación de investigadores en informática necesita considerar las contribuciones a conferencias.

La frecuencia de citación varía según los campos: las revistas más citadas en ránkings de matemáticas tienen un factor de impacto alrededor de 3; las revistas más citadas en ránkings de biología celular tienen factores de impacto alrededor de 30.

Por lo tanto, se necesitan indicadores normalizados por campo, y el método más robusto de normalización esta basado en percentiles: cada publicación es ponderada según el percentil al que pertenece en la distribución de citaciones de su campo (por ejemplo, el percentil 1%, 10%, 20% más alto). Una única publicación altamente citada mejora un poco la posición de una universidad en un ranking basado en percentiles, pero puede propulsar la universidad de un lugar medio a la primeras posiciones en un ranking basado en promedios de citas.

7. La evaluación individual de investigadores debe basarse en la valoración cualitativa de su portafolio de investigación

El índice-h aumenta con la edad del investigador, aunque éste ya no publique. El índice-varía por campos: los científicos en las ciencias de la vida pueden llegar a 200; los físicos a 100 y los científicos sociales a 20 o 30. Es un índice que depende de la base de datos: hay informáticos que tienen un índice-h de 10 en Web of Science, pero de 20 o 30 en Google Scholar. Leer y valorar el trabajo de un investigador es mucho más apropiado que confiar en un único número. Incluso cuando se comparan un gran número de científicos, es mejor adoptar un enfoque que considere información diversa sobre cada individuo, incluyendo sus conocimientos, experiencia, actividades e influencia.


Logo de la DORA con una llamada a la acción

Declaración sobre Evaluación de la Investigación (DORA) de San Francisco


La Declaration on Research Assessment (DORA), tuvo lugar durante la Reunión Anual de la American Society for Cell Biology en San Francisco, en diciembre de 2012.

Sus recomendaciones tienen un total de 18 puntos. Nosotros recogeremos aquí los que me parecen más significativos, sin dejar de recomendar a los interesados la lectura de la declaración completa.

En concreto, me centraré en el primer punto, la recomendación general (1) los que se dirigen a los organismos de financiación (2, 3), los orientados a las instituciones (4, 5) y los que se dirigen a los propios investigadores (15-18). Los que van del 6-14, que obviamos, se dirigen a los editores y a los productores de métricas. Los que he seleccionado son los siguientes:

Recomendación general

1. No utilice métricas basadas en revistas, tales como índices de impacto de revistas, como una medida sustitutiva de la calidad de los artículos de investigación individuales, con el fin de evaluar las contribuciones de un científico, o en la contratación, promoción, o en las decisiones de financiación.

Para los organismos de financiación

2. Sea explícito acerca de los criterios utilizados en la evaluación de la productividad científica de los solicitantes de subvenciones y resalte claramente, sobre todo para los investigadores en fase inicial, que el contenido científico de un artículo es mucho más importante que las métricas de publicación o la identidad de la revista en la que fue publicado.

3. A efectos de la evaluación de la investigación, considerare el valor y el impacto de los resultados de la investigación (incluidos los conjuntos de datos y software), además de las publicaciones de investigación, y considerare una amplia gama de medidas de impacto que incluya indicadores cualitativos del impacto de la investigación, como la influencia sobre la política y la práctica.

Para las instituciones

4. Sea explícito acerca de los criterios utilizados para llegar a la contratación, la tenencia y las decisiones de promoción, destacando con claridad, sobre todo para los investigadores en fase inicial, que el contenido científico de un artículo es mucho más importante que las métricas de publicación o la identidad de la revista en la que fue publicado.

5. A efectos de la evaluación de la investigación, considerare el valor y el impacto de los resultados de la investigación (incluidos los conjuntos de datos y software), además de las publicaciones de investigación, y considerare una amplia gama de medidas de impacto que incluya indicadores cualitativos del impacto de la investigación, tales como la influencia sobre la política y la práctica .

Para los investigadores

15. Cuando participe en los comités de toma de decisiones sobre la financiación, la contratación, la tenencia, o la promoción, realice evaluaciones basadas en el contenido científico en lugar de en las métricas de publicación.

16. Siempre que sea necesario, cite la literatura primaria en que las observaciones fueron por primera vez publicadas con el fin de dar el crédito a quien merece ese crédito.

17. Use una variedad de métricas de artículos e indicadores sobre las declaraciones personales o de apoyo, como evidencia del impacto de los artículos publicados individuales y otros productos de la investigación.

18. Cambie las prácticas de evaluación de la investigación que se basan inadecuadamente en los índices de impacto y promueva y enseñe las mejores prácticas que se centran en el valor y la influencia de los resultados específicos de la investigación.

Conclusiones

Una consideración previa, muy importante, antes de proponer algunas conclusiones concretas:

Ni Leiden ni DORA rechazan las evaluaciones, ni ponen en duda la necesidad de disponer de indicadores y métricas, cosa que les haría perder toda credibilidad. Aunque una evaluación conviene que tenga un componente de autoevaluación, la evaluación externa e independiente es imprescindible, más aún en el caso de investigaciones y carreras financiadas en parte o totalmente con fondos públicos.

Por tanto, los organismos y los profesionales que producen bases de datos y otros sistemas de registro y análisis de la actividad científica prestan un servicio imprescindible a investigadores y gestores de la ciencia: lo que no se mide no se puede mejorar. Además, son instrumentos de transparencia que ayudan a reconocer los esfuerzos de académicos e investigadores.

A partir de lo anterior, algunas conclusiones muy concretas que entiendo que se pueden obtener  a partir de DORA y Leiden:

  • Las métricas, mal entendidas, pueden acabar utilizándose de forma amenazante para los verdaderos objetivos de la ciencia. En lugar de apoyar su progreso, pueden ser un verdadero obstáculo.
  • Las dos declaraciones examinadas resultan necesariasvaliosas y hay que promover su conocimiento. Ambas tienen el respaldo de colectivos científicos que han demostrado de forma sobrada su excelencia en la ciencia, y están apoyados por sociedades científicas de proyección internacional.
  • Ambas descartan formas taxativas de evaluación basadas en indicadores aislados que sustituyan decisiones informadas, entre otras cosas, porque supone que los evaluadores hacen dejación de sus responsabilidades.
  • En su lugar, recomiendan aproximaciones basadas en el portafolio completo del investigador. Si este portafolio está acompañado, además de buenas métricas, mucho mejor. Pero nunca en sustitución de una decisión informada e integral.
  • Las declaraciones son especialmente beligerantes con el uso del factor de impacto, que es una medida de la revista, no del artículo, cuando se utiliza como sustituto de la evaluación de la calidad de artículos e investigaciones individuales.
  • Por último, pero no menos importante, muchos expertos, además de desaconsejar su uso en evaluaciones de carreras académicas y de la calidad de aportaciones científicas, alertan sobre los importantes problemas intrínsecos que presenta el Journal Impact Factor, en sí mismo, como estadístico, independientemente de su aplicación.

Ahora, algunas aportaciones propias sobre la aplicabilidad de estos principios que se defienden en el Leiden y el DORA:

  • Una característica de las evaluaciones que afectan carreras científicas es que tienen lugar en forma de resoluciones y decretos transparentes que pueden ser examinados, valorados y, en su caso, debatidos públicamente. Es en esta  clase de resoluciones donde, poco a poco, parecer irse recogiendo la filosofía de las dos declaraciones anteriores. En especial, se ha podido ver su impacto en algunas agencias y procesos de evaluación.
  • Sin embargo, muchas evaluaciones se producen en el seno de comités o en equipos de dirección donde los participantes manejan criterios personales que ignoran lastimosamente las últimas tendencias solventes en estas áreas (véase la bibliografía que citan ambas declaraciones).
  • Debido a la anterior, en algunas comisiones y ámbitos de decisión, incluso aún, de forma incomprensible, en algunas agencias de evaluación, que deciden sobre las carreras de los académicos (promociones, aprobación de proyectos, valoración de investigaciones, etc.), se están tomando decisiones basadas en puntos que las dos declaraciones revisadas dejan totalmente fuera de lugar.
  • Por desgracia, uno de los motivos de que esto ocurra no es tanto una decisión basada en el conocimiento y la reflexión racional, sino en creencias de los miembros de estas comisiones que, en lugar de basar sus criterios en la evidencia, como debería ser propio de la academia, lo hacen basándose en viejos prejuicios. 

Solo me queda volver a insistir en que los interesados lean las dos declaraciones originales completas. Se trata de documentos breves en los dos casos. Seguro que mi visión tiene algún sesgo, así que les animo a que se hagan su propia idea sobre la cuestión. De nuevo, los enlaces a las fuentes:

Para saber más