Software antiplagio. Las preguntas clave: ¿es lo mismo coincidencia que plagio?, ¿tienen sentido los umbrales de tolerancia?, ¿existe tal cosa como el autoplagio?

Función de análisis del software antiplagio Turnitin
Ejemplo de análisis de software antiplagio. Fuente: Turnitin. Clic para acceder

Tiempo de lectura estimado: 13 minutos

El compromiso contra el plagio de todos los actores del ecosistema de la comunicación académica (editores, autores, evaluadores, profesores, etc.) debe ser firme y contundente. En este sentido, el software antiplagio puede ser de una gran ayuda.

Sin embargo, utilizar el software antiplagio de forma inadecuada, no solo puede dificultar este compromiso, sino que puede atentar contra preceptos éticos elementales.

Sobre el software antiplagio

En lo que sigue intentamos clarificar algunas cuestiones sobre el uso de software antiplagio dando algunas respuestas a las siguientes preguntas:

Además, hemos dedicado un apartado adicional para discutir sobre quién recae la carga de la prueba:

1. ¿Qué es el plagio?

En el contexto de la comunicación académica, el plagio consiste en utilizar ideas o contenidos ajenos como si fueran propios. Es plagio, tanto si obedece a un acto deliberado como a un error. La proporción de la obra copiada, tampoco es significativa para calificar como plagio. En poca o en mucha proporción sigue siendo plagio. Es cierto, que la gravedad es muy variable, pero sigue siendo plagio en todos los casos.

2. ¿Qué son las coincidencias?

El software antiplagio, pese a su nombre, no detecta plagio. Lo único que puede detectar son coincidencias. ¿Coincidencias de qué? El software antiplagio compara el documento a examen con los que existen en una o más bases de datos, que son las fuentes contra las que compara los documentos a examen. Turnitin, en concreto, utiliza tres bases de datos:

  • repositorios de tipo académico, incluyendo repositorios de universidades;
  • internet, esto es documentos y páginas disponibles en sitios web en general;
  • revistas académicas.

Si el documento a examen tiene fragmentos idénticos o muy parecidos al de otros documentos de alguna de las bases de datos, entonces es cuando se producen coincidencias.

La suma de las coincidencias proporcionan el porcentaje total en el cual el trabajo examinado coincide con otros documentos (en la imagen de cabecera de esta entrada podemos ver un ejemplo). Pero, y aquí está el punto importante, las coincidencias no siempre son plagio.

2.1. Tesis inéditas que forman parte de la base de datos

Una observación importante, sobre la que volveremos después, es que la primera base de datos, al menos en el caso de Turnitin, incluye documentos que no se han publicado. Es lo que sucede cuando una universidad usa Turnitin (p.e.) para el examen de las tesis doctorales, antes de permitir su defensa, y tras ser aprobadas, en lugar de publicarse, quedan embargadas durante uno o dos años.

Durante la duración del embargo, el documento de tesis es inédito (literalmente: no está publicado en ningún sitio), pero Turnitin lo tiene en cuenta a la hora de buscar coincidencias. Esto crea situaciones especiales sobre las que volveremos después.

2.1. Tipos de coincidencias

Hay al menos tres tipos de coincidencias:

  • Plagio. Contenido ajeno usado como si fuera propio, esto es, sin atribuir el contenido a su verdadero autor. En este caso, por supuesto, coincidencias SON plagio.
  • Falsos positivos. El software antiplagio puede señalar como coincidencias títulos de obras de creación, nombres de organismos y frases comunes del estilo «la Luna es un satélite de la Tierra». Como el porcentaje de similitud es la suma de todas las coincidencias, una obra puede arrojar porcentajes significativos de similitud. Es posible configurar el software antiplagio para que solo tenga en cuenta coincidencias de más de N palabras (p.e., de más 15 palabras), o para que ignore la bibliografía y contenido citado de forma correcta. En cambio, si no se configura bien esta clase de programas, porcentajes de similitud significativos basados en falsos positivos están garantizados. Por tanto, en este caso, coincidencias PUEDEN NO SER plagio.
  • Contenido reciclado. Es el mal llamado «autoplagio» (del que ya hemos avanzado algo a propósito de las tesis embargadas). Para entenderlo en todas sus dimensiones, necesitaremos ir al siguiente punto. Pero lo que ya podemos adelantar es que, en estos casos, coincidencias NO SON plagio. Otra cosa es que el uso de contenido reciclado sea aceptable (o no). Pero lo vemos a continuación.
Filtros de Turnitin
Ejemplo de opciones de filtrado en Turnitin. Si están desactivadas las coincidencias están garantizadas en cualquier trabajo. Fuente: Turnitin

3. ¿Existe el autoplagio?

El desafortunado término autoplagio es un oxímoron. Es como hablar de silencio ruidoso (o de noticias falsas, otra expresión que debería producir alergia). En su lugar, es mejor hablar de contenido reciclado. La razón es que se trata de una categoría que incluye situaciones que pueden ser aceptables, mientras que en el plagio, como sabemos, no existen tales situaciones.

En el mundo anglosajón, los expertos utilizan la expresión text-recycling. Lo podemos ver, p.e. en las recomendaciones que BioMed Central preparó por encargo del COPE, y donde señalan lo siguiente al respecto (el destacado es nuestro):

«(…) include situations where text recycling may be acceptable as well those where it is unlikely to be»

Fuente: BioMed Central. Text Recycling guidelines, s.f.

La siguiente captura muestra el párrafo completo del que hemos extraído la cita anterior:

Parte de la guía del COPE sobre contenido reciclado de la que hemos extraído la cita anterior. Clic para acceder

4. ¿Qué es el contenido reciclado?

Se trata de contenido que aparece en más de una publicación del mismo autor, normalmente sin atribución. La mencionada guía encargada por el COPE lo define como sigue, a la vez que insiste en la preferencia por el término text-recycling (los destacados son nuestros):

Text recycling, also known as self-plagiarism, occurs when sections of the same text appear (usually un-attributed) in more than one of an author’s own publications. The term ‘text recycling’ has been chosen to differentiate from ‘true’ plagiarism (i.e. when another author’s words or ideas have been used, usually without attribution).

Fuente: Text recycling guidelines, s.f.

La precisión «usually un-attributed» se debe a que, de otro modo no habría nada especial a considerar, pues un texto atribuido se supone que queda fuera de cualquier radar.

Moskovitz (2021) por su parte, en un trabajo reciente en el que se propone clarificar términos alrededor de este concepto, elabora un interesante cuadro sinóptico del que retenemos esta afirmación:

Use of the term ‘self-plagiarism’ is unhelpful since it implies theft which is nonsensical when applied to one’sown work and conflates acceptable and unacceptable behaviour.

Moskovitz, 2020

El cuadro al que nos referimos (Moskovitz, 2021) lo reproducimos a continuación:

Text-recycling
Fuente: Moskovitz, 2021. Clic para acceder

4.1. ¿Qué limitaciones afectan al contenido reciclado?

El uso de contenido reciclado no está exento de limitaciones, como ya hemos dicho. Lo que sucede es que, a diferencia del plagio, el uso del contenido reciclado está sujeto a consideración. Por eso es tan importante separar estos conceptos.

En concreto, una guía elaborada por BioMed Central (por encargo del COPE), que hemos utilizado para esta entrada, sugiere a los editores de revistas los siguientes elementos de consideración (Text Recycling Guidelines, s.f.), donde los destacados, como en los otros casos, son nuestros:

  • How much text is recycled [Cuánto del contenido es reciclado]
  • Where in the article the text recycling occurs [¿Dónde aparece?]
  • Whether the source of the recycled text has been acknowledged [Si la fuente original es reconocida]
  • Whether the article is a research or non-research article [Tipo de artículo]
  • Whether there is a breach of copyright [Cuestiones de copyright]
  • In some circumstances, cultural norms at the time and place of publication [Normas culturales en algunos casos pueden ser de aplicación]

La guía señala diversos grados de aceptación según, entre otros, los siguientes dos parámetros principales: (1) el volumen del contenido reciclado y (2) las secciones donde aparece (Text Recycling Guidelines, s.f.):

In general terms, editors should consider how much text is recycled. The reuse of a few sentences is clearly different to the verbatim reuse of several paragraphs of text, although large amounts of text recycled in the methods might be more acceptable than a similar amount recycled in the discussion.

Fuente: Text Recycling Guidelines (s.f.)

Por su parte, Moskovitz (2021) utiliza un criterio que puede resultar altamente clarificador gracias al esfuerzo realizado para presentar una taxonomía de tipos de contenido reciclado y las condiciones de aceptación de cada uno. Lo vemos a continuación.

4.3. La taxonomía de Moskovitz

Profundizando en la simple idea de que las limitaciones que afectan al contenido reciclado presentan una amplia casuística, Moskovitz (2021) propone una taxonomía que permite determinar cuándo y en qué condiciones un contenido puede ser admisible (o no) para su publicación.

En concreto, Moskovitz propone cuatro categorías, que forman una especie de progresión, y donde solamente una de ellas, duplicate publication, raramente es aceptable, ni ética ni legalmente. Lo podemos ver en la siguiente tabla:

Taxonomía de texto o contenido reciclado
Text-recycling practices. Fuente: Moskovitz, 2021. Clic para acceder

En cambio, las otras tres categorías, a saber, developmental recycling, generative recycling y adaptive publication, pueden o bien son usualmente aceptables o bien pueden serlo según los casos, y esto de forma tanto ética como legalmente, en función de las consideraciones que varían en cada caso.

4.4. Software antiplagio y tesis doctorales

Un punto mal conocido (al que nos hemos referido más arriba) es que una de las bases de datos que utiliza el software antiplagio (al menos en el caso de Turnitin) incluye documentos inéditos, como es el caso de tesis que han sido sometidas a un análisis antiplagio para poder ser defendidas.

Son inéditas porque no se han publicado, ya que los autores pueden acogerse a un embargo de hasta dos años (al menos en algunas universidades). Pese a esto, pasan a formar parte de una de las bases de datos de Turnitin porque han sido examinadas por este programa.

Una de las razones principales de escoger el embargo es para poder publicar artículos que derivan de la investigación original de la tesis. Se trata de investigaciones que pueden ser de enorme calidad, con un verdadero potencial de ayudar a la ciencia y a la sociedad.

El problema es que, si la revista que recibe el manuscrito utiliza un software antiplagio, puede arrojar coincidencias pese a que la tesis de la que deriva, y esto es importante recalcarlo, no se ha publicado. Complicado, pero es así.

Esto provoca una situación kafkiana: el examen antiplagio utilizado en la revista detecta coincidencias (con su propia tesis), pero el autor ha enviado en realidad un trabajo que es completamente inédito.

Más razones para decir que, primero, las coincidencias no (siempre) son plagio. Segundo, el caso del contenido reciclado dista de ser simple, y posiblemente la taxonomía de Moskovitz se queda corta, a la vista del complejo mundo actual de la comunicación académica.

4.4. Un proyecto para estudiar el contenido reciclado

No es sorprendente, que haya proyectos importantes en marcha para analizar este tema. En concreto, cabe reseñar el portal dedicado a estudiar el contenido reciclado, parte de un proyecto de la Duke University financiado por la National Science Foundation (del que hemos tomado el informe de Moskovitz):

5. ¿Tiene sentido establecer umbrales de similitud?

Regresemos al software antiplagio. A veces hemos encontramos la idea de que hay un porcentaje de similitud que es aceptable. En concreto, hemos visto cifras que suelen ir del 10 al 20%. Esto se puede encontrar en las instrucciones para autores de algunas revistas, así como en foros o redes sociales dedicadas a discutir temas de comunicación académica.

Sin embargo, dado que una similitud sin examen no sabemos qué significa, toda la idea de los umbrales carece de sentido. Primero, si las coincidencias corresponden a plagio, no tiene sentido poner ningún umbral, por bajo que sea. Por el contrario, poner umbrales envía un mensaje nefasto.

En segundo lugar, si las coincidencias no corresponden a plagio, solo tiene sentido determinar a qué corresponde exactamente (¿falsos positivos?; ¿texto reciclado?; ¿una tesis inédita?); y vez determinado, corresponde decidir según proceda (en lugar de establecer un umbral).

En un artículo publicado en Nature, Weber-Wulff (2019) no duda en afirmar lo siguiente:

Software cannot determine plagiarism; it can only point to some cases of matching text. The systems can be useful for flagging up problems, but not for discriminating between originality and plagiarism. That decision must be taken by a person.

Weber-Wulff (2019)

BONUS


Una vez hemos propuesto las clarificaciones anteriores, una sección más, a modo de complemento. La primera parte hace referencia a lo que se denomina «la carga de la prueba«. La segunda es una simple aclaración terminológica. Lo vemos a continuación.


¿Tiene sentido pedir explicaciones a un autor por las coincidencias de un software antiplagio?

No tiene sentido. En su lugar, quien utiliza el software antiplagio es quien debe determinar si las coincidencias corresponden a plagio o a otra cosa, por la misma razón que la carga de la prueba siempre debe recaer en quien acusa (y nunca en el acusado).

Además de una razón ética, hay una razón pragmática. No podemos exigir explicaciones a quien no tiene acceso a los análisis para poder defenderse. Lo contrario conduce, nunca mejor dicho, a situaciones kafkianas donde el acusado, en realidad no puede saber por qué le acusan ya que no tiene acceso a los resultados del análisis: ¿es por unas frases repetidas del marco metodológico de un trabajo anterior ?; ¿es porque el software antiplagio está mal configurado?; ¿es porque se trata de un trabajo de historia del arte y menciona títulos de obras de arte y nombres de galerías y museos?

¿Texto reciclado o contenido reciclado?

El lector atento habrá observado que, mientras la expresión genérica recomendada en inglés, es text recycling, aquí la hemos traducido por contenido reciclado (en lugar de la forma más literal, texto reciclado). La razón es que las secciones recicladas pueden corresponder a texto, efectivamente, pero también a otros contenidos, como tablas, diagramas, etc.

Ciertamente, el software antiplagio solo puede detectar texto, pero esto no debería impedir un uso más preciso del término. Se da la circunstancia que en el mundo anglosajón parecen sentirse cómodos con un uso metafórico del término texto en expresiones como visual text, o como textual analysis, para referirse al análisis de imágenes en ámbitos como la semiótica.

Pero parece que en castellano es más lógico hablar de contenido reciclado si hemos de incluir todas esas categorías. No obstante, al final es cuestión de ver qué término termina teniendo éxito. De momento, nosotros apostamos por el de contenido reciclado.

Conclusiones

El plagio, cuando es realizado voluntariamente es una lacra. Cuando es fruto de un error, es una mala praxis. Aunque se trata de cosas que varían mucho en gravedad, en ningún caso pueden ser aceptadas.

El compromiso contra el plagio es importante, y el software antiplagio puede ayudar mucho. Sin embargo es imprescindible entender que este software no puede detectar plagio, en su lugar, puede detectar coincidencias, que a su vez, pueden ser plagio o no serlo en absoluto.

El concepto de autoplagio, que suele aparecer en el contexto del software antiplagio, carece de sentido y puede complicar, aún más, todo el tema. Los expertos recomiendan términos como text-recycling para diferenciarlo del auténtico plagio.

La razón es que el text-recycling o el contenido reciclado como preferimos nosotros, presenta una amplia casuística, y en algunos casos su uso puede ser legítimo tanto desde el punto de vista ético como legal. No está exento de limitaciones o de restricciones, pero queda fuera del ámbito del plagio, ya que este último no contempla ninguna excepción ni umbral de tolerancia.

El software antiplagio debe ser bienvenido. En cambio, su utilización sin un examen minucioso es irresponsable, porque puede causar daños innecesarios. No solo puede llevar a los editores a decisiones equivocadas, sino que puede comprometer de manera injusta, y tal vez irreparable, la reputación de un autor. Por eso, a la vez que celebramos su llegada debemos reclamar responsabilidad en su utilización.

Para saber más