El autor agradece al profesor Sergi Cortiñas de la UPF su ayuda en la preparación de esta entrada.
El compromiso contra el plagio de todos los actores del ecosistema de la comunicación académica (editores, autores, evaluadores, profesores, etc.) debe ser firme y contundente. En este sentido, el software antiplagio puede ser de una gran ayuda.
Sin embargo, utilizar el software antiplagio de forma inadecuada, no solo puede dificultar este compromiso, sino que puede atentar contra preceptos éticos elementales.
1. ¿Qué es el plagio?
En el contexto de la comunicación académica, el plagio consiste en utilizar ideas o contenidos ajenos como si fueran propios. Es plagio, tanto si obedece a un acto deliberado como a un error. La proporción de la obra copiada, tampoco es significativa para calificar como plagio. En poca o en mucha proporción sigue siendo plagio. Es cierto, que la gravedad es muy variable, pero sigue siendo plagio en todos los casos.
2. ¿Qué son las coincidencias?
El software antiplagio, pese a su nombre, no detecta plagio. Lo único que puede detectar son coincidencias. ¿Coincidencias de qué? El software antiplagio compara el documento a examen con los que existen en una o más bases de datos, que son las fuentes contra las que compara los documentos a examen. Turnitin, en concreto, utiliza tres bases de datos:
- repositorios de tipo académico, incluyendo repositorios de universidades;
- internet, esto es documentos y páginas disponibles en sitios web en general;
- revistas académicas.
Si el documento a examen tiene fragmentos idénticos o muy parecidos al de otros documentos de alguna de las bases de datos, entonces es cuando se producen coincidencias.
La suma de las coincidencias proporcionan el porcentaje total en el cual el trabajo examinado coincide con otros documentos (en la imagen de cabecera de esta entrada podemos ver un ejemplo). Pero, y aquí está el punto importante, las coincidencias no siempre son plagio.
2.1. Tesis inéditas que forman parte de la base de datos
Una observación importante, sobre la que volveremos después, es que la primera base de datos, al menos en el caso de Turnitin, incluye documentos que no se han publicado. Es lo que sucede cuando una universidad usa Turnitin (p.e.) para el examen de las tesis doctorales, antes de permitir su defensa, y tras ser aprobadas, en lugar de publicarse, quedan embargadas durante uno o dos años.
Durante la duración del embargo, el documento de tesis es inédito (literalmente: no está publicado en ningún sitio), pero Turnitin lo tiene en cuenta a la hora de buscar coincidencias.
2.1. Tipos de coincidencias
Hay al menos tres tipos de coincidencias:
- Plagio. Contenido ajeno usado como si fuera propio, esto es, sin atribuir el contenido a su verdadero autor. En este caso, por supuesto, coincidencias SON plagio.
- Falsos positivos. El software antiplagio puede señalar como coincidencias títulos de obras de creación, nombres de organismos y frases comunes del estilo «la Luna es un satélite de la Tierra». Como el porcentaje de similitud es la suma de todas las coincidencias, una obra puede arrojar porcentajes significativos de similitud. Es posible configurar el software antiplagio para que solo tenga en cuenta coincidencias de más de N palabras (p.e., de más 15 palabras), o para que ignore la bibliografía y contenido citado de forma correcta. En cambio, si no se configura bien esta clase de programas, porcentajes de similitud significativos basados en falsos positivos están garantizados.
- Contenido reciclado. Es el mal llamado «autoplagio» (del que ya hemos avanzado algo a propósito de las tesis embargadas). Para entenderlo en todas sus dimensiones, necesitaremos ir al siguiente punto. Pero lo que ya podemos adelantar es que, en estos casos, coincidencias NO SON plagio. Otra cosa es que el uso de contenido reciclado sea aceptable (o no). Pero lo vemos a continuación.

3. ¿Existe el autoplagio?
El desafortunado término autoplagio es un oxímoron. Es como hablar de silencio ruidoso (o de noticias falsas, otra expresión que debería producir alergia). En su lugar, es mejor hablar de contenido reciclado. La razón es que se trata de una categoría que incluye situaciones que pueden ser aceptables, mientras que en el plagio, como sabemos, no existen tales situaciones.
En el mundo anglosajón, los expertos utilizan la expresión text-recycling. Lo podemos ver, p.e. en las recomendaciones que BioMed Central preparó por encargo del COPE, y donde señalan lo siguiente al respecto (el destacado es nuestro):
«(…) include situations where text recycling may be acceptable as well those where it is unlikely to be»
Fuente: BioMed Central. Text Recycling guidelines, s.f.
La siguiente captura muestra el párrafo completo del que hemos extraído la cita anterior:

4. ¿Qué es el contenido reciclado?
Se trata de contenido que aparece en más de una publicación del mismo autor, normalmente sin atribución. La mencionada guía encargada por el COPE lo define como sigue, a la vez que insiste en la preferencia por el término text-recycling (los destacados son nuestros):
Text recycling, also known as self-plagiarism, occurs when sections of the same text appear (usually un-attributed) in more than one of an author’s own publications. The term ‘text recycling’ has been chosen to differentiate from ‘true’ plagiarism (i.e. when another author’s words or ideas have been used, usually without attribution).
Fuente: Text recycling guidelines, s.f.
La precisión «usually un-attributed» se debe a que, de otro modo no habría nada especial a considerar, pues un texto atribuido se supone que queda fuera de cualquier radar.
Moskovitz (2021) por su parte, en un trabajo reciente en el que se propone clarificar términos alrededor de este concepto, elabora un interesante cuadro sinóptico del que retenemos esta afirmación:
Use of the term ‘self-plagiarism’ is unhelpful since it implies theft which is nonsensical when applied to one’sown work and conflates acceptable and unacceptable behaviour.
Moskovitz, 2020
4.1. ¿Qué limitaciones afectan al contenido reciclado?
El uso de contenido reciclado no está exento de limitaciones, como ya hemos dicho. Lo que sucede es que, a diferencia del plagio, el uso del contenido reciclado está sujeto a consideración. Por eso es tan importante separar estos conceptos.
La guía señala diversos grados de aceptación según, entre otros, los siguientes dos parámetros principales: (1) el volumen del contenido reciclado y (2) las secciones donde aparece (Text Recycling Guidelines, s.f.):
In general terms, editors should consider how much text is recycled. The reuse of a few sentences is clearly different to the verbatim reuse of several paragraphs of text, although large amounts of text recycled in the methods might be more acceptable than a similar amount recycled in the discussion.
Fuente: Text Recycling Guidelines (s.f.)
Otros enlaces de utilidad:
4.4. Software antiplagio y tesis doctorales
Un punto mal conocido (al que nos hemos referido más arriba) es que una de las bases de datos que utiliza el software antiplagio (al menos en el caso de Turnitin) incluye documentos inéditos, como es el caso de tesis que han sido sometidas a un análisis antiplagio para poder ser defendidas.
Son inéditas porque no se han publicado, ya que los autores pueden acogerse a un embargo de hasta dos años (al menos en algunas universidades). Pese a esto, pasan a formar parte de una de las bases de datos de Turnitin porque han sido examinadas por este programa.
Una de las razones principales de escoger el embargo es para poder publicar artículos que derivan de la investigación original de la tesis. Se trata de investigaciones que pueden ser de enorme calidad, con un verdadero potencial de ayudar a la ciencia y a la sociedad.
El problema es que, si la revista que recibe el manuscrito utiliza un software antiplagio, puede arrojar coincidencias pese a que la tesis de la que deriva, y esto es importante recalcarlo, no se ha publicado. Complicado, pero es así.
En segundo lugar, si las coincidencias no corresponden a plagio, solo tiene sentido determinar a qué corresponde exactamente (¿falsos positivos?; ¿texto reciclado?; ¿una tesis inédita?); y vez determinado, corresponde decidir según proceda (en lugar de establecer un umbral).
En un artículo publicado en Nature, Weber-Wulff (2019) no duda en afirmar lo siguiente:
Software cannot determine plagiarism; it can only point to some cases of matching text. The systems can be useful for flagging up problems, but not for discriminating between originality and plagiarism. That decision must be taken by a person.
Weber-Wulff (2019)
BONUS
Una vez hemos propuesto las clarificaciones anteriores, una sección más, a modo de complemento. La primera parte hace referencia a lo que se denomina «la carga de la prueba«. La segunda es una simple aclaración terminológica. Lo vemos a continuación.
¿Tiene sentido pedir explicaciones a un autor por las coincidencias de un software antiplagio?
No tiene sentido. En su lugar, quien utiliza el software antiplagio es quien debe determinar si las coincidencias corresponden a plagio o a otra cosa, por la misma razón que la carga de la prueba siempre debe recaer en quien acusa (y nunca en el acusado).
Además de una razón ética, hay una razón pragmática. No podemos exigir explicaciones a quien no tiene acceso a los análisis para poder defenderse. Lo contrario conduce, nunca mejor dicho, a situaciones kafkianas donde el acusado, en realidad no puede saber por qué le acusan ya que no tiene acceso a los resultados del análisis: ¿es por unas frases repetidas del marco metodológico de un trabajo anterior ?; ¿es porque el software antiplagio está mal configurado?; ¿es porque se trata de un trabajo de historia del arte y menciona títulos de obras de arte y nombres de galerías y museos?
¿Texto reciclado o contenido reciclado?
El lector atento habrá observado que, mientras la expresión genérica recomendada en inglés, es text recycling, aquí la hemos traducido por contenido reciclado (en lugar de la forma más literal, texto reciclado). La razón es que las secciones recicladas pueden corresponder a texto, efectivamente, pero también a otros contenidos, como tablas, diagramas, etc.
Ciertamente, el software antiplagio solo puede detectar texto, pero esto no debería impedir un uso más preciso del término. Se da la circunstancia que en el mundo anglosajón parecen sentirse cómodos con un uso metafórico del término texto en expresiones como visual text, o como textual analysis, para referirse al análisis de imágenes en ámbitos como la semiótica.
Pero parece que en castellano es más lógico hablar de contenido reciclado si hemos de incluir todas esas categorías. No obstante, al final es cuestión de ver qué término termina teniendo éxito. De momento, nosotros apostamos por el de contenido reciclado.
Conclusiones
El plagio, cuando es realizado voluntariamente es una lacra. Cuando es fruto de un error, es una mala praxis. Aunque se trata de cosas que varían mucho en gravedad, en ningún caso pueden ser aceptadas.
El compromiso contra el plagio es importante, y el software antiplagio puede ayudar mucho. Sin embargo es imprescindible entender que este software no puede detectar plagio, en su lugar, puede detectar coincidencias, que a su vez, pueden ser plagio o no serlo en absoluto.
El software antiplagio debe ser bienvenido. En cambio, su utilización sin un examen minucioso es irresponsable, porque puede causar daños innecesarios. No solo puede llevar a los editores a decisiones equivocadas, sino que puede comprometer de manera injusta, y tal vez irreparable, la reputación de un autor. Por eso, a la vez que celebramos su llegada debemos reclamar responsabilidad en su utilización.
Para saber más
- Moskovitz, C. (2021) «Standardizing terminology for text recyclingin research writing«. Learned Publishing. DOI: 10.1002/leap.1372
- Text recycling guidelines (s.f.) BioMed Central; COPE
- Weber-Wulff, Debora (2019). «Plagiarism detectors are a crutch, and a problem«. Nature 567, 435