Cómo utilizar contenidos generados por IA en trabajos académicos: evaluación, atribución y transparencia

Diagrama del uso de inteligencias artificiales generativas en la academia
Diagrama del uso de buscadores con IA en la academia

Debemos utilizar la inteligencia artificial en entornos académicos. Prohibir su uso no tiene sentido, y sobre todo no tiene futuro. Esta es la conclusión unánime de todos los actores significativos (p.e. la Unesco), cada vez que se han pronunciado al respecto a través de sendos informes.

Sin embargo, aunque estos informes constituyen referentes obligados, no suelen descender a aspectos operativos, más allá de señalar la obligación de mantener una perspectiva ética y aplicar la buena conducta académica, algo que por otra parte debemos dar por supuesto.

En esta entrada presentaremos la propuesta de un marco de uso de inteligencias artificiales generativas en la academia. El marco se ajusta a la idea de usar las inteligencias artificiales generativas (GenAI) de una forma que sea fiable, transparente y trazable, y sobre todo acorde con la ética y las buenas prácticas académicas habituales en la producción de trabajos cuando implican el uso de fuentes y por tanto, el uso de ideas y contenidos producidos por terceros.

Contexto de la IA en entornos académicos

Para situar el marco en su contexto, véase que el uso de la inteligencia artificial generativa puede referirse a cosas muy diferentes. En concreto, la GenAI puede utilizarse al menos para las siguientes actividades académicas:

  1. Planificación. Por ejemplo, para obtener ideas para enfocar una nueva investigación o para planificar el desarrollo de un proyecto, o para preparar una presentación.
  2. Análisis. Por ejemplo, para realizar análisis de entrevistas cualitativas.
  3. Información. Obtención de informaciones concretas o de datos factuales.
  4. Generación. Producción de contenidos de tipo textual-discursivo, susceptibles de ser usados como parte de los contenidos en la versión final de un trabajo académico.

Es evidente, o al menos así nos lo parece a nosotros, que mientras los usos 1 a 3 tienen un encaje más o menos fácil en los procesos de producción de trabajos académicos, no sucede lo mismo con el uso número 4, esto es, cuando tratamos con la generación de contenidos sintéticos.

El dilema

La generación de contenidos está en el núcleo de las preocupaciones principales, pues es el que presenta mayor riesgo moral. Se da la circunstancia de que, a la vez, es el uso más significativo de las nuevas inteligencias artificiales que, no por casualidad, se denominan generativas. Ahora bien, ¿generativas de qué? De contenidos sintéticos, tal como se les denomina ahora.

Los dilemas proceden del uso de esos contenidos como parte componente de la versión final de trabajos académicos, p.e., como parte de una tesis doctoral, de un TFM o incluso como parte de un artículo científico. Por un lado, una praxis inadecuada puede equivaler a plagio, y por otro lado, la falta de evaluación o verificación puede conducir a la publicación de trabajos académicos con datos equivocados o razonamientos absurdos.

Ahora bien, la academia tiene un conjunto de buenas prácticas, totalmente aceptadas internacionalmente, respecto a la forma de incorporar contenidos producidos por terceros en un trabajo académico. Son las prácticas de atribución, citación y referencia. Se trata de encontrar la forma de reducir el problema del uso de una IA a las soluciones existentes que acabamos de mencionar.

En lo que sigue, presentamos la propuesta de un posible marco de utilización de la inteligencia artificial generativa o GenAI (por Generative Artificial Intelligence) en trabajos académicos.

IA constitucional

Pero antes de presentar el marco, debemos considerar antes unos principios constitucionales del uso de la IA en la academia que son los siguientes:

  • Ética. Los principios éticos fundamentales que se aplican a la academia y la investigación científica son los de beneficencia, no maleficencia, justicia y autonomía. En el caso específico que nos ocupa, implica que las GenAI no pueden ser consideradas autoras o coautoras, sino exclusivamente parte de la metodología o parte de las fuentes (o ambas). También implica transparencia y trazabilidad en el uso de GenAI en trabajos académicos.
  • Monitorización. El uso de la GenAI en trabajos académicos debe contar, o bien con autorización genérica si existen normativas al respecto, o bien con autorización específica de los responsables involucrados (p.e, directores, tutores, coordinadores académicos, escuela de doctorado, etc.), según corresponda en cada caso.
  • GenAI elegibles. Uso de inteligencias artificiales generativas que aporten fuentes como como parte integrante de sus respuestas si vamos a incorporar contenidos generados por la IA como parte del trabajo final.

Una vez expresados los principios rectores anteriores, vamos a proponer un marco de trabajo que desciende a niveles operativos.

La clave para la construcción de este marco consiste en aplicar el método de origen matemático que consiste en reducir los nuevos problemas a soluciones anteriores bien probadas, cuando estas ya existen. En concreto, Veritas adapta las prácticas de atribución, cita y referencia al uso de IA en la academia.

Marco de utilización de contenidos producidos por inteligencias artificiales generativas en trabajos académicos


El marco tiene estos componentes:

  • Declaración sobre la tipología de IA elegibles
  • Caracterización de la anatomía de la respuesta de una IA elegible
  • Establecimiento de las fases y procedimientos de trabajo

Declaración de IA elegibles

Para poder incorporar contenidos generados por la IA en el trabajo final, se consideran elegibles los sistemas o modelos de GenAI que:

  • Fuentes. Aportan fuentes o bien como parte integrante de sus respuestas, o bien a requerimiento del usuario, aunque siempre es preferible que las fuentes se ofrezcan por defecto como parte de la respuesta, lo que previene mejor mala praxis.
  • Conectividad. Vinculan las diferentes proposiciones o argumentos que forman la síntesis narrativa con una o más fuentes. Esto es, no es suficiente con que aporten una lista de fuentes, sino que estas deben estar conectadas a las secciones de la síntesis narrativa que corresponda en cada caso.

Se consideran IA preferentes las que, además:

  • Añaden transparencia y orientan sobre los procesos utilizados, p.e. sobre las fases seguidas en su proceso para genera la síntesis narrativa o sus razonamientos proporcionados.

Lista orientativa de GenAI elegibles:

No podemos establecer una lista cerrada de GenAI elegibles ya que esta puede modificarse, ampliarse o reducirse, por tanto lo anterior es solo una lista parcial de modelos de IA que aportan las condiciones necesarias,

¿Qué hay de ChatGPT? La dicotomía modelo vs interfaz

Aquí es necesario recordar la diferencia entre el modelo de IA y su sistema o interfaz de uso. En concreto, GPT es un modelo de IA que está presente a través de diferentes sistemas o interfaces. Bajo ChatGPT no es elegible en el marco de trabajo Veritas, en cambio GPT es perfectamente elegible bajo otras interfaces como Perplexiy, Phind, You, etc.

Por otro lado, el marco de trabajo Veritas no se ocupa de todos los usos de la IA en la academia, sino únicamente en el caso de incorporar contenidos a trabajos académicos tales como tesis doctorales, trabajos de fin de máster o similares. Hay muchas otras posibilidades de uso de una GenAI, y en muchos de estos usos ChatGPT puede ser perfectamente elegible, ya que en muchos de estos usos, el output de ChatGPT no va a formar parte directa de la versión final de un trabajo académico. Por mencionar un ejemplo que nos afecta directamente, nosotros mismos hemos utilizado ChatGPT para el análisis cualitativo de entrevistas.

Los buscadores con IA pueden cambiarlo todo

Otra cuestión importante es diferenciar entre un modelo de IA y un buscador con IA. Los modelos de IA no están concebido originalmente para ser usado como buscadores. De aquí, que modelos como GPT de OpenAI o Gemini de Google no sean muy eficaces a la hora de proponer fuentes. Sin embargo, hace ya tiempo que sistemas como Perplexity, Phind, Scopus AI y otros han demostrado que se pueden unir ambas cosas: la búsqueda + la IA.

Es esta nueva generación de IA, asociadas con buscadores o mejor aún, con bases de datos académicas, como es el caso de Elicit y de Scopus AI, la que lo cambia todo y hacen que las IA se puedan utilizar de forma ética y segura para aportar contenidos a trabajos académicos.

Anatomía de la página de resultados de una IA

Como sea, la cuestión que nos interesa es que una página de resultados de un buscador con AI, presenta esta estructura:

  • Síntesis narrativa
  • Fuentes
  • Nuevos prompts

La síntesis narrativa es un texto de tipo discursivo que está formado por un conjunto de frases y párrafos. Estas frase pueden consistir en proposiciones, razonamientos, descripciones, definiciones, instrucciones, procedimientos, etc. Es la parte de la respuesta susceptible de ser incorporada (previa verificación y atribución) como componente parafraseado o literal de un trabajo académico, siempre atribuido, citado y referenciado.

Las fuentes deben estar claramente identificadas y vinculadas con los diferentes apartados de la síntesis narrativa. No es suficiente (aunque es mejor que nada) con una lista final, sino que debe haber una vinculación entre la síntesis narrativa y las fuentes.

Los nuevos prompts son una forma de ampliar o de redirigir el foco de interés y son uno de los mejores recursos de las IA para ayudar a acelerar o agilizar procesos, así como para asegurar una adecuada comprensión del tema objeto de estudio.

Establecimiento de fases

Para las siguientes fases, damos por supuesto que se ha llevado a cabo una operación de búsqueda con una GenAI a partir de un prompt determinado, o de una serie de prompts. Damos por supuesto, que el prompt (o prompts) ha generado una respuesta relevante y que esta respuesta incluye (1) una síntesis narrativa y (2) un conjunto de fuentes primarias. Los nuevos prompts añaden posibilidades adicionales, pero lo fundamental son los dos componentes iniciales señalados.

Entonces, a partir de un resultado consolidado obtenido tras uno o más prompts, cuando tienen sentido las fases que se presentan a continuación. Recordamos que las fases que presentamos a continuación se sitúan bajos los principios de la IA constitucional.

Las fases de aplicación del marco de trabajo entonces son las siguientes:

  1. Evaluación. Lectura crítico/evaluativa de la síntesis narrativa. Identificación y selección de las ideas (conceptos, teorías, modelos, proposiciones) útiles principales. Verificación de datos factuales, en su caso. Identificación y selección de las fuentes primarias.
  2. Fuentes. Consulta y manejo de las fuentes primarias asociadas a los contenidos seleccionados.
  3. Contenidos. Incorporación de los contenidos que han sido evaluados y seleccionados (conceptos, modelos, teorías, datos factuales, etc.), bajo la condición que corresponda mejor según su naturaleza. Para cada contenido optamos por la forma de incorporación (b) como cita literal o (b) parafraseada.
  4. Atribución. Aplicación de las buenas prácticas habituales de atribución, citación y referencia de los contenidos incorporados, bien sea como cita literal o parafraseada. Las ideas ajenas así utilizadas las atribuiremos a la fuente correspondiente mediante el sistema parentético (autor, año) o similar. En la lista de las referencias deberán figurar todas las fuentes citadas en el cuerpo del trabajo. En el caso extremo de que no podamos atribuir alguno de los contenidos a ninguna de las fuentes, lo atribuiremos a la IA como fuente en sí misma, usando las normas de citación para estos casos (ver APA, p.e.)
  5. Transparencia. En la metodología o apartado equivalente señalaremos el uso de la GenAI como parte de la metodología y/o como fuente. En los anexos o como parte del data set del trabajo incluiremos todos los datos significativos del uso de la IA, en concreto, el prompt o prompts utilizados y sus respuestas. Si la IA lo permite, podemos incluir la URL de cada prompt y las respuestas.

¿Donde podemos incorporar los contenidos de una GenAI?

No parece que podamos limitar a priori el locus de un trabajo académico donde incorporar los contenidos de una IA, pero, también a priori, parece que el más adecuado parece ser en el marco teórico y en el marco metodológico.

En efecto, si concebimos a las IA como agilizadoras de procesos, uno de sus lugares de uso privilegiado probablemente sea como asistencia para la generación de marcos teóricos, así como en la de marcos metodológicos. Se trata de componentes de todo trabajo académico que probablemente, en el futuro, se construirán siempre o de modo preferente con IA. Podemos imaginar entonces un escenario futuro donde todo trabajo académico deberá justificar con qué prompt y con qué IA ha generado su marco teórico, etc,

Conclusiones

Hemos propuesto las bases para la utilización de contenidos sintéticos producidos por inteligencias artificiales generativas de una forma que sea ética, responsable, transparente y trazable. Es una propuesta aún en plena progresión, pero que no obstante, puede ayudar a tomar decisiones.

Se trata de un marco que establece unos principios constitucionales y se adhiere a las buenas prácticas de atribución, citación y referencia ampliamente aceptadas en los trabajos académicos.

En su versión actual proporciona un marco de trabajo muy general y sin descender a los detalles. En futuras versiones pueden desarrollarse más cada dimensión, sobre todo a partir de casos en los que se haya aplicado y hayan podido detectarse casuísticas no contempladas, posibles incompatibilidades, etc. Esperamos, por tanto, abrir una nueva línea con este marco de trabajo por lo que nuestra previsión es ir presentando nuevos desarrollos.

BONUS 1 · Atribución, cita y referencia

En los trabajos académicos el uso ético y la buena praxis en la utilización de ideas y contenidos de terceros exige tres componentes:

  • Atribución. Esto significa que las ideas o contenidos ajenos deben ser adecuadamente identificados a fin de ser separados de los contenidos propios y ser atribuidos a terceros, es decir, a otros autores u otras fuentes.
  • Cita. Implica identificar la fuente, en general, mediante el sistema parentético autor/año, pero en realidad el formato de la cita es lo de menos, puede ser mediante número o notas al pie. La cuestión es que la atribución necesita quedar asociada a una forma de citación.
  • Referencia. Significa que cada cita en el cuerpo del trabajo se vincula con una referencia completa bien formada (autor, año, fuente, DOI, etc.).

Son necesarias las tres cosas si queremos evitar plagios. Hay una modalidad de plagio que consiste en añadir las referencias de los trabajos utilizados, pero no en añadir la cita en el cuerpo. Otras consisten en añadir la cita, pero no marcar la atribución, etc.

BONUS 2 · Terminología

La terminología todavía es dudosa. Nosotros utilizamos las siglas IA que obviamente significan Inteligencia Artificial. Pero también GenAI que es la contracción de la expresión anglosajona Generative Artificial Intelligence. Nos parece que es una sigla más conocida que el equivalente en castellano, que sería IAGen. Por otro lado, diferenciamos entre modelo de IA e interfaz de usuario. El caso más claro lo tenemos en ChatGPT que usa como modelos de IA a GPT3.5, GPT4 y GP4 Plus. También es el caso de Perplexity, que es un buscador con IA que utiliza varios modelos de IA, entre otros GPT, Claude y Mistral. También tenemos el caso del término contenidos sintéticos, que está empezando a utilizarse para referirse a contenidos generados por las IA. ¿Se va a consolidar esta expresión? Aún no podemos estar seguros.


Repositorio de informes sobre uso de IA


Otras entradas relacionadas con el uso de modelos de IA en trabajos académicos o de curación de contenidos


Otras referencias relacionadas

  • Aguilera Cora, E., & Codina, L. (2023). Use of Scopus and WoS in literature reviews for doctoral theses: a case study illustration.
  • Apablaza-Campos Alexis; Codina, Lluís (2023). ChatGPT en medios digitales: experiencias periodísticas con inteligencia artificial generativa. Barcelona: Universitat Pompeu Fabra, Departament de Comunicació. https://doi.org/10.31009/cr.2023.07
  • Aydın, Ö., & Karaarslan, E. (2022). OpenAI ChatGPT generated literature review: Digital twin in healthcare. Available at SSRN 4308687.
  • Codina, L. (2022). Cómo utilizar ChatGPT en el aula con perspectiva ética y pensamiento crítico: una proposición para docentes y educadores, https://www.lluiscodina.com/chatgpt-educadores/
  • Codina, L; Garde, C. (2023). Uso de ChatGPT en la docencia universitaria: fundamentos y propuestas. https://repositori.upf.edu/handle/10230/57015
  • Codina, L., Lopezosa, C., & Freixa Font, P. (2021). Scoping reviews en trabajos académicos en comunicación: frameworks y fuentes. In Larrondo Ureta A, Meso Ayerdi K, Peña Fernández S, editores. Información y Big Data en el sistema híbrido de medios-XIII Congreso Internacional de Ciberperiodismo; 15-17 nov 2021; País Vasco.[Leioa]: Universidad del País Vasco; 2021. p. 67-85.. Universidad del País Vasco.
  • Comisión Europea (2020). Libro blanco sobre la inteligencia artificial: un enfoque europeo orientado a la excelencia y la confianza https://eur-lex.europa.eu/legal-content/ES/TXT/?uri=CELEX:52020DC0065
  • Elsveier. (n.d.). Scopus AI: Change the way you view knowledge  https://www.elsevier.com/products/scopus/scopus-ai
  • Franganillo, J. (2023). La inteligencia artificial generativa y su impacto en la creación de contenidos mediáticos. methaodos. revista de ciencias sociales11(2), 15.
  • Guida, G.; Mauri, G. (1986). Evaluation of natural language processing systems: Issues and approaches. Proceedings of the IEEE. 74 (7): 1026–1035. doi:10.1109/PROC.1986.13580 
  • Hajkowicz, S., Sanderson, C., Karimi, S., Bratanova, A., & Naughtin, C. K. (2023). Artificial intelligence adoption in the physical sciences, natural sciences, life sciences, social sciences and the arts and humanities: A bibliometric analysis of research publications from 1960-2021. Technology in Society74, 102260. https://doi.org/10.1016/j.techsoc.2023.102260
  • King, M. R., & chatGPT. (2023). A Conversation on Artificial Intelligence, Chatbots, and Plagiarism in Higher Education. Cellular and Molecular Bioengineering, 1-2.
  • Kung, T. H., Cheatham, M., Medinilla, A., ChatGPT, Sillos, C., De Leon, L., … & Tseng, V. (2022). Performance of ChatGPT on USMLE: Potential for AI-Assisted Medical Education Using Large Language Models. medRxiv, 2022-12.
  • Llaneras, K.; Rizzi, A.; Álvarez, J. (2023) ChatGPT es solo el principio: la inteligencia artificial se lanza a reorganizar el mundo, elpais.com, https://elpais.com/sociedad/2023-01-29/chatgpt-es-solo-el-principio-la-inteligencia-artificial-se-lanza-a-reorganizar-el-mundo.html
  • Lopezosa, C.; Codina, L.; Ferran-Ferrer, N. (2023) ChatGPT como apoyo a las systematic scoping reviews: Integrando la inteligencia artificial con el framework SALSA Barcelona: Universitat de Barcelona
  • OpenAI (2022) https://openai.com/blog/chatgpt/
  • Scopus. (n.d.). https://scopus.com
  • Shieh, J. (2023). Best practices for prompt engineering with OpenAI API, OpenAI
  • https://help.openai.com/en/articles/6654000-best-practices-for-prompt-engineering-with-openai-api
  • Transformer, C. G. P. T., & Zhavoronkov, A. (2022). Rapamycin in the context of Pascal’s Wager: generative pre-trained transformer perspective. Oncoscience, 9, 82.
  • Van-Dis, E. A. M., Bollen, J., Zuidema, W., van Rooij, R., & Bockting Alo, C. L. (2023). ChatGPT: five priorities for research. Springer Nature, vol.614, 224-226 https://www.nature.com/articles/d41586-023-00288-7
  • Wang, S., Scells, H., Koopman, B., & Zuccon, G. (2023). Can ChatGPT Write a Good Boolean Query for Systematic Review Literature Search?. arXiv preprint arXiv:2302.03495.
  • Xataca (2023) ChatGPT ya aparece como autor de artículos de investigación científica: la debacle de si una IA puede ayudar a hacer ciencia, xataca.com https://bit.ly/3Ibz2C0