Evaluación de inteligencias artificiales generativas en trabajos académicos y profesionales: una taxonomía básica

Cómo evaluar los contenidos de las inteligencias artificiales generativas
Contrastación de contenidos por IAG: una visión global

Las inteligencias artificiales generativas (IAG) pueden agilizar procesos en los que intervenga la producción de contenidos. Por tanto, pueden ser de ayuda tanto en tareas académicas como periodísticas y profesionales, ya que en ambas la producción de contenidos es esencial.

Además, en ambos contextos, los procesos de curación de contenidos son importantes (en el mundo académico los solemos llamar revisiones de la literatura), y por tanto, las IAG aún con más razón pueden ayudar de forma decisiva.

Imperativo categórico

Imperativo categórico de Kant. Fuente: Perplexity. Clic para acceder

Recordemos que, de acuerdo al gran filósofo, un imperativo categórico es algo que debemos hacer siempre, esto es, sin depender de una hipótesis o de un contexto. Nosotros adaptamos el concepto, pero en este caso, es el contexto precisamente el que nos dice que contrastar contenidos se vuelve un imperativo categórico.

¿Cuándo? Los resultados que ponen a nuestra disposición las IAG no se pueden utilizar sin contrastación previa cuando se da esta doble circunstancia:

  • importa que los contenidos sean veraces;
  • forman parte de contenidos que se van a hacer públicos.

Por cierto, esta doble condición la hemos adaptado a partir de este eficaz diagrama:

¿Cuando es seguro usar una inteligencia artificial generativa?
Fuente: Aleksandr Tiulkanov. Clic para ir a la fuente

Por si se lo están preguntando, no importa que sean veraces significa que el contenido es un poema o una obra de ficción, o es una lista de aficiones, etc. En cambio importan que sean veraces siempre que sean tema de tipo YMYL: Your Money, Your Life, que examinaremos más adelante.

Una duda esencial

Una cuestión que surge es que, ante esto, puede parecer necesario despejar el siguiente punto:

Dado que contratar los contenidos que proporcionan las IAG es una operación que consume tiempo y esfuerzos, el uso de IAG ¿agiliza o entorpece el proceso de curación de contenidos?

Pero la respuesta al anterior interrogante, la revisaremos al final. Ahora, en lo que sigue, nos centramos en las operaciones de contrastación que debemos aplicar cuando el imperativo categórico se activa.

Las dicotomías argumentos vs hechos y evaluación vs verificación

Verificación y evaluación de inteligencias artificiales generativas
Evaluación y verificación

Tomamos prestadas las expresiones evaluación y verificación de la lógica y del periodismo respectivamente, pues son las disciplinas que mejor intervienen en cada caso. Las presentamos a continuación:

  • La evaluación es el proceso que ponemos en marcha para examinar argumentos. El instrumento aquí es la lógica formal. En un argumento debemos examinar dos cosas: (1) la estructura y (2) la veracidad. La estructura es la conexión que se da entre las premisas y la conclusión. Si la estructura es correcta, el argumento es válido. La veracidad determina si las premisas son verdaderas o falsas. Si la estructura es válida y las premisas son verdaderas, la conclusión solo puede ser verdadera y entonces el argumento es sólido. Los principios de la lógica que aplicamos a la evaluación de argumentos se puede aplicar a otras formas de construcciones discursivas, como explicaciones o definiciones. Al evaluar explicaciones, podemos utilizar principios lógicos como la consistencia, la coherencia y la conectividad. Al evaluar definiciones, podemos utilizar principios como evitar la circularidad, no usar el término definido, la consistencia, la claridad y la precisión para determinar si la definición es rigurosa y clara.
  • Verificación es el proceso que ponemos en marcha para contrastar afirmaciones factuales. El instrumento aquí es el OSINT. Los hechos son empíricos. P.e., es un hecho empírico que en un año determinado la inflación ha aumentado o ha disminuido. O que el resultado del partido ha sido 0-5, etc. Los hechos dejan registros documentales, esto es dejan una huella informativa. Los hechos entonces se comprueban mediante el acceso a fuentes reputadas, adecuadas o de confianza para sostener o refutar los datos. OSINT son las siglas de Open Source Intelligence y se refieren simplemente (o nada menos) al uso de sistemas de información documentales de forma eficiente (en lugar de buscar testimonios personales o fuentes privilegiadas). En general, usaremos buscadores de internet como Google o Bing, o especializados como Google Scholar o Factiva, según los casos.

Nos queda el segundo par, del que creemos que no hace falta decir gran cosa porque aparecen como parte del primero, pero ahora los examinamos de modo diferenciado:

  • Un argumento es una construcción lógica o discursiva. A veces toma la forma de argumentos, En este caso, se compone de premisas y conclusión. No siempre cada parte bien diferenciada en los argumentos reales, pero mediante la evaluación lo primero que hacer es distinguirlas. Como sea, los argumentos se evalúan. Algo similar debemos intentar hacer ante otras construcciones discursivas aunque no se trate de argumentos en un sentido técnico, sino de explicaciones o de descripciones, etc., como hemos explicado más arriba.
  • Un hecho se concreta en un dato factual o en una serie de datos. P.e, ser la capital de Francia, o la serie de datos de la evolución del desempleo en los últimos años. Los hechos dejan rastro, que en general se manifiesta en alguna clase de registro documental. Como sea, los hechos se verifican.

Una vez armados de estos dos parejas, vamos a presentar ahora otra dicotomía muy relacionada.

Construcción argumental o síntesis narrativa vs fuentes

Análisis de inteligencias artificiales generativas
Componentes de un esquema de análisis de IAG

Cuando examinamos el resultado de una IAG podemos, de modo conveniente, diferenciar entre tres componentes:

  • Construcción argumental
  • Datos factuales
  • Fuentes
Anatomía de la respuesta de una IAG. Fuente: Perplexity. Clic para acceder

Cada uno de estos componentes puede ser contrastado de un modo diferencial. La construcción argumental cae bajo las competencias de la evaluación, mientras que los datos factuales y las fuentes, bajo las de verificación. Vamos a desagregar lo anterior:

  • Construcción argumental: mediante esta expresión intentamos valorar la capacidad de una IA para proporcionar un contenido que permita entender lo mejor posible el tema planteado en el prompt. Lo denominamos así aunque el discurso presentado incluya tanto argumentos en sentido técnico como otras formas de discurso, tales como explicaciones, definiciones, etc. Otro término que usamos en ocasiones es el de síntesis narrativa, según donde nos interese poner el énfasis. A efectos de nuestro análisis, este apartado, ya le llamemos construcción argumental o síntesis narrativa, se compone de los tres elementos que se indican a continuación.
    • Redacción: sirve para medir la calidad de la redacción, considerando también su extensión ya que más, en ese caso, es mejor. El usuario, de este modo, podrá elegir si utiliza todos los contenidos o se limita a una parte. Por supuesto, en algunos casos el usuario puede usar la métrica distinta si necesita una redacción concisa, en cuyo caso deberá especificar en el prompt la longitud máxima. Pero en ausencia de esta declaración, nosotros entendemos siempre como mejor, una mayor extensión.
    • Estructura y consistencia lógica: consiste en evaluar la organización estructural/jerárquica de la respuesta, ya que puede presentarse como un mero conjunto seguido de texto o en cambio, bien articulada mediante apartados. También es esencial, de hecho es crucial, evaluar la validez y la solidez de los argumentos, según hemos visto más arriba.
    • Relación. Este punto es muy importante porque va más allá de presentar síntesis de ideas o conceptos. Se refiere a la capacidad de la IA para expresar la relación entre los conceptos que forman parte del prompt. Se considera evaluando el razonamiento presentado para vincular los conceptos o variables. Por supuesto, este apartado es relevante siempre que el prompt reclame explícitamente presentar algún tipo de relación entre dos o más variables. Este componente puede estar ausente si el prompt no requiere presentar relaciones.
  • Selección de fuentes
    • Relevancia: determina si las fuentes son adecuadas al tema y si son solventes. Es equivalente al criterio E-E-A-T de Google.
    • Número de fuentes: el número de fuentes es importante en curación, porque más fuentes ofrece al autor de la curación un mayor espacio de decisiones para seleccionar y comparar las mismas.

Procesos

Si necesitamos formalizar el proceso, cosa que depende de la sensibilidad del tema y la significación de uso, podemos usar tablas para ir registando los resultados. Pero vamos a aclarar lo de sensibilidad y significación.

  • Sensibilidad: indica si vamos a usar la IAG como fuente para producir contenidos sobre temas que implican aspectos políticos, de salud, económicos, etc. Google, en su política de evaluación de sitios los denomina temas Your Money or Your Life (YMYL).
  • Significación: se refiere al contexto. Esto es, ¿estamos curando contenidos con una IAG para preparar la memoria de un proyecto de investigación, para diseñar una nueva investigación tal vez parte de una tesis doctoral?

Si el uso de las IAG se produce en una situación de sensibilidad y significación a la vez, parece justificado formalizar el proceso de contrastación de la respuesta de la IAG.

Decíamos que podemos usar tablas. La siguiente es un ejemplo de un caso que publicamos en otra ocasión con motivo de un análisis de PI AI, pero que nos va bien recuperar ahora:

Output de PIEvaluación propia
Human Development
Human development is a concept that goes beyond economic growth and focuses on the wellbeing and capabilities of individuals. It encompasses aspects such as health, education, standard of living, and individual freedom and choice. The United Nations Development Programme (UNDP) defines human development as «a process of enlarging people’s choices and enhancing their capabilities to lead lives that they value.»
Completa y totalmente coherente con lo que sabemos del tema y lo que podemos verificar de una manera ágil. Acierta especialmente al vincular el concepto con la Naciones Unidas, el organismo que en realidad acuñó el término «desarrollo humano».
Free Press
A free press refers to a media environment where journalists and media outlets can operate independently and without fear of censorship or retaliation. It’s a key component of freedom of expression, which is a fundamental human right. A free press is essential for holding those in power accountable, promoting transparency and good governance, and enabling citizens to make informed decisions.
Podemos hacer el mismo dictamen del concepto anterior. Una proposición completamente compatible con el grueso de la doctrina aceptada sobre libertad de prensa, y especialmente incisiva.
Relationship between Human Development and Free Press
(1) The free flow of information and ideas is critical for human development as it empowers individuals to make informed decisions about their lives and participate actively in society.
(2) A free press helps expose corruption, injustice, and human rights violations that hinder human development.
(3) Media freedom is associated with better governance, greater transparency, and increased accountability, all of which contribute to human development.
(4) Access to diverse and independent sources of information is essential for fostering critical thinking and innovation, which are key elements of human development.
(5) A free press contributes to social and political stability, which is necessary for sustainable human development.
Un total de 5 puntos de interconexión entre ambos conceptos. Todos y cada uno de ellos, completamente acertados. Puede hacerse la vinculación con otros puntos de vista, pero los que presenta la IAG son totalmente adecuados. En decir, no podemos saber si están todos los que son, pero si podemos decir que son todos los que están.

La tabla puede ser más sofisticada y mucho más articulada, según convenga, pero a efectos de ilustración puede ser ilustrativo el modelo superior.

Las fuentes por su parte pueden verificarse de modo selectivo si la IAG proporciona una lista muy abundante, o pueden verificarse en su totalidad si el contexto lo justifica. La verificación en este caso podría consistir en su forma más elemental, pero seguramente suficiente, en visitar el sitio web y aplicar criterios de verificación basados en la relación temática, por un lado, y la solvencia de la fuente, por otro, por inspección del sitio y de sus páginas de información corporativa.

Otro ejemplo de análisis, puede ser cuando nos convenga comparar las respuestas de dos o más IAG sobre el mismo tema. En este caso, podemos utilizar algún sistema como el siguiente, que utilizamos en otra entrada para comparar tres IAG en un mismo tema:

IARedacciónEstructuraRelaciónFuentesT
Bard55534,5
Copilot
Microsoft
54434
Perplexity54554,7

Tabla comparativa de las IA generativas Bard, Copilot y Perplexity

Usos en procesos de enseñanza/aprendizaje

Elementos como los anteriores se pueden utilizar en procesos de enseñanza/aprendizaje cambiando lo que convenga. El profesor puede encargar la resolución de un determinado tema (en lugar de la redacción convencional) y los estudiantes pueden tener la tarea de aportar un informe sobre el tema después de un proceso de curación con uso de una o varias IAG y de aplicar criterios de evaluación/verificación.

La duda esencial

La idea básica es que las IAG deben servir para agilizar procesos. Nos podemos preguntar entonces si tiene sentido usar los contenidos de una IAG solo después de estos procesos de evluación/verificación.

Nuestra hipótesis es que sí, incluso con los procesos que cabe añadir, el uso de las IAG es un acelerador porque es mucho más rápido:

  • verificar/evaluar contenido que crearlo de nuevo por procesos tradicionales;
  • partir de una hipótesis ya formulada de la muy aceptable calidad y solidez como el que dan las mejores IAG, que empezar de cero con el síndrome del papel en blanco.

Al menos por esos dos motivos, y seguramente hay otros que hemos obviado, incluso con los procesos añadidos de contrastación, el uso adecuado de IAG puede agilizar mucho los procesos de curación de contenidos.

Conclusiones: work in progress

Lo que hemos presentado son solamente unas primera ideas que seguramente necesitan mejoras y refinamientos, pero esperamos que sean útiles al menos para dar unos primeros pasos, ya sea en el uso de IAG para curación profesional o académica, o como parte de procesos de enseñanza/aprendizaje en los que pensemos introducir el uso crítico de sistemas de IAG.

Como temas pendientes, queda una entrada sobre IAG y ética, y otra más sobre IAG y pensamiento crítico. Poco a poco. Si quiere enterarse por correo cuando sean publicadas en las próximas semanas, puede suscribirse para recibir las novedades de este sitio.

Bonus 1: algo sobre lógica

Para aspectos de evaluación de argumentos, la lógica formal es el mejor instrumento. Todos conocemos, de forma más o menos intuitiva, aspectos básicos de lógica, como el principio del tercero excluído o el criterio de la verdad por correspondencia (ver Bonus 2).

Pero si queremos fortalecer el pensamiento crítico, tanto el estudio de la lógica formal, esto es, el estudio de la estructura de los argumentos, como de la informal, esto es, el estudio de las falacias (ver Bonus 2) nos puede ayudar mucho.

En mi caso, algunas de las obras que me han sido de mayor ayuda, por si a alguien más le interesan, son las siguientes:

  • Arnold vander Nat. Simple formal logic with common-sense symbolic techniques. Routledge, 2010.
  • Siu-Fan Lee. Logic: A Complete Introduction. John Murray Press. 2017
  • Manuel Garrido. Lógica simbólica. Tecnos, 2001

Afortunadamente, el lector interesado dispone de una gran abundancia de manuales sobre lógica formal o lógica simbólica donde elegir si los anteriores no están a su alcance, así como dispone de numerosos tutoriales y cursos, algunos gratuitos, en internet, destacando alguno canales especialmente notables de YouTube.

Mi consejo, para los interesados en utilizar de forma consciente las IAG, y más si van a tener responsabilidades docentes sobre el tema, es que en paralelo a formarse sobre el uso de las IAG, adquieran formación en lógica y en pensamientos crítico.

Bonus 2: principios básicos y falacias

  • Tercero excluido: una proposición puede ser verdadera o falsa, pero no ambas. Afirmar a la vez A y no A en la misma proposición es una contradicción, y de una contradicción se puede seguir cualquier cosa.
  • La verdad por correspondencia: se trata de uno de los criterios de verdad que se manejan en filosofía (aunque hay otros). El criterio por correspondencia se remonta a Aristóteles, pero ha sido formalizado mediante lógica matemática en el S XX por Tarski. Se puede enunciar diciendo que una proposición es verdadera si y sólo si hay al menos un estado de hechos que corresponde con la proposición. P.e., la proposición «la nieve es blanca» es verdadera si y sólo si, la nieve es blanca. El formalismo del S XX la llevó a ser enunciada así: «P es verdadero si P». De paso, esto nos lleva a señalar que en lógica, la verdad o falsedad se predica siempre de una proposición. Lo que enlaza con el primer punto, según el cual una proposición es un tipo de enunciado que solo puede ser verdadero o falso. Se diferencian de deseos, preguntas, órdenes y otros tipos de enunciados que no son proposiciones.
  • Falacia: una falacia es un razonamiento falso pero con la apariencia de ser válido. Que sepamos, no hay una lista cerrada de ellas, aunque sí hay listas de las más conocidas. De estas, la más tristemente conocida seguramente es la falacia ad hominen en la que se ataca a la persona que enuncia el argumento en lugar de atacar el argumento. Es utilizada continuamente en política. Y esto nos dice mucho, por desgracia, no solo de los políticos, sino también -y sobre todo- de los votantes.

Bonus 3: la verdad absoluta

No existe. Ni nos hace falta. Los seres humanos nos movemos en base a las mejores evidencias disponibles en cada momento, y con eso nos debe bastar porque no hay otro remedio. Quienes ponen todo en duda porque no tenemos a acceso a la verdad absoluta están siendo sistemáticamente contradictorios si se quejan cuando se sienten sometidos a una injusticia. No tenemos acceso a la verdad absoluta, pero no la necesitamos para conducir nuestras vidas con honestidad y respeto a los valores humanos. La mejor evidencia disponible en cada momento es lo que tenemos que buscar y promover. No la verdad absoluta. Tampoco tienen razón los teóricos que afirman que la objetividad es imposible en el periodismo. En el periodismo, la objetividad está en el método y es perfectamente posible hacer y defender un periodismo que respeta la verdad, cosa que no es lo mismo que hacer un periodismo imparcial.


Para saber más sobre IA en contextos académicos