Análisis comparativo de Perplexity, Phind, Copilot y Bard: ¿qué IA resuelve mejor un problema de curación de contenidos?

Resultado del análisis comparativo en curación de contenidos de 4 inteligencias aritficiales
Ordenación obtenida del análisis comparativo en curación de contenidos. Siga leyendo para saber más. Clic para ir a la tabla de resultados.

En este trabajo nos proponemos comparar 4 inteligencias artificiales generativas: Perplexity, Phind, Microsoft Copilot y Google Bard, usando un mismo prompt y un esquema de análisis comparativo unificado.

Para este análisis comparativo tomamos como escenario de fondo, en primer lugar, las necesidades de información características de profesionales de la comunicación, como periodistas y profesionales del sector audiovisual, así como las de tantas profesiones que son intensivas en información.

La curación de contenidos como criterio

En segundo lugar, adoptamos la perspectiva de la curación de contenidos, en lugar de la búsqueda simple. La curación de contenidos presupone una estrategia en la cual la información conseguida forma parte de un proceso más amplio de evaluación y de verificación de las fuentes.

Con estos dos elementos, vamos a plantear un mismo prompt a las 4 inteligencias artificiales generativas (IAG) y después aplicaremos una variación del esquema de análisis que ya habíamos propuesto en otros lugares (ver más información aquí y aquí).

El marco de la curación de contenidos: in maiore minus inest

Una cosa buena que tiene el marco de la curación de contenidos es que nos enseña a usar la búsqueda con objetivos ambiciosos. Y como asegura el dicho clásico, in maiore minus inest («quien tiene lo más, tiene lo menos»).

Cuando sabemos lo más, lo podemos escalar fácilmente hacia abajo, pero al revés no funciona igual. Entonces, si adoptamos esta visión, nos sirve para todo, literalmente, cosa que incluye otros escenarios, como el académico, p.e.

La metodología del análisis

El análisis consiste en evaluar, por un lado, la calidad de la síntesis narrativa, la relevancia de las fuentes y el carácter incisivo de los prompts sugeridos por las IAG. Por otro lado, también evaluaremos las facilidades de exportación de cada IAG y cualquiera otras que pueda presentar.

El prompt para el test

Vamos a usar un prompt del ámbito de la comunicación social, y en concreto del periodismo. Vamos a suponer que en la redacción de un medio local se encarga a un pequeño equipo que preparen un estudio sobre el periodismo de soluciones. Si a alguien le gusta más pensar que se trata de un encargo académico, el escenario sirve por igual. El prompt que usaremos, de tipo Chain of Thought, es el siguiente:

Primero, describe las principales características del periodismo de soluciones. Segundo, detalla las principales características del periodismo local. Tercero, argumenta cómo el periodismo de soluciones puede ayudar al periodismo local a mejorar su audiencia, y presenta algunos ejemplos de buena relación del periodismo de soluciones con el periodismo local. Finalmente, recomienda fuentes de autoridad en Internet relacionadas con este tema.
Prompt para los análisis. Fuente: elaboración propia

El problema de curación de contenidos que deben resolver las IAG

Véase que el prompt implica que las IAG han de saber resolver aspectos muy importantes:

  • Primero: tienen que saber organizar la respuesta en diferentes apartados.
  • Segundo: uno de los apartados (el tercero) debe ser de tipo relacional, esto es debe ser capaz de intersectar dos temas diferentes.
  • Tercero: tienen que presentar algún caso o ejemplo.
  • Cuarto: debe proporcionar fuentes de información de autoridad sobre el tema.

Todo lo anterior nos permitirá hacer un análisis comparativo (relativamente) fácil. Una observación importante: este análisis no es sistemático y no tiene validez científica. Pero creemos que es significativo y ayuda a dar a conocer mejor las características de cada sistema. Al menos, a efectos de trabajos de curación e incluso trabajos académicos.

Documentar el análisis

Elementos de análisis para comparar IAG en curación de contenidos
Elementos de análisis

¿Cómo documentaremos el análisis? Para no cargar esta página con las respuestas literales, ni con un excesivo número de capturas de pantalla, la documentación de cada análisis se hará así:

  • Capturas de:
    • tercer y cuarto apartados de la respuesta, por ser los más exigentes desde el punto de vista de la «imitación» del pensamiento;
    • las fuentes, por la importancia vital para la curación;
    • los nuevos prompts sugeridos, por su potencial de nuevas interacciones que acaben aportando información mucho más completa, para aportar otras dimensiones, etc.
  • Enlace a la página de resultados de cada IAG donde el lector podrá encontrar la totalidad de cada una de las respuestas literales.

ANÁLISIS COMPARATIVO:
PERPLEXITY, PHIND, BARD Y COPILOT


RESULTADOS DE LA COMPARATIVA

Vamos a adelantar el resultado global y después los interesados tendrán todos los datos, caso por caso. El resultado final del análisis comparativo lo muestra la siguiente tabla:

IAGR.E.F.P.U.T
PERP.5353521
PHIND4325418
BARD400048
COPIL.3332415
Resultados de los análisis

Notas

IAG: Inteligencias artificiales generativas
R: Relación
E: Ejemplos o casos
F: Fuentes
P: Prompts
U: Utilidades
T: Puntuación total de cada IAG

Como se ve, la que mejor desempeño ha tenido es Perplexity, seguida de cerca por Phind. La que peor rendimiento tuvo fue Bard de Google. En un punto intermedio tenemos a Copilot de Microsoft. En las conclusiones ofreceremos más comentarios. A continuación, los resultados de cada IAG.

1- PERPLEXITY

1.1. La relación según Perplexity

1.2. Casos o ejemplos según Perplexity

1.3. Fuentes aportadas por Perplexity

Fuentes proporcionadas por Perplexity muestran una especial adecuación a la curación de contenidos

1.4. Nuevos prompts sugeridos por Perplexity

1.5. Enlace a la respuesta completa de Perplexity

2. PHIND

2.1. La relación según Phind

2.2. Casos o ejemplos aportados por Phind

2.3. Fuentes aportadas por Phind

2.4. Nuevos prompts aportados por Phind

Los prompts sugeridos por Phind son idóneos para un proceso de curación de contenidos.

2.5. Enlace a la respuesta completa de Phind

3. BARD DE GOOGLE

3.1. La relación según Bard

3.2. Casos o ejemplos aportados por Bard

Este caso requiere un comentario: los dos primeros ejemplos o casos creemos que son alucinaciones. En todo caso, hemos sido incapaces de verificar esos ejemplos. Búsquedas convencionales no han aportado nada al respecto. Casi seguro son alucinaciones.

El tercero solo se corresponde en parte. Pero al ser los dos primeros ejemplos, con casi total seguridad, alucinaciones, en la tabla le hemos asignado un 0 como penalización por este hecho.

3.3. Fuentes

Un comentario similar, por desgracia, con el parámetro anterior: no es admisible que no haya sido capaz de aportar ni un enlace. Los recursos son relevantes, pero es penosa la leyenda: <se quitó una URL no válida>, es toda una declaración de impotencia.

3.4. Nuevos prompts sugeridos por Bard

¿Algo ha visto algo? Porque nosotros no… O sea, no aporta nuevos prompts. Tira por la ventana una posibilidad tan sumamente potente, ¿por qué razón? Un misterio para nosotros.

3.5. La respuesta completa de Bard

COPILOT DE MICROSOFT

4.1. La relación según Copilot

4.2. Casos o ejemplos según Copilot

4.3. Fuentes

En el caso de Copilot de Bing, la lista de fuentes no es especialmente adecuada para curación de contenidos. Tiene pocos enlaces a sitios de autoridad

4.4. Nuevos prompts

Por su parte, la sugerencia de prompts de Bing es poco adecuada para procesos de curación de contenidos

4.5. Enlace a la respuesta completa de Copilot

¿Por qué no está GPT4?

lo está. GPT4 es el modelo de IAG que usan Copilot, Perplexity (además de otras) y Phind (además de la suya propia). Lo que no está es ChatGPT, que es la interfaz de uso nativa de GPT. El motivo es que requiere suscripción de pago para usar su último modelo (GPT4) mientras que las IAG examinadas no requieren suscripción de pago para usar GPT4 u otros modelos propios (aunque tienen restricciones del número de usos en las versiones gratuitas).

Uno de nuestros escenarios de trabajo reales son los procesos de enseñanza/aprendizaje. En estos contextos son inviables los sistemas que carecen de versiones gratuitas. En estos contextos, solo podemos usar esta clase de sistemas, aunque tengan limitaciones. La versión 4 de GPT4 no tiene opciones, ni siquiera limitando el número de usos. Incomprensible para nosotros. Por otro lado, GPT3 parece ya excesivamente limitada por su anclaje en el tiempo. Para hacer simulaciones realistas en las aulas intentamos usar en cada caso la mejor versión.

Meta-síntesis narrativa como resultado final de la curación de contenidos

Meta-síntesis narrativa

Hemos presentado por separado las síntesis narrativas de cada IAG, pero en un trabajo real, nada nos debería impedir unificarlas y generar una meta-síntesis narrativa, con elementos de solapamiento eliminados (eliminar redundancias) y debidamente combinados los diferenciables (unificar dimensiones).

Sería un resultado mucho más completo y mucho más lógico. Eso sí, esta meta-síntesis no debería hacerse sin evaluar los argumentos y verificar los ejemplos, casos y fuentes.

Conclusiones

Ya avanzamos que la mejor IAG para resolver problemas de curación de contenidos sigue siendo Perplexity. Seguida cada vez más de cerca por Phind. Incomprensible la posición de Bard, rozando el ridículo en tres de los apartados. Un papel intermedio, pero poco lucido en todo caso el de Copilot de Microsoft.

En el apartado de limitaciones, debemos señalar de nuevo que esto no es un resultado científico. Pero, ¿es significativo? Que juzgue cada uno. Con todas sus limitaciones, nosotros creemos que es significativo.

Cabe decir que no hemos ponderado las métricas. Hemos puesto en todos los casos una puntuación de 0 a 5, pero está claro que un sistema más sofisticado podría ponderar de manera que algunos parámetros (p.e. los dos primeros) tuvieran más pesos. En futuras ocasiones nos lo plantearemos. Pero con ponderaciones, el ranking sería el mismo en el caso que nos ocupa.

Por supuesto, otra limitación importante es que ignoramos si estos rendimientos relativos se repiten en ámbitos o temas diferentes. Seguramente no. Al contrario, es casi seguro que en otras pruebas algún resultado se invierta. Cada uno puede extrapolar pruebas similares en sus ámbitos y ver cómo se desempeña cada IAG.

Unas palabras adicionales sobre los ganadores. Phind es una IAG cada vez más avanzada, y en todo caso es la que presenta una interfaz más limpia y usable, al menos según nuestra opinión. Perplexity sigue incorporando funciones y su sistema interactivo, Copilot, es realmente útil para trabajos académicos o de cualquier tipo donde se requiera una cierta profundidad temática. Además, añade funciones exclusivas como el análisis de PDF o la posibilidad de poner el foco en espacios de búsqueda específicos como Youtube o el académico. Tanto Phind como Perplexity están mostrando cómo debe ser la búsqueda del siglo XXI.

Queda la gran pregunta, ¿sustituyen estos sistemas la búsqueda convencional de Google? Creo que no. Son cosas aún distintas. Los resultados de Google tienen sentido en tanto se trata de un sistema de recuperación de información. Lo que proporcionan Phind y Perplexity son sistemas de respuestas. Son cosas diferentes. La misión de la recuperación de información es proporcionar listas de documentos. La misión de los sistemas de respuestas es producir una respuesta directa. No siempre una cosa puede permutarse por la otra. En una próxima comparativa intentaremos aclararlo.


Para saber más