Taxonomías y Ontologías: Qué Son y Cómo se Aplican en Medios de Comunicación

Example of an ontology.
Example of an ontology. (Photo credit: Wikipedia)
Artículo escrito en colaboración con Rafael Pedraza-Jimenez, profesor de la UPF y coordinador del Grupo de Investigación DigiDoc. Actualización (cambios redaccionales y terminológicos, referencias añadidas): Enero 2017

Introducción: semántica documental

Un conjunto de palabras clave, más algunas reglas de desarrollo para representar el contenido de noticias, por simples que sean estas reglas (por ejemplo, usar plural en lugar de singular, o sustantivos en lugar de verbos), constituyen un lenguaje documental.

Las palabras clave elegidas para representar noticias (o cualquier clase de documentos) se denominan en el argot profesional términos de indización, porque con ellos se pueden crear índices, impresos o digitalizados, que facilitan el acceso a la información. También se denominan descriptores porque, efectivamente, describen cosas (libros, vídeos, fotografías, noticias, etc.)

Por tanto, en resumen:

términos del lenguaje natural para indizar documentos + reglas de uso = lenguaje documental

¿Para qué querríamos usar palabras clave o descriptores en el contexto de la web? En el ámbito más tradicional de las bibliotecas y de las bases de datos académicas está claro (¿lo está, no?); pero en una web y en un medio de comunicación quizás no tanto.

En el caso de un medio de comunicación se supone que queremos encontrar las noticias de un mismo tema usando ciertas palabras clave (o combinación de palabras clave) sea cuando sea que queramos recuperar esa información.

Por ejemplo, puede que, en el futuro, digamos dentro de unos meses o unos años, un periodista necesite encontrar las noticias que se están publicando estos días sobre cualquier tema. Usar las mismas palabras clave o descriptores para caracterizar los mismos temas ayudará a encontrar esas noticias de manera precisa y sin ruido.

Además, en la medida que los medios de comunicación han pasado a ser cibermedios, se necesitan también palabras clave para que los diferentes sistemas de navegación del sitio web proporcione el mejor acceso posible a noticias de una misma temática.

Por último, las palabras clave o los descriptores servirán para mejorar la precisión de las operaciones de recuperación de información en la hemeroteca digital del medio. 

¿Cómo podemos representar conjuntos de noticias de forma consistente? Solamente los nombres de países ya son un problema, no digamos los conceptos e ideas de los que disponemos de numerosos sinónimos y formas alternativas de expresarlos. La respuesta es: usando palabras clave “normalizadas”.

Aquí podemos dar un pequeño paso en el uso de la terminología (una tabla más adelante, nos ayudará a consolidar ideas): una palabra clave normalizada se denomina descriptor o también término de indización preferente.

Las que se pueden obtener del análisis automático de la noticia forman un primer aporte de palabras clave; pero necesitamos términos normalizados para expresar la síntesis de la noticia en concreto y, además, el contenido de las imágenes y los vídeos que las acompañan.

Para esto necesitamos términos previamente acordados para representar siempre igual los mismos conceptos con la ayuda de descriptores. El instrumento que facilita el control terminológico mediante el uso de descriptores son los lenguajes documentales (también llamados, por este motivo, lenguajes controlados).

La cuestión es que existen lenguajes documentales (LD a partir de ahora) muy diferentes de acuerdo a sus funciones y a su complejidad, como veremos a continuación.

El problema es que debido a la liberalidad con la que se usan sus denominaciones respectivas suele haber una considerable confusión. Para intentar clarificarlos, los situaremos en una especie de continuo formado por estos cuatro LD:

  1. Lista de términos
  2. Taxonomías (o Clasificaciones)
  3. Tesauros
  4. Ontologías

En lo que sigue intentamos aportar una clarificación de los mismos desde el punto de vista de la Semántica Documental, una especialidad multidisciplinar que combina aportaciones de la Documentación, la Lingüística Aplicada y la Lógica formal. Después, descenderemos a tierra para intentar relacionarlos con sus posibles aplicaciones a un sitio intensivo en contenidos, como es el caso de un Medio de Comunicación o Cibermedio. 

Por el momento, señalemos aquello que todos los LD tienen en común:

  • Consisten en conjuntos previamente determinados de términos (palabras clave), aunque estos conjuntos pueden sufrir modificaciones (altas, bajas y cambios en su morfología).
  • Dado el uso, se denominan genéricamente, términos de indización.En algunos LD los términos de indización preferidos (en lugar de otros sinónimos) se denominan descriptores.
  • Contemplan ciertas reglas sobre la forma preferida de los términos, las relaciones entre ellos y su modo de aplicación.
  • Se utilizan con fines de representación y recuperación de información, por tanto, se utilizan para caracterizar:
    • a) el contenido de las distintas noticias del sitio., en la operación denominada indización;
    • b) las necesidades de información de los usuarios, en la operación denominada interrogación;
    • c) las opciones disponibles en los diferentes menús del sitio, en la operación denominada navegación.
  • Por tanto, pueden tener un papel crucial en la visibilidad y la buscabilidad de la noticia.

El Continuo de los Lenguajes Documentales

Ahora, para representar lo que llamaremos el Continuo de los Lenguajes Documentales (CLD) podemos situar en el extremo izquierdo de este continuo el lenguaje más simple (el menos formalizado y con menos reglas) y en el extremo de la derecha  el más complejo (más formalizado y con más reglas).

Entonces, la línea tendrá esta forma:

Continuo de los Lenguajes Documentales (CLD)
lista de términos > taxonomía > tesauro > ontología

En lo que sigue procuraremos aportar algunas conceptualizaciones que ayuden a discriminar qué es cada cual de los cuatro componentes del CLD.

Lista de términos

Se trata, efectivamente, de una simple lista de términos de los que se dispone a priori para asignar a documentos (o entidades) a fin de representarlos de forma sintética. Se procura disponer de ellos a priori (aunque la lista vaya siendo modificada) para mantener cierta consistencia en la indización de noticias. 

En una biblioteca se pueden utilizar para indicar las materias de los libros y en un medio de comunicación podría ser la lista de la cual obtener Etiquetas para caracterizar las noticias.

La lista de términos no nos dice nada, en principio, sobre cómo se relacionan los términos entre ellos (por ejemplo, si uno es más específico que otro, si se pueden combinar entre ellos, etc.), únicamente opta por unos términos en lugar de otros (terremotos en lugar de movimientos sísmicos, por ejemplo) y por una morfología (p.e. plural) u otra y poco más.

La siguiente sería una lista de términos para ordenar (en un sistema de navegación, en un archivo de carpetas, etc.) documentos o entidades de/o sobre la web móvil:

  • Android
  • Aplicaciones
  • Comunicación
  • Diseño
  • Dispositivos
  • iOS
  • Phablets
  • Productividad
  • Sistemas operativos
  • Smartphones
  • Tablets
  • Windows

Taxonomías

Recuerden que estamos en un continuo. Para que una lista de términos merezca el nombre de taxonomía necesitamos que tales términos estén organizados en un esquema jerárquico y por tanto, en categorías y subcategorías.

Por ejemplo, la siguiente podría ser una taxonomía muy simple:

La Web Móvil
1. Dispositivos
1.1. Smartphones
1.2. Tablets
1.3. Phablets
2. Software
2.1. Sistemas operativos
2.1.1. Android
2.1.2. iOS
2.1.3. Windows
2.2. Aplicaciones
2.2.1. Comunicación
2.2.2. Productividad
2.2.3. Diseño

Podemos ver que ahora los términos se han articulado alrededor de dos categorías de primer nivel (Dispositivos y Software) y que una de ellas presenta de hecho dos subniveles (en una clasificación no hay un límite a priori sobre el número de subniveles).

Una de las reglas de aplicación nos dice que un documento o entidad debe ser asignado a la categoría o subcategoría que le corresponda y al nivel que le corresponda. Por ejemplo, un documento sobre sistemas operativos en general para la web móvil deberá asignarse a la categoría 2.1. Pero un documento sobre iOS a la categoría 2.1.2. Los números no son la categoría, pero aportan una enorme comodidad.

En las bibliotecas se usan para mantener juntos libros del mismo tema y para ayudar a los usuarios a predecir dónde estarán las obras del tema de su interés. En cambio, en la navegación de un sitio, no usaríamos los números, sino los literales para las categorías principales del menú y para asignar etiquetas a las noticias.

Que la anterior sea una taxonomía válida no significa que no puedan tener otros componentes ni disponer de otras reglas más sofistificadas para combinar diversos términos entre sí. El mejor ejemplo sería la clasificación decimal universal utilizada en muchas bibliotecas y bases de datos de todo el mundo.

Aunque ya la habíamos avanzado, nos queda reforzar una aclaración terminológica: una taxonomía es otro nombre para una clasificación, un término que procede de la Biología, aunque se usa mucho también en ambientes informáticos y de gestión (management). Hablaremos de clasificaciones o de taxonomías según la influencia cultural del hablante. Pero son lo mismo.

Para acabar de complicar la cuestión, algunos autores (p.e. Header Hedden, The Accidental Taxonomist, 2010) usan el término ontología para referirse a cualquier tipo de lenguaje documental. Así, no es extraño encontrar obras como la citada que nos dirán que una lista de términos, una clasificación y un tesauro son, en realidad, diferentes tipos de taxonomías. Otro término común es el de vocabularios controlados.

En los sistemas de gestión de contenidos o CMS (Content Management System) como WordPress las taxonomías tienen un papel fundamental. En concreto, en una instalación estándar de WordPress existirán siempre dos taxonomías activadas: las Categorías y las Etiquetas.

Solamente las primeras son una taxonomía desde el momento en que admiten subcategorías, las segunda no lo son, porque no pueden tener subetiquetas, pero en el lenguaje de WordPress se habla siempre de taxonomías tanto en un caso (verticales) como en otro (horizontales).

Para nosotros debería quedar claro que las Categorías son taxonomías y las Etiquetas son listas de términos, pero también debemos insistir en que, en la terminología de WordPress, ambas son taxonomías. Ya hemos advertido que este término se utiliza con enorme liberalidad.

Tesauros

¿Ya hemos dicho que estamos en un continuo? Para construir un tesauro se puede partir de una clasificación (o una taxonomía); pero a la que se deben añadir diversas capas de tratamiento para definir con precisión las relaciones entre los términos.

En un tesauro se opta por la postcoordinación, lo que significa que los términos no se coordinan entre sí a priori para indizar documentos, sino que se opta por asignar al mismo nivel todas las palabras clave que representen temas presentes en la noticia.

La cuestión es que, de los tres lenguajes vistos hasta ahora, el tesauro es el que goza de mayor nivel de normalización ya que es objeto de sendas normas ISO (internacionales) y UNE (españolas). Según estas normas, un tesauro es una taxonomía a la cual se han añadido, al menos, estas relaciones:

  • Relaciones de sinonimia o preferencia: entre el término preferido (TP) o descriptor y el término no preferido (TNP).
  • Relaciones jerárquicas de tipo partitivo (todo-parte) o clase-subclase; por lo tanto entre los términos más amplios (TA) y los términos más específicos (TE)
  • Relaciones asociativas: entre términos relacionados de forma pragmática, es decir, no de forma jerárquica ni de sinonímia

Como hemos señalado, los términos preferidos en un tesauro se denominan descriptores, para diferenciarlos de los términos que son sinónimos pero que no se prefieren (que no se prefieren significa que no se usan para categorizar noticias).

Por ejemplo, en la base de datos de un medio de comunicación que disponga de tesauro se puede especificar esta relación entre los términos: “terremotos” es el Término preferido y por tanto el descriptor que se usará en la clasificación e indización de noticias en lugar de “movimientos sísmicos”.

Por tanto, los usuarios de su hemeroteca encontrarán noticias sobre “terremotos” aunque el redactor o la noticia de agencia haya usado el término “movimiento sísmico” porque en su momento se indizó con el descriptor “terremotos”.

Adicionalmente, los tesauros pueden tener notas de aclaración sobre el alcance o la aplicación de algunos términos y tantos índices y formas de presentación como se considere necesario: alfabéticos, sistemáticos, gráficos, etc. para ayudar a la consulta del mismo.

La siguiente sería una parte de un Tesauro reducido a su mínima expresión:

TA Dispositivos móviles
TE Teléfonos inteligentes
Usado por: Smartphones
TE Tabletas
Usado por: Tablets
TR Web móvil

Para elaborar el tesauro es necesario aplicar una serie de reglas relativamente sofisticadas para decidir cómo se representa cada concepto. Por ejemplo, si se utiliza un término simple (economía) o compuesto (economía de la información). O bien, si se utiliza plural (terremotos) o singular (acero).

Además, se necesitan reglas para determinar las relaciones jerárquicas (¿un loro es un término más específico de ave?) de sinonimia (¿el término preferido debe ser “terremoto” o “movimiento sísmico”?) y de asociación (¿”catástrofes naturales” es un término relacionado con “personas desplazadas”?)

Ontologías

Todo este tiempo hemos estado diciendo que usamos un continuo, ¿no?. Bueno, pues no era del todo cierto. Para ver lo que queremos decir, vamos a presentar una nueva versión de nuestro Continuo de Lenguajes DocumentalesCLD con una nueva señal, //, que representa a la vez continuidad y ruptura:

lista de términos > taxonomía > tesauro > // > ontología

En la nueva versión, hemos introducido el símbolo // entre la porción del continuo que acaba en tesauro y la que sigue con ontología

Por un lado tenemos una clara continuidad: las ontologías se componen de colecciones de términos y de sus relaciones entre ellos (por ejemplo, las de clase-subclase) como los tesauros; pero por otro lado hay una discontinuidad, o mejor, un cambio de fase, que se puede concretar en estos dos aspectos esenciales:

  • Para que un lenguaje merezca el nombre de ontología debe estar codificado en un formato que pueda procesar un programa de software, en concreto un programa que pueda realizar inferencias.
  • Para que lo anterior sea posible, una ontología debe estar enteramente basada en lógica formal y debe ser expresada como una colección de asertos utilizando relaciones como se muestran a continuación:
  • [sujeto] > [propiedad] > [valor]
    lo que es equivalente a
    [sujeto] > [predicado] > [objeto]
  • Dicho de otro modo:
    de quién se habla [sujeto], qué se está declarando [predicado o propiedad] y qué valor obtiene la propiedad considerada [valor u objeto]
  • Como en:
    [android] > [tipo de sistema operativo] > [dispositivos móviles]
    que significaría en lenguaje natural un poco forzado:
    [el sujeto Android tiene una propiedad que consiste en ser un tipo de sistema operativo para dispositivos móviles]
    o en un lenguaje mucho más natural:
    [Android es un sistema operativo para dispositivos móviles]

Aunque no es nada práctico, los anteriores lenguajes documentales (1 al 3) pueden existir en forma de términos impresos en papel. Las ontologías, en puridad no. O están codificadas en un lenguaje que pueda interpretar un procesador informático o no tienen sentido, porque lo más importante de una ontología es que un sistema informático sea capaz de procesarla y, en su caso, de realizar inferencias.

Por ejemplo, en una ontología sobre la web móvil, se supone que podemos preguntar al sistema si Android es una clase de sofware. En principio, si la ontología ha declarado en alguna de sus entradas que un sistema operativo es una subclase de sofware y en otro lugar se declara que Android es un sistema operativo, el sistema decidirá que Android es una clase de software, por la relación clase – subclase, según la cual las subclases heredan todas las características de la clase de la que forman parte.

Se puede construir una ontología, por supuesto a partir de una taxonomía, y ello con una cierta facilidad (aparte de la tediosa tarea de la adaptación a la lógica formal y la aún más tediosa codificación informática) y con mayor razón a partir de un tesauro (de aquí la continuidad), pero siempre que se establezcan bajos rigurosas normas de lógica formal todas y cada una de las relaciones entre los términos que forman parte del lenguaje (de aquí la discontinuidad).

English: Protégé, an open source ontology edit...
Protégé, an open source ontology editor, version 3.4.3 (http://protege.stanford.edu) (Photo credit: Wikipedia)

Un problema no precisamente menor es que el término tiene tal atractivo en opinión de algunos que lo utilizan cuando debieran hablar de clasificaciones o de tesauros. Por ejemplo, es relativamente normal oír hablar de un directorio de sitios web, como DMoz, o del antiguo (y extinto) directorio de Yahoo, como ontologías.

Sin duda son clasificaciones (muy imperfectas, pero lo son); pero si las relaciones entre los términos no están expresadas de forma lógica y codificadas mediante un lenguaje normalizado para crear ontologías (como OWL), entonces no lo son. Lo mejor de las ontologías es la promesa de mejora de la recuperación de información que implican, según veremos en el siguiente punto, cuando consideremos su aplicación a una hemeroteca digital.

Lo peor es que únicamente son una aspiración, un ideal, que de momento solo funciona en laboratorios y sitios experimentales. Por cierto, otra de las virtudes de una ontología es que se pueden representar de forma gráfica, en concreto, como un grafo con nodos y arcos, como en la ilustración que encabeza este artículo.

Cómo se aplican en Comunicación

Vamos a diferenciar, de nuevo entre los tres primeros lenguajes: (1) listas de términos, (2) taxonomías y (3)  tesauros, por un lado; y (4) las ontologías por otro, para ver cómo se aplican estos lenguajes en un sitio de comunicación o rico en contenidos.

Listas de Términos, Taxonomías y Tesauros

Vamos a considerar dos extremos. En el superior, todo medio de comunicación que se lo pueda permitir trabajará con un tesauro.  En el inferior, un medio con pocos recursos debería utilizar, al menos listas de términos, aunque no es lo más recomendable. En WordPress correspondería a las denominadas Etiquetas.

En el término medio tenemos las taxonomías. No son tan costosas de desarrollar como un tesauro, pero permiten un control terminológico muy superior a las listas de términos. En WordPress correspondería a las Categorías.

Nuestra recomendación es, como debe ser fácil de suponer, usar al menos un lenguaje documental tipo taxonomía y si el medio se lo puede permitir, tipo tesauro. En todo caso, en lo que sigue expondremos su utilización de modo que sea independiente que se disponga de una cosa u otra (excluimos las simples listas de términos). Estas posibles aplicaciones, a su vez, podrán darse, al menos, en dos niveles, a saber, tanto en su sistema de navegación (estructural y semántica) como en su sistema de recuperación (consultas).

Con relación a la navegación servirá para la navegación estructural al proporcionar las Categorías principales del menú constante (ver el artículo: Diseño de la Navegación Web. 1a Parte: Taxonomías y Navegación Estructural). Servirá igualmente para formas de navegación semánticas basadas en el interlinking. Así mismo, proporcionará componentes para las Etiquetas y ayudará a la caracterización de cada artículo. Esto finalmente, proporcionará las bases para una Navegación Semántica.

En cuanto a la recuperación de información, tanto los descriptores de un posible tesauro como los términos de una taxonomía proporcionan una indexación consistente. Esto facilitará las operaciones de búsqueda de información en la hemeroteca digital del medio, así como podría aportar un sistema de búsqueda asistida muy potente a los usuarios en el caso del tesauro.

Por ejemplo, un usuario que quisiera información sobre la web móvil, podría indicar si desea también buscar por los términos más específicos, en cuyo caso, el sistema lanzaría una búsqueda, por ejemplo, por los nombres de los principales sistemas operativos, ahorrando así al usuario una búsqueda booleana de gran complejidad.

Las taxonomías en el caso de WordPress

Dada la influencia de WordPress, debemos recordar que en este CMS las cosas son distintas. En primer lugar, las taxonomías pueden ser jerárquicas o planas. En el primer caso, las categorías pueden tener subcategorías, en el segundo no.

Esto último va contra la lógica de las clasificaciones (recordemos que taxonomía = clasificación), pero en este CMS es así. En WordPress se habla entonces de taxonomías verticales (pueden tener subclases) y taxonomías horizontales (no pueden tener subclases).

Por útimo, hay que señalar que las diferentes taxonomías no se relacionan entre sí. Es una lástima que en WordPress no se pueda tener un nivel de integración superior, por ejemplo, con las etiquetas como parte de subcategorías. El lado positivo es que WordPress incluye la posibilidad de crear taxonomías propias que pueden tener (o no) subcategorías.

Tener un sitio con diferentes taxonomías implica que podemos tener diferentes tipos de entradas y cada tipo de entrada puede estar vinculada con diferentes taxonomías. 

Ontologías

En principio, las ontologías no tienen necesariamente la misión de indizar documentos, sino la de representar ámbitos de conocimiento. Obviamente, una cosa no impide la otra. Por ejemplo, en Medicina, la base de datos más importante, MedLine, utiliza un LD que es una combinación de tesauro y ontología.

En todo caso, en el terreno de la búsqueda las dos cosa confluyen de forma inexorable; y por eso hemos traído aquí a las ontologías. La zona de unión se sitúa en el siguiente escenario: las ontologías deberían ser la puerta a las búsquedas inteligentes. Por ejemplo, con una ontología, un lector podría pedir información, literalmente, sobre la situación de la economía en los países europeos de la zona mediterránea sin riesgo de recibir una tonelada de ruido.

Ciertamente, en una búsqueda convencional orientada por palabras clave (o descriptores) el resultado seguramente será decepcionante: llena de falsos positivos por un lado (documentos no relevante recuperados) y con mucho silencio por otro (documentos relevantes no recuperados).

En cambio, en un sistema apoyado en una ontología; y si ésta ha estado bien desarrollada, la hemeroteca del medio no debería tener problemas en proporcionar noticias de Francia o de Italia aunque en ellas no aparezca la palabra Mediterráneo; y en cambio excluiría las de Marruecos, aunque apareciera la palabra Mediterráneo y la palabra economía.

Tampoco debería tener problemas en seleccionar las noticias que incluyan términos como inflación o tasa de desempleo, aunque en las mismas no aparezca la palabra economía. Es decir, una ontología simularía a la perfección un sistema inteligente.

Hemos hablado en condicional porque, que sepamos, no existe ninguna ontología así. Al menos, ninguna que funcione en un medio real. Sin duda, existen prototipos así, pero que sepamos no han salido (aún) del laboratorio.

Conclusiones

Esperamos haber contribuido a clarificar algunas cosas. Hagamos un resumen:

  • Una lista de términos es exactamente lo que indica la palabra y aunque es mejor que nada para organizar contenidos, no es precisamente lo más útil.
  • Una taxonomía es una clasificación con otro nombre, y representa uno de los mejores lenguajes documentales para caracterizar y organizar noticias y, por tanto, la navegación y la recuperación de información en un medio. Es la solución más habitual en medios de comunicación medianos y grandes. 
  • Todo medio que se lo pueda permitir debería usar un tesauro (o un sistema “tesaural”, es decir, inspirado en sus principios) porque es el que proporciona más posibilidades de cara a la indización, la navegación y la recuperación de información.
  • Una ontología podría servir para proporcionar un sistema de búsqueda inteligente, capaz de realizar inferencias y actuar como si fuera una verdadera inteligencia artificial, pero aún no están implantadas en forma funcional.

Referencias

Artículos relacionados

Los autores de esta entrada publicaron en su momento algunos artículos evaluados (en un revista ISI) sobre tesauros y ontologías que recomendamos. Igualmente, para quienes deseen más información sobre el tema, recomendamos una tesis doctoral leída en 2006 en la UPV sobre la elaboración de un tesauro de información de actualidad:

  • Lourdes Castillo Blasco. Elaboración de un tesauro de información de actualidad y conversión en red semántica para su empleo en un sistema de recuperación periodístico [tesis doctoral]. Universitat de Valencia. Servei de Publicacions, 2006. Acceso: http://roderic.uv.es/handle/10550/15212
  • Lluís Codina y Rafael Pedraza-Jiménez. “Tesauros y ontologías en sistemas de información documental”. El profesional de la información, 2011, septiembre-octubre, v. 20, n. 5, pp. 555-563. Acceso online en el sitio del editor: http://bit.ly/1BBSnPN
  • Rafael Pedraza-Jiménez, Lluís Codina y Cristòfol Rovira. “Web semántica y ontologías en el procesamiento de la información documental”. El profesional de la información, 2007, noviembre-diciembre, v. 16, n. 6, pp. 569-578. Acceso online en E-LIs: http://bit.ly/1HWmTf7

Anexo: Definiciones

TérminoDefinición
Término de indizaciónUn término del lenguaje natural simple (p.e. economía) o compuesto (p.e. economía política) para representar el contenido de documentos. En nuestro contexto: términos para representar el contenido o el tema de noticias o de páginas web. Términos relacionados: categorías, etiquetas, palabras clave, descriptores.
Lenguaje documentalUn conjunto de términos de indización y sus reglas de construcción y de aplicación. Por ejemplo, la Clasificación Decimal Universal es un lenguaje documental. El tesauro de la UNESCO es otro lenguaje documental. Sinónimos: lenguaje deindización, vocabulario controlado.En el contexto de la web: un conjunto de términos (y sus reglas) para mejorar la navegación, el acceso a la información y la visibilidad de los contenidos de un sitio.
DescriptorTérmino de indización preferido en un lenguaje documental. En un tesauro, por ejemplo, se declara de forma específica, de entre varios sinónimos, cuál es el preferido para representar un determinado concepto. Este término preferido es el descriptor. También se refiere a la morfología final preferida para un término (p.e. plural o singular).
Palabra claveEn rigor: los términos que utiliza un usuario para expresar su necesidad de información. Debido a su popularidad por el uso de palabras clave en buscadores, ha quedado como un sinónimo de descriptor o de término de indización.
IndizarAsignar palabras clave o descriptores a un documento (o al contenido de un sitio) para caracterizar su contenido semántico.
CategorizarEn rigor, categorizar implica asignar un contenido (una página web, un documento, etc.) a una o más categorías. Por extensión: representar el contenido de un documento mediante un lenguaje documental.
ClasificaciónUn lenguaje documental que incluye relaciones jerárquicas.
TaxonomíaSinónimo de Clasificación.
TesauroUn lenguaje documental que incluye diversos relaciones adicionales además de las jerárquicas.
OntologíaFormalización lógica de un ámbito del conocimiento. No es necesariamente una clase de lenguaje documental, pero puede crearse una ontología a partir de un tesauro y utilizarse con fines de recuperación de información, en teoría de forma sumamente ventajosa al permitir búsquedas semánticas o inteligentes.
CoordinaciónEn el contexto de los lenguajes documentales la coordinación se refiere a la combinación de dos o más términos de indización para expresar el tema o el contenido de un documento.
Pre y Post coordinaciónLa coordinación se refiere al momento en el cual se combinan las palabras clave o descriptores. Puede ser en el momento de indizar el documento (pre) o en el momento de hacer la consulta (post). Los tesauros son lenguajes post coordinados, y en general, los sistemas de indización basados en la asignación de etiquetas o palabras claves son sistemas post coordinados porque en el momento de indizar el documento se asigna un grupo de descriptores sin relacionarlos (coordinarlos) entre sí. Las clasificaciones y en general los sistemas jerárquicos son pre coordinados porque los términos se coordinan entre sí en el momento de indizar el documento.
Semántica documentalÁmbito de estudio e investigación multidisciplinar que integra aportaciones de la lógica, la documentación, la computación y la lingüística para facilitar el acceso universal al conocimiento.
Fuente: Elaboración propia

Cómo citar este artículo:

Lluís Codina, Rafael Pedraza-Jimenez. Taxonomías y Ontologías: Qué son y cómo se aplican en Medios de Comunicación. Enero 2017.
Acceso: www.lluiscodina.com/taxonomias-ontologias/