La estructura conceptual de los tesauros en el entorno digital: ¿nuevas esperanzas para viejos problemas



Descargar 133.47 Kb.
Fecha de conversión24.03.2019
Tamaño133.47 Kb.
Vistas41
Descargas0



JORNADES CATALANES D’INFORMACIÓ I DOCUMENTACIÓ, 9es.

(Barcelona, 25-26 nov. 2004)

La estructura conceptual de los tesauros en el entorno digital: ¿nuevas esperanzas para viejos problemas?

Silvia Arano, Lluís Codina
Grup de recerca DIGIDOC -
Universitat Pompeu Fabra
{silvia.arano; lluis.codina}@upf.edu
1. Introducción
En la actualidad, existe una amplia producción técnica y científica donde se discuten las pautas de elaboración y diseño de las herramientas documentales (taxonomías, tesauros, sistemas de clasificación, listas de encabezamiento de materia, etc.) adaptadas a los nuevos desafíos del medio digital (De la Cueva 1999, López Alonso et al 2000, Shiri y Revie 2000, García Jiménez 2004, entre otros). El entorno digital ha abierto nuevas perspectivas al uso y a la construcción de herramientas documentales de control terminológico para la representación y la recuperación de información, dado que posibilita la reutilización e interoperabilidad entre recursos y aplicaciones.
No obstante, la consideración de casos reales de tesauros en soporte digital nos hace cuestionar si es real la evolución en la concepción del rol de los tesauros para la gestión documental, teniendo presente un entorno digital. Del análisis de algunos tesauros en soporte digital surge la persistencia de problemas que ya estaban presentes en las ediciones impresas, por ejemplo, en la estructuración conceptual. Es a partir de elementos como esta constatación, que planteamos como objetivos de la presente comunicación, el análisis de las bases de la estructuración conceptual de los tesauros, el establecimiento de los elementos problemáticos, a los que denominaremos “patologías”1 (Barité 1995: 41), y la proposición de soluciones alternativas.
La presente comunicación se desarrolla en tres apartados en consecuencia con los objetivos anteriormente mencionados. En el primer apartado, se presentan las bases de la estructuración conceptual general de los tesauros de acuerdo con las últimas revisiones teórico/prácticas de los mismos. En el segundo, se analizan los problemas (patologías) de la estructura conceptual de tesauros en soporte digital (Tesauro ISOC de Psicología, UNESCO Thesaurus y EUROVOC Thesaurus). En el tercer apartado, se plantean las posibles alternativas de solución de los problemas analizados a partir del uso de los conceptos propios de las ontologías como recurso lingüístico de primer orden para el diseño y la generación de tesauros. Finalmente se presentan las conclusiones y perspectivas de investigación futuras.


2. Los tesauros en la documentación

La conceptualización de tesauro que apoyamos considera al tesauro como un tipo de lenguaje documental que representa la estructuración conceptual de un determinado campo del conocimiento, y proporciona una organización semántica a través de la explicitación tanto de las relaciones establecidas entre dichos conceptos como del significado de los términos que los representan. Los tesauros para la Documentación son una herramienta de control terminológico, puesto que la estructuración del tesauro es en base a conceptos, pero los conceptos son representados por lexicalizaciones seleccionadas o sea por términos. Con el control terminológico se busca neutralizar la sinonimia y la polisemia, ambas características naturales de la lengua, que dificultan la precisión de la indización y recuperación de la información, ambas funciones básicas de los tesauros.



2.1 La estructura conceptual de los tesauros
La estructura conceptual de los tesauros no es arbitraria en ningún sentido, puesto que existen tanto manuales de elaboración de tesauros de larga trayectoria internacional como normativa internacional que recomiendan los elementos estructurales a tener en cuenta.
La relación de manuales de difusión internacional es amplia, sin embargo no es posible dejar de mencionar a autores tales como Soergel (1974), Currás (1991), Slype (1991), Aitchinson (1992), Lancaster, (1992) y Maniez (1993), cuyos manuales fueron y son pautas de trabajo para numerosos documentalistas y especialistas que se enfrentan con la construcción y el uso de los tesauros como herramientas de control terminológico.
Las normas sobre tesauros más difundidas son las elaboradas en el entorno de la ISO (International Organization for Standarization), y son la norma ISO 5964:1985 “Documentation -- Guidelines for the establishment and development of multilingual thesauri” y la norma ISO 2788:1986 “Documentation -- Guidelines for the establishment and development of monolingual thesauri”. La traducción de ambas normas al español ha sido realizada por la AENOR (Asociación Española de Normalización y Certificación) y se corresponden con la norma UNE 50125:1997 “Directrices para el establecimiento y desarrollo de tesauros multilingües” y la norma UNE 50106:1990 “Directrices para el establecimiento y desarrollo de tesauros monolingües”. Otras normas que son de necesaria consulta puesto que desarrollan más elementos que las normas ISO, son las elaboradas por la NISO (National Information Standars Organization), institución que desarrolla, mantiene y publica normas técnicas en el ámbito de la gestión de información a nivel de los Estados Unidos de América. Actualmente dicha institución está en proceso de actualización y revisión de la norma técnica sobre tesauros ANSI/NISO Z39.19–2003 (Revision of Z39.19-1980) “Guidelines for the Construction, Format, and Management of Monolingual Thesauri”.
La consulta tanto de manuales como de normas en relación a la construcción de tesauros, nos conduce a una estructura conceptual (que implica relaciones semánticas), en donde también se tienen en cuenta los términos como representaciones léxicas de los conceptos. Las relaciones semánticas establecidas en los tesauros son de tres tipos: de equivalencia, de jerarquía y de asociación. Brevemente, daremos una descripción de cada una de ellas y recomendamos recurrir a los manuales y a las normas citadas en la bibliografía para una definición y ejemplificación más detallada.
Las relaciones de equivalencia, implican la existencia de términos preferentes y no preferentes, por lo tanto son las que denotan el control terminológico en los tesauros. De las variadas denominaciones con que puede ser representado un concepto,se debe seleccionar una que será el término con valor de descriptor, y las otras formas posibles, consideradas sinónimos o cuasisinónimos, son descartadas como puntos de acceso en la indización y la recuperación.
Las relaciones jerárquicas, son las establecidas entre conceptos que presentan distintos niveles de superordinación y subordinación, y donde cada término subordinado debe tratar la misma clase básica de conceptos que su término general, por ejemplo representar un objeto, una acción o una propiedad. Existen cuatro subtipos de relaciones jerárquicas: género-especie (clase o categoría / miembros o especies), todo-parte, enumerativas (categoría general / caso individual), y polijerárquicas (conceptos que se insertan en más de una cadena jerárquica).
Las relaciones asociativas, son las más difíciles de definir y establecer, y en realidad se reconocen como las relaciones que son determinadas por no ser ni de equivalencia ni jerárquicas, sino que son asociaciones mentales con tanto peso que muchas veces un concepto no puede definirse sin la presencia del otro. Tienen una variada subtipología y requieren de un estricto control para evitar decisiones de carácter subjetivo.
La red semántica establecida por los tesauros no se agota en la explicitación de las relaciones conceptuales anteriormente mencionadas, sino que incluye las denominadas notas de alcance donde se acota el significado o alcance conceptual que es representado por un término en particular.
Según la normativa y los manuales antes citados, la estructuración conceptual de los tesauros se limita a los tipos de relaciones que se encuentran en los mismos. Luego, se presentan aparte, la elección de los descriptores (o sea los términos que representan a los conceptos), entendiendo que es una elección de forma del descriptor que sean compuestos (formados por varios conceptos) o simples (formados por un único concepto). Sin embargo, a nuestro criterio, la elección de la forma de los descriptores, involucra algo más, pues implica la postcoordinación o precoordinación en el momento de estructurar el campo conceptual sobre el que trata el tesauro, y por ende esto se traduce en la representación léxica de los conceptos, o sea en los términos.
En último lugar, cabe destacar que en las fuentes anteriormente mencionadas se sugiere una estructuración conceptual de los tesauros con una fuerte orientación al soporte papel. Solamente las normas NISO hacen referencia a la posibilidad de un soporte electrónico, considerando al tesauro como parte de un sistema de almacenamiento y recuperación de información (NISO 2003: 31).

2.2 Los tesauros en el medio digital
Actualmente la gestión documental está influenciada por el desarrollo de Internet y una de sus tecnologías más flexibles, el World Wide Web (WWW). A las tecnologías asociadas a este contexto se les reconoce varios factores de impacto. El primer factor de impacto, es el incremento del número de recursos de información que requieren descripción, identificación y elementos de localización. Un segundo factor de impacto, es potenciar la necesidad de análisis temáticos más consistentes, con el consecuente rediseño de herramientas de gestión y organización de información entre las cuales se encuentran los vocabularios controlados. El tercer y último factor de impacto, es la necesidad de dotar a los usuarios con estructuras de conocimiento que le permitan un acceso rápido y amigable a la información, donde los tesauros son una de las posibilidades estudiadas. Los usuarios requieren de herramientas conceptuales y semánticas destinadas a una efectiva organización de la información digital, y los tesauros son una de las estructuras que pueden tener una participación activa en este sentido.
Desde esta perspectiva, ya en 1997 López-Huertas y autores más actuales como De la Cueva Martín (2000), consideran que los aportes del entorno digital a los tesauros son:


  1. El desarrollo de una estructura hipertextual donde se establezcan hipervínculos, entre todos los elementos estructurales (descriptores, no descriptores, notas de alcance, etc.), y también entre las distintas partes del tesauro.

  1. La simplificación de la estructura a través de la hipertextualidad, por lo cual también se facilita su manejo a partir de interfaces adecuadas.

- La reducción de los costos de actualización.

  1. La ayuda al desarrollo de tesauros multilingües y multidisciplinares fomentando la cooperación internacional, y, por lo tanto, impulsando la reutilización e interoperabilidad de recursos.

  1. El acceso universal a herramientas terminológicas de auxilio a la recuperación de información y que a su vez actúan como recursos para establecer bases de conocimiento.

  2. La integración del usuario al proceso de creación, gestión y optimización de las herramientas conceptuales documentales.

Shiri y Revie en su artículo del 2000, son quienes ponen de manifiesto elementos fundamentales, a nuestro parecer, para aproximarnos al contexto digital de los tesauros. En este sentido, plantean las pautas de revisión de la norma ANSI/NISO Z39.19–2003 (Revision of Z39.19-1980) “Guidelines for the Construction, Format, and Management of Monolingual Thesauri” de construcción de tesauros, surgidas del Workshop organizado por la NISO en 1999, “Electronic thesauri: planning for a standard”. Esta visión tiene como ejes centrales a la interoperabilidad, la gestión de la construcción y la descripción del vocabulario a utilizar, e implica como parámetros de acción:




  1. Contar con una visión amplia en la elaboración de herramientas conceptuales, no limitándose a la construcción de tesauros sino considerando otros tipos de estructuraciones conceptuales (taxonomías, ontologías, etc.).

  1. Involucrar al usuario en el proceso de construcción y evaluación de los vocabularios controlados.

  1. Considerar funciones alternativas de los tesauros, donde se superen las tradicionales indización y recuperación, dando paso a nuevas (navegación).

  1. Desvincular los lineamientos de construcción del soporte físico del tesauro en cuestión .

  1. Guiar no solamente la construcción sino tambièn el uso de estas herramientas

  1. Posibilitar la interoperabilidad y reutilización de información conceptual y lingüística ya generada para otros recursos, y que dicha información sea enriquecida o se le busquen nuevas aplicaciones.

Nuevamente son Shiri y Revie (2000) quienes apuntan un elemento clave a tener en cuenta en la nueva generación de tesauros digitales, que priorizan la interoperabilidad y reutilización de otros recursos. Los autores, enfatizan esta perspectiva tomando a los propios tesauros como fuentes para generar nuevos tesauros u optimizar los ya existentes. No obstante, es posible avanzar más en la interoperabilidad y reutilización de recursos, y beneficiarnos de diversas tecnologías lingüísticas (como las ontologías) que aporten mayor información semántica a la construcción de tesauros y otras herramientas conceptuales.


Si en un futuro se adopta a la ontología como fuente para la generación o el enriquecimiento de un tesauro, se podrían evitar ciertos inconvenientes estructurales, que existían en las versiones impresas de los tesauros y persisten aún hoy en sus versiones digitales.

3. Los tesauros en soporte digital: análisis de casos
En el apartado anterior, hemos planteado nuestra interpretación de tesauro, lo que implica su estructuración conceptual y que cambios se espera que ocurran al trasladarse a un medio digital
Nuestra propuesta es realizar un análisis crítico de tres casos de tesauros en soporte digital (Tesauro ISOC de Psicología, UNESCO Thesaurus y EUROVOC Thesaurus) y estudiar si la adopción de dicho soporte ha provocado cambios significativos en los tesauros como herramientas documentales.

3.1 El tesauro ISOC de Psicología2
Tesauro monolingüe en español, elaborado por el Centro de Información y Documentación Científica (CINDOC) del Consejo Superior de Investigaciones Científicas (CSIC). Tal y como se explica en la introducción del tesauro, el proceso de elaboración constó de tres fases. En la primera se recogieron los términos y se adjudicaron a las distintas familias temáticas establecidas a priori a partir de los campos semánticos que incluye el tesauro. Se adjudicó a cada término un campo en concreto o categoría y se agruparon luego en subcategorías. En la segunda fase se realizó la selección definitiva de términos, así como el establecimiento de relaciones de equivalencia y jerarquía, en base a la consulta de especialistas externos. En la tercer fase se establecieron las relaciones asociativas. Explícitamente aclara que para la estructuración del tesauro se siguen los lineamientos de la norma UNE 50-106-90. El tesauro, entonces, está constituido por un conjunto de términos descriptores y no descriptores, y un sistema de relaciones que definen su contenido semántico (relaciones jerárquicas, asociativas y de equivalencia). Expresamente el tesauro evita la poli jerarquía y asigna a cada descriptor un solo término genérico. Esta es una opción de los creadores del tesauro, pero si tomamos en cuenta que también explicitan que la estructuración conceptual del tesauro la hacen en base a facetas, por la naturaleza de la facetación en sí misma existen términos que pueden asignarse a más de una faceta. La solución propuesta es, asignarlo a una gran categoría sin subordinarlo a un término genérico en concreto y adjudicársele relaciones asociativas para situarlo en los distintos contextos posibles. Si bien es una solución ingeniosa, debemos cuestionarnos la logicidad y adecuación de la estructura conceptual resultante, pues si el tesauro en cuestión se utiliza para expansión de búsquedas o como forma de familiarizarse con un ámbito del conocimiento determinado, ¿no estaría dando pautas incompletas y por lo tanto no cumpliendo con una de sus funciones por excelencia como herramienta documental?

La simbolización utilizada es: (LT) líder temático o familia en que se incluye el término tratado; (=>) reenvío del término tratado al término preferente; (=) término no preferente reenviado al término tratado; (<) término genérico del término tratado; (.<) término genérico del genérico del término tratado; (..<) término genérico del genérico del genérico del término tratado; (>) término específico del término tratado; (.>) término específico del específico del término tratado; (..>) término específico del específico del específico del término tratado; (-) término relacionado con el término tratado. Si el texto está en itálica son las notas de alcance.


El esfuerzo y la idea de facetación en la organización de los tesauros no es nueva y por supuesto existen detractores en cuanto a su funcionalidad para la organización conceptual de los mismos. Sin embargo, al adoptar la facetación como forma de organizar los conceptos en un tesauro, se debería no solamente plantear la organización de los conceptos estructuralmente dentro de una faceta (es decir reconocer un determinado concepto, aplicarle una característica o principio de subdivisión un rasgo que permita clasificarlo, y obtener los conceptos subordinados resultantes); sino que se debería también reflexionar sobre principios y metodologías de trabajo que orienten dicha estructuración.
El primer ejemplo a analizar tiene como encabezamiento de faceta el concepto Familia, bajo el cual se subordinan los siguientes conceptos: adopción, antecedentes familiares, estructura familiar, gemelos, hermanos, hijos, maternidad, matrimonio, medio familiar, menores, orientación familiar, padres, paternidad y relaciones familiares. Una faceta conceptualmente, se obtiene por la aplicación de una única característca o principio de subdivisión3 a un determinado concepto. Si realizamos un análisis de los conceptos subordinados a Familia (o sea los focos de dicha faceta) encontramos que en realidad responden a la aplicación de distintas características para la formación de una única faceta. Los focos hermanos, hijos y padres son resultados de aplicar, por ejemplo, la característica roles de los componentes de una familia, sin embargo, gemelos, maternidad, matrimonio, medio familiar, menores, orientación familiar, paternidad y relaciones familiares no responderían a dicha característica sino a otras. Si analizamos también la faceta que se inicia en el concepto Comunicación, donde los conceptos subordinados son comunicación científica, comunicación no verbal, comunicación social, comunicación verbal, medios de comunicación, mensaje y persuasión, tampoco dichos focos son fruto de la aplicación de un único criterio de subdivisión. Ambos son ejemplos de una patología estructural denominada “clasificación cruzada” (Barité 1995: 42), que implica que en la construcción de una determinada faceta se ha utilizado más de un criterio de clasificación a la vez.

3.2 El UNESCO Thesaurus4
Tesauro monolingüe en inglés con equivalencias en francés y castellano, desarrollado para la indización y la recuperación de información en el sistema de información y documentación de la UNESCO. La estructura conceptual propuesta en este tesauro, parte del establecimiento de siete zonas que se corresponden con las áreas temáticas cubiertas: Education, Science, Culture, Social and human sciences, Information and communication, Politics, law and economics y Countries and country grouping”. Estas zonas reúnen los denominados microtesauros, que son el conjunto de descriptores y no descriptores asignados a cada área temática. Luego de esta categorización, la estructura se compone con relaciones conceptuales jerárquicas, asociativas y de equivalencia. También se incluyen notas de alcance para precisar el significado de los términos y equivalencias en francés y castellano para los términos preferidos en inglés.

Sobre el proceso de elaboración del tesauro, solamente se explicita la fuente de los términos que son los descriptores utilizados en la base de datos bibliográfica de la UNESCO y en caso de haber dudas se consultan tesauros reconocidos en el área temática en cuestión, por ejemplo Macrotesauro de la OCDE (economía en general), Tesauro SPINES (ciencia), Tesauro de la OIT (trabajo), entre otros.



La simbolización utilizada es (SN) nota de alcance; (MT) microtesauro; (UF) usado por; (BT) término general; (NT) término específico; (RT) término relacionado.
El primer ejemplo que analizaremos se inicia en el encabezamiento de faceta Lenguajes de indización, que tiene como conceptos subordinados a: listas de autoridad; lenguajes controlados; control terminológico y tesauros.5 Observemos los siguientes conceptos: listas de autoridad, lenguajes controlados y tesauros, ¿están en un mismo nivel de jerarquía? ¿O es que el tesauro y las listas de autoridad son tipos de lenguaje controlado? Asimismo control terminológico, ¿en realidad no es una propiedad o función de los lenguajes controlados, o al menos de los tesauros? Tal como está construida la faceta analizada, da lugar a errores conceptuales si no se tiene conocimiento de esta área. Este problema estructural que denominaremos “desnaturalización jerárquica” (Barité 1995: 44), se presenta cuando se estructura una jerarquía con conceptos entre los cuales no existe una clara relación de superordinación/subordinación entre sí.
El segundo ejemplo que analizaremos, es la faceta que se inicia en el concepto Agrupaciones lingüísticas (7.45 Linguistic groups), y que tiene como conceptos subordinados: África de habla inglesa (English speaking Africa); países francófonos (French speaking countries); América Latina (Latin America); África de habla portuguesa (Portuguese speaking Africa)6. Una rápida mirada ya nos plantea un problema, ¿es posible situar en un mismo nivel jerárquico países de un continente que hablen una determinada lengua (inglés o portugués), con una agrupación de países de todo el mundo que hablen otra (francés)? ¿Es lógico? Este es un caso donde cabría preguntarse si no existen otras formas de hacer agrupaciones lingüísticas, y en realidad si se observa a su vez como se subdividen cada uno de estos conceptos es por países, pero países solamente que pertenecen a África, América y Asia, por lo tanto, ¿es una faceta que obedece en realidad a un criterio de agrupación lingüística o muestra ejemplos de colonización lingüística? Esta ambigüedad estructural y en cierta forma falta de lógica, tanto puede obedecer a un “anacronismo conceptual” o a una infiltración de “prejuicios” o “apreciaciones subjetivas” (Barité 1995: 49-50), por parte de quienes realizaron la selección de conceptos y estructuración de los mismos en el tesauro.


3.2 El EUROVOC thesaurus7
Tesauro multilingüe que cubre los campos de actividad8 de las Comunidades Europeas, desarrollado para indizar los documentos en los sistemas de documentación de las instituciones europeas (Parlamento Europeo, la Oficina de Publicaciones de las Comunidades Europeas, los parlamentos nacionales y regionales en Europa, las administraciones nacionales y determinadas organizaciones europeas) y de sus usuarios. El tesauro EUROVOC se publica en las once lenguas oficiales de la Unión Europea (español, danés, alemán, griego, inglés, francés, italiano, neerlandés, portugués, finés y sueco). Además de estas versiones, ha sido traducido por los Parlamentos nacionales de varios países (Albania, Croacia, Eslovaquia, Eslovenia, Letonia, Lituania, Polonia, Rumania, Rusia, y República Checa).
El tesauro EUROVOC explícitamente aclara que fue creado de acuerdo a las pautas de las normas ISO para tesauros monolingües y plurilingües.
La estructura conceptual se construye en base a veintiún campos (fields) que a su vez están subdivididos en ciento veintisiete microtesauros (subcampos). Ya en el plano de las relaciones semánticas entre términos, el tesauro EUROVOC se estructura a partir de relaciones jerárquicas, de equivalencia, asociativas y las denominadas de microtesauro, que simbolizan la pertenencia de el descriptor en cuestión al subcampo representado por el microtesauro. También se utilizan notas de alcance para precisar el sentido de los términos.

Sobre el proceso de elaboración del tesauro, solamente se explicita la fuente de los términos que son los descriptores utilizados en la base de datos bibliográfica de la UNESCO, y en caso de haber dudas, se consultan tesauros reconocidos en el área temática en cuestión: Macrotesauro de la OCDE, Tesauro SPINES (ciencia), Tesauro de la OIT (trabajo), entre otros.



La simbolización utilizada es: (SN) nota de alcance; (MT) microtesauro; (UF) usado por; (BT) término general; (NT) término específico; (RT) término relacionado.
El primer ejemplo que analizaremos se inicia en el encabezamiento de faceta 6006 Productos de origen vegetal, y tiene como conceptos subordinados alforfón; arroz; avena; cebada; centeno; cereal alimenticio; cereal forrajero; maíz; mijo; sorgo; tranquillón; trigo y tritical. Como primer elemento a observar, ¿el encabezamiento de faceta no es más amplio que los conceptos subordinados que se le asignan? En todo caso, los focos adecuados serían cereal alimenticio y cereal forrajero, pero los demás conceptos se corresponden con especies de cereales, independientemente de que se usen para la alimentación o el forraje. Debido a ello, nuevamente estamos frente al problema estructural de “desnaturalización jerárquica”, pues no está constituida adecuadamente la cadena conceptual. También se podría cuestionar las formas de los descriptores, si son adecuadas o no. ¿Es, por ejemplo, cereal alimenticio una “precoordinación arbitraria” (Barité 1995: 45) o usual? Se entiende por problemática la presencia de una “precoordinación arbitraria”, puesto que prefigura un rasgo enumerativo que necesita respaldarse para ser validada la forma precoordinada del descriptor.
La segunda faceta que analizaremos es la que se inicia en el encabezamiento de faceta Derecho del individuo, que tiene como conceptos subordinados a: derecho a la integridad física; derechos de la mujer; derechos del niño; esclavitud; libertad de circulación; libertad de opinión; libertad religiosa; libertad sexual; libre disposición de la propia persona; protección de la vida privada y trato cruel y degradante. Entre los conceptos subordinados que representan los distintos tipos de derechos del individuo, existen dos que no es lógico que se encuentren en esta faceta: esclavitud y trato cruel y degradante. En realidad, estos dos conceptos constituyen violaciones a determinados derechos del individuo, y por lo tanto no deberían estar en la misma estructura conceptual, sí quizás en el mismo campo o ámbito temático. Nuevamente nos encontramos con una incoherencia estructural, debida a una “desnaturalización jerárquica”. También aquí podría plantearse si la forma del descriptor trato cruel y degradante es un caso o no de “precoordinación arbitraria”.

4. Los problemas estructurales de los tesauros
Del análisis de los tres casos presentados se desprende que el pasaje del soporte papel al soporte digital no ha constituido un cambio significativo, y menos que haya implicado una optimización a nivel estructural.
El problema que comienza a perfilarse tiene su origen en el método de construcción de teauros, que se inicia precisamente en la recolección de términos, teniendo en cuenta cuales serán las fuentes de vaciado y las fuentes de validación del control de vocabulario. Sin embargo, se dejan de lado los criterios, los principios generales sobre los que se deben cimentar la construcción de dichos sistemas conceptuales.
Es posible resumir la problemática subyacente con dos elementos determinantes, por un lado, la falta de abstracción conceptual, y por otro lado, la escasa representación de la semántica, y consecuentemente la producción de una incoherencia estructural.
La falta de abstracción conceptual está relacionada con la detección de la “desnaturalización jerárquica” y de la “clasificación cruzada”. Ambas patologías, vulneran la logicidad de la estructuración conceptual que propone el tesauro como herramienta documental. La “desnaturalización jerárquica” socava la cadena conceptual jerárquica y posiciona como eslabones de esa cadena a conceptos que no son lógicamente subordinados al concepto anterior. La “clasificación cruzada”., afecta la comprensión de la facetación de conceptos como forma de organización interna de los ámbitos temáticos, e incluye en la misma faceta conceptos que deberían alojarse en distintas facetas. Esto provoca incoherencias estructurales, que confunden al usuario final, e incluso a un documentalista principiante, pues ambos perfiles necesitan elementos auxiliares y guías para el planteamiento y expansión de las estrategias de búsqueda.
La escasa representación semántica está evidenciada en la limitación de los tipos de relaciones conceptuales representadas en la estructura de un tesauro, jerárquicas, de equivalencia y de asociación. En realidad, si consideramos la estructuración conceptual de un determinado ámbito del conocimiento, las relaciones conceptuales no son las mismas para distintos ámbitos, ni pueden restringirse a tres tipos. Si estamos hablando de herramientas, que por una parte organizan el conocimiento pero también auxilian a comprender su estructuración, las relaciones a través de las que se estructura el conocimiento deben explicitarse, definirse y desambiguarse para que no solamente sean entendibles por los expertos, sino por los usuarios en general.
Nuestra perspectiva sostiene que si un tesauro busca representar un determinado ámbito temático, su proceso de elaboración debe cimentarse sobre el principio de logicidad el cual será subyacente a todos los demás principios que se puedan plantear en la construcción de herramientas conceptuales. Atender a este principio de logicidad, que plantea Barité en su trabajo de 1991, brindaría coherencia, armonía y equilibrio conceptual a dichas herramientas, puesto que propone la organización de la estructura siguiendo, en la medida de lo posible, el orden consensual logrado por los investigadores y especialistas de cada disciplina y tratando de abarcar el tratamiento de los matices propios de cada tendencia y los inevitables problemas de la terminología y definición de los conceptos. La logicidad implicaría la selección de características naturales o de aquellas más frecuentes en el análisis de la documentación actual, y también afectaría al establecimiento de las vinculaciones jerárquicas, asociativas y de equivalencia.
En este sentido, consideramos que plantear una ontología lingüística dentro de un ámbito de conocimiento en particular, y a partir de ella considerar la construcción de un tesauro como un subproducto de ella beneficiaría el camino hacia la construcción de herramientas de recuperación conceptual más eficaces y potentes, con tendencia a una formalización lógica que aportaría coherencia conceptual a las estructuras.

4.1 Posibilidades de la aplicación de conceptos propios de las ontologías (como recursos lingüísticos) para el diseño y la generación de tesauros.
La ontología como recurso lingüístico tiene claros elementos de contacto con la construcción de herramientas documentales de indización y recuperación de información, ya que ofrece una estructuración formal y evidente de la información lingüística que puede ser interpretada tanto por usuarios humanos como automatizados.
La ontología aporta, al proceso de construcción de herramientas documentales de indización y recuperación de información, el establecimiento explícito de las relaciones conceptuales en un ámbito en particular a través de la formalización semántica de dicha estructura. Esta formalización semántica, a su vez, posibilita una representación lógica y coherente de dicha estructura conceptual, por lo tanto permite una interpretación informática que se orienta hacia la interoperabilidad y reutilización por parte de otros recursos o aplicaciones.
La formalización semántica, por lo tanto, implica traducir a una sintaxis legible por ordenador el enunciado que aporte el significado del tipo de relación existente entre dos o más conceptos. Por ejemplo, retomemos una de las facetas analizadas en el tesauro de la UNESCO, la que se inicia en Lenguajes de indización. Si observamos la relación jerárquica entre el concepto lenguajes de indización como término general (BT) con respecto a dos de los conceptos etiquetados como sus específicos (NT), listas de autoridad y control terminológico. La formalización de dicha relación permitiría notar que no son subordinados al término general a partir de la misma característica. Mientras que listas de autoridad se considera un tipo de lenguaje de indización (formalmente ), en realidad control terminológico es una propiedad que tienen los lenguajes de indización o más específicamente los lenguajes controlados, por lo tanto se podría formalizar como lenguajes controlados control terminológico, y esto es de mayor claridad que “lenguaje controlado NT control terminológico”. Este mismo recurso de interpretar las relaciones jerárquicas a través de la formalización, nos ayudaría también a en el caso de la faceta extraída del tesauro EUROVOC Productos de origen vegetal. La aplicación de formalización a cada una de las relaciones BT/NT que se dan entre el encabezamiento de faceta y los conceptos subordinados (alforfón; arroz; avena; cebada; centeno; cereal alimenticio; cereal forrajero; maíz; mijo; sorgo; tranquillón; trigo y tritical) nos permitiría visualizar que existen dos conceptos subordinados que no deberían estar integrados en esta serie conceptual. En realidad, ¿es adecuado formalizar la relación BT/NT entre productos de origen vegetal con cereal forrajero o cereal alimenticio como ? ¿Son en realidad tipos de productos de origen vegetal? Quizás no están en la cadena conceptual más acertada y su concepto jerárquico tendría que ser cereales.
Este tipo de razonamiento podríamos aplicarlo a todos los casos problemáticos detectados en las facetas analizadas con el mismo resultado evidente, la formalización semántica posibilita la verificación de la coherencia de una estructura conceptual. También nos brinda elementos de reflexión sobre las características seleccionadas a la hora de construir las facetas, si son las más naturales para el objeto en cuestión o en realidad son demasiado forzadas y aportan confusión a la estructura.
Es por ello que la formalización semántica aportada por las ontologías tiene una clara aplicación en la verificación de la coherencia de las relaciones conceptuales. Es evidente su utilidad para el caso de las relaciones jerárquicas, que son las que hemos tratado en la presente ponencia, pero no se descarta su utilidad para los demás tipos de relaciones conceptuales.

5. Conclusiones

El entorno digital está en una etapa de expansión y consolidación e influye a todos los ámbitos del conocimiento y por supuesto a sus prácticas. La Documentación no puede evitar que su praxis se vea influenciada por lo digital, que ha irrumpido con fuerza en el campo de la representación y recuperación de información.


Existen no pocos desarrollos teóricos que ahondan sobre este tema y proclaman cambios en la forma de usar y construir las herramientas documentales de representación y recuperación de información. Sin embargo, la praxis muchas veces se distancia de la teoría y por medio del análisis de casos reales se observa que lo digital, muchas veces está en la etiqueta pero no en las formas de dichas herramientas.
Los ejemplos analizados en la presente ponencia nos dejan la sensación de que lo digital muchas veces pasa por cambiar solamente el soporte, en este caso concreto de los tesauros, pero no se ha generado una reflexión sobre los métodos de construcción de los mismos. Una perspectiva crítica en sentido constructivo sobre el estado actual de los tesauros digitales, posibilita que se recuperen en ellos viejos problemas a los cuales se puede dar respuesta desde una óptica interdisciplinar.
Nuestra reflexión parte de la idea de una reutilización de recursos, en sentido estricto de una ontología, cuya estructuración permita formalizar un determinado dominio y ofrecer el soporte semántico necesario para modelizar un tesauro. La modelización semántica basada en la lógica que promueve una ontología, tendría como aplicaciones, por una parte, precisar las relaciones conceptuales a nivel de la estructuración conceptual del campo de conocimiento en cuestión, y por otra, colaborar con la adecuada composición de términos (tanto sea por precoordinación, postcoordinación o facetación). Además, la filosofía propia de las ontologías se muestra especialmente adecuada al entorno digital, ya que es propio de las ontologías (y relativamente ajeno a los tesauros) la naturaleza facetada de la representación del conocimiento en la Web.
En la presente comunicación solamente hemos explorado una pequeña parte de los aportes de las estructuras ontológicas al proceso de construcción de tesauros, enfatizando la formalización semántica de las relaciones jerárquicas. Aún queda por investigar como se formalizarían a partir de ejemplos reales las relaciones asociativas y de equivalencia de un determinado tesauro, y también que otro tipo de relaciones o subtipos de las básicas en los tesauros (jerárquicas, asociativas y de equivalencia) se podrían explicitar y formalizar en un determinado ámbito del conocimiento para modelizar la estructura de una herramienta documental. Asimismo sería interesante estudiar a partir del usuario el tipo de relaciones conceptuales que considera más útiles para ayudarlo en la formulación o expansión de sus búsquedas.

6. Bibliografía
AENOR (1990). UNE 50106:1990: Directrices para el establecimiento y desarrollo de tesauros monolingües. . Madrid: AENOR.
AENOR (1997). UNE 50125:1997: Directrices para el establecimiento y desarrollo de tesauros multilingües. Madrid: AENOR.
Aitchison, J. ; Gilchrist, A. (1992). Construire un thesaurus : manuel pratique. [Paris] : ADBS.
Arano, S. (2004). «La ontología: una zona de interacción entre la Lingüística y la Documentación». [en línea]. EN: Hipertext.net (2). http://www.hipertext.net [Consulta: 8 junio 2004]

Barité, M. (1997). Glosario sobre Organización y Representación del Conocimiento. Clasificación, Indización y Terminología. Montevideo: Escuela Universitaria de Bibliotecología y Ciencias Afines.



Barité, M. (1991). Principios generales de los sistemas de clasificación: primera aproximación. Montevideo: Escuela Universitaria de Bibliotecología y Ciencias Afines.
Barité, M. (1995). «Patologías de los sistemas de clasificación». EN: Informatio 1(1). 41-52.
Barité, M. (2003). «La terminología: implicaciones y aplicaciones respecto a los lenguajes documentales». [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Documentación digital. Barcelona: Sección Científica de Ciencias de la Documentación. Departamento de Ciencias Políticas y Sociales. Universidad Pompeu Fabra. http://www.documentaciondigital.org [Consulta: 2 sep. 2004].
Bechhofer, S.; Goble, C. (2001). «Thesaurus construction through knowledge representation». [en línea]. EN: Data & Knowledge Engineering 37(2). 25-45. http://www.sciencedirect.com/science?_ob=MImg&_imagekey=B6TYX-42HFSSK-2-X&_cdi=5630&_orig=browse&_coverDate=04%2F30%2F2001&_sk=999629998&view=c&wchp=dGLbVtb-zSkzS&_acct=C000053451&_version=1&_userid=1517318&md5=378619ce7a8e9ac474aa593cef6df259&ie=f.pdf [Consulta: 28 junio 2004]
Cabré, M. T.; Codina, Ll. (2001). «Terminologia i documentació: necessitats recíproques i camps d’aplicació». EN: Terminología i documentació: I Jornada de Terminologia i Documentació (24 maig de 2000). Barcelona: UPF. IULA. 13-29.
Currás, E. (1991). Thesaurus: lenguajes terminológicos. Madrid: Paraninfo.
de la Cueva Martín, M. (1999). «Acceso y utilización de tesauros en Internet». EN: Revista española de documentación científica 22(4). 531-540.
García Jiménez, A. (2004). «Instrumentos de representación del conocimiento: tesauros versus ontologías». [en línea]. EN: Anales de Documentación (7). 79-95. http://www.um.es/fccd/anales/ad07/ad0706.pdf [Consulta: 8 junio 2004]
Guerrero Bote, V.; Lozano Tello, A. (1999). «Vínculos entre las Ontologías y la Biblioteconomía y Documentación». EN: La Representación y la Organización del Conocimiento en sus distintas perspectivas: su influencia en la Recuperación de la Información (Actas del IV Congreso ISKO-España EOCONSID’99, 22-24 de abril de 1999 en Granada), 1999. Granada: ISKO-Facultad de Biblioteconomía y Documentación. 25-31.
ISO (1986). ISO 2788:1986 Documentation -- Guidelines for the establishment and development of monolingual thesauri. 2nd ed. Geneva: ISO.
ISO (1985). ISO 5964:1985 Documentation -- Guidelines for the establishment and development of multilingual thesauri. Geneva: ISO.
Lancaster, F. W. (1992). Vocabulary control for information retrieval. 2nd. ed. Arlington [Va.]: Information Resources.
López Alonso, M.-A.; Moreiro González, J. A. (2000). «Presente y futuro de los tesauros como herramienta conceptual de precisión para la recuperación de la información». [en línea]. EN: Biblioteca Digital del Curso de posgrado Documentación Digital impartido a través de Internet por Estudios de Ciencias políticas y Gestión Pública. Sección Científica de Biblioteconomía y Documentación del Departamento de Ciencias Políticas y Sociales. Universitat Pompeu Fabra. Barcelona: Universitat Pompeu Fabra.

http://161.116.140.71/pub/fburg/docs/lopez-moreiro.pdf [Consulta: 8 junio 2004]
López-Huertas, M. J. (1999). «Potencialidad evolutiva del tesauro: hacia una base de conocimiento experto». EN: La Representación y la Organización del Conocimiento en sus distintas perspectivas: su influencia en la Recuperación de la Información (Actas del IV Congreso ISKO-España EOCONSID’99, 22-24 de abril de 1999 en Granada), 1999. Granada: ISKO-Facultad de Biblioteconomía y Documentación. 133-140.
López-Huertas, M. J. (1997). «Thesaurus structure design: a conceptual approach for improved interaction». EN: Journal of Documentation 53(2). 139-177.
Maniez, J. (1993). Los Lenguajes documentales y de clasificación: concepción, construcción y utilización en los sistemas documentales. Madrid: Pirámide, Fundación Germán Sánchez Ruipérez.
NISO (2003). ANSI/NISO Z39.19 - 2003 Guidelines for the Construction, Format, and Management of Monolingual Thesauri. [en línea] Bethesda: NISO. http://www.niso.org/standards/resources/Z39-19.pdf [Consulta: 30 junio 2004]
Planas, C. (2003). «Lenguajes documentales». [en línea]. En Cristòfol Rovira; Lluís Codina (dir.). Documentación digital. Barcelona: Sección Científica de Ciencias de la Documentación. Departamento de Ciencias Políticas y Sociales. Universidad Pompeu Fabra, 2003. http://www.documentaciondigital.org [Consulta: 2 setiembre 2004

Qin, J.; Paling, S. (2001). «Converting a controlled vocabulary into an ontology: the case of GEM». [en línea]. EN: Information Research 6(2). http://informationr.net/ir/6-2/paper94.html [Consulta: 29 junio de 2004]


Shiri, A. A.; Revie, C. (2000). «Thesauri on the Web: current developments and trends». EN: Online Information Review 24(4). 273-279. http://dlist.sir.arizona.edu/archive/00000163/01/thesauri.pdf [Consulta: 8 junio 2004]
Soergel, D. (1974). Indexing languages and thesauri: construction and maintenance.

Los Angeles (Calif.): Melville.


Soergel, D.; Lauser, B.; Liang, A. ; Fisseha, F. ; Keizer, J. ; Katz, S. (1999). «Reengineering thesauri for new applications: the AGROVOC example». [en línea] EN: Journal of Digital Information 4(4). http://jodi.ecs.soton.ac.uk/Articles/v04/i04/Soergel/ [Consulta: 30 junio 2004]
Soergel, D. (1999). «The rise of ontologies or the reinvention of classification». En: Journal of the American Society for Information Science (50). 1119-1120.
Tudhope, D.; Alani, H.; Jones, Ch. (2001). «Augmenting thesaurus relationships: possibilities for retrieval». [en línea] EN: Journal of Digital Information 1(8). http://jodi.ecs.soton.ac.uk/Articles/v01/i08/Tudhope/ [Consulta: 29 junio de 2004]


1 El término patología, es utilizado en los trabajos críticos sobre la estructuración conceptual de los sistemas de clasificación del Prof. Mario Barité de la Universidad de la República del Uruguay, pero nuestra postura es que la problemática de la estructuración conceptual es común a los distintos tipos de herramientas documentales.

2 http://pci204.cindoc.csic.es/tesauros/Tes_Psic/Tes_psic.htm

3 Definición de faceta: “ En Teoría de la Clasificación, estructura lógica de conceptos constituída por un término o encabezamiento genérico, un conjunto variable de términos específicos (llamados focos) (...) conjunto total de subdivisiones de un concepto o clase, derivadas del mismo principio de división. Es de esencia que los focos que integran una faceta hayan surgido de la aplicación de una característica de división (y sólo una) al encabezamiento genérico, y tengan, por ende, igual rango jerárquico entre sí.” (Barité 1997: 57)

4 http://databases.unesco.org/thesaurus/

5 Traducción propia

6 Equivalencias lingüísticas del español tomadas del propio tesauro.

7 http://europa.eu.int/celex/eurovoc/

8 temas sociales, geografía, finanzas, política, derecho, educación y comunicaciones, agricultura, comercio, comunidades europeas, relaciones internacionales, industrias agroalimentarias, trabajo y condiciones laborales, administración, economía, transporte, organizaciones intrnacionales, produccción, tecnología e investigación, energía, ciencia



Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©psicolog.org 2019
enviar mensaje

enter | registro
    Página principal


subir archivos