Uniformly Querying Knowledge Bases and Data Bases



Descargar 131.59 Kb.
Fecha de conversión22.06.2018
Tamaño131.59 Kb.
Vistas27
Descargas0
Catálogo:
    1. Uniformly Querying Knowledge Bases and Data Bases

  1. Paolo Bresciani

(bresciani@irst.it)


[REP]

Establece un mecanismo para acceder conjuntamente a un KBMS y un DBMS uniformemente: a la capacidad de respuesta del KBMS se le une la posibilidad de acceder a BD externas como una fuente añadida a la base de hechos (extensional knowledge).

A la arquitectura tradicional de un KBMS(TBox/Abox) le añade un tercer componente, DBox, y llega a que se asignan los predicados atómicos a tablas mediante una función de mapeado y se llega a transformar una query en SQL en una expresión a resolver conjuntamente entre KBMS y el DBMS (más o menos).

Apunta a futuras extensiones de los algoritmos que incluyen la incorporación de operadores de SQL tales como el ALL y el EXISTS.



Cosas que no conozco: KL-ONE KBMS
    1. Semantic Indexing Based on Description Logics

  1. Albrecht Schmiedel

(atms@cs.tu-berlin.de)


[REP]

Describe un método para construir y mantener un índice semántico basado en descripciones lógicas. Este índice se utilizará para un acceso eficiente al conjunto de objetos que coinciden con el objetivo de una query. Tal query es clasificada y categorizada en éxitos, fracasos y candidatos. Además, se puede calcular la cardinalidad de la query.

Como concepto estructurado, los elementos de indexación no son sólo valores de atributos sino descripciones complejas de ciertos individuos.

Estos elementos de indexación pueden ser fácilmente añadidos o eliminados sin afectar a otros elementos de indexación.

Puesto que es un conjunto de descripciones parciales de las instancias indexadas, se puede calcular bastante información sin acceder propiamente a las descripciones individuales.

Cosas que no conozco: lenguaje BACK.

    1. Una propuesta de estructuración del conocimiento para la adquisición de esquemas conceptuales de bases de datos a partir de textos.


  1. 1996
  1. [A]P.Martínez

(pmf@inf.uc3m.es)

Dpto. de Informática, U. Carlos III, Madrid

  1. García Serrano

(agarcia@cierzo.dia.fi.upm.es)

Dpto. de Inteligencia Artificial, U. Politécnica, Madrid


  1. Propuesta general de estructuración del conocimiento para la realización de modelos que incorporen gradualmente el conocimiento de un lingüista y que permitan posteriormente el desarrollo de un sistema con arquitectura cognitiva. Dicha arquitectura debe admitir fielmente la modularización del conocimiento planteada y el control no fijo para el análisis de textos, facilitando las labores de revisión y modificación del conocimiento por parte del experto en el dominio, aspecto clave en el caso de desarrollo de sistemas para tratamiento automático del lenguajes.

  1. Extracción y recuperación de información, sistemas basados en el conocimiento, inteligencia artificial.

  1. TANKA, proyecto Delisle et al (1996)

  1. ENEAS/BD, De Miguel (1996)

  1. COLOR-X, Burg y Van de Riet (1996)

  1. KSM (Knowledge Structure Manager), Cuenca y Molina (1996)

  1. etiquetador morfológico, Sánchez León y Nieto (1995)



El conocimiento se estructura en tres Unidades Cognitivas:

  • Unidad de Conocimiento Morfológica (UCM):

A su vez dividida en:

  • Etiquetador morfológico: clasifica las palabras en categorías morfológicas (estocástico)

  • Conjunto de Autómatas Finitos: agrupación de etiquetas morfológicas de una oración en gn, gp, gv,…

  • Cjto. de reglas para la formación de plurales y singulares nominales, y conjugación verbal.

  • Unidad de Conocimiento de las Perspectivas Lingüísticas.

Abandona el enfoque clásico del análisis secuencial (morfología  sintaxis  semántica  pragmática), y propone una serie de perspectivas que, de ser aplicables, cada una conlleva su propia secuencia de análisis, no siendo, estas perspectivas, disjuntas ni únicas para una oración dada.

Una perspectiva lingüística es un posible enfoque de análisis que puede realizarse sobre una oración (o parte de ella). Así, es posible centrarse en un enfoque verbo-argumentos o en un enfoque nombre-modificadores. Además, cada enfoque puede abordarse según distintas combinaciones de aplicación del conocimiento disponible con el fin de mejorar la robustez del análisis.

Se distinguen dos tipos de perspectivas:


  • PP genéricas: independientes del dominio.

  • PP del sublenguajes: propias del dominio.

Como perspectivas del sublenguaje proponen:

  • Patrones específicos de estilo: estructuras sintácticas típicas.

  • Patrones complejos: manejas fenómenos de elipsis y conjunción con grado de oración.

  • Palabras clave: palabras del dominio con un significado claro.

  • Verbos con preferencia semántica: verbos del dominio con significado claro.

Como perspectivas genéricas:

  • Verbos sin preferencia semántica: verbos principales de la oración de los que no está claro cuáles son los argumentos que pueden regir.

  • Interrelaciones sintagmáticas: estudia las interrelaciones que existen entre los componentes de un sintagma nominal de igual importancia a las que existen entre un verbo y sus argumentos.

  • Unidad de Conocimiento Sintáctica:

Información sintáctica que se proporciona a cuada una de las perspectivas que lo soliciten para realizar sus tareas de comprobación de patrones, obtención de funciones sintácticas, obtención de estructuras sintácticas verbales, y otras.

Contiene cuatro tipos de conocimiento:



  • reglas gramaticales

  • jerarquía sintáctica de verbos, para su clasificación en función de sus rasgos y de los segmentos encontrados en la frase.

  • Cjto. de reglas para distinguir los elementos de los grupos verbales

  • patrones sintácticos, utilizados por las perspectivas dirigidas por la sintaxis.

  • Unidad de Conocimiento Semántica

Estructura jerárquica con los esquemas semánticos verbales que proporciona los roles semánticos (agente, objeto, beneficiario, lugar, …) de los complementos sintácticos (sujeto, objeto directo, …) de los verbos.

Proponen los siguientes roles semánticos: agente, propiedad, objeto, beneficiario, experimentador, locativo y tiempo. En cuanto a casos modales: tiempo, instrumento y modo.

Distingue tres tipos de verbos: estado, proceso y acción), y cada uno de estos se descompone en varios dominios semánticos: básico, benefactivo, experimental, temporal y locativo.


  • Unidad del Conocimiento del Dominio.

Realiza el análisis pragmático, después de haber aplicado una o varias perspectivas sobre una oración.

Se descompone en dos unidades:



  • UC Pragmática: cjto. de reglas (axiomas de correspondencia) para transformar el resultado del análisis lingüístico en conceptos de un modelo de datos.

  • UC Caso: parecido a una red semántica con los aspectos instanciados que se han ido adquiriendo a partir del texto.
    1. Using Natural Language for Database Design


  1. 1996
  1. Edith Buchholz and Antje Düsterhöft

{ buch|duest }@informatik.uni-rostock.de

Department of Computer Science

University of Rostock, A.-Einstein-Str.21

18059 Rostock, Germany


  1. Trata sobre una herramienta de diálogo en LN para el proceso de diseño de BD. Pretende ilustrar como el LN (alemán en este caso) puede usarse para obtener un diseño preliminar y para la adquisición de la semántica de la BD. El acercamiento se basa en la asunción de que los verbos forman la parte central de la definición del significado de las sentencias e implica roles semánticos en las frases que serán rellenados por objetos. Usan un diálogo moderado para dirigir la atención del diseñador hacia esos objetos para extraer información coherente sobre el dominio.



El propósito de la utilización del LN en el diseño de BD es evitar el cuello de botella que supone la necesidad de entrenar a un diseñador/analista en un modelo de datos a la hora de diseñar una BD.Los ejemplos se basan en un sistema de información de una biblioteca.

Se dispondría de dos herramientas:



  • Un interfaz LN para la adquisición de las características del sistema de información.

  • Un módulo para transformar las descripciones en un esquema de BD.

Para la adquisición del conocimiento del diseñador se utiliza una herramienta moderada, de preguntas-respuestas, de tal forma que ésta pregunta por entradas o bien cuestiones adicionales para reforzar los “huecos” que se producen en el proceso.

Los resultados de los análisis sintáctico, semántico y pragmático se usarán para controlar el diálogo, esto es, si una entrada de diseño es incompleta se inicia una pregunta. Las entradas serán incompletas si los roles semánticos no están completos o el modelo de diseño generado es incompleto. Los roles semánticos son rellenados durante el análisis semántico. El pragmático realiza la transformación de las sentencias en LN a estructuras de HERM (EER).



El análisis sintáctico.

Está basado en un GPSG parser, que pertenece a la familia de las gramáticas de unificación. Una característica básica es la introducción de Reglas ID/LP (Immediate Dominance/Linear Precedence). El parser implementado utiliza el algoritmo de Early.



El análisis semántico.

Asume las formas verbales como la parte central en la definición del significado de las sentencias y de las relaciones entre dichas sentencias. Básicamente describen acciones, producciones y estados. Se asume una clasificación de los verbos lo suficientemente manejable pero extensa para identificar la función de cada uno.

Para identificar el significado de las sentencias utiliza un modelo de roles semánticos. Las unidades identificadas en una frase se utilizan para rellenar ciertos roles: causa, tema, éxito (goal), fuente, locativo, temporal, modo, voz?

Interpretación pragmática.


  1. Obtener un diseño esqueleto.

La transformación de una estructura de sentencias de LN a un modelo EER es un proceso basado en heurísticos (“todos los nombres son entidades”). Aceptados éstos, podemo formalizarlos utilizando reglas libres de contexto o sensibles al contexto. Proporciona algún ejemplo.

  1. Extracción de información sobre el comportamiento.

Entendemos como tal la definición de transacciones. Este comportamiento puede representarse mediante un grafo conceptual. La base de conocimiento se usará para reunir los procesos relevantes del sistema y se basa en los resultados del análisis semántico.

Los procesos complejos se pueden dividir en pre y postprocesos. El clasificarlos de esta manera provoca las subsiguientes preguntas de la herramienta para situar correctamente cada uno.



Conclusiones y desarrollos futuros.

Se presenta una herramienta de diálogo en LN consistente en un analizador sintáctico, un creador de roles semánticos y un intérprete pragmático. La herramienta reune información sobre la estructura, semántica y comportamiento de la BD previa. Por medio de las reglas de transformación esta información se mapea en un modelo HERM.

La ventaja reside en la utilización para el diálogo del LN que permite la utilización de este conocimiento en la creación de construcciones tales como entidades, atributos, cardinalidades, restricciones, etc.

La eficiencia de la BD depende en gran manera de la exacta interpretación


    1. Information Extraction


  1. 1996
  1. Jim Cowle

jcowie@nmsu.eu

Computing Research Laboratory, Box 3CRL, New Mexico State University, Las Cruces, NM 88003

  1. Wendy Lehnert

lehnert@cs.umass.edu

University of Massachusetts, Department of Computer Science, Amherst, MA 01003


  1. Resumen del estado del arte y tendencias futuras en la Extracción de Información, su relación con la teoría del Procesamiento del Lenguaje Natural, y dando especial relevancia a las conferencias semianuales sobre entendimiento del mensaje (Message Understanding Conferences) que se centran en la evaluación competitiva de sistemas de EI. Hace especial hincapié en las diferencias entre las vertientes teóricas y práctica, en función de dos necesidades obligadas como son la exactitud y la rapidez.

  1. ARPA (DARPA)

  2. MUC

  3. UMass

  4. SRI

  5. CYC Project



La extracción de información (EI) supone una línea de investigación relativamente reciente; es el paso siguiente a la recuperación de información (Information Retrieval). Mientras la RI recogen material útil de grandes cantidades de textos con la finalidad de obtener únicamente los que sean relevantes, la EI pretende, a partir de estos, obtener información relevante que pueda ser utilizada electrónicamente. Digamos que se trata de depurar y hacer “digerible” la información contenida en los textos que provienen de cualquier fuente.

Como aplicaciones de la EI podemos citar la transformación de texto no estructurado en datos almacenables en una base de datos clásica.

Especial importancia tiene la evaluación y calificación de estos sistemas, tanto a la hora de comparar entre ellos como de asegurar ciclos de desarrollo de los sistemas suficientemente cortos y correctos. Se utilizan plantillas (templates) predefinidos que se rellenan a partir de los textos con la información que el sistema detecta como relevante. Dos medidas se están utilizando:

Recall: número de slots comparados correctamente dividido por el número total de slots comparados.

Precisión: número de slots producidos correctamente dividido por el número total de slots producidos.

Un sistema EI tiene los siguientes módulos típicos:



Filtrado

NIVEL DE TEXTO.

Determina la relevancia del texto o partes del texto basado en estadísticas de palabras o la ocurrencia de determinados patrones.

Etiquetado léxico (part-of-speech tagging)

NIVEL PALABRA.

Marca las palabras con su parte de la oración (discurso?). Habitualmente utiliza métodos estadísticos entrenados a partir de texto preetiquetado.

Etiquetado semántico

NIVEL FRASE NOMINAL.

Reconoce las unidades principales de la frase en el dominio y las marca con información semántica.

Analizador sintáctico (parsing)

NIVEL ORACIÓN.

Mapea los elementos de la frase en una estructura que muestra la relación entre ellos.

Referencia del discurso

NIVEL interORACIÓN.

Superpone y mezcla las estructuras producidas por el parser. Reconoce y unifica las expresiones de referencia.

Generador de salida

NIVEL PLANTILLA (Template)

Formatea la salida a la forma predefinida.

En el preproceso es habitual encontrar programas etiquetadores léxicos para un análisis preliminar de unidades dentro de las oraciones, y reglas de propósito especial para reconocer las clases semánticas de las unidades, incluyendo nombres de compañías, lugares, nombres de personas, unidades monetarias y nombres de equipamientos.

La tendencia actual parece ser un análisis sintáctico parcial contra el tradicional análisis completo.

Otro término utilizado es el de conocimiento superficial, fuertemente dependiente del dominio que ayuda a recortar los ciclos de desarrollo puesto que acorta la adquisición de conocimiento.

El análisis del discurso trata tres problemas:


  • El análisis de oraciones nominales, el cual se refiere al problema de reconocer appositives y otras oraciones nominales complejas y el análisis semántico de oraciones nominales.

  • La resolución de coreferencias (co-reference resolution), que se refiere al problema de reconocer cuando una nueva oración nominal está haciendo referencia a un referente encontrado previamente, y

  • El reconocimiento de enlaces relacionales (relational link recognition), que se necesita para estructurar los tokens de memoria en una red asociativa que contiene enlaces que se sabe que son importantes para el soporte de los requerimientos de la EI.

Uno de los objetivos en EI es conseguir sistemas adaptables por personal no lingüista computacional. Una vía es la posibilidad de automatizar la adquisición de datos y las reglas necesarias para un nuevo lenguajes o dominio por el entrenamiento del sistema para realizar ciertas partes de sus tareas.

Parece el eje central del problema la definición de las plantillas (templates) y su producción a partir de los textos (esto es rellenar una determinada plantilla en función del rol semántico del objeto y sus interrelaciones con otros objetos).

En resumen: se busca eficiencia y rapidez, portabilidad de unos dominios a otros sin que se deterioren sensiblemente las dos características anteriores y, asociado con ella, la posibilidad de que personal no técnico sea capaz de entender y realizar esta adaptación.

A través de los años se ha conseguido reunir un corpus (varios en realidad) lo suficientemente amplio y fiable de textos y plantillas como para abordar la EI. Una de las críticas vertidas en el artículo hacia la comunidad PLN apunta a la oportunidad que ofrece la EI para que los investigadores PLN comiencen a trabajar con grandes cantidades de información real y, en general, dejen a un lado los sistemas a pequeña escala y con información artificial.


    1. Multilingual design of EuroWordNet


  1. 1997
  1. Piek Vossen

University of Amsterdam

  1. Pedro Díez-Orzas

Universidad de Madrid Alfonso X El Sabio

  1. Wim Peters

University of Sheffield


  1. Proceedings of ACL/EACL97 workshop on Automatic Information Extraction and Building of Lexical Semantic Resources

  1. ACLEACL97.doc

  1. Discusión sobre el diseño de la BD EuroWordnet, en la que bases de datos semánticas como WordNet1.5 para diferentes lenguajes son combinadas por medio de un denominado índice interlenguas. En esta BD, la información independiente del lenguaje es compartida y las propiedades específicas del lenguaje son mantenidas también. Un interface especial ha sido desarrollado para comparar la configuración semántica entre lenguajes y para remarcar las diferencias. El diseño pragmático de la BD hace posible obtener una evidencia empírica de una ontología común de referencias lingüísticas cruzadas.

  1. WordNet1.5



  1. EuroWordNet es un proyecto de la CE que pretende la construcción de una BD multilingüe a partir de varias wordnets de lenguajes europeos (inglés, alemán, italiano y español). Cada wordnet específica esta estructurada según las mismas líneas que WordNet (por ejemplo, los sinónimos están agrupados en synsets, los cuales están relacionados por medio de relaciones semánticas básicas.

La BD EuroWordNet será construida en lo posible a partir de recursos ya disponibles y bases de datos con información semántica desarrolladas para diversos proyectos. Las wordnets específicas de cada lenguajes son sistemas independientes dentro de la BD léxica central, mientras que los significados de las palabras equivalentes son enlazados entre los lenguajes.

La arquitectura adopta la forma de una lista no estructurada de conceptos, que conforma el superconjunto de todos los conceptos encontrados en todos los lenguajes. Esta lista no satisface ninguan teoría cognitiva, porque es un índice no estructurado con identificadores únicos para los conceptos que no tiene ninguna estructura interna. Esto aporta la ventaja de que no es necesario mantener una estructura semántica compleja que incorpore la complejidad de todos los lenguajes tratados. Además, la adición de un nuevo lenguaje tendrá un efecto mínimo sobre las wordnets ya existentes y sus relaciones de equivalencia.



Diseño de alto nivel de la BD EuroWordNet.

Todas las wordnets específicas están almacenadas en un sistema de BD léxica central. Cada wordnet representa un sistema de lenguaje interno de synsets con relaciones semánticas tales como hiponimia, meronimia, causa, rol… Las relaciones de equivalencia entre los synsets de cada lenguaje y WordNet1.5 se hacen explícitas en el llamado Inter-Lingual-Index (ILI). Cada synset en las wordnets monolingüe tendrá al menos una relación de equivalencia con un registro del ILI. La única organización que se proveerá al ILI es vía dos ontologías separadas que son enlazadas a registros ILI:



  • Ontología de superconceptos (top-concept ontology), que es una jerarquía de conceptos independientes del lenguaje, reflejando relaciones opuestas explícitamente (p.ej., objeto y substancia).

  • Jerarquía de etiquetas de dominio, que relacionan conceptos sobre la base de scripts o tópicos (p.ej., deportes, deportes de agua, deportes de invierno, militar, hospital …).

Tales jerarquías permiten al usuario adaptar la BD con características semánticas sin tener que acceder a las relaciones internas del lenguaje de cada wordnet. Además, las etiquetas de dominio pueden ser utilizadas directamente en Information Retrieval (también en herramientas de aprendizaje de lenguaje y publicación de diccionarios) para agrupar conceptos de una forma diferente, basado en scripts más que en clasificación. Los dominios pueden ser usados para separar lo genérico de los vocabularios específicos del lenguaje. Esto es importante para controlar la ambigüedad en PLN. Finalmente, ahorra espacio por almacenar la información independiente del lenguaje una sola vez.

El resto del artículo trata sobre las relaciones entre lenguajes y el interface que permite interactuar con la BD.

    1. The use of lexical semantics in information extraction


  1. 1997
  1. Joyce Yue Chai

chai@cs.duke.edu

  1. Alan W. Biermann

awb@cs.duke.edu

Department of Computer Science

Box 90129, Duke University

Durham, NC 27708-0129


  1. Se presenta un método para permitir a los usuarios especializar un sistema de extracción de información para satisfacer sus necesidades particulares. El método permite al usuario demostrar manualmente la creación de nodos semánticos utilizando un interfaz gráfico. Sobre la base de tales ejemplos, el sistema crea reglas que traducen el texto a redes semánticas; entonces, generaliza estas reglas de tal manera que pueden aplicarse a una amplia variedad de textos en vez de únicamente a los artículos de entrenamiento. Finalmente, las reglas generalizadas se usan para examinar grandes cantidades de artículos para extraer la información particular puesta como objetivo por el usuario. El artículo se concentra en el diseño del mecanismo de generalización que se modifica a sí mismo para coincidir con exactitud con la especificación del usuario.

  1. chai.ps

  2. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.

  1. WordNet

  2. BBN (Weischedel, 1995)

  3. NYU (Grishman, 1995)

  4. SRI (Appelt et al., 1995)

  5. SRA (Krupka, 1995)

  6. MITRE (Aberdeen et al., 1995)

  7. UMass (Fisher et al., 1995)

  8. HASTEN

  9. FASTSPEC

  1. Adaptar los sistemas de extracción de información a diversos dominios ha llegado a ser un punto importante dentro del PLN.

El artículo trata de un sistema de EI entrenable que permite a cualquier usuario adaptarlo a distintas aplicaciones. El entrenamiento suministra al usuario la habilidad de identificar patrones para la información de interés. El proceso de entrenamiento es similar al del sistema HASTEN. No obstante, el propuesto aquí generaliza patrones automáticamente con la ayuda de las jerarquías de WordNet. Esta generalización automática hace el proceso de adaptación más fácil.

Este artículo describe el método automático de generalización de reglas y el uso de WordNet. Primero, introduce la idea de la generalización; después, describe el modelo de Árbol de Generalización basado en WordNet e ilustra como el GT(Generalization Tree) control el grado de generalización de acuerdo a las necesidades del usuario. Finalmente, demuestra algunos resultados preliminares de la aplicación del GT en su sistema entrenable de EI.



Adquisición léxica

Una forma de conseguir adquisición léxica es el uso de repositorios existentes de conocimiento léxico, tal como una base de conocimiento, diccionarios o tesauros. El punto clave es si estos repositorios serán efectivos aplicados a un proposito computacional. Muchos investigadores han dado pasos hacia la extracción exitosa de información léxica computacionalmente útil a partir de diccionarios electrónicos y convirtiéndolos a una representación formal. WordNet es un recurso a gran escala de información léxica basada en una representación a base de listas de sinónimos.

La característica más útil de WordNet es la organización de la información léxica en términos de significados de palabras más que en la forma de las palabras. Se organiza en nombres, verbos, adjetivos y adverbios. Cada entrada en WN es un concepto representado por una lista de sinónimos (synset). La información se representa en forma de redes semánticas. Por ejemplo, en la red para nombres hay relaciones entre los conceptos tales como “parte de”, “es un”, miembro de”.

Aplicación de WordNet en el sistema

El sistema contiene tres procesos principales que son: entrenamiento de objetivos (address training), generalización de reglas, y el análisis de nueva información. WN se usa en todos ellos.

Durante el proceso de entrenamiento, cada artículo es analizado parcialmente y segmentado en sintagmas nominales, verbales y preposicionales. Se usan un diccionario electrónico de inglés de IBM, un diccionario de términos informáticos, un analizador parcial, un tokenizador y un preprocesador. El tokenizador y el preprocesador se diseñan para identificar algunas categorías especiales como direcciones e-mail, números de teléfono, ciudades, etc. El usuario, con la ayuda de un interfaz gráfico, escanea un articulo analizado de ejemplo e indica una serie de nodos semánticos y transiciones que él o ella querrían crear para representar la información de interés. Específicamente, el usuario designa aquellos sintagmas nominales en el artículo que son de interés y usa los comandos del interfaz para traducirlo a nodos semánticos. Además, el usuario designa sintagmas verbales y preposicionales que relacionan los SN y utiliza comando para traducirlos a transiciones en la red semántica entre nodos. En el proceso, el usuario indica la traducción deseada de una información específica de interés en términos de red semántica, que puede ser procesada fácilmente por la máquina. Cuando el usuario toma una acción para crear transiciones semánticas, un Generador de Reglas (RG) toma nota de los movimientos del usuario y crea reglas automáticamente.

WN se usa para proveer de información sobre el sentido (significado? Sense: si una palabra como hoja tiene el sentido de hoja de papel o de hoja de un árbol) durante el entrenamiento. Para cada palabra clave (headword) en un sintagma verbal o nominal, muchos sentidos están disponibles en WN.

Las reglas creadas en el proceso de entrenamiento son específicas para los artículos utilizados y deben ser generalizadas antes de ser aplicadas en otros artículos del dominio. De acuerdo con los diferentes requerimientos del usuario, en el proceso de generalización, un motor de optimización de reglas, basado en WN, generaliza la regla específica y construye un conjunto de reglas optimizadas para procesar nueva información.

Durante el proceso de análisis de nueva información, si las palabras no están en la tabla de sentido (sense table) se asigna el sentido 1 de WN; en caso contrario la TS proporciona su sentido más frecuentemente utilizado en el dominio. La salida del sistema es un conjunto de transiciones semánticas para cada artículo que extrae la información de interés para el usuario. Estas transiciones pueden ser utilizadas para rellenar plantillas, responder a consultas o generar abstracts.



Generalización de reglas

El motor de generalización de reglas es crucial para el sistema completo puesto que hace el proceso de adaptación más fácil. El usuario necesita entrenar una cantidad comparativamente menor de información del dominio, y el sistema revisará automáticamente las reglas para hacerlas aplicables a una gran cantidad de nueva información.

Reglas

En una tarea típica de EI, la parte más interesante son los eventos y las relaciones entre esos eventos. Estas relaciones son especificadas habitualmente mediante verbos y preposiciones. Sobre la base de esta observación, la parte izquierda de nuestras reglas de extracción de información (LHS) se construye a partir de tres entidades. La primera y la tercera son objetos objetivo en forma de sintagmas nominales, la segunda es el SP o SV, indicando la relación entre los otro dos objetos. La parte derecha (RHS) de la regla consite en las operaciones requeridads para crear una traducción semántica (añadir-nodo, añadir-relación..).



Las reglas generadas en el proceso son específicas de los artículos leídos y no son aplicables a nuevos artículos sin generalización. No estamos interesados únicamente en la generalización en sí, sino también en una estrategia de control del grado de generalización para varias aplicaciones en diferentes dominios.

Esquema de Generalización

La organización jerárquica de WN por significados de palabra proporciona la oportunidad de una generalización automatizada. Con la gran cantidad de información en clasificación semántica y taxonomía suministrada por WN, éste puede ser utilizado de muchas maneras. En este punto, únicamente nos vamos a fijar en la hiperonimía y la hiponimía.

Un Hp se define de la siguiente forma: “un nombre X se dice que es hipónimo de uno Y si podemos decir que X es un tipo de Y. Esta relación genera un estructura jerárquica en árbol, como por ejemplo una taxonomía. Un hipónimo en cualquier parte de la jerarquía se puede decir que es un tipo de todos sus padres.” Si X es un hipónimo de Y, Y es hiperónimo de X.

Para el proceso de entrenamiento, las reglas específicas contienen tres entidades en su LHS. Cada entidad de la regla es una cuádrupla de la forma (w, c, s, t) donde w es la palabra de la frase de entrenamiento; c es la part-of-speech de la palabra; s el número de sentido que representa el significado de w; t es el tipo semántico identificado por el preproceso de w.

Para cada una de estas cuádruplas (sp), si w existe en WN entonces existe su correspondiente synset. La jerarquía de hipónimos/hiperónimos proporciona una manera de localizar los conceptos padre de cada sp. Siguiendo la jerarquía podemos obtener conceptos más y más generales. Así, para cada concepto podemos obtener distintos grados de generalización ajustando la distancia entre el concepto y el concepto más general dentro de WN.

El proceso de generalización consiste en sustituir cada sp en las reglas específicas por su synset más general dentro de la jerarquía de WN.



Árbol de generalización

El grado de generalización es ajustable por el usuario. Reglas con diferentes grados para sus diferentes constituyentes tendrán un comportamiento diferente cuando se procesen nuevos textos. Dentro de una regla en particular, el usuario podría definir una entidad como más específica y otra como más general.

En el proceso de generalización con la ayuda del árbol de generalización el usuario ha de decidir que transiciones de las creadas son útiles y cuales no. Posteriormente, el clasificador estadístico calcula la tasa de relevancia de cada objeto. Se mantiene una BD para almacenar la información sobre la relevancia de todos los objetos de activación del concepto más general en la regla más general. Esta BD se transforma más tarde en una estructura GT. Al tiempo que mantiene las relaciones semánticas de los objetos como en WN, el GT recoge la información sobre relevancia de todos los objetos de activación y encuentra el nivel óptimo de generalización para cubrir las necesidades del usuario. La idea de este proceso de optimización es primero mantener el recall tan alto como sea posible aplicando la regla más general, y ajustar entonces la precisión afinando las reglas basadas en las entradas específicas del usuario.

Aquí ya entra en detalle en el modelo de GT



Experimentación y discusión

En los experimentos (que no describo) se encontró que WN cubría sobre el 90% de verbos y nombres en el dominio utilizado (un foro de news). La mayoría de los que no estaban en WN eran nombres propios, y en este dominio, casi todos nombres de compañías y de software. El problema lo resuelven con el preprocesador que clasifica los nombres propios en varios tipos semánticos, tales como nombres de compañía, de software, de ciudades, etc.

También habla de los inevitables errores producidos por diversas decisiones tomadas en la jerarquización propuesta por WN.

Conclusiones

El artículo describe una aproximación de generalización de reglas utilizando un Árbolde Generalización (GT) y WN para EI. La generalización hace la adaptación particular más fácil. El algoritmo de GT proporciona un camino para hacer el sistema adaptable a las necesidades del usuario. La idea de primero obtener la mayor cobertura(recall) con baja precisión y ajustar después la precisión por las necesidades del usuario ha sido satisfactoria. Están estudiando como mejorar el rendimiento del sistema por el refinamiento de la aproximación por generalización.



    1. Extending a thesaurus by classifying words


  1. 1997
  1. Tokunaga Takenobu

  1. Sakurai Naoyuki

  2. Fujii Atsushi

  3. Tanaka Hozumi

Dept. of Computer Science Tokyo Institute of Technology

take@cs.titech.ac.jp

  1. Iwayama Makoto

Advanced Research Lab. Hitachi Ltd.


  1. El artículo propone un método para extender un tesauro existente a través de la clasificación de nmuevas palabras en términos de dicho tesauro. Las nuevas palabras se clasifican sobre la base de probabilidades relativas de que una palabra pertenezca a una clase de palabras dada, con las probabilidades calculadas utilizando pares nombre-verbo de coocurrencias. Los experimentos utilizando el tesauro Japanese Bunruigoihyô con 420.000 coocurrencias aproximadamente, muestra que las nuevas palabras pueden clasificarse correctamente con una máxima precisión de más del 80%.

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.

  1. Thesaurus, clasificación


    1. Formal redundancy and consistency checking rules for the lexical database WordNet1.5


  1. 1997
  1. Dietrich H. Fischer

GMD-IPSI


  1. En una red semántica construida a mano en la que no son las definiciones de los conceptos las que determinan automáticamente la posición de los conceptos en la red, sino más bien los enlaces codificados por los lexicógrafos, las propiedades formales de los atributos codificados y relaciones proporcionan condiciones necesarias pero no suficientes para soportar el mantenimiento de la consistencia interna y la inexistencia de redundancia. De acuerdo con nuestra experiencia, el potencial de esta metodología no ha sido suficientemente explotado debido a la falta de comprensión de reglas formales aplicables, o debido a la inflexibilidad de las herramientas software disponibles. Basándose en una encuesta (inquiry) más comprensible realizada sobre WordNet1.5, el artículo presenta una selección de reglas de validación pertinentes y los resultados de su aplicación a WN1.5. Los descubrimientos propuestos son:

  1. Las relaciones semánticas que están fuertemente relacionadas pero difieren en una propiedad verificable deberían ser diferenciadas.

  2. Las relaciones inferibles, tales como la clausura transitiva de una relación jerárquica o relaciones semánticas inducidas por relaciones léxicas, necesitan ser tomadas en cuenta cuando se verifican relaciones reales, p.ej. relaciones almacenadas directamente.

  3. Una red semántica necesita representaciones apropiadas de faltas (gaps) léxicas. La hiperonímia disyuntiva, implementada como un conjunto de hiperónimos, se considera perniciosa.

  1. WordNet, semántica, léxico

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Lexical discrimination with the italian version of WordNet


  1. 1997
  1. Alessandro Artale

  2. Bernardo Magnini

  3. Carlo Strapparava

IRST, I-38050 Povo TN, Italy

{ artale | magnini | strappa }@irst.itc.it


  1. Se presenta un prototipo de la versión italiana de WordNet, un recurso computacional léxico general. Se discuten algunas extensiones relevantes para hacerlo utilizable para el análisis (parsing): en particular, se añaden restricciones de selección de verbos para hacer efectiva la discriminación léxica. La WN italiana se ha acoplado a un analizador y se ha experimentado para individualizar la metodología con la mejor relación entre la ratio de desambigüación y precisión. Los resultados confirman la hipótesis intuitiva del papel de las restricciones de selección (selectional restrictions) y muestra evidencias para una organización de significados léxicos tipo WN.

  1. WordNet, léxico, selectional restrictions

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Integrating a lexical database and a training collection for text categorization


  1. 1997
  1. José María Gómez-Hidalgo

  2. Manuel de Buenaga Rodríguez

Depto. de Informática y Automática

Universidad Complutense de Madrid, Avda. Complutense s/n, 28040 Madrid (Spain)

{ jmgomez | mbuenaga }@dia.ucm.es


  1. La categorización de textos automática es una tarea compleja y útil para muchas aplicaciones de PLN. Las aproximaciones recientes se centran más en los algoritmos que en los recursos utilizados en la operación. En contra de este hecho, se presenta una aproximación basada en la integración de la amplia variedad de recursos disponibles como BD léxicas y colecciones de entrenamiento para superar las limitaciones actuales de la tarea. Su aproximación hace unos de la información sobre sinónimos de WN para incrementar la evidencia de categorías mal obtenidas. Cuando se prueba una categorización directa, una base sobre WN, un algoritmo de aprendizaje, y la aproximación integrada, la última da mejor rendimiento que los otros. Incidentalmente, la aproximación basada en WN obtiene resultados comparables con la aproximación de aprendizaje.

  1. WordNet, Information Retrieval

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Integration of Hand_Crafted and Statistical Resources in Measuring Word Similarity


  1. 1997
  1. Atsushi Fujii

  2. Toshihiro Hasegawa

  3. Takenobu Tokunaga

  4. Hozumi Tanaka

Dept. of Computer Science

Tokio Institute of Technology

{ fujii | take | tanaka }@cs.titech.ac.jp


  1. El artículo propone una nueva aproximación para la medición de la similitud entre palabras. La computación estadística de la similitud ha sido popular en la investigación reciente, pero se asocia a un coste computacional significativo. Por otra parte, el uso de tesauros etiquetados manualmente (hand-crafted) como recurso semántico es simple de implementar, pero adolece de falta de rigor matemático. Para integrar las ventajas de ambas aproximaciones, pretendemos calcular un peso estadístico par cada rama del tesauro, de tal forma que podemos medir la similitud basada simplemente en la longitud de la ruta entre dos palabras en el tesauro. Nuestro experimento sobre los nombres japoneses muestra que este marco mantuvo la no igualdad de la similitud de palabras estadística con una precisión de más del 70%. También informamos de nuestro trabajo en la tarea de la disambigüación de significados de palabras.

  1. WordNet, Information Retrieval

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Word sense disambiguation form acquisition of selectional preferences


  1. 1997
  1. Diana McCarthy

Cognitive & Computing Sciences

University of Sussex, Brighton BN1 9QH, UK

diana.mccarthy@cogs.susx.ac.uk


  1. Las preferencias de selección (selectional preferences) de los predicados verbales son un componente importante de la información léxica útil para varias tareas de PLN, incluyendo la desambigüación de significados de palabras. Los informes sobre las aproximaciones a la adquisición de preferencias de selección sin desambigüación de palabras son propensas a los errores que aparecen a partir de significados erróneos de palabras. El etiquetado semántico automático a gran escala de textos en cantidad suficiente para la adquisición de preferencias ha recibido poca atención, mientras que la mayoría de la investigación en desambigüación se ha concentrado en la desambigüación de calidad de un puñado de palabras etiquetadas. El trabajo descrito aquí se concentra en adaptar los métodos de etiquetado semántico que no requieren una sobrecarga masiva de etiquetado manual y que resulta en un adecuado compromiso entre precisión y coste de tal forma que grandes cantidades de texto pueden ser etiquetadas relativamente rápido. Los resultados de algunas de estas adaptaciones se describen aquí a través de una comparación de las preferencias de selección con o sin uno de estos métodos. Los resultados de la aproximación por bootstrapping se muestran superficialmente también en aquellos que las preferencias obtenidas se utilizan en una desambigüación grosera para, entonces, realimentar el sistema de adquisición de preferencias con la información parcialmente desambigüada.

  1. disambiguation, desambigüación

  2. Penn Treebank

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Subject and object dependency estraction using finite-state transducers


  1. 1997
  1. Salah Aït-Mokhtar

  1. Jean-Pierre Chanod

Rank Xerox Research Centre, 6 Chemin de Maupertuis, F-38240 Meylan, France

{ ait | chanod }@grenoble.rxrc.xerox.com


  1. Describimos y evaluamos una aproximación a la rápida y autómatica reconocimiento y extracción de relaciones de dependencia entre sujeto y objeto de un gran corpus en francés, utilizando transducers de estados finitos. La extracción se realiza en dos pasos principales: análisis de estados finitos incremental y extracción de relaciones sujeto-verbo, y objeto-verbo. Nuestra aproximación incremental y cauta durante la primera fase permite al sistema trabajar con éxito con fenómenos complejos como los incrustados (embeddings), coordinación de PV y PN u ordenación de palabras no estándar. La extracción no requiere información de subcategorización. Se basa en información Part-Of-Speech tan sólo. Después de describir los dos pasos, damos los resultados de una evaluación sobre varios tipos de corpus no restringidos. La precisión está sobre el 90-97% para sujetos (84-88% para objetos), y la cobertura sobre el 86-92% para sujetos (80-90% para objetos). También damos algún análisis de error; en particular, evaluamos el impacto de los errores de etiquetado POS en la extracción de dependencia sujeto-objeto.

  1. part-of-speech, transducer, shallow parsing

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. An experiment in semantic tagging using Hidden Markov Model Tagging


  1. 1997
  1. Frédérique Segond

  1. Anne Schiller

  1. Gregory Grefenstette

  2. Jean-Pierre Chanod

Rank Xerox Research Centre, 6 Chemin de Maupertuis, F-38240 Meylan, France

{ segond | schiller | grefenstette | chanod }@grenoble.rxrc.xerox.com


  1. La misma palabra puede tener muchos distintos significados dependiendo del contexto en el que se usa. El descubrimiento del significado de una palabra, dado el texto que la acompaña, ha sido un problema interesante tanto para la investigación en psicología como en inteligencia artificial. En este artículo presentamos una serie de experimentos utilizando métodos que se han probado útiles para eliminar la ambigüedad POS, para ver si tales métodos simples pueden ser usados para resolver ambigüedades semánticas. Usando un lexicón semántico público (WordNet), encontramos que los modelos ocultos de Markov trabajan sorprendentemente bien en la elección de correctas categorías semánticas, una vez que las sentencias han sido limpiadas de palabras puramente funcionales.

  1. part-of-speech, disambiguation, WordNet, semantic tagging

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.



Cualquier sistema PLN que trata con dominios menos restringidos se enfretna al problema de distinguir entre los usos de las voces polisémicas. La idea detrás de las palabras etiquetadas semánticamente es que las marcas de significado añadidas a las palabras pueden ser usadas por algún proceso automático para elegir los adecuados significados de palabras en un contexto dado.

El etiquetado semántico se considera mucho más difícil que el POS. Por esa razón, decidimos realizar un experimento para ver como de bien se pueden desambigüar palabras semánticamente utilizando técnicas que se han mostrado efectivas en etiquetado POS. Decidimos utilizar 45 etiquetas semánticas del paquete WordNet. Este conjunto de etiquetas semánticas tiene dos ventajas: tiene un tamaño razonable, de tal forma que las técnicas estadísticas que estamos analizando no necesitan una excesiva cantidad de información de entrenamiento; además, tenemos un corpus etiquetado semánticamente utilizable para comprobar los resultados.


    1. Using semantic similarity to acquire coocurrence restrictions from corpora


  1. 1997
  1. Antonio Sanfilippo

SHARP Laboratories of Europe, Oxford Science Park, Oxford OX4 4GA, UK

antonio@sharp.co.uk


  1. Describimos un método para adquirir restricciones de coocurrencia semántica para tuplas de palabras relacionadas (p.ej., pares verbo-objeto) sintácticamente automáticamente de un corpus de textos. Este método usa la noción de similitud semántica para asignar un sentido(significado) desde una base de datos diccionario (WordNet) para las palabras ambiguas que aparecen en una dependencia sintáctica. La similitud semántica también se usa para combinar tuplas de palabras desambiguadas en clases de restricciones de coocurrencia. Esta codificación hace posible reducir los procesos de desambiguación subsecuentes en un simple recorrido de tablas.

  1. disambiguation, WordNet, coocurrence

  1. Proceedings of workshop on Automatic Information Extraction and building of lexical semantic resources.
    1. Inferring semantic similarity from distributional evidence: an Analogy-based aproach to word sense disambiguation.


  1. 1997
  1. Stefano Federici

Simonetta Montemagni

Par.O.La sas, Pisa, Italy

Vito Pirrelli

Istituto di Lingüística Computazionale CNR, Pisa, Italy.


  1. El artículo describe una medida basada en analogía de la proximidad de significado de palabras fundamentada en la evidencia de distribución en contextos típicos, e ilustra un sistema computacional que hace uso de tal medida para tareas de desambiguación léxica. Los resultados experimentales muestran que la analogía de significados de palabras basada en el contexto de uso se compara favorablemente con la similitud clásica definida en términos de proximidad en el tesauro.

  1. disambiguation

  2. SPARKLE

Proceedings of workshop on Automatic Information Extraction and building of lexical semantic

Compartir con tus amigos:


La base de datos está protegida por derechos de autor ©psicolog.org 2017
enviar mensaje

enter | registro
    Página principal


subir archivos