Sobre El Grial

El Grial  es una interfaz computacional que permite tanto la realización de anotaciones morfosintácticas en textos planos en lengua española como la interrogación o consulta en forma de base de datos de los corpora allí reunidos.

Algunas Publicaciones De Ayuda Para El Grial

Parodi, G (2006)

El Grial: Interfaz Computacional Para Anotación e Interrogación de Corpus en Español.

Parodi, G (2008)

Lingüística de Corpus:
Una Introducción al Ámbito

Venegas, R. (2008)

Interfaz Computacional de Apoyo al Análisis Textual: “El Manchador de Textos”.

BÚSQUEDA SIMPLE


La ‘búsqueda simple’ permite realizar búsquedas sobre una sola categoría.

Estas dos formas de despliegue de datos se aplican sobre tres categorías: formas, lemas y partes de la oración, a la que se puede agregar información sobre género y número. Esta búsqueda permite desplegar los resultados según dos modalidades: por frecuencia y en contexto. La búsqueda simple puede ser utilizada consultando por una palabra específica o bien de modo general. En el primer caso, se debe tipear en la ventana la palabra que queremos buscar, elegir el modo de consulta (por frecuencia o en contexto) y la categoría que queremos obtener como resultado (forma, lema o parte de la oración). Si, por el contrario, deseamos ver toda la información del texto, solo debemos elegir el modo de consulta y las categorías que se quieren obtener como resultado sin tipear nada en la ventana.

BÚSQUEDA COMPLEJA



La ‘búsqueda compleja’ permite realizar búsquedas avanzadas sobre más de una categoría, es decir, una serie de categorías.

En este tipo de consultas, se incorporan todas las funciones de la búsqueda simple, pero además se puede recuperar información sintáctica e información de dependencia gramatical. La principal diferencia entre este tipo de búsqueda y la anterior es la posibilidad de consultar sobre una serie de categorías. Así por ejemplo, se puede seleccionar una forma, seguido de una etiqueta sintáctica, tal como en la siguiente secuencia:

Forma = para; lema = ser; Etiqueta sintáctica = Participio.

A partir de una consulta así, obtendremos secuencias como:

  • Para ser entregados
  • Para ser amados
  • Para ser investigados

Ahora bien, debido a que el programa cuenta además con etiquetas de dependencia funcional es posible obtener una secuencia a partir de la selección de solamente una etiqueta, por ejemplo, si seleccionamos la etiqueta Suj. (sujeto) obtendremos todas las secuencias de superficie que cumplen esa función.

EL MANCHADOR


El Manchador de Textos” (EMT) es una herramienta computacional que permite calcular y mostrar la frecuencia de aparición de una o más secuencias de rasgos lingüísticos en corpus digitalizados.

Los resultados obtenidos en esta búsqueda se presentan a través del coloreado de las palabras o estructuras lingüísticas que han sido buscadas. Este proceso se denomina “manchado” y es el que da el nombre a la herramienta. A partir del “manchado”, el investigador puede visualizar en qué sectores del texto aparecen los rasgos lingüísticos que ha buscado. Asimismo, este proceso permite detectar visualmente tanto las agrupaciones como la forma en que estos rasgos se interrelacionan al interior de los párrafos de un texto. Esta información es relevante para calcular la co-ocurrencia sistemática (aparición conjunta) de los rasgos lingüísticos seleccionados según el total de palabras de cada párrafo del texto, y, de este modo, del texto completo. A este proceso cuantitativo lo hemos denominado Índice de Densidad Lingüística.

Visualización del Out-put del análisis


La interfaz Grial permite además la posibilidad de ver los resultados completos del análisis que realiza el programa. Estos se presentan e formato texto en cuatro columnas.

En la primera columna aparecen las formas textuales o superficiales, es decir, la palabra tal como aparece en el texto. Cada una de estas palabras están enumeradas para cada oración, lo que coincide con la separación ortográfica de punto a punto. Cada vez que comienza una nueva oración, la enumeración comienza de nuevo. En la segunda columna aparece la lematización de la forma textual de la primera columna. Como sabemos, el lema corresponde a:

a) el infinitivo para el caso de los verbos
b) el masculino singular para el caso de los sustantivos, adjetivos y pronombres

En la tercera columna, se muestra la relación sintáctica asociada al número de la primera columna. Entonces, si en la tercera columna aparece det:>3 significa que esa palabra es el determinante de la palabra analizada con el número 3. En la última columna, se entrega información sintáctica y morfológica. La información sintáctica es la primera etiqueta que aparece y es antecedida por el símbolo & . La información morfológica, se presenta en desde la segunda etiqueta en adelante y corresponde a la categorías gramatica y las marcas de género y número.
Ejemplo de texto desctacado, Un ejemplo de los resultados de este programa se presenta a continuación: superficie que cumplen esa función.