T I P

Text & Information Processing

  • Increase font size
  • Default font size
  • Decrease font size
English
Home Lexicon Corpus TIP

Lexicon Corpus TIP

Article Index
Lexicon Corpus TIP
Formas canónicas
Verbos
Relaciones derivativas
All Pages

El Lexicón TIP almacena información léxica variada de las palabras del español y además se han establecido relaciones entre ellas bajo distintos criterios. Se distinguen en el corpus las formas canónicas de las formas conjugadas o flexionadas que puede tener una forma canónica según sea un verbo o no. Además se han recopilados numerosos nombres propios, apellidos y topónimos, así como algunas locuciones y extranjerismos. También contiene relaciones de derivación entre las formas canónicas del corpus.


Formas canónicas

A cada forma canónica almacenada se le asocian los siguientes atributos: la categoría gramatical, la flexión, el número de flexiones básicas (género y número) que tiene, el número de sílabas, la posición de la sílaba tónica, el número de etimologías, el número de acepciones totales, el número de acepciones para la categoría gramatical, la frecuencia de aparición en el CREA, la antigüedad, entre otros datos relacionados con las acepciones.

Las categorías gramaticales de las palabras son una pieza clave en el tratamiento del lenguaje natural. Por ello, se han almacenado tantas formas canónicas iguales como categorías gramaticales puede desempeñar una palabra. También, la etimología es un factor que influye a la hora de almacenar las formas canónicas iguales dado que afectan a las relaciones léxico-genéticas que tienen las palabras entre sí y no deben confundirse en una misma entrada. Así por ejemplo, los sustantivos considerados son: sustantivo, sustantivo toponímico, sustantivo patronímico, sustantivo antroponímico, sustantivo propio, abreviatura usada como sustantivo, sigla usada como sustantivo, símbolo usado como sustantivo, sustantivo extranjero, sustantivo numeral cardinal, sustantivo numeral ordinal y sustantivo numeral fraccionario. Los adjetivos se han clasificado en 14 grupos, los adverbios en 21 grupos, los pronombres en 14 grupos, las conjunciones en 16 grupos. También se almacenan los artículos, las preposiciones, las contracciones, interjecciones, onomatopeyas, expresiones y locuciones. Esta clasificación ha dado lugar, por ejemplo, a las siguientes entradas en el Lexicón TIP:

coca: seis sustantivos femeninos correspondientes a seis etimologías distintas, un sustantivo toponímico y un sustantivo patronímico. Todas las entradas tienen los atributos y flexiones que les corresponde.

cuando: un sustantivo, una preposición, dos adverbios y cinco conjunciones. Todas las entradas tienen los atributos y flexiones que les corresponde.

Bajo este criterio el Lexicón TIP consta de:

Formas canónicas
258 494
Formas canónicas únicas 226 026

Y el reparto por categorías gramaticales es:

Categoría gramatical
Formas canónicas
Sustantivos 119 353
Adjetivos 44 322
Adverbios 71 594
Verbos 21 707
Pronombres 668
Conjunciones 58
Preposiciones 54
Otras 734

Cada forma canónica tiene almacenada todas las flexiones que le corresponde, con independencia de su frecuencia de uso en el español. Las flexiones consideradas son: género, número, neutro, superlativo, diminutivos, aumentativos y despectivos. Para cada una de ellas se distinguen en el corpus tres niveles: flexión regular, flexión irregular y flexión muy irregular. Además, se han etiquetado las palabras que son comunes o ambiguas en cuanto al género o en cuanto al número. Para cada forma flexionada se almacena su frecuencia en el CREA. Por tanto, el corpus tiene almacenadas muchas palabras iguales pero relacionadas con distintas formas canónicas. Según este criterio el Lexicón TIP consta de:

Palabras
6 288 673
Palabras únicas 4 346 519

Verbos

A cada infinitivo se le asocia la misma información que a las formas canónicas y además se le añaden los siguientes atributos: modelo de conjugación, número de formas conjugadas, tipo de irregularidad y/o de defectivadad si la tiene. Las categorías gramaticales consideradas para los verbos son: transitivo, intransitivo y pronominal. Se almacenan en diferentes entradas los infinitivos con distintas categorías gramaticales con el fin de establecer correctamente las relaciones derivativas, semánticas, sinonímicas, etc. También, el modelo de conjugación es un factor que influye a la hora de almacenar los infinitivos iguales con distinto modelo de conjugación dado que afecta a las formas conjugadas que tiene asociadas cada uno. Esta clasificación ha dado lugar, por ejemplo, a las siguientes entradas en el Lexicón TIP:

engrosar: dos transitivos, dos intransitivos y dos pronominales. Esta duplicidad es debido a que este verbo admite una conjugación regular y otra irregular en todas sus categorías gramaticales. Todas las entradas tienen los atributos y conjugaciones que les corresponde.

despelotar: dos transitivos y cuatro pronominales. Este verbo tiene cuatro etimologías distintas. Se almacena una entrada distinta para cada categoría gramatical de cada etimología. Todas las entradas tienen los atributos y conjugaciones que les corresponde.

Bajo este criterio el Lexicón TIP consta de:

Infinitivos
21 707
Infinitivos únicos 14 616

Y el reparto por categorías gramaticales es:

Categoría gramatical
Infinitivos
Transitivos 11 685
Pronominales 5357
Intransitivos 4249

Cada infinitivo tiene almacenado todas las formas conjugadas que le corresponde, con independencia de su frecuencia de uso en el español. Todas las flexiones irregulares tienen asociadas el tipo de irregularidad que posee (ortográfica, acentuación, morfológica, otra) y su frecuencia en el CREA.


Relaciones derivativas

Se ha establecido una relación derivativa entre dos formas canónicas cuando una de ellas se ha formado a partir de la otra. De los distintos procesos de formación de palabras en español, el Lexicón TIP sólo contempla las derivaciones sufijales, prefijales y parasintéticas. Para establecer estas relaciones no siempre se han seguido criterios etimológicos ni los estrictamente lingüísticos; se ha realizado un estudio sincrónico de los prefijos y sufijos de todas las formas canónicas del Lexicón TIP y se han establecido relaciones entre ellas siempre que exista una característica léxico-formativa que lo permita. Algunos ejemplos de estas relaciones, en el Lexicón TIP, se muestran a continuación:

pistola:
<sufijales> pistolera, pistolero, pistoletazo, pistolear.

hueco:
<sufijales> oquedad, oquedal, oqueruela.
<parasintéticas> enhuecar, ahuecar.

acción:
<sufijales
> accionario, accionista, accionar.
<prefijales> coacción inacción, interacción, reacción, retroacción.

pie:
<sufijales
> peal, peana, peaña, peciolo, pedaje, pedal, pedestal, pedestre, pedio, peón, pezón, pial, pielera, pihuela, podálico, podio.
<prefijales> antepié, bípede, bípedo, contrapié, cuadrúpedo, cubrepié, cubrepiés, guardapiés, lavapiés, mediopié, retropié, sobrepié, sopié, traspié.
<parasintéticas> apear, ápodo, aspear, despear, despiaco, dipodia, heterópodo, supedáneo.

pelo:
<sufijales> pelaje, pelambre, pelamen, pelanas, pelar, pelaza, pelero, pelete, pelillo, pelín, pelona, peloso, pelote, peluca, peluche, peludo, pelusa, piloso.
<prefijales> guardapelo, mediopelo, mediopelo, repelo, sobrepelo.
<parasintéticas> apelar, depilar, despeluchar, despeluzar, empelar, entrepelar, espelucar, espeluscar, espeluzar, espeluznar, respeluzar.

Este tipo de ralaciones ha dado lugar a la creación de famlias de palabras que derivan de una misma forma canónica. Para cada relación se ha marcado el afijo utilizado y si la unión del afijo a la forma primitiva se ha realizado de manera regular o irregular.

Bajo este criterio el Lexicón TIP consta de:

Familias de palabras
62 204
Relaciones de derivación
138 238

Y el reparto según el tipo de relación es:

Tipo de relación
Cantidad
Sufijal 120 470
Prefijal 13 896
Parasintética 3872