T I P

Text & Information Processing

  • Increase font size
  • Default font size
  • Decrease font size
English
Home Lexicon Corpus TIP

Lexicon Corpus TIP - Formas canónicas

Article Index
Lexicon Corpus TIP
Formas canónicas
Verbos
Relaciones derivativas
All Pages

Formas canónicas

A cada forma canónica almacenada se le asocian los siguientes atributos: la categoría gramatical, la flexión, el número de flexiones básicas (género y número) que tiene, el número de sílabas, la posición de la sílaba tónica, el número de etimologías, el número de acepciones totales, el número de acepciones para la categoría gramatical, la frecuencia de aparición en el CREA, la antigüedad, entre otros datos relacionados con las acepciones.

Las categorías gramaticales de las palabras son una pieza clave en el tratamiento del lenguaje natural. Por ello, se han almacenado tantas formas canónicas iguales como categorías gramaticales puede desempeñar una palabra. También, la etimología es un factor que influye a la hora de almacenar las formas canónicas iguales dado que afectan a las relaciones léxico-genéticas que tienen las palabras entre sí y no deben confundirse en una misma entrada. Así por ejemplo, los sustantivos considerados son: sustantivo, sustantivo toponímico, sustantivo patronímico, sustantivo antroponímico, sustantivo propio, abreviatura usada como sustantivo, sigla usada como sustantivo, símbolo usado como sustantivo, sustantivo extranjero, sustantivo numeral cardinal, sustantivo numeral ordinal y sustantivo numeral fraccionario. Los adjetivos se han clasificado en 14 grupos, los adverbios en 21 grupos, los pronombres en 14 grupos, las conjunciones en 16 grupos. También se almacenan los artículos, las preposiciones, las contracciones, interjecciones, onomatopeyas, expresiones y locuciones. Esta clasificación ha dado lugar, por ejemplo, a las siguientes entradas en el Lexicón TIP:

coca: seis sustantivos femeninos correspondientes a seis etimologías distintas, un sustantivo toponímico y un sustantivo patronímico. Todas las entradas tienen los atributos y flexiones que les corresponde.

cuando: un sustantivo, una preposición, dos adverbios y cinco conjunciones. Todas las entradas tienen los atributos y flexiones que les corresponde.

Bajo este criterio el Lexicón TIP consta de:

Formas canónicas
258 494
Formas canónicas únicas 226 026

Y el reparto por categorías gramaticales es:

Categoría gramatical
Formas canónicas
Sustantivos 119 353
Adjetivos 44 322
Adverbios 71 594
Verbos 21 707
Pronombres 668
Conjunciones 58
Preposiciones 54
Otras 734

Cada forma canónica tiene almacenada todas las flexiones que le corresponde, con independencia de su frecuencia de uso en el español. Las flexiones consideradas son: género, número, neutro, superlativo, diminutivos, aumentativos y despectivos. Para cada una de ellas se distinguen en el corpus tres niveles: flexión regular, flexión irregular y flexión muy irregular. Además, se han etiquetado las palabras que son comunes o ambiguas en cuanto al género o en cuanto al número. Para cada forma flexionada se almacena su frecuencia en el CREA. Por tanto, el corpus tiene almacenadas muchas palabras iguales pero relacionadas con distintas formas canónicas. Según este criterio el Lexicón TIP consta de:

Palabras
6 288 673
Palabras únicas 4 346 519