1. ¿QUÉ ES ESTILOMETRÍA TIP?
Estilometría TIP es una aplicación web destinada al análisis de textos, un conjunto de cálculos estadísticos basados en las características morfológicas y sintácticas del texto cuyos resultados se representan mediante la utilización de tablas y gráficas. El usuario puede configurar el programa para analizar los elementos del lenguajes que desee, como conectores, marcadores del discurso, perífrasis verbales, sintagmas, vocabulario específico, ngramas, etc. Estos resultados permiten analizar la estructura del texto desde diferentes de vista y además facilita la comparación entre diferentes textos.
2. ¿CÓMO PARAMETRIZAR UN DOCUMENTO?
La aplicación es muy sencilla de utilizar, sólo se necesita un documento cuyo tamaño y formato cumpla los requisitos que se establecen en la página de inicio de la aplicación (TXT, DOC, DOCX y PDF) y seguir los siguientes pasos:
1. Enviar archivo
En la sección habilitada para el envío de archivos, hacer clic en el botón "Examinar" para abrir la ventana de exploración de documentos. Buscar el archivo deseado y hacer doble clic sobre él. Automáticamente se iniciará el envío del archivo a nuestros servidores.
Una vez que el archivo haya sido recibido en nuestro sistema, se mostrará un cuadro con la información básica del fichero. En caso de querer cambiar el documento enviado, repita el proceso con el nuevo fichero. Si el archivo seleccionado no cumple los requisitos establecidos, se indicará mediante un aviso.
2. Seleccionar lista de palabras vacías (opcional)
El siguiente paso antes de comenzar el proceso de análisis es seleccionar el tipo de lista de palabras vacías a utilizar. Dispone de dos opciones, utilizar la lista por defecto de nuestra aplicación, o bien enviar su propio listado de palabras vacías
Si no comprende muy bien la utilidad de esta opción, no se preocupe, deje marcada la opción por defecto. Más adelante encontrará un apartado en el que se explica detalladamente en qué consisten las palabras vacías.
3. Iniciar el análisis
Por último, sólo tiene que hacer clic sobre el botón "Parametrizar" y el sistema comenzará a procesar su documento. Puesto que este proceso puede llegar a durar minutos en función de las características del fichero enviado y del estado en el que se encuentre la red, se le ruega que tenga paciencia. No obstante, puede ver el estado en el que se encuentra el proceso mediante la barra de progreso que se proporciona, pudiendo cancelarlo en cualquier momento mediante la utilización del botón "Cancelar".
Para garantizar un flujo de ejecución correcto, evite utilizar la aplicación durante el tiempo en que se está realizando el análisis de su archivo, en caso contrario, el sistema cancelará el proceso en curso.
Una vez finalizada el análisis del documento, no será mostrado ningún mensaje, sino que será automáticamente redirigido a una de las páginas de resultados.
3 ¿CÓMO COMPARAR DOCUMENTOS?
La herramienta es muy sencilla de utilizar, sólo se necesita seleccionar la opción "Comparar documentos" en la página inicial y subir los dos documentos a comparar.
4. PARTES DE LA APLICACIÓN
A continuación se detallan las principales partes del sistema:
1. Menú
Permite acceder a las opciones y resultados que proporciona la aplicación.
2. Sección actual
Muestra el nombre de la sección (resultado) que se está visualizando.
3. Documentos actuales
Indica el nombre del fichero y lista de palabras vacías actuales. Permite saber en todo momento a que documento se corresponden los resultados mostrados.
4. Bloque principal
Es la sección más importante, ya que en ella se presentarán los resultados solicitados.
5. DISTRIBUCIÓN DEL MENÚ
El menú ha sido dividido en varias secciones para clasificar los resultados por categorías y facilitar así su localización. A continuación, se comenta el tipo de resultados que podrá consultar en cada una de sus secciones:
1. Inicio
Permite acceder a la página de inicio de la aplicación.
2. Métrica
Ofrece los resultados relacionados con la métrica del documento analizado. Podrá consultar por ejemplo: el número de palabras, el número de palabras diferentes, el número de oraciones, el número de párrafos, la cantidad de oraciones por párrafo, o bien el promedio, moda y mediana de palabras por oración o párrafo entre otros muchos datos.
3. Morfología
Proporciona una amplia información sobre las características morfológicas del texto. Podrá consultar por ejemplo: el número de palabras que pertenecen a cada categoría gramatical (verbos, sustantivos, adjetivos,…), el número de palabras según su flexión, o el promedio, moda y mediana de palabras de una determinada categoría gramatical que hay por oración o párrafo.
4. Vocabulario
Permite consultar la lista de palabras que aparecen en el texto analizado. Además, para cada una de ellas podrá visualizar su frecuencia de aparición, la posición del texto en la que aparece por primera vez, su información morfológica, categoría gramatical, numero de acepciones en la RAE, etc. También se ha dedicado un apartado para los distintos Ngramas existentes (de entre 2 y 5 palabras).
5. Configuración
En esta sección, se puede configurar tanto el fichero de palabras vacías con las palabras vacías que se deben tener en cuenta en el análisis, como el fichero de marcadores con los elementos del discurso que se desea analizar y mostrar separadamente en el resultado.
6. Ayuda
Permite acceder al documento de ayuda online de nuestra aplicación.
6. PALABRAS VACÍAS
Las palabras vacías (en inglés, stopwords) son aquellas que no tienen un significado propio y que por tanto no aportan ningún contenido semántico al texto. Es por ello que en muchas actividades relacionadas con el procesamiento de textos, este tipo de palabras tengan un tratamiento particular. Un ejemplo, son los motores de búsquedas, que descartan este tipo de palabras para ofrecer mejores resultados a los usuarios.
En nuestro caso, hemos decidido ofrecer los resultados de la sección Métrica desde dos perspectivas diferentes:
1. Con palabras vacías
Los resultados se ofrecen teniendo en cuenta todas las palabras del texto, por tanto las palabras vacías son contabilizadas.
2. Sin palabras vacías
Los resultados se ofrecen sin tener en cuenta las palabras vacías, estas no serán consideradas y por tanto, tampoco contabilizadas.
Estilometría TIP utiliza una lista de palabras vacías por defecto. En ella se han incluido las palabras vacías más frecuentes del español. Sin embargo, puesto que no existe un estándar que defina con exactitud cuáles son las palabras vacías del español, se ofrece también la posibilidad de que sea el usuario quien establezca su propia lista de palabras vacías.
Esta opción permitirá a los usuarios obtener resultados más precisos, ya que podrán descartar todas aquellas palabras que deseen. En la sección del menú "Palabras vacías", encontrará las pautas a seguir para poder confeccionar y utilizar su propio listado.
7. FICHERO DE MARCADORES
Este fichero permite personalizar la aplicación y el análisis del texto. Cada investigación y análisis textual tiene sus propias características, por eso, en este fichero se pueden escribir los elementos del lenguaje que se desea analizar. Pueden ser tanto palabras exactas, como combinaciones de palabras, se pueden escribir lemas para que agrupe y analice todas sus flexiones juntas y se pueden escribir categorías gramaticales. Todas las opciones anteriores se pueden combinar entre sí para dar lugar a patrones textuales que debe analizar la aplicación.
1. Formato del fichero
El caracter '@' seguido de una palabra añade una opción nueva al menú Vocabulario de la aplicación. La '#' añade una pestaña nueva en la tabla de resultados de la opción del menú nueva. En definitiva, se pueden establecer grupos '@' y subgrupos '#' de elementos a analizar por la aplicación. Cada subgrupo puede contener tantos patrones como se desee.
2.- Patrones de búsqueda
Despues la '#' se escribe un patrón por línea. Los patrones pueden ser palabras o combinación de palabras. Las palabras escritas entre corchetes son lemas o fromas canónicas y el programa analizará todas sus flexiones. Las categorías gramaticales se escriben entre los signos de mayor y menor <adjetivo> (sustantivo, adjetivo, verbo, pronombre, adverbio, artículo, preposición y conjunción). Un número entre dos palabras representa la cantidad de palabras que puede haber como máximo en esa posición (entre la palabra de su izquierda y la palabra de su derecha). Si se desea agrupar dos patrones diferentes pero equivalente en el mismo análisis, se deben escribir en la misma línea separados por una barra vertical '|'.
8. FORMATO DE LOS RESULTADOS
Los resultados proporcionados por Estilometría TIP, pueden ser visualizados en dos formatos diferentes. Uno de ellos es en forma de gráfica, que es el formato mostrado por defecto. La otra posibilidad, consiste en visualizar la información en modo tabular. Puede alternar entre ambas vistas mediante la utilización de las pestañas habilitadas para ello.
Gráficas
Permiten visualizar los datos que conforman el resultado seleccionado en formato de gráfica de barras. Para facilitar la interpretación de la información mostrada, cada gráfica va acompañada de una leyenda y los títulos de sus correspondientes ejes.
En la parte inferior de la gráfica, encontrará un conjunto de opciones que permitirán cambiar ciertos parámetros de visualización. Las opciones disponibles son:
1. Zoom
Permite seleccionar un rango de valores específicos del eje X para visualizarlo con más detalle.
2. Mostrar serie
Por defecto, para facilitar la comparación de los resultados, las gráficas muestran simultáneamente los datos "Con palabras vacías" y "Sin palabras vacías". Esta opción permite restringir la visualización de la gráfica a una única serie.
3. 3D
Permite cambiar el modo de visualización de la gráfica a tres dimensiones.
4. Tooltip
Permite conocer los valores de los ejes X e Y que conforman cada una de las barras de la gráfica. Para ello, sólo hay que pasar el cursor del ratón sobre alguna de las barras y se mostrará la información correspondiente.
Tablas
Ofrecen la misma información que las gráficas pero en formato tabular. Puesto que la mayor parte de los resultados implican el manejo de un gran volumen de datos, se ha decidido habilitar la paginación y ordenación por columnas de las tablas, facilitando así, la búsqueda y legibilidad de los datos. Además, mediante la utilización del botón "Exportar" que encontrará bajo cada una de ellas, podrá exportar el contenido de la tabla a un archivo de Excel.
Otra de las opciones disponibles cuando se consulta un resultado, ya sea en formato gráfico o tabular, es la visualización de un pequeño informe, que se pliega y despliega al hacer clic con el ratón sobre los datos del documento actual.
Este pequeño informe, contiene únicamente algunos de los resultados de los informes principales, que pueden ser útiles al usuario en función del resultado que está visualizando. Por ejemplo, en las imágenes inferiores, en las que el usuario está consultando como se distribuyen las palabras del texto según su tamaño en caracteres, el informe desplegable muestra como datos relevantes, el total de palabras y el total caracteres del texto. De esta manera, si el usuario deseara consultar esta información, no tendría que irla a buscar a la página del informe principal, sino que podría consultarla desde la misma página en la que se encuentra.
9. RESULTADOS PROPORCIONADOS
En este apartado se explican las características y utilidad de los principales resultados proporcionados por Estilometría TIP:
Informe métrica
En esta sección se proporcionan resultados como:
- Número total de: caracteres, palabras, palabras diferentes, oraciones o párrafos.
- Promedio, desviación típica, moda y mediana de: caracteres por palabra, caracteres por oración, caracteres por párrafo, palabras por oración, palabras por párrafo u oraciones por párrafo.
Todos estos datos permiten hacerse una idea de cómo se estructura el texto en función de sus partes, como por ejemplo, si predominan palabras u oraciones cortas o largas. Estos resultados, al ser de carácter unitario, sólo se representan en formato tabular. Esta sección está disponible en: "Métrica → Informe".
Distribución de las palabras según la cantidad de caracteres
Muestra cómo se distribuyen las palabras del texto según la cantidad de caracteres. Es decir, indica el número de palabras cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Permite saber si las palabras del texto se caracterizan por ser pequeñas o grandes, e incluso detectar la cantidad de palabras que superan un determinado tamaño. Este resultado está disponible en: "Métrica → Gráficas → Palabras de N caracteres".
Distribución de las oraciones según la cantidad de caracteres
Muestra cómo se distribuyen las oraciones del texto según la cantidad de caracteres. Es decir, indica el número de oraciones cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Oraciones de N caracteres".
Distribución de los párrafos según la cantidad de caracteres
Muestra cómo se distribuyen los párrafos del texto según la cantidad de caracteres. Es decir, indica el número de párrafos cuya longitud en caracteres es N, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N caracteres".
Distribución de las oraciones según la cantidad de palabras
Muestra cómo se distribuyen las oraciones del texto según la cantidad de palabras. Es decir, indica el número de oraciones que están formadas por N palabras, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Oraciones de N palabras".
Distribución de los párrafos según la cantidad de palabras
Muestra cómo se distribuyen los párrafos del texto según la cantidad de palabras. Es decir, indica el número de párrafos que están formados por N palabras, donde N = {1, 2, 3,…}. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N palabras".
Distribución de los párrafos según la cantidad de oraciones
Muestra cómo se distribuyen los párrafos del texto según la cantidad de oraciones. Es decir, indica el número de párrafos que están formados por N oraciones, donde N = {1, 2, 3,…}. Al consultar este resultado, puede surgir la duda de por qué se proporcionan los datos tanto desde el punto de vista "Con palabras vacías" como "Sin palabras vacías", cuando se supone que el número de oraciones del texto siempre son las mismas. La razón es muy sencilla, aunque es bastante raro, puede suceder que una oración esté formada únicamente por palabras vacías, por tanto, desde el punto de vista "Sin palabras vacías", el texto tendrá una oración menos. Este resultado está disponible en: "Métrica → Gráficas → Párrafos de N oraciones".
Distribución por frecuencia
Indica cómo se distribuyen las palabras del texto en función del número de veces que aparecen en él. Permite saber cuantas palabras del texto aparecen con poca o mucha frecuencia. Este resultado está disponible en: "Métrica → Gráficas → Distribución por frecuencia".
Distribución por centro de gravedad
El centro de gravedad de una palabra es la media de posiciones en las que aparece dicha palabra en el texto y por tanto proporciona una idea de la zona del texto en la que más o menos aparece dicha palabra con más frecuencia. Este resultado muestra como se distribuyen las palabras según su centro de gravedad y permite saber, por tanto, si las palabras del texto se concentran especialmente en alguna zona particular del texto. Este resultado está disponible en: "Métrica → Gráficas → Distribución por centro de gravedad".
Distribución por primera aparición
Este resultado muestra como se distribuyen las palabras según la posición de su primera aparición en el texto, por tanto permite detectar si a medida que avanza el texto aparecen nuevas palabras o se repiten las ya utilizadas. Este resultado está disponible en: "Métrica → Gráficas → Distribución por primera aparición".
Distribución en el corpus
Este resultado permite saber con qué frecuencia se utilizan en el español las palabras del texto. Después de haber realizado un estudio sobre la frecuencia de aparición de cada una de las palabras de un corpus, formado por 320575144 palabras, de las cuales, 309734 eran diferentes, se ha decidido dividir las palabras del texto en seis grupos:
- Frecuencia muy alta
Son las palabras del texto cuya frecuencia en el corpus es superior o igual a 30000. Este tramo lo componen 939 palabras del corpus.
- Frecuencia alta
Son las palabras del texto cuya frecuencia en el corpus es inferior a 30000, pero superior o igual a 2000. Este tramo lo componen 10087 palabras del corpus.
- Frecuencia media
Son las palabras del texto cuya frecuencia en el corpus es inferior a 2000, pero superior o igual a 300. Este tramo lo componen 26295 palabras del corpus.
- Frecuencia baja
Son las palabras del texto cuya frecuencia en el corpus es inferior a 300, pero superior o igual a 20. Este tramo lo componen 80264 palabras del corpus.
- Frecuencia muy baja
Son las palabras del texto cuya frecuencia en el corpus es inferior a 20, pero superior a cero. Este tramo lo componen 192149 palabras del corpus.
- Frecuencia cero
Son las palabras del texto que no aparecen ninguna vez en el corpus.
Por tanto, este resultado permite saber en base al corpus utilizado, qué cantidad de palabras del texto analizado, se consideran de uso frecuente o poco frecuente en el español. Este resultado está disponible en: "Métrica → Gráficas → Distribución en el corpus".
Vocabulario
Esta sección permite ver el listado de palabras que aparecen en el texto. La información se ha dividido entre las siguiente secciones:
Estadísticas
- Sílabas de la palabra
Se muestran las sílabas separadas por guiones y entre corchets se marca la sílaba tónica.
- Frecuencia en el texto
Es el número de veces que aparece la palabra en el texto.
- Primera aparición
Es la posición del texto en la que aparece la palabra por primera vez.
- Centro de gravedad
Como se explicó anteriormente, el centro de gravedad de una palabra es la media de posiciones en las que aparece una palabra en el texto y por tanto nos da una idea de la zona del texto en la que más o menos aparece dicha palabra con más frecuencia.
- Frecuencia en el corpus
Es el número de veces que aparece la palabra en el corpus analizado, cuyas características fueron explicadas en el apartado anterior. Este dato permite saber, si la palabra es utilizada o no con frecuencia en el español.
- Palabra invertida
La palabra escrita al revés. Esta columna permite ordenar por el final de las palabras.
Otra característica importante de esta sección, es que proporciona la posibilidad de visualizar la información morfológica de cada una de las palabras. Para ello sólo hay que situar el cursor del ratón sobre la palabra cuya información morfológica se desea visualizar. Recuerde que debido a las características del lenguaje español, una palabra puede disponer de varias interpretaciones morfológicas. Este resultado está disponible en: "Vocabulario".
Léxico
- Forma canónica
Indica la forma canónica de las palabras que aparecen en el texto.
- Categoría gramatical
Muestra de forma abreviada la categoría gramatical a la que pertenece la palabra. Situar el cursos sobre su descripción muestra la categoría gramatical sin abreviar
- Etimologías
Indica el número de etimologías que tiene la palabra.
- Acepciones
Indica el número total de acepciones que presenta la palabra en el diccionario de la RAE.
- Posición de la acepción
Indica la posición en la que se encuentra su categoría gramatical dentro de su definición en el diccionario de la RAE.
- Entradas de la acepción
Indica el número total de entradas de su categoría gramatical en el diccionario de la RAE.
- Antigua
Determina si la palabra se considera en desuso o muy antigua según el diccionario de la RAE.
- Aparece en la RAE
Indica si dicha palabra se encuentra en el diccionario de la RAE.
Ngramas
En esta sección se muestran cuatro pestañas distintas, que se corresponden con los distintos tamaños de Ngramas disponibles.
- Frecuencia en el texto
Es el número de veces que aparece el Ngrama en el texto.
- Primera aparición
Es la posición del texto en la que aparece en Ngrama por primera vez.
- Centro de gravedad
el centro de gravedad de un Ngrama es la media de posiciones en las que aparece en el texto y por tanto nos da una idea de la zona del texto en la que más o menos aparece dicho Ngrama con más frecuencia.
Informe morfología
En esta sección se proporcionan resultados como:
- Número total de palabras por categoría gramatical (verbos, sustantivos, adjetivo, adverbios, pronombres, preposiciones, artículos,…).
- Promedio, desviación típica, moda y mediana por oración y párrafo de: verbos por oración, verbos por párrafo, sustantivos por oración, sustantivos por párrafo, adjetivos por oración, adjetivos por párrafo,…
- Número total de palabras por flexión verbal (infinitivos, gerundios,…).
- Número total de palabras por flexión no verbal (singular, plural,…).
Todos estos datos permiten obtener una idea de cómo está estructurado el texto en función de sus características morfológicas, pudiendo determinar qué categorías gramaticales o flexiones predominan en él. Estos resultados al ser de carácter unitario sólo se representan en formato tabular.
Otro tipo de resultado que es posible visualizar desde esta sección, es obtener una lista de las palabras del texto que pertenecen a una determinada categoría gramatical o flexión. Para ello, sólo debe dirigirse a la tabla correspondiente y hacer clic con el ratón sobre la categoría gramatical o flexión deseada (Figuras 17.25 y 17.26). Al igual que en la sección "Vocabulario", situando el cursor del ratón sobre cualquiera de las palabras de la lista resultante, puede acceder a su información morfológica. Este sección está disponible en: "Morfología → Informe".
Palabras no reconocidas
Permite examinar la lista de palabras que no han sido reconocidas morfológicamente por la aplicación. Esta aplicación actualmente sólo funciona para textos en español, por lo que si el texto contiene alguna palabra en otro idioma, también aparecerá en esta lista. Este resultado está disponible en: "Morfología → Palabras no reconocidas".
Categorías gramaticales
Indica cómo se distribuyen las palabras del texto según su categoría gramatical (verbos, sustantivos, adjetivos,…), permitiendo determinar qué tipos de categorías gramaticales predominan o no en el texto. Este resultado está disponible en: "Morfología → Gráficas → Categorías gramaticales".
Flexiones verbales
Establece cómo se distribuyen las palabras del texto según su flexión verbal (infinitivo, gerundio, presente de indicativo,…), permitiendo reconocer los tiempos verbales más y menos utilizados en el texto. Este resultado está disponible en: "Morfología → Gráficas → Flexiones verbales".
Flexiones no verbales
Indica cómo se distribuyen las palabras del texto según su flexión no verbal (palabras en masculino, femenino, singular, plural,…), permitiendo observar el género y número, más y menos frecuentes en el texto. Este resultado está disponible en: "Morfología → Gráficas → Flexiones no verbales".
Distribución de las oraciones y párrafos según la cantidad de verbos
Proporciona el número de oraciones o párrafos del texto que contienen N verbos. Este resultado está disponible en: "Morfología → Categoría gramatical → Verbos".
Distribución de las oraciones y párrafos según la cantidad de sustantivos
Proporciona el número de oraciones o párrafos del texto que contienen N sustantivos. Este resultado está disponible en: "Morfología → Categoría gramatical → Sustantivos".
Distribución de las oraciones y párrafos según la cantidad de adjetivos
Proporciona el número de oraciones o párrafos del texto que contienen N adjetivos. Este resultado está disponible en: "Morfología → Categoría gramatical → Adjetivos".
Distribución de las oraciones y párrafos según la cantidad de adverbios
Proporciona el número de oraciones o párrafos del texto que contienen N adverbios. Este resultado está disponible en: "Morfología → Categoría gramatical → Adverbios".
Distribución de las oraciones y párrafos según la cantidad de pronombres
Proporciona el número de oraciones o párrafos del texto que contienen N pronombres. Este resultado está disponible en: "Morfología → Categoría gramatical → Pronombres".
Distribución de las oraciones y párrafos según la cantidad de preposiciones
Proporciona el número de oraciones o párrafos del texto que contienen N preposiciones. Este resultado está disponible en: "Morfología → Categoría gramatical → Preposiciones".
Distribución de las oraciones y párrafos según la cantidad de artículos
Proporciona el número de oraciones o párrafos del texto que contienen N artículos. Este resultado está disponible en: "Morfología → Categoría gramatical → Artículos".
Distribución de las oraciones y párrafos según la cantidad de conjunciones
Proporciona el número de oraciones o párrafos del texto que contienen N conjunciones. Este resultado está disponible en: "Morfología → Categoría gramatical → Conjunciones".
Comparativa
Esta herramienta proporciona una gran funcionalidad adicional a Estilometría, permitiendo al usuario que compare dos obras entre sí.
Tras hacer uso de esta herramienta podrán verse en todo momento el nombre de los dos ficheros (F1 y F2) y las mismas tablas y gráficas que en el programa original pero en ellas se mostrarán de forma clara tanto las estadísticas del fichero F1 como las del fichero F2 para realizar la comparación, así como opciones adicionales en caso de ser relevante, como la casilla que permite visualizar la gráfica con o sin palabras vacías en la sección de métrica.
10. POLÍTICA DE PRIVACIDAD
Estilometría TIP garantiza que los archivos recibidos:
- No serán examinados o modificados en ningún momento.
- No serán facilitados a terceras partes.
- Serán eliminados de nuestros servidores tras un período de inactividad del usuario.