Cómo funciona el analizador de legibilidad

. Comentarios

Esta herramienta de análisis de legibilidad de texto usa un algoritmo para aplicarle las fórmulas de lecturabilidad.

Un algoritmo es una serie de pasos para resolver un problema. Es como una receta de cocina: necesitas los ingredientes y los pasos para obtener un plato sabroso. En este caso, el ingrediente es el texto que quieres analizar. Los pasos que da mi analizador de legibilidad de texto para averiguar si es fácil de leer son los siguientes:

1.   Detecta si se introdujo una dirección web

Al pulsar el botón «analizar», comprueba si el texto introducido es una dirección web o URI. Pueden pasar dos cosas:

  1. No lo es: pasa al siguiente paso
  2. Sí es una dirección web: descarga la página web que analizar y pasa al siguiente paso

2.   Detecta texto

La herramienta solo funciona si se introduce texto plano o ficheros marcados XML o HTML. No es compatible con archivos binarios como .pdf o .doc de Word. Pueden pasar dos cosas:

  1. No es texto o XML o HTML: devuelve un error y para el proceso
  2. Sí lo es: pasa al siguiente paso

3.   Limpia el texto

El programa borra todas las etiquetas XML y HTML (si las tiene), porque no hay que analizarlas. Sobran. Solo cuenta el texto.

Si se trata de una web o código HTML, intenta eliminar lo más irrelevante (publicidad, menús, encabezado, pie de página, aviso de cookies). Para eso usa Python Readability, que suele funcionar muy bien.

También elimina todo código malicioso que pudiera insertarse para piratearme la web. Todos los días lo intentan varias veces y, al final, lo conseguirán con su perseverancia.

4.   Cuenta los caracteres

Si hay menos de dos caracteres, da un mensaje de error porque no tiene sentido analizar un texto de un solo carácter o de ninguno. Si no, pasa al siguiente paso.

5.   Detecta el idioma

La herramienta está pensada para la lengua española. Usa Langdetect para detectar el idioma. Si no es castellano, para el proceso y da este mensaje de error «El texto no es castellano. La herramienta solo funciona con el español.».

6.   Cuenta todo

Cuenta todos los datos del texto:

  1. caracteres
  2. letras
  3. sílabas
  4. palabras
  5. frases. Los delimitadores de frase son: puntos, dos puntos, interrogación, exclamación, paréntesis, corchete, punto y coma
  6. párrafos: un párrafo es un salto de línea en una línea no vacía
  7. sílabas

7.   Hace los cálculos

Obtiene los resultados de aplicar las fórmulas de legibilidad al texto.

8.   Listas de palabras

Crea una lista de palabras en orden de su frecuencia y detecta si están en la base de datos SUBTLEX-ESP por si estuviese mal escrita.

9.   Lista de letras

Crea una lista de letras en orden de su frecuencia. La e suele ser la más frecuente del español.

10.   Muestra el resultado

Presenta la información en pantalla:

  1. índices de legibilidad
  2. estadísticas del texto
  3. frecuencias de palabras
  4. palabras no reconocidas
  5. frecuencias de letras