2. Detecta texto
La herramienta solo funciona si se introduce texto plano o ficheros marcados XML o HTML. No es compatible con archivos binarios como .pdf o .doc de Word. Pueden pasar dos cosas:
- No es texto o XML o HTML: devuelve un error y para el proceso
- Sí lo es: pasa al siguiente paso
3. Limpia el texto
El programa borra todas las etiquetas XML y HTML (si las tiene), porque no hay que analizarlas. Sobran. Solo cuenta el texto.
Si se trata de una web o código HTML, intenta eliminar lo más irrelevante (publicidad, menús, encabezado, pie de página, aviso de cookies). Para eso usa Python Readability, que suele funcionar muy bien.
También elimina todo código malicioso que pudiera insertarse para piratearme la web. Todos los días lo intentan varias veces y, al final, lo conseguirán con su perseverancia.