Palabras raras

. Comentarios .

Mi analizador de legibilidad muestra la lista de palabras mal escritas o no reconocidas de un texto. Para ello comprueba si cada palabra del texto está incluida en la base de datos. Si no lo está, hay tres posibilidades:

  1. está mal escrita (revisa la ortografía por si acaso)
  2. es extranjera (usa la castellana)
  3. es tan rara que no viene en la base de datos (cámbiala por otra de uso común)

La herramienta usa la base de datos SUBTLEX-ESP [1], que contiene la lista de palabras incluidas en subtítulos en español de películas. Son 94 337 palabras distintas obtenidas de una muestra de cincuenta millones. Las repetidas solo salen una vez en dicha base de datos. Las veinte palabras más usadas del español son:

Palabras más frecuentes del español
Orden Palabra
1 que
2 de
3 no
4 a
5 la
6 el
7 es
8 y
9 en
10 lo
11 un
12 qué
13 por
14 me
15 una
16 te
17 con
18 los
19 se
20

Son todas monosílabas menos una. No nos gusta gastar saliva a lo tonto. Para ver la lista completa, descarga la base de datos SUBTLEX-ESP y ábrela con Libreoffice o cualquier otro programa compatible. Es libre porque su licencia es «Creative Commons Attribution-NonCommercial-NoDerivs 3.0 Unported License».

No contiene los lemas, sino las formas, es decir, considera que amaré, amado y amé son palabras distintas aunque todas formen parte del lema amar. Además, no reconoce como iguales los verbos con y sin pronombres enclíticos, por tanto, parte y pártelo son palabras diferentes. Como no distingue entre mayúsculas y minúsculas, dolores y Dolores son la misma.

Hay listas de frecuencias más completas, como la del corpus CREA [2], que tiene más de 700 000 palabras, pero su licencia es demasiado restrictiva. Lo libre siempre es mejor. Mi analizador de legibilidad y SUBTLEX-ESP lo son; el corpus CREA, no.

Referencias

[1] Fernando Cuetos, Maria Glez-Nosti, Analía Barbón y Marc Brysbaert. 2011. Spanish word frequencies based on film subtitles. Psicológica (2011), 32, 133-143.
[2] Lista de Frecuencias. Real Academia Española: Banco de datos (CREA) [en línea]. Corpus de referencia del español actual. 2016.