Con il nuovo dizionario mancano solo 9650 parole da controllare!!!

Il nuovo dizionario usa i dati scaricabili a partire dal sito dell'Agenzia delle Entrate (sono i dati per il software docfa) che secondo me sono utilizzabili per l'art. 52 del codice dell'amministrazione digitale, però alcune parole contengono errori, per quelli evidenti ho ignorato le parole, gli altri andranno trovati manualmente dai mappatori locali.

Con il dizionario predefinito e quelli artigianali e 8088 Comuni caricati (perché 4 confini erano danneggiati...) nei dati del 21 agosto c'erano 44697 parole sconosciute al correttore (su 78688 parole univoche), con il nuovo dizionario si scende a 10418 parole sconosciute al correttore e aggiungendo di nuovo i dizionari precedenti si scende a 9650 parole sconosciute al correttore.

Le parole nei dati OSM sono 78688, i vecchi dizionari comprendevano 75131 parole, quello nuovo ne comprende 167501, ma non comprende le parole con la E accentata perché dai dati di partenza non è possibile stabilire se l'accento è acuto o grave.
In tutto le parole scartate sono 18405 per vari motivi: 7548 perché contengono abbreviazioni, 4127 perché contengono parentesi, 1241 perché finiscono con la E accentata.

Questo è un confronto per i capoluoghi di Regione:

nome 21/08/2013
prima dopo %
Ancona 8 6 -25%
Aosta 93 68 -27%
Bari 183 56 -69%
Bologna 255 23 -91%
Cagliari 163 41 -75%
Campobasso 1 1 0%
Catanzaro 50 18 -64%
Firenze 441 175 -60%
Genova 351 47 -87%
L'Aquila 47 12 -74%
Milano 178 30 -83%
Napoli 315 114 -64%
Palermo 400 97 -76%
Perugia 220 63 -71%
Potenza 17 9 -47%
Roma 2776 107 -96%
Torino 132 17 -87%
Trento 238 190 -20%
Trieste 328 55 -83%
Venezia 1059 476 -55%

La pagina per il controllo si trova qui.