Casi particolari

0 Flares Twitter 0 Facebook 0 Google+ 0 0 Flares ×

Alcune particolari caratteristiche dei documenti possono condizionare il riconoscimento di parole ed espressioni:

  • Documenti PDF: separazione delle parole
    Nei documenti PDF la separazione delle parole viene individuata in base alla spaziatura tra i segni grafici. In alcuni casi le informazioni presenti nel testo non sono sufficienti a separare con certezza le parole. Pertanto, in rari casi, alcune parole possono risultare unite o spezzate.
  • Documenti con parole spezzate per sillabazione
    Alcuni documenti possono contenere parole nelle quali la sillabazione per andare a capo viene resa con un trattino normale anziché con un trattino di sillabazione. In questi casi, Corrige! verifica se la parola che si trova a fine riga o a fine pagina e termina con trattino può essere unita con la parola che si trova all’inizio della riga o pagina successiva. Questo meccanismo viene utilizzato per evitare di segnalare come errori parole che in realtà sono semplicemente interrotte per andare a capo.
  • Documenti PDF: separazione delle parole per sillabazione a cavallo di pagina
    Nei documenti PDF la separazione per sillabazione delle parole a cavallo di pagina può essere inframmezzata con il numero della pagina, righe vuote ecc. Corrige! effettua controlli aggiuntivi per poter riconoscere il numero come numero di pagina e poter così ricostruire la parola. In rari casi, la presenza di numerazioni particolari può interferire con questo meccanismo e impedire di riunificare la parola.
  • Documenti con note
    In alcuni casi non è possibile distinguere con certezza i richiami di nota nel testo e separarli dalla parola alla quale sono associati. Quando si dovesse presentare questo caso, alcune parole potrebbero includere il segno (numero o lettera) che indica la nota e quindi non essere riconosciute.
  • Documenti solo grafici
    Alcuni documenti apparentemente testuali (come PDF o DOC) potrebbero in realtà essere costituiti da fotografie o scannerizzazioni di pagine anziché da pagine vere e proprie. È il caso, per esempio, dei file PDF che contengono messaggi telefax: il documento è in formato PDF ma in realtà non contiene alcun testo. Sottoponendo tali file a Corrige! si ottiene un conteggio delle parole vicino a zero oppure zero.
  • Documenti con indirizzi Internet e indirizzi di posta elettronica
    Corrige! isola gli indirizzi Internet e gli indirizzi di posta elettronica e non ne analizza le parole, poiché non avrebbe senso.
    Gli indirizzi Internet sono riconosciuti se iniziano per “http://”, “https://”, “ftp://” oppure se iniziano per “www.”
    Gli indirizzi di posta elettronica sono riconosciuti in base alla presenza del simbolo “@” seguito e preceduto da lettere, numeri e simboli che rispettino la sintassi prevista dalle norme tecniche.
  • Documenti con riferimenti a DOI (Digital Object Identifier)
    Corrige! isola i riferimenti a DOI e non ne analizza le parole, poiché non avrebbe senso.
    I riferimenti a DOI sono riconosciuti in base alla presenza del prefisso “DOI:10.” seguito da caratteri che rispettino la sintassi prevista dalle norme tecniche.
0 Flares Twitter 0 Facebook 0 Google+ 0 0 Flares ×