È una bella cosa che il testo possa venire trasferito ad altri in forma di Pdf per ragioni come la sua relativa invariabilità e una pessima cosa che per passare da un Pdf a testo occorra fare i salti mortali.
Un ingegnere del software svedese ha riassunto in un post stringato e interessante i motivi del perché il percorso da Pdf a testo è tanto complicato e le acrobazie a cui è tenuto il software per riuscire a ottenere un risultato accettabile, comunque parziale.
La cruda verità di base è che Pdf è un formato grafico e si sforza zero di conservare informazioni che permettano di ricostruire fedelmente un insieme di testo. Tutto quello che contiene un Pdf rispetto a un carattere è la sua posizione sulla pagina più qualche parametro come l’orientamento o gli attributi, stile grassetto.
Per azzeccare il più possibile, molti programmi fanno affidamento sulla statistica: dal comportamento del testo su molti documenti di molte pagine si approssima una decisione sulle caratteristiche del testo presente in un Pdf. Sta a pagina uno e ha un corpo più alto della media del documento? Sarà probabilmente un titolo.
Il punto è che andare oltre il probabilmente è durissimo e il post fa qualche esempio interessante.
Come dice l’autore, dovremmo provare meraviglia ogniqualvolta eseguiamo una ricerca di testo dentro un Pdf, come la eseguiamo dentro un editor di testo. Per restituire questa illusione, il lavoro svolto verso i file Pdf è quasi sovrumano.