Come cercare una parola in un PDF scansionato: usare ocrmypdf

Quando si lavora con i PDF può essere molto utile effettuare delle ricerche all’interno del testo sfruttando la funzione CTRL + F; formato PDF infatti supporta pienamente la ricerca e permette di arrivare nella pagina dove c’è la parola desiderata. Tutto questo vale per buona parte del PDF che sono ricavati da file Word o comunque da file di testo: se il PDF scansionare auto la ricerca delle parole in genere non funziona, proprio perché dal punto di vista del computer si tratta di un file immagine.

Per risolvere questo problema si può ricorrere ad un software che aggiunge il supporto OCR (Riconoscimento Ottico dei Caratteri, in inglese Optical Character Recognition), una caratteristica molto potente e in genere poco considerata all’interno dei vari contesti informatici.

Come installare ocrmypdf

Per effettuare l’istallazione del software in questione basta fare uso della linea di comando, come riportato nel sito ufficiale:

Debian, Ubuntu apt install ocrmypdf
Windows Subsystem for Linux apt install ocrmypdf
Fedora dnf install ocrmypdf
macOS brew install ocrmypdf
LinuxBrew brew install ocrmypdf
FreeBSD pkg install textproc/py-ocrmypdf
Conda (WSL, macOS, Linux) conda install ocrmypdf
Snap (snapcraft packaging) snap install ocrmypdf

Ad esempio per installare ocrmypdf su Linux, basta aprire il terminale e digitare quanto indicato:

apt install ocrmypdf

Stessa cosa per Windows, dove è possibile far riferimento alla documentazione ufficiale per il caso riportato come WSL (Windows Subsystem for Linux).

Che cos’è ocrmypdf

ocrmypdf è un software gratuito per Windows, Linux, Mac e altri sistemi operativi (riferimento: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html) che permette di aggiungere il supporto OCR ai PDF scansionati. Unica pecca che ha questa soluzione è che, pur essendo gratuito, non dispone di un’interfaccia grafica, per cui saremo costretti a effettuare le operazioni da linea di comando.

Keliweb : il servizio di hosting italiano

Come si usa ocrmypdf

Per aggiungere il supporto OCR dovremo dare in ingresso al software il nostro file.pdf, per poi ricercare il testo nella versione ricercabile (file-ricercabile.pdf) determinata dallo stesso:

ocrmypdf file.pdf file-ricercabile.pdf

Di base è tutto qui: ocrmypdf presenta molte altre opzioni utili allo scopo, tra cui la possibilità di ruotare i file in ingresso, di regolare il contrasto delle immagini scansionate delle pagine e di filtrarlo in vari modi.

(Photo by CURVD® on Unsplash, fonte)



Questo blog pubblica contenuti ed offre servizi free da 11 anni. – Leggi un altro articolo a caso – Per informazioni contattaci
Come cercare una parola in un PDF scansionato: usare ocrmypdf
Torna su