Quando si lavora con i PDF può essere molto utile effettuare delle ricerche all’interno del testo sfruttando la funzione CTRL + F; formato PDF infatti supporta pienamente la ricerca e permette di arrivare nella pagina dove c’è la parola desiderata. Tutto questo vale per buona parte del PDF che sono ricavati da file Word o comunque da file di testo: se il PDF scansionare auto la ricerca delle parole in genere non funziona, proprio perché dal punto di vista del computer si tratta di un file immagine.
Per risolvere questo problema si può ricorrere ad un software che aggiunge il supporto OCR (Riconoscimento Ottico dei Caratteri, in inglese Optical Character Recognition), una caratteristica molto potente e in genere poco considerata all’interno dei vari contesti informatici.
Come installare ocrmypdf
Per effettuare l’istallazione del software in questione basta fare uso della linea di comando, come riportato nel sito ufficiale:
Debian, Ubuntu | apt install ocrmypdf |
Windows Subsystem for Linux | apt install ocrmypdf |
Fedora | dnf install ocrmypdf |
macOS | brew install ocrmypdf |
LinuxBrew | brew install ocrmypdf |
FreeBSD | pkg install textproc/py-ocrmypdf |
Conda (WSL, macOS, Linux) | conda install ocrmypdf |
Snap (snapcraft packaging) | snap install ocrmypdf |
Ad esempio per installare ocrmypdf su Linux, basta aprire il terminale e digitare quanto indicato:
apt install ocrmypdf
Stessa cosa per Windows, dove è possibile far riferimento alla documentazione ufficiale per il caso riportato come WSL (Windows Subsystem for Linux).
Che cos’è ocrmypdf
ocrmypdf è un software gratuito per Windows, Linux, Mac e altri sistemi operativi (riferimento: https://ocrmypdf.readthedocs.io/en/latest/cookbook.html) che permette di aggiungere il supporto OCR ai PDF scansionati. Unica pecca che ha questa soluzione è che, pur essendo gratuito, non dispone di un’interfaccia grafica, per cui saremo costretti a effettuare le operazioni da linea di comando.
Come si usa ocrmypdf
Per aggiungere il supporto OCR dovremo dare in ingresso al software il nostro file.pdf, per poi ricercare il testo nella versione ricercabile (file-ricercabile.pdf) determinata dallo stesso:
ocrmypdf file.pdf file-ricercabile.pdf
Di base è tutto qui: ocrmypdf presenta molte altre opzioni utili allo scopo, tra cui la possibilità di ruotare i file in ingresso, di regolare il contrasto delle immagini scansionate delle pagine e di filtrarlo in vari modi.
Scopri i servizi del sito 👇
(Photo by CURVD® on Unsplash, fonte)
👇 Contenuti da non perdere 👇
- intelligenza artificiale 👁
- Mondo Apple 🍎
- monitoraggio servizi online 📈
- Reti 💻
- Spiegoni artificiali 🎓
- Svago 🎈
- 💬 Il nostro canale Telegram: iscriviti
- 🟢 Guida pratica alla sentiment analysis: nascita, esempi pratici, uso, limiti
- 🔴 Quanto consuma un video in streaming come traffico dati?
- 🟠 Registrazione domini con estensione: .BUILD