Google Dorks: le ricerche hacker che scoprono le falle informatiche
- 1) Quando su Google finisce di tutto (e di più) rispetto a quello che vorremmo
- 2) Che cosa sono i Google Dork?
- 3) Trovare file sensibili con login e password in chiaro
- 4) Trovare pagine web inutili che appesantiscono il crawl-budget
- 5) Trovare file sensibili in un sito
- 6) Trovare alcuni siti “deboli” fatti in WordPress
- 7) Scoprire “sito copioni”, ovvero contenuti duplicati esterni
- 8) Trovare pagine senza certificato
Avviso: questo articolo non intende promuovere nè incoraggiare pratiche illegali. Invitiamo i lettori ad agire sempre nel rispetto delle leggi e seguendo i dettami dell’etica.
Quando su Google finisce di tutto (e di più) rispetto a quello che vorremmo
Esistono varie stime sul numero di pagine web che Google ha archiviato fino ad oggi: sono quasi tutte discordanti, e soprattutto sono quasi certamente al ribasso. Google infatti non è più solo un archivio di dati consultabile in lungo ed in largo, ed è qualcosa in più – ormai da anni – del motore di ricerca di una biblioteca: grazie al data mining, infatti, può estrarre nuove informazioni dalle pagine web e quindi, di fatto, restituire ancora più risultati di quante non siano le pagine web al suo interno. Le informazioni dal web vengono pazientemente raccolte da un efficentissimo crawler, un software che scansiona le pagine web seguendo i vari link che trova e raccogliendo, sulle stesse, vari tipi di dati e meta-dati utili alla causa.
Il lato oscuro di Google, echeggiando il dark side of the moon su cui si espressero i Pink Floyd nell’ormai lontano 1973, potrebbe essere rappresentato più che degnamente dall’uso dei cosiddetti Google Dorks. Si tratta di stringhe di ricerca che permettono, di fatto, di accedere a contenuti indicizzati su Google spesso in modo del tutto accidentale, scoprendo cosଠproblemi di sicurezza informatica sui siti, contenuti riservati o privati indicizzati per sbaglio.
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l’iscrizione
Sicuramente Google è una macchina più complessa di quello che potrebbe sembrare a prima vista, e questo si traduce nel fatto che mostra molto di più di quanto suggeriscano le prime pagine dei risultati di ricerca, le stesse in cui amiamo cercare quello che ci piace o ci interessa. I Google Dork, in questi casi, sono un modo molto semplice, e letteralmente alla portata di chiunque, per effettuare ricerche underground di ogni genere, scovando falle di vario genere di cui, per inciso, i proprietari dei siti spesso non sanno nè immaginano nulla.
In alcuni casi, ad esempio, grazie a dei Google Dork sono stati rilevate scansioni di documenti di identità che certamente non avrebbero dovuto finire indicizzati, e che rimangono alla portata di chiunque li cerchi e alla totale insaputa dei soggetti interessati. Il tweet successivo riporta un caso risalente a gennaio del 2021, ad esempio, a cui ne sono seguiti anche altri abbastanza simili nella sostanza: alcuni siti avevano infatti postato delle scansioni di carte d’identità che sono finite su Google in formato immagine o PDF.
Un altro giorno, un altro sito che lascia esposti documenti con scansioni di carte d’identità. Questo sito è particolarmente… imbarazzante. Ho già avvisato i responsabili. pic.twitter.com/k4wGOSzOR7
— Paolo Attivissimo @[email protected] (@disinformatico) January 28, 2021
Esempi di ricerca come quelle riportate qui sopra, nella pratica, esce fuori da Google effettuando le cosiddette ricerche di tipo confidential, il che presuppone banalmente di cercare file di tipo documenti / pdf / presentazioni / file Word con la parola confidential all’interno (spesso la realtà è più semplice di quello che potrebbe sembrare a prima vista). L’esempio è volutamente in inglese, ma esistono (e non le riporteremo in questa sede) esempi davvero avanzati per scovare di tutto e di più da Google.
Da questo punto di vista il controllo del cosiddetto crawl-budget di Google è uno dei modi più razionali per gestire la questione: fare attenzione che Google non indicizzi più del dovuto è un controllo che ogni sito dovrebbe fare, periodicamente, nelle proprie attività di manutenzione, per quanto l’attività sia spesso considerata solo un costo e non venga ancora oggi ben recepita o compresa la sua reale portata.
Che cosa sono i Google Dork?
L’attività annessa ai Google Dork è detta spesso Google Hacking, e non a caso! I Google Dork sono ricerche che combinano parole e operatori di ricerca del motore per cercare contenuti molto specifici; sono spesso catalogati in appositi siti web che ne collezionano a migliaia, e ogni giorno ne vengono scoperti di nuovi da hacker e ricercatori di sicurezza informatica. Per capire subito di che si tratta, nel concreto, possiamo fare un piccolo esempio: andiamo su Google e proviamo ad esempio a cercare
site:sitoprova.com filetype:pdf
per ottenere la lista dei file PDF che sono indicizzati dentro sitoprova.com.
In generale l’uso dei google dork (dork è un termine inglese gergale che si traduce più o meno come “idiota”) è vincolato all’utilizzo smart degli operatori di ricerca qui riportati, che vengono combinati in vari modi sfruttando la potenza espressiva delle ricerche stesse, spesso sottovalutata dall’utente medio.
Attenzione: l’uso di alcuni Google dork, soprattutto se molte volte di seguito, può far scattare il controllo antispam di Google, che va superato manualmente con la scelta delle immagini nel classico puzzle. Ricordiamo anche che Google non permette da TOS l’uso di query automatizzate via script sul proprio motore.
Alcuni esempi degli operatori combinabili sono i seguenti:
- cache: grazie all’operatore cache puoi vedere la versione del sito web salvata in cache, cache:miosito.com
- filetype: permette di cercare solo file di un certo tipo, ad esempio filetype:pdf
- site: cerca risultati all’interno di un sito specifico, quindi site:miosito.com
- intitle: cerca parole all’interno dei title del sito, quindi ad esempio intitle:parola
- inurl:Â cerca parole all’interno degli URL indicizzati nel sito, quindi ad esempio inurl:parola
- intext: cerca parole all’interno del testo del sito, quindi ad esempio intext:parola
- inanchor: cerca parole all’interno delle anchor text del sito, quindi ad esempio inanchor:parola
Anche se potrebbe non essere chiaro come fare uso di questi operatori nella pratica, almeno di primo achitto, bisogna sicuramente conoscerli per bene e provare a farne uso singolarmente. Per ottenere i Google dorks gli operatori vengono combinati tra loro, affiancandolo con l’uso di spazi ed ottenendo query di ricerca come quelle che abbiamo già visto:
site:sitoprova.com filetype:pdf
che poi si possono estendere, ad esempio, alla ricerca di file immagini dentro un sito scattate con una fotocamera (ad esempio Nikon usa la convenzione Digital Still Camera, DSC, il che si riflette nel nome dei file che vengono salvati nel sito stesso):
site:sitoprova.com filetype:jpg DSC
è chiaro che cosଠfacendo usciranno potenzialmente fuori foto che il crawler di Google è riuscito a scansionare anche in cartelle interne di sistema, e non per forza quelle che avevamo intenzione di esporre nelle gallerie foto del nostro amato CMS.
L’uso dei Google Dork è un’espressione della potenza e precisione di ricerca del celebre motore, che va molto al di là – in questo caso -Â della semplice ricerca di singole parole o frasi. Il loro uso non è necessariamente malevolo, in effetti, per quanto possa essere sfruttato anche in questa veste, e può essere utile ai SEO o agli esperti di sicurezza informatica di verificare che non si siano verificate indicizzazioni accidentali di contenuti che non dovrebbero stare indicizzati.
Trovare file sensibili con login e password in chiaro
Molto spesso i Google Dork si basano su un presupposto, un’ipotesi da verificare: ad esempio possiamo provare a cercare file di testo o csv per verificare che non ci siano, nel server del sito, contenuti indicizzati relativi a file o password in chiaro del sito oppure, ancora, dati sensibili che non vogliamo divulgare e che magari google ha rilevato annidati in qualche cartella interna.
site:sitoprova.com filetype:txt password site:sitoprova.com filetype:csv password site:sitoprova.com filetype:txt site:sitoprova.com filetype:csv intext:"wordpress" filetype:xls login & password
Trovare pagine web inutili che appesantiscono il crawl-budget
I Google Dork permettono anche di scovare errori nell’indicizzazione del proprio sito, ad esempio pagine intermedie (/page/2, /page/3, …) indicizzate per errore:
site:sitoprova.com inurl:page
pagine autore, per fare un altro esempio, indicizzate per errore:
site:sitoprova.com inurl:author
altre pagine web che non sono utili e/o che potrebbero essere messe in noindex ed eliminate:
site:sitoprova.com inurl:pagina
Trovare file sensibili in un sito
Ma possiamo spingere oltre l’analisi, alla ricerca di cartelle di sistema o contenenti eventuali file sensibili:
intitle:"index of" intext:"includes wordpress"
Trovare alcuni siti “deboli” fatti in WordPress
oppure, ancora, possiamo filtrare la ricerca per scovare esclusivamente siti fatti in WordPress che siano rimasti con il footer standard (il senso è che questi siti sono poco aggiornati o curati, e sono più facilmente soggetti ad attacchi informatici):
"is proudly powered by WordPress"
Scoprire “sito copioni”, ovvero contenuti duplicati esterni
I google dork si possono anche usare per scoprire se qualche sito ha copiato i nostri contenuti, ad esempio: prendiamo il titolo di un articolo, lo mettiamo tra doppi apici (per ricercare esattamente quella frase) ed escludiamo il nostro sito web dai risultati:
"Google Dorks: le ricerche hacker che scoprono le falle informatiche" -site:trovalost.it
Trovare pagine senza certificato
Questo è un check che faccio periodicamente, e che consiste nel cercare pagine indicizzate accidentalmente in HTTP e non in HTTPS; se un sito presenta entrambe le versioni, infatti, potrebbe essere un caso di cosiddetto mixed content. Si possono scovare queste situazioni sfruttando l’operatore inurl in due modi alternativi:
inurl:http site:tuosito.com
oppure, in “logica negata” (spesso più efficace):
-inurl:https site:tuosito.com
Ulteriori google dork più avanzati posson essere analizzati e cercati su Exploit-db.com.
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l’iscrizione
👇 Da non perdere 👇
- Domini Internet 🌍
- Lavoro 🔧
- Reti 💻
- Scrivere 🖋
- Sicurezza & Privacy 👁
- 💬 Il nostro canale Telegram: iscriviti
- 🔵 Cosa significa dropped?
- 🟡 Come cancellare un articolo da Google
- 🟢 Domini .am: come e dove registrarne uno