Operatori di ricerca avanzata di Google: guida ai Google Dorks


Google Dorks: le ricerche hacker che scoprono le falle informatiche

Avviso: questo articolo non intende promuovere nè incoraggiare pratiche illegali. Invitiamo i lettori ad agire sempre nel rispetto delle leggi e seguendo i dettami dell’etica.

Quando su Google finisce di tutto (e di più) rispetto a quello che vorremmo

Esistono varie stime sul numero di pagine web che Google ha archiviato fino ad oggi: sono quasi tutte discordanti, e soprattutto sono quasi certamente al ribasso. Google infatti non è più solo un archivio di dati consultabile in lungo ed in largo, ed è qualcosa in più – ormai da anni – del motore di ricerca di una biblioteca: grazie al data mining, infatti, può estrarre nuove informazioni dalle pagine web e quindi, di fatto, restituire ancora più risultati di quante non siano le pagine web al suo interno. Le informazioni dal web vengono pazientemente raccolte da un efficentissimo crawler, un software che scansiona le pagine web seguendo i vari link che trova e raccogliendo, sulle stesse, vari tipi di dati e meta-dati utili alla causa.

Il lato oscuro di Google, echeggiando il dark side of the moon su cui si espressero i Pink Floyd nell’ormai lontano 1973, potrebbe essere rappresentato più che degnamente dall’uso dei cosiddetti Google Dorks. Si tratta di stringhe di ricerca che permettono, di fatto, di accedere a contenuti indicizzati su Google spesso in modo del tutto accidentale, scoprendo cosଠproblemi di sicurezza informatica sui siti, contenuti riservati o privati indicizzati per sbaglio.

Pubblicità – Continua a leggere sotto :-)
Sei un webmaster? Prova TheMoneytizer per il tuo sito
Cerchi alternative a Google Adsense per il tuo sito? Prova TheMoneytizer!
Usa il codice 189ed7ca010140fc2065b06e3802bcd5 per ricevere 5 € dopo l’iscrizione

Sicuramente Google è una macchina più complessa di quello che potrebbe sembrare a prima vista, e questo si traduce nel fatto che mostra molto di più di quanto suggeriscano le prime pagine dei risultati di ricerca, le stesse in cui amiamo cercare quello che ci piace o ci interessa. I Google Dork, in questi casi, sono un modo molto semplice, e letteralmente alla portata di chiunque, per effettuare ricerche underground di ogni genere, scovando falle di vario genere di cui, per inciso, i proprietari dei siti spesso non sanno nè immaginano nulla.

In alcuni casi, ad esempio, grazie a dei Google Dork sono stati rilevate scansioni di documenti di identità  che certamente non avrebbero dovuto finire indicizzati, e che rimangono alla portata di chiunque li cerchi e alla totale insaputa dei soggetti interessati. Il tweet successivo riporta un caso risalente a gennaio del 2021, ad esempio, a cui ne sono seguiti anche altri abbastanza simili nella sostanza: alcuni siti avevano infatti postato delle scansioni di carte d’identità  che sono finite su Google in formato immagine o PDF.

Pubblicità – Continua a leggere sotto :-)
Sei un webmaster? Prova TheMoneytizer per il tuo sito

Esempi di ricerca come quelle riportate qui sopra, nella pratica, esce fuori da Google effettuando le cosiddette ricerche di tipo confidential, il che presuppone banalmente di cercare file di tipo documenti / pdf / presentazioni / file Word con la parola confidential all’interno (spesso la realtà  è più semplice di quello che potrebbe sembrare a prima vista). L’esempio è volutamente in inglese, ma esistono (e non le riporteremo in questa sede) esempi davvero avanzati per scovare di tutto e di più da Google.

Da questo punto di vista il controllo del cosiddetto crawl-budget di Google è uno dei modi più razionali per gestire la questione: fare attenzione che Google non indicizzi più del dovuto è un controllo che ogni sito dovrebbe fare, periodicamente, nelle proprie attività  di manutenzione, per quanto l’attività  sia spesso considerata solo un costo e non venga ancora oggi ben recepita o compresa la sua reale portata.

Pubblicità – Continua a leggere sotto :-)

(Tophost) l’ hosting web più economico – Usa il coupon sconto: 7NSS5HAGD5UC2

Che cosa sono i Google Dork?

L’attività  annessa ai Google Dork è detta spesso Google Hacking, e non a caso! I Google Dork sono ricerche che combinano parole e operatori di ricerca del motore per cercare contenuti molto specifici; sono spesso catalogati in appositi siti web che ne collezionano a migliaia, e ogni giorno ne vengono scoperti di nuovi da hacker e ricercatori di sicurezza informatica. Per capire subito di che si tratta, nel concreto, possiamo fare un piccolo esempio: andiamo su Google e proviamo ad esempio a cercare

site:sitoprova.com filetype:pdf

per ottenere la lista dei file PDF che sono indicizzati dentro sitoprova.com.

In generale l’uso dei google dork (dork è un termine inglese gergale che si traduce più o meno come “idiota”) è vincolato all’utilizzo smart degli operatori di ricerca qui riportati, che vengono combinati in vari modi sfruttando la potenza espressiva delle ricerche stesse, spesso sottovalutata dall’utente medio.

Attenzione: l’uso di alcuni Google dork, soprattutto se molte volte di seguito, può far scattare il controllo antispam di Google, che va superato manualmente con la scelta delle immagini nel classico puzzle. Ricordiamo anche che Google non permette da TOS l’uso di query automatizzate via script sul proprio motore.

Alcuni esempi degli operatori combinabili sono i seguenti:

  • cache: grazie all’operatore cache puoi vedere la versione del sito web salvata in cache, cache:miosito.com
  • filetype: permette di cercare solo file di un certo tipo, ad esempio filetype:pdf
  • site: cerca risultati all’interno di un sito specifico, quindi site:miosito.com
  • intitle: cerca parole all’interno dei title del sito, quindi ad esempio intitle:parola
  • inurl: cerca parole all’interno degli URL indicizzati nel sito, quindi ad esempio inurl:parola
  • intext: cerca parole all’interno del testo del sito, quindi ad esempio intext:parola
  • inanchor: cerca parole all’interno delle anchor text del sito, quindi ad esempio inanchor:parola

Anche se potrebbe non essere chiaro come fare uso di questi operatori nella pratica, almeno di primo achitto, bisogna sicuramente conoscerli per bene e provare a farne uso singolarmente. Per ottenere i Google dorks gli operatori vengono combinati tra loro, affiancandolo con l’uso di spazi ed ottenendo query di ricerca come quelle che abbiamo già  visto:

site:sitoprova.com filetype:pdf

che poi si possono estendere, ad esempio, alla ricerca di file immagini dentro un sito scattate con una fotocamera (ad esempio Nikon usa la convenzione Digital Still Camera, DSC, il che si riflette nel nome dei file che vengono salvati nel sito stesso):

site:sitoprova.com filetype:jpg DSC

è chiaro che cosଠfacendo usciranno potenzialmente fuori foto che il crawler di Google è riuscito a scansionare anche in cartelle interne di sistema, e non per forza quelle che avevamo intenzione di esporre nelle gallerie foto del nostro amato CMS.

L’uso dei Google Dork è un’espressione della potenza e precisione di ricerca del celebre motore, che va molto al di là  – in questo caso -  della semplice ricerca di singole parole o frasi. Il loro uso non è necessariamente malevolo, in effetti, per quanto possa essere sfruttato anche in questa veste, e può essere utile ai SEO o agli esperti di sicurezza informatica di verificare che non si siano verificate indicizzazioni accidentali di contenuti che non dovrebbero stare indicizzati.

Trovare file sensibili con login e password in chiaro

Molto spesso i Google Dork si basano su un presupposto, un’ipotesi da verificare: ad esempio possiamo provare a cercare file di testo o csv per verificare che non ci siano, nel server del sito, contenuti indicizzati relativi a file o password in chiaro del sito oppure, ancora, dati sensibili che non vogliamo divulgare e che magari google ha rilevato annidati in qualche cartella interna.

site:sitoprova.com filetype:txt password
site:sitoprova.com filetype:csv password
site:sitoprova.com filetype:txt
site:sitoprova.com filetype:csv
intext:"wordpress" filetype:xls login & password

Trovare pagine web inutili che appesantiscono il crawl-budget

I Google Dork permettono anche di scovare errori nell’indicizzazione del proprio sito, ad esempio pagine intermedie (/page/2, /page/3, …) indicizzate per errore:

site:sitoprova.com inurl:page

pagine autore, per fare un altro esempio, indicizzate per errore:

site:sitoprova.com inurl:author

altre pagine web che non sono utili e/o che potrebbero essere messe in noindex ed eliminate:

site:sitoprova.com inurl:pagina

Trovare file sensibili in un sito

Ma possiamo spingere oltre l’analisi, alla ricerca di cartelle di sistema o contenenti eventuali file sensibili:

intitle:"index of" intext:"includes wordpress"

Trovare alcuni siti “deboli” fatti in WordPress

oppure, ancora, possiamo filtrare la ricerca per scovare esclusivamente siti fatti in WordPress che siano rimasti con il footer standard (il senso è che questi siti sono poco aggiornati o curati, e sono più facilmente soggetti ad attacchi informatici):

"is proudly powered by WordPress"

Scoprire “sito copioni”, ovvero contenuti duplicati esterni

I google dork si possono anche usare per scoprire se qualche sito ha copiato i nostri contenuti, ad esempio: prendiamo il titolo di un articolo, lo mettiamo tra doppi apici (per ricercare esattamente quella frase) ed escludiamo il nostro sito web dai risultati:

"Google Dorks: le ricerche hacker che scoprono le falle informatiche" -site:trovalost.it

Trovare pagine senza certificato

Questo è un check che faccio periodicamente, e che consiste nel cercare pagine indicizzate accidentalmente in HTTP e non in HTTPS; se un sito presenta entrambe le versioni, infatti, potrebbe essere un caso di cosiddetto mixed content. Si possono scovare queste situazioni sfruttando l’operatore inurl in due modi alternativi:

inurl:http site:tuosito.com

oppure, in “logica negata” (spesso più efficace):

-inurl:https site:tuosito.com

Ulteriori google dork più avanzati posson essere analizzati e cercati su Exploit-db.com.

Pubblicità – Continua a leggere sotto :-)
Cerchi alternative a Google Adsense per il tuo sito? Prova TheMoneytizer!
Usa il codice 189ed7ca010140fc2065b06e3802bcd5 per ricevere 5 € dopo l’iscrizione


(Tophost) l’ hosting web più economico – Usa il coupon sconto: 7NSS5HAGD5UC2

👇 Da non perdere 👇



Trovalost.it esiste da 4634 giorni (13 anni), e contiene ad oggi 4348 articoli (circa 3.478.400 parole in tutto) e 22 servizi online gratuiti. – Leggi un altro articolo a caso
Numero di visualizzazioni (dal 21 agosto 2024): 9
Pubblicità – Continua a leggere sotto :-)
Segui il canale ufficiale Telegram @trovalost https://t.me/trovalost
Seguici su Telegram: @trovalost
Privacy e termini di servizio / Cookie - Il nostro network è composto da Lipercubo , Pagare.online e Trovalost
Seguici su Telegram, ne vale la pena ❤️ ➡ @trovalost
Questo sito contribuisce alla audience di sè stesso.