Uno dei dubbi più diffusi nell’ambito SEO riguarda la scelta di far indicizzare il sito in tutto o in parte, il che rientra nei dilemmi tipici, giusto a fianco di cose tipo è meglio indicizzare il sottodominio oppure la sottocartella? Indicizzare tutto il sito ha delle conseguenze importanti perchè ci toglie qualsiasi dubbio, in un certo senso, ed aiuta a fare in modo che Google possa trovare letteralmente tutto quello che gli serve. Il problema di questo approccio “goloso” è che indicizza letteralmente molto più di ciò che davvero gli serve.
Cosa indicizzare nel sito? Un criterio “essenziale”
In un’ottica essenzialista, infatti, quello che serve indicizzare in un sito in wordpress riguarda:
- le pagine;
- gli articoli;
- i tipi personalizzati (in alcuni casi);
- le categorie (solo se sono abbastanza piene di contenute);
- i tag quasi mai;
- i media (solo nel caso in cui le immagini abbiano un valore a sè stante, in genere neanche serve).
Le regole in genere sono queste: basta far corrispondere ciò che mettiamo nella sitemap XML con quello che è effettivamente scansionabile. Il problema è che Google tende a leggere e scansionare (e spesso indicizzare pure) tutto quello che riesce a trovare, anche se non gli abbiamo esplicitamente detto di farlo. Motivo per cui la logica di cui sopra: di base, da indicizzare sempre e comunque troviamo pagine ed articoli + la home page, poco altro.
Un caso studio… in negativo
Diversamente si rischia di sconfinare in un caso di sito mal configurato che indicizzava le pagine di ricerca interne del sito. Cosa che sembra addirittura saggia ma non lo è, come vedremo. La falla che segnalo oggi l’ho scovata personalmente: è relativa ad un vecchio sito web di mia conoscenza che, per ovvie ragioni, eviterò di citare (ho alterato i colori per renderlo poco riconoscibile).
Di fatto, ho scoperto questo problema praticamente per caso, qualche giorno fa.
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l’iscrizione
La falla in questione spalanca le porte allo spamdexing
Premesso che non si tratta di una falla che mette a rischio dati sensibili, o che permette di svelare le password del sito, la dico in breve: è un sito di annunci che categorizza vari contenuti su una base geografica, che presenta un mancato controllo su un form di ricerca testuale. Il problema potrebbe, in teoria, essere diffuso su altri siti per quanto dalle mie ricerche non emerga nulla del genere. La falla dovrebbe essere nota a chiunque abbia progettato un sito a regola d’arte, e ne ho parlato anche in altri vecchi post del sito.
Il piccolo (grande) problema in questione è che non esiste alcun filtro che impedisca all’utente di cercare stringhe arbitrarie. Per quanto non si possano eseguire comandi (XSS) ho scoperto che qualsiasi contenuto digitato dall’utente crea una pagina a parte che viene resa indicizzabile da Google: senza coda di moderazione, senza check, direttamente. Se faccio 10 ricerche, crea 10 pagine a prescindere da cosa l’utente (anonimo) abbia cercato (stupidaggini incluse).
*indicizzazione di contenuti indiscriminati su Google/Bing
Il sito in questione era un sito di annunci
Se sto cercando annunci di una città specifica, di regola dovrei poter scegliere tra una lista di elementi predefiniti: nulla di trascendentale, roba che si mette in piedi in mezza giornata o quasi. In genere nessun form di un sito dovrebbe evitare questo tipo di controlli, a maggior ragione se avesse “pretese” in ambito SEO per evitare figuracce col pubblico. Del resto, non si tratta di una ricerca libera (come una che faremmo su Google, per capirci), bensì di una pre-impostata su città e provincia: nonostante questo, posso cercare ciò che voglio. Ma posso anche far indicizzare ciò che voglio, da utente anonimo, e questo si presta ad abusi e “scherzi” più o meno di cattivo gusto: posso in questo caso studio far indicizzare una pagina web in cui ci sia scritta qualsiasi cosa, e dall’esterno sembrerà una pagina web prodotto dal proprietario del sito sito.
Analisi tecnica del sito fallato
Il formato degli URL supportati era di tre tipi diversi:
- URL “categorizzato”: http://www.sitoinquestione.net/annunci/per/categoria.htm
- URLÂ “geografico”: http://www.sitoinquestione.net/annunci/a/citta.htm
- URL “categorizzato”+ “geografico”: http://www.sitoinquestione.net/annunci/per/categoria/a/citta.htm
dove categoria può valere ad esempio “immobiliare” e citta ad esempio “cagliari”.
L’idea è in parte buona (e piuttosto SEO-friendly) ma possiede una forte controindicazione pesante: se un utente non loggato / anonimo manipolasse l’URL inserendo stringhe arbitrarie, del tipo
http://www.sitoinquestione.net/annunci/a/paperopoli.htm
oppure
http://www.sitoinquestione.net/annunci/per/scemo-chi-legge.htm
queste pagine sarebbero comunque “create” dinamicamente, volta per volta, dal CMS in questione. Cercando scemo chi legge su questo sito, quindi, esce fuori questa pagina che ovviamente non dovrebbe uscire, e che risulta essere pure in index, follow lato motori di ricerca.
Se non fosse che questa pagina è pure indicizzabile su Google! Dopo un po’ di ricerche incrociate con gli operatori di Google sono infatti uscite fuori pagine indicizzate in precedenza.
Vedere un sito di annunci (già abbastanza difficile da tenere “pulito” di suo) in cui un utente anonimo possa indicizzare arbitrariamente pagine senza alcun controllo, del resto, senza dubbio è una falla da risolvere in tempi brevi, anche perchè la rimozione dei risultati indesiderati potrebbe diventare quasi impossibile.
Quindi la falla in questione (di entità piccola, di per sè) potrebbe aver prodotto centinaia, se non migliaia di pagine inutili, tutte indicizzate da Google, impossibili da tracciare e di cui i proprietari non sanno nulla (o magari ne sono pure orgogliosi). Anzi, sono pronto a scommettere che non gliene importa un accidente, anche se questo potrebbe farli penalizzare da Bing o Google. Del resto è una filosofia molto diffusa tra i principianti: nel dubbio indicizziamo tutto. Incluso il superfluo. Questo, ovviamente, secondo i consulenti “esperti” che hanno messo in piedi questo obbrobbrio, che voglio sperare (quantomeno) sia stata realizzata inconsapevolmente. Ed il dubbio che sia stato fatto per “ottimizzare” il sito rimarrà per sempre…
Usa il codice
189ed7ca010140fc2065b06e3802bcd5
per ricevere 5 € dopo l’iscrizione
👇 Da non perdere 👇
- Domini Internet 🌍
- Gratis 🎉
- Informatica 🖥
- Internet 💻
- Lavoro 🔧
- Sicurezza & Privacy 👁
- Svago 🎈
- 💬 Il nostro canale Telegram: iscriviti
- 🟠 Nuovi TLD di dominio morti? No, abbiamo bisogno di modelli di business più solidi
- 🔴 Bot telegram: cosa sono e a cosa servono
- 🔵 Che cosa vuol dire la parola perspicace