L’indicizzazione di un sito è uno dei passi fondamentali – per non dire propedeutici – per fare in modo di garantire la reperibilità dei contenuti dello stesso sui motori: anche se nominalmente essa avviene in automatico, possono verificarsi dei casi in cui parte delle pagine web mancano dall’indice di Google, Bing e/o tutti gli altri. Cosa fare in queste situazioni? Cercheremo qui di capire meglio come funzioni questo meccanismo, e con quali piccoli accorgimenti esso si possa promuovere o catalizzare.
Per approcciare nel modo corretto alla problematica dell’articolo bisognerebbe partire da un concetto che, sul mio blog come presso i miei clienti, ho cercato perennemente di ribadire fino all’inverosimile: indicizzazione non equivale in alcun modo a posizionamento (ranking). Si tratta di un equivoco apparentemente banale che pero’, nella pratica, si annida all’interno delle menti di certuni come lo sporco più ostinato: durante il nostro lavoro di SEO può creare più di un problema, specie se la nostra formazione lavorativa è avvenuta dalla lettura di blog e forum sull’argomento che spesso, per quanto interessanti, tendono un po’ troppo a semplificare le cose. Ed è ancora comune, nel 2013, imbattersi in dissertazioni discutibili nelle quali si parla indifferentemente di indicizzazione e ranking, come se le due cose fossero equivalenti, e come se lavorare per l’una coincida con operare per l’altra (non è affatto così).
L’indicizzazione di un sito serve a garantire, con vari gradi di probabilità, che le pagine dello stesso siano reperibili da una ricerca su Google: si tratta quindi di una condizione necessaria per apparire nelle SERP(Search Engine Results Pages) ma che, di suo, non ci dice nulla sul posizionamento. Il ranking, invece, definisce nel concreto la possibilità che i contenuti effettivamente compaiano all’interno dei risultati. In realtà, quindi, l’approccio al problema che dobbiamo fare in primissima istanza si basa su tre fasi basilari, suggerite da Google, che fissano in ordine cronologico altrettante operazioni fondamentali:
- Scansione delle pagine
- Indicizzazione delle pagine
- Restituzione dei risultati
C’è da aggiungere che i SEO si interessano quasi esclusivamente della fase di restituzione dei risultati, anche se una penalizzazione inflitta ad una o più pagine del sito potrebbe, nella pratica, costringerci a mettere le mani su scansione e/o indicizzazione. In questa sede mi occuperò esclusivamente della prima e della seconda fase, rimandando ad altri articoli che abbiamo pubblicato in passato per quanto riguarda la terza.
Conoscere il Googlebot: la scansione di un sito
Il processo che rende possibile la prima fase è noto come crawler o Googlebot: si tratta di un software che determina in modo automatico quali pagine saranno da includere nell’indice di ricerca. Ormai questo processo, a differenza di qualche anno fa, avviene a velocità quasi real-time: la nostra pagina viene pubblicata e/o aggiornata e, dopo pochi istanti, dovrebbe comparire nei risultati nella versione più recente. Ovviamente esistono svariati fattori che possono rallentare questo processo, specialmente se il dominio è molto giovane: sulla carta, comunque, Googlebot “segue il ritmo di crescita del Web“, e giustifica la presenza nel nostro account Analytics di visite dal referal Google.com – il che è anche un buon modo per capire se siamo stati rilevati dal motore oppure no.
Per incrementare la probabilità che il nostro sito venga correttamente rilevato dal motore, dunque, esistono due tecniche basilari:
1) Farsi linkare da un sito autorevole o comunque ben indicizzato e con un certo grado di autorevolezza: scrivo questo non per istigare qualcuno a manipolare il PageRank del proprio neonato portale, quanto perchè il crawler segue la maggioranza dei link contenuti all’interno del WEB, e più collegamenti troverà maggiori saranno le possibilità di essere finalmente indicizzati. Giusto per maggiore precisione, è decisamente consigliabile che il link in ingresso – che possiamo ottenere sfruttando le consuete tecniche di link building – non possieda l’attributo nofollow: avevo anche fatto un piccolo esperimento qualche tempo fa a riguardo (ne ho parlato sul mio blog), e per quello che sono riuscito a comprendere i backlink dofollow “istigano” all’indicizzazione del contenuto, mentre i nofollow sembrano passare apparentemente indifferenti al Googlebot.
2) Altra strategia per favorire l’indicizzazione consiste nel linkare dal proprio sito le fonti utilizzate, specialmente se molto autorevoli: questo perchè un visitatore a cui abbiamo passato la nostra “creatura” potrebbe visitare il link esterno, ed il link dell’URL ancora “segreto” potrebbe essere salvato tra i referrer del portale destinazione, e memorizzato all’interno dei log, incrementando così le possibilità che Google – mediante gli strumenti di diagnostica e metrica per webmaster che usualmente offre – si possa “accorgere” della presenza del nuovo sito. Questo senza contare che, ad esempio se il blog è in WordPress, potremmo ricevere dai link in uscita un trackback che il crawler potrebbe sfruttare per rilevare i nuovi contenuti.
Indicizzazione: come effettuare il check
“Googlebot” – da quello che leggiamo nella documentazione ufficiale – “elabora ogni pagina sottoposta a scansione al fine di compilare un enorme indice di tutte le parole individuate e delle relative posizioni su ciascuna pagina.“. In certi casi l’indicizzazione delle pagine potrebbe pero’ non avvenire affatto: per verificarlo basta fare uso dell’operatore site: come illustrato di seguito.
Il test illustra che sono presenti, attualmente, circa 1340 pagine all’interno dell’indice di ricerca di Google: se nel vostro caso site: non restituisce nulla, oppure mostra solo una parte dei contenuti del vostro sito o blog, dovrete verificare i seguenti aspetti.
1) Assicuratevi che su nessuna delle pagine di interesse sia presente il metatag robots con attributi “noindex, nofollow“:
Nota: l’impostazione corretta del content per le pagine che si vogliono indicizzare è “index, follow“.
2) Verificate che il robots.txt del vostro sito non suggerisca inavvertitamente a Google di non scansionare le vostre pagine: l’impostazione corretta e minimale è la seguente.
User-Agent: * Allow: /
3) Ricordarsi di inviare sempre la sitemap del sito mediante gli strumenti per webmaster.
Indicizzazione: alcuni suggerimenti finali di emergenza
Può capitare infine che si voglia velocizzare o incentivare il processo di indicizzazione di una pagina web che non è ancora stata rilevata: solitamente in questi casi utilizzo uno dei seguenti stratagemmi.
- Posto il link della pagina sul mio account Twitter illustrandone il contenuto: non tutti i tweet sono indicizzati da Google ma, per quello che ho visto, se venite retwittati e/o citati ci sono sempre maggiori possibilità che ciò possa avvenire.
- Se la pagina è una notizia o un articolo, la segnalo su ZicZac/OkNotizie/Fai.informazione ed altri bookmark.
- Segnalo la home del portale a siti come totalping.com.
- Se possibile creo un guest post o un comunicato stampa che citi in maniera sensata la pagina appena creata (o aggiornata).
Concludo questo excursus, che spero non vi abbia annoiato troppo, con una breve nota: esiste una nota pubblicità relativa ad un “site-builder” molto popolare in Italia che, ogni volta, mi fa sobbalzare dalla sedia. Circa 15 secondi di spot in cui viene affermato, con la smania dell’immediatezza e per placare la fame degli utonti, che una volta creato il sito “i clienti ti troveranno ovunque” (su Google, s’intende): le cose, come abbiamo visto, non stanno proprio in questi termini. L’indicizzazione – per non parlare del posizionamento…. – può essere un processo molto complicato, e non è per nulla scontato che i vostri contenuti siano archiviati solo perchè ci piace pensarlo. Nella pratica questo mi è stato dimostrato dal sito di un mio parente, che utilizzava 1&1 da mesi senza che fosse affatto reperibile sui motori (nemmeno mediante site:): e se richiedi assistenza in merito, devi pagare un tot extra mensile e tanti saluti (alla decenza). Quello spot così accattivante, oltre che palesemente ingannevole, invece, sembra far passare l’idea malsana che basti creare un sito per farsi trovare “ovunque” (sic)…