Googlebot non riesce ad accedere ai file CSS e JS

Da qualche giorno a questa parte chi gestisce il proprio sito tramite il Google Web Master Tool si è visto recapitare una mail da Google con un avviso abbastanza inquietante “Googlebot non riesce ad accedere ai file CSS e JS del tuo sito”.
Facciamo un po’ di chiarezza sul motivo per cui arrivano avvisi come questi e vediamo quale soluzione adottare.

forbidden

Il messaggio arrivato nei giorni scorsi a molti gestori di siti che utlizzano il Google Web Master tool è il seguente:

Googlebot non riesce ad accedere ai file CSS e JS sul sito …

Di recente, i sistemi di Google hanno rilevato un problema con la tua home page che influisce negativamente sulla visualizzazione e sull’indicizzazione dei tuoi contenuti da parte dei nostri algoritmi. Nello specifico, Googlebot non può accedere ai tuoi file JavaScript e/o CSS a causa delle limitazioni del tuo file robots.txt. Questi file aiutano Google a comprendere se il tuo sito web funziona correttamente, pertanto bloccare l’accesso a questi asset può causare ranking inferiori a quelli ottimali.

Perchè accade

Per capire l’origine di questo problema facciamo un passo indietro.
Nel marzo scorso¹ Google ha annunciato un’importante cambiamento nel suo motore di indicizzazione, passando da una scansione delle pagine solo testuale a una completa di tutte le risorse collegate (javascript, css, …): in pratica il bot di Google ha cominciato a “vedere” le pagine come l’utente stesso, utilizzando una sorta di browser web.
Questo cambiamento è dovuto principalmente a due ragioni:

  • I siti web negli ultimi anni hanno aumentato pesantemente l’utilizzo di javascript e il fatto che il Googlebot prima non li leggesse era obiettivamente un grosso limite, che impediva di indicizzare tutti contenuti di un sito
  • In base alle nuove policy di Google, il fatto che il bot possa visualizzare un sito come lo vede l’utente è necessario per poter valutare se un sito è mobile friendly

Nell’ultimo anno e mezzo si può dire che Google abbia chiuso un occhio “perdonando” i siti che ancora bloccano l’accesso alle risorse, ora però siamo alla stretta finale.

Soluzione

Tornando al problema iniziale la soluzione è abbastanza semplice, ed è riconducibile a come è strutturato il vostro file robots.txt².
Se state utilizzando un cms è molto probabile che questo file sia stato compilato in modo automatico, e se avete ricevuto l’avviso di Google è praticamente certo che contenga qualche “disallow” di troppo.
La soluzione semplice e non troppo elegante è quella di eliminare i disallow presenti e lasciare quindi nel file una sola riga (in questo modo i bot potranno accedere a tutte le risorse):

User-agent: *

Chiaramente non è la soluzione migliore anche perchè è possibile che ci siano sul vostro sito delle risorse che non volete vengano indicizzate.
Bisogna quindi fare un intervento più di fino per togliere il “disallow” solo dalle righe che impediscono l’accesso a qualche risorsa di cui Google ha effettivamente bisogno per indicizzare la vostra pagina (javascript, css o immagini).
Per esempio potrebbero essere presenti righe di questo tipo (che impediscono l’accesso a risorse di tipo js o css)

Disallow: /*.css$
Disallow: /*.js$

In questo caso non ci sono dubbi che dovrete togliere queste righe per permettere al Googlebot di scansionare queste risorse, tuttavia non sempre la soluzione è sotto i nostri occhi in maniera così lampante.
Per capire con precisione su quali righe del file robots.txt agire ci viene in aiuto un ottimo strumento presente nel Google Web Master Tool che si chiama Visualizza come Google: tramite questo tool vi verranno evidenziate le differenze fra come vede la pagina l’utente e come la vede il Googlebot, con la relativa lista di tutte le risorse che a cui il bot non riesce ad accedere.
Una volta recuperata questa lista dovrebbe essere un gioco da ragazzi eliminare le righe che generano il problema con l’indicizzazione del vostro sito, nella maggior parte dei casi vi accorgerete che semplicemente il cms che usate aveva bloccato l’accesso ad alcune cartelle al cui interno ci sono dei contenuti necessari al Googlebot.

 

Approfondimenti

¹ http://googlewebmastercentral.blogspot.it/2014/05/understanding-web-pages-better.html
² https://it.wikipedia.org/wiki/Protocollo_di_esclusione_robot

 

Condividi questo articolo

Leave a comment