Google e il Tesoretto Nascosto: Crawling

Crawl Budget: il Tesoro di GoogleGoogle ci guarda, Google ci da la mancetta e noi abbiamo due possibilità: ce ne freghiamo, o cerchiamo di investirla, come i famosi denari già citati nelle sacre scritture!

Crawl Budget

Come spesso sostengo, Google assegna ad ogni sito un “tesoretto”. Quel tesoretto viene speso per scansionare un sito e la benzina che consuma è costituita da: numero di pagine, tempo necessario per ogni pagina (performance del sito).

Anche Samuel Scott (che non ha mai fatto il mio corso SEO) la vede come me:

Google assigns a crawl budget to each website based on numerous factors. If your crawl budget is, say, 100 pages per day (or the equivalent amount of data), then you want to be sure that all 100 are things that you want to appear in the SERPs.

Questo significa:

  • pensare bene all’architettura del sito
  • non produrre pagine spazzatura
  • gestire al meglio i parametri (sia query string sia parlanti via rewrite)
  • usare con cura il nofollow
  • investire il budget: buoni contenuti, buoni backlink
  • tenere monitorate le statistiche di scansione, o i log…
  • [inserisci la tua]

 

URL Parameter

Secondo la documentazione ufficiale l’uso di URL Parameter è caldamente consigliato per segnalare a Google il comportamento dei parametri del query string. La cosa importante che si evince dal documento è la segnalazione di stare attenti, perché Google segue le indicazioni e il rischio – quando si indica “URL Rappresentativa” ovvero parametro che non cambia i contenuti – che venga rimosso dalle URL da scansionare, impattando direttamente il crawling.

Please note that you should exercise caution when using the URL Parameters tool. If you make a mistake in indicating to us what is duplicate content that should not be crawled

Altra cosa importante, Google segnala come pagine da lui ritenute uguali o molto simili, siano raggruppate in cluster, quindi Google arbitrariamente decide la URL prioritaria (ovviamente se non ci sono indicazioni in URL Parameters o Canonical):

Google algorithm groups the duplicate URLs into one cluster and selects what the algorithm thinks is the best URL to represent the cluster in search results

 

Sitemap

Smitizziamo il mito antico delle Sitemap, ma soprattutto dell’importanza dei parametri priotità e frequenza: NON SERVONO, lo dice John Mueller! Le Sitemap, a livello di Search Console, hanno un obiettivo ormai primario ed assoluto, mostrare lo stato di indicizzazione delle pagine caricate: per questo consiglio una forte granularità delle Sitemap caricate. Tante Sitemap? Caricatene solo una, il resto lo si fa le una Sitemap Index.

CSS e Javascript

MAI bloccare la scansione di CSS e Javascript, in quanto questo tipo di file sono direttamente collegati al rendering della pagina. Almeno dal 2012 Googlebot è in grado di interpretare come la pagina viene renderizzata, anzi lo pretende (in particolare dopo mobilegeddon):

Disallowing crawling of Javascript or CSS files in your site’s robots.txt directly harms how well our algorithms render and index your content and can result in suboptimal rankings.

Ricordiamoci che tramite JS si può rifare un’intera pagina!

Loading Facebook Comments ...

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *