Partiamo subito con una immagine esplicativa prima di spiegare, che tanto poi magari non serve nemmeno. Di cosa si parla? Delle informazioni che da Google, del loro valore e della loro affidabilità:
Come vedete non parliamo di 1, 2, 10% di differenza nella reportistica, ma parliamo di differenze assolute. Secondo la SERP ho quasi 1800 post indicizzati: dato abbastanza buono considerando che questo blog ha poco più di 1640 articoli.
Ma il dato del GWT, che dovrebbe essere la “bussola” dei webmaster? Dice che nell’indice ho 59 url!!! Mi sono accorto di questa stranezza perchè stavo verificando lo stato delle multi sitemap e – seguendo i consigli di Enrico – stavo verificando lo stato delle mie segnalazioni.
Beh a questo punto mi viene da trarre un paio di conclusioni secche (e affrettate):
- il mio blog allo stato attuale non aveva necessità di frammentazione di sitemap, visto che è praticamente indicizzato al 100%
- la reportistica sitemap di GWT è assolutamente irrilevante, inutile e fuorviante, ma anche fuorviante forse è troppo, visto la nullità dell’informazione
Aggiornamento 21/07/2011
Come ho aggiunto sopra le conclusioni sono state apprezzate. E’ proprio in seguito alle indicazioni di Enrico Altavilla che ho fatto ulteriori verifiche. Le indicazioni che stavo spedendo a Google non erano completamente corrette.
- Le sitemap formato link erano prive del “/” alla fine richiesto dal mio permalink format: ho corretto anche il post sulle wordpress sitemap per quello
- Le sitemap formato rss non andavano bene, in quanto si portavano dietro l’odioso il querystring di Feed Burner
Questo chiaramente significa due cose: io sono stato frettoloso e impreciso e Google nell’analisi delle sitemap non ci pensa minimamente nel valutare redirect 301 o canonical.
Detto questo il valore delle URL submitted e di quelle indexed è ancora sballato: sommando i risultati delle due colonne riportate nell’immagine i conti non tornato.
Concludo dicendo che ci sono volute più di 24 ore prima che Google aggiornasse quasi tutti i risultati, nonostante le url fossero già indicizzate: chissà che verifiche andrà a fare.
Nel mio caso mi porto dietro una differenza di soli 5 url ed è costante.
Mi ero ripromesso di cercarle, ora che ho letto questo tuo post vado alla ricerca delle url perdute 😀
Un saluto dal DON
Io intanto sto approfondendo altre cosine, del tipo che i 301 non sono assolutamente riconosciuti. Ovvero se in sitemap link una pagina che fa 301 verso un’altra, comunque non la conteggia.
Ho passato in rassegna le 119 url della sitemap, risultato tutte indicizzate… il GWT me ne dice 114 (le famose 5 di differenza).
Nella sitemap non riporto i riferimenti a tutti i files scaricabili (pdf,txt,docx e xls) che comunque risultano essere indicizzati.
Ricapitolando :
sitemap –> 119
gwt –> 114
site: –> 174
escludendo la paginazione –> 124
solo paginazione –> 47 (sopra sembravano essere 50)
pdf –> 6
txt –> 1
docx –> 1
xls –> 1
Probabilmente essendo piccoli numeri i dati non hanno grosse differenze…
Un saluto dal DON
Io sto aspettando processi alcuni cambiamenti che ho fatto, dopo vedo se è il caso di revisionare questo post o scriverne un’altro. Grazie DON!
Discrepanza abbondante 😉
Sitemap: 1.664 URL nell’indice web
site:www.info-alberghi.com 3.030 risultati
O_O
Che gradita sorpresa: ciao Lisa. Chiaramente hai già fatto tutte le verifiche del caso che le URL corrispondano (serp e sitemap) e che le pagine che su sitemap non vedi sono in realtà in Serp?
anche a me i risultati sono molto sballati