Su Punto Informatico leggo che Google sembra aver implementato nei suoi bot la capacità di fare OCR, cioè di trasformare testi in formato immagine, in testi in formato testo. OCR è l’acronimo di Optical Character Recognition e indica tutti quei software appunto in grado di interpretare il testo dentro normali immagini bitmap / raster.
A questo punto non mi resta che fare un test. Inserisco questa immagine dentro al mio blog: nell’immagine sono contenute parole non indicizzate da google, parole inesistenti.
![]() |
| Da blog.merlinox.com |
E ora Google tocca a te: fra qualche giorno proviamo a cercare le paroline…
Ho usato un Arial, più facile di così! Sappi che ho già preventivamente cercato dai ragazzi di BloggerItaliani2.0 un OCR Online. Ho provato WeOcrServer e devo dire che non è andata affatto male.
[20081107-0954] Colgo la segnalazione di Sparazza, e creo pure una versione pdf su google pages. Fra qualche giorno riverifichiamo!
ps: se volete linkare questo post per favorire il test, vi prego di non usare la parole "finte" nei link: grazie!
Se trovi questo articolo su un blog diverso da “blog.merlinox.com” si tratta probabilmente di una copia non autorizzata. L’indirizzo originale di questo articolo è: Google si affida all’OCR scritto da Merlinox.


Pingback: Google indicizzerà grazie all’OCR? | Italian webdesign
le immagini di testo, mi sembra di aver capito che debbano essere contenute in file .pdf per poter essere indicizzate da Google! Stiamo a vedere
Saluti
Sparazza
@Sparazza: mi sembra una ca**ata. Non perchè l’hai detta te, ma perchè proprio ieri ho avuto una diatriba con colleghi su questa cosa. Non ci resta che provare: post aggiornato. Grazie mille!
http://merlinox.tumblr.com/post/58461881/oggi-sono-andato-dalla-misonfotrice-per-risolvere
Secondo me questa pagina invece la indicizza in meno di un giorno…
Pingback: Feedburner to Google | MrX
Esperimento fallito:
http://www.google.it/search?q=misonfotrice&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_itIT241IT241
Google si sta aggrappando a qualsiasi altra cosa esclusa la mia immagine!
Pingback: Google OCR: ancora no | MrX
Ho sviluppato una tesi in marketing in cui ho anche dovuto parlare di questa indicizzazione ocr: dal blog ufficiale di google e da tutte le fonti che ho utilizzato, assolutamente si parla di ocr applicato ad immagini inserite in pdf, non tutte le immagini dunque. Confermi?
Saluti
Sparazza
No. Provato anche con il PDF. I pdf sono indicizzati quando al loro interno ci sono dei testi. Se dentro ci sono raster google non vede nulla