Google si affida all’OCR
Su Punto Informatico leggo che Google sembra aver implementato nei suoi bot la capacità di fare OCR, cioè di trasformare testi in formato immagine, in testi in formato testo. OCR è l’acronimo di Optical Character Recognition e indica tutti quei software appunto in grado di interpretare il testo dentro normali immagini bitmap / raster.
A questo punto non mi resta che fare un test. Inserisco questa immagine dentro al mio blog: nell’immagine sono contenute parole non indicizzate da google, parole inesistenti.
![]() |
| Da blog.merlinox.com |
E ora Google tocca a te: fra qualche giorno proviamo a cercare le paroline…
Ho usato un Arial, più facile di così! Sappi che ho già preventivamente cercato dai ragazzi di BloggerItaliani2.0 un OCR Online. Ho provato WeOcrServer e devo dire che non è andata affatto male.
[20081107-0954] Colgo la segnalazione di Sparazza, e creo pure una versione pdf su google pages. Fra qualche giorno riverifichiamo!
ps: se volete linkare questo post per favorire il test, vi prego di non usare la parole "finte" nei link: grazie!
Approfondimenti online
La tecnologia informatica ha fatto passi da gigante. In modo particolare Google, che con il suo analizzatore di testo, è in grado di proporre collegamenti contestuali a quanto hai appena letto. Questi i link pubblicitari proposti da Adsense.









le immagini di testo, mi sembra di aver capito che debbano essere contenute in file .pdf per poter essere indicizzate da Google! Stiamo a vedere
Saluti
Sparazza
@Sparazza: mi sembra una ca**ata. Non perchè l’hai detta te, ma perchè proprio ieri ho avuto una diatriba con colleghi su questa cosa. Non ci resta che provare: post aggiornato. Grazie mille!
http://merlinox.tumblr.com/post/58461881/oggi-sono-andato-dalla-misonfotrice-per-risolvere
Secondo me questa pagina invece la indicizza in meno di un giorno…
Esperimento fallito:
http://www.google.it/search?q=misonfotrice&sourceid=navclient-ff&ie=UTF-8&rlz=1B3GGGL_itIT241IT241
Google si sta aggrappando a qualsiasi altra cosa esclusa la mia immagine!
Ho sviluppato una tesi in marketing in cui ho anche dovuto parlare di questa indicizzazione ocr: dal blog ufficiale di google e da tutte le fonti che ho utilizzato, assolutamente si parla di ocr applicato ad immagini inserite in pdf, non tutte le immagini dunque. Confermi?
Saluti
Sparazza
No. Provato anche con il PDF. I pdf sono indicizzati quando al loro interno ci sono dei testi. Se dentro ci sono raster google non vede nulla