Il Google OCR Test lo possiamo considerare finito. Il post è stato indicizzato, alcuni amici hanno contribuito a spingerlo in SERP ma nessun risultato.
Nell’immagine che segue lo vedete indicizzato: in seguito ho linkato la pagina su Tumblr dove il testo è stato riportato in Text-Plain. Non funziona nè con il JPG nè con il leggendario PDF (raster!). Attendiamo il futuro, non ci resta altro da fare.
![]() |
| Da blog.merlinox.com |
Grazie a tutti
Hai trovato questo post interessante? Sei un utente twitter? Condividilo allora con i tuoi amici con un simpatico cinguettio semplicemente cliccando il tasto twittami. Grazie.








November 14th, 2008 at 08:58
attendiamo
November 14th, 2008 at 09:04
Speriamo
December 13th, 2008 at 00:27
comunque il motore tesseract non è malaccio qui trovate un applicazione che usa quell’engine qui, (chissà chi l’ha fatta
),
non ho capito bene il discorso dei pdf ,scusate l’ignoranza ma non conosco cosa prometteva l’esperimento google,forse scannare le immagini richiede un pò troppo tempo macchina ma credo che ci arriveremo a breve,i pdf convertiti in immagini con librerie opensource tipo pdfbox box non dovrebbero dare problemi ma lo scan delle immagini web penso richiederebbe un qualcosa tipo quel programmino che permetteva di cedere una parte di cpu del prorpio pc per analizzare lo spazio…,cose mi chiamava? …
ciao
December 14th, 2008 at 22:31
@gmc: era uscita una notizia in cui si diceva che google sarebbe in grado di indicizzare il testo all’interno delle immagini, tramite funzioni di OCR. Così ancora non è.
Il discorso del PDF è che qualche SEO autoeletto fa girare la voce che i PDF su google si indicizzano. Peccato che non viene specificato che i PDF che vengono indicizzati sono quelli con testi all’interno. Un JPEG convertito in PDF rimane comunque una immagine bitmap: compressa riconvertita ricodificata ma comunque una bitmap!