Il Google OCR Test lo possiamo considerare finito. Il post è stato indicizzato, alcuni amici hanno contribuito a spingerlo in SERP ma nessun risultato.
Nell’immagine che segue lo vedete indicizzato: in seguito ho linkato la pagina su Tumblr dove il testo è stato riportato in Text-Plain. Non funziona nè con il JPG nè con il leggendario PDF (raster!). Attendiamo il futuro, non ci resta altro da fare.
![]() |
Da blog.merlinox.com |
Grazie a tutti
attendiamo 😉
Speriamo 🙂
comunque il motore tesseract non è malaccio qui trovate un applicazione che usa quell’engine qui, (chissà chi l’ha fatta 😉 ),
non ho capito bene il discorso dei pdf ,scusate l’ignoranza ma non conosco cosa prometteva l’esperimento google,forse scannare le immagini richiede un pò troppo tempo macchina ma credo che ci arriveremo a breve,i pdf convertiti in immagini con librerie opensource tipo pdfbox box non dovrebbero dare problemi ma lo scan delle immagini web penso richiederebbe un qualcosa tipo quel programmino che permetteva di cedere una parte di cpu del prorpio pc per analizzare lo spazio…,cose mi chiamava? …
ciao
@gmc: era uscita una notizia in cui si diceva che google sarebbe in grado di indicizzare il testo all’interno delle immagini, tramite funzioni di OCR. Così ancora non è.
Il discorso del PDF è che qualche SEO autoeletto fa girare la voce che i PDF su google si indicizzano. Peccato che non viene specificato che i PDF che vengono indicizzati sono quelli con testi all’interno. Un JPEG convertito in PDF rimane comunque una immagine bitmap: compressa riconvertita ricodificata ma comunque una bitmap!