Home > Web Mania > Google OCR: ancora no

Google OCR: ancora no

November 14th, 2008 Lascia un commento Vai ai commenti

Il Google OCR Test lo possiamo considerare finito. Il post è stato indicizzato, alcuni amici hanno contribuito a spingerlo in SERP ma nessun risultato.

Nell’immagine che segue lo vedete indicizzato: in seguito ho linkato la pagina su Tumblr dove il testo è stato riportato in Text-Plain. Non funziona nè con il JPG nè con il leggendario PDF (raster!). Attendiamo il futuro, non ci resta altro da fare.

 

Da blog.merlinox.com

Grazie a tutti

 

Approfondimenti online

La tecnologia informatica ha fatto passi da gigante. In modo particolare Google, che con il suo analizzatore di testo, è in grado di proporre collegamenti contestuali a quanto hai appena letto. Questi i link pubblicitari proposti da Adsense.

Categorie: Web Mania Tag: , , ,
  1. November 14th, 2008 at 08:58 | #1

    attendiamo ;)

  2. November 14th, 2008 at 09:04 | #2

    Speriamo :)

  3. December 13th, 2008 at 00:27 | #3

    comunque il motore tesseract non è malaccio qui trovate un applicazione che usa quell’engine qui, (chissà chi l’ha fatta ;-) ),
    non ho capito bene il discorso dei pdf ,scusate l’ignoranza ma non conosco cosa prometteva l’esperimento google,forse scannare le immagini richiede un pò troppo tempo macchina ma credo che ci arriveremo a breve,i pdf convertiti in immagini con librerie opensource tipo pdfbox box non dovrebbero dare problemi ma lo scan delle immagini web penso richiederebbe un qualcosa tipo quel programmino che permetteva di cedere una parte di cpu del prorpio pc per analizzare lo spazio…,cose mi chiamava? …
    ciao

  4. December 14th, 2008 at 22:31 | #4

    @gmc: era uscita una notizia in cui si diceva che google sarebbe in grado di indicizzare il testo all’interno delle immagini, tramite funzioni di OCR. Così ancora non è.

    Il discorso del PDF è che qualche SEO autoeletto fa girare la voce che i PDF su google si indicizzano. Peccato che non viene specificato che i PDF che vengono indicizzati sono quelli con testi all’interno. Un JPEG convertito in PDF rimane comunque una immagine bitmap: compressa riconvertita ricodificata ma comunque una bitmap!

  1. Ancora nessun trackback.

Additional comments powered by BackType