Google OCR: ancora no

Il Google OCR Test lo possiamo considerare finito. Il post è stato indicizzato, alcuni amici hanno contribuito a spingerlo in SERP ma nessun risultato.

Nell’immagine che segue lo vedete indicizzato: in seguito ho linkato la pagina su Tumblr dove il testo è stato riportato in Text-Plain. Non funziona nè con il JPG nè con il leggendario PDF (raster!). Attendiamo il futuro, non ci resta altro da fare.

 

Da blog.merlinox.com

Grazie a tutti

Loading Facebook Comments ...

4 pensieri su “Google OCR: ancora no

  1. gmc

    comunque il motore tesseract non è malaccio qui trovate un applicazione che usa quell’engine qui, (chissà chi l’ha fatta 😉 ),
    non ho capito bene il discorso dei pdf ,scusate l’ignoranza ma non conosco cosa prometteva l’esperimento google,forse scannare le immagini richiede un pò troppo tempo macchina ma credo che ci arriveremo a breve,i pdf convertiti in immagini con librerie opensource tipo pdfbox box non dovrebbero dare problemi ma lo scan delle immagini web penso richiederebbe un qualcosa tipo quel programmino che permetteva di cedere una parte di cpu del prorpio pc per analizzare lo spazio…,cose mi chiamava? …
    ciao

    Rispondi
  2. Merlinox Autore articolo

    @gmc: era uscita una notizia in cui si diceva che google sarebbe in grado di indicizzare il testo all’interno delle immagini, tramite funzioni di OCR. Così ancora non è.

    Il discorso del PDF è che qualche SEO autoeletto fa girare la voce che i PDF su google si indicizzano. Peccato che non viene specificato che i PDF che vengono indicizzati sono quelli con testi all’interno. Un JPEG convertito in PDF rimane comunque una immagine bitmap: compressa riconvertita ricodificata ma comunque una bitmap!

    Rispondi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *