Google si affida all’OCR

Su Punto Informatico leggo che Google sembra aver implementato nei suoi bot la capacità di fare OCR, cioè di trasformare testi in formato immagine, in testi in formato testo. OCR è l’acronimo di Optical Character Recognition e indica tutti quei software appunto in grado di interpretare il testo dentro normali immagini bitmap / raster.

A questo punto non mi resta che fare un test. Inserisco questa immagine dentro al mio blog: nell’immagine sono contenute parole non indicizzate da google, parole inesistenti.

Da blog.merlinox.com

E ora Google tocca a te: fra qualche giorno proviamo a cercare le paroline
Ho usato un Arial, più facile di così! Sappi che ho già preventivamente cercato dai ragazzi di BloggerItaliani2.0 un OCR Online. Ho provato WeOcrServer e devo dire che non è andata affatto male.

[20140415] Aggiungiamo un nuovo test, visto che ora Google Keep supporta l’OCR:

test-ocr

[20081107-0954] Colgo  la segnalazione di Sparazza, e creo pure una versione pdf su google pages. Fra qualche giorno riverifichiamo!

ps: se volete linkare questo post per favorire il test, vi prego di non usare la parole “finte” nei link: grazie!

Loading Facebook Comments ...

9 pensieri su “Google si affida all’OCR

  1. Pingback: Google indicizzerà grazie all’OCR? | Italian webdesign

  2. Sparazza

    le immagini di testo, mi sembra di aver capito che debbano essere contenute in file .pdf per poter essere indicizzate da Google! Stiamo a vedere

    Saluti
    Sparazza

    Rispondi
  3. Merlinox Autore articolo

    @Sparazza: mi sembra una ca**ata. Non perchè l’hai detta te, ma perchè proprio ieri ho avuto una diatriba con colleghi su questa cosa. Non ci resta che provare: post aggiornato. Grazie mille!

    Rispondi
  4. Pingback: Feedburner to Google | MrX

  5. Pingback: Google OCR: ancora no | MrX

  6. Sparazza

    Ho sviluppato una tesi in marketing in cui ho anche dovuto parlare di questa indicizzazione ocr: dal blog ufficiale di google e da tutte le fonti che ho utilizzato, assolutamente si parla di ocr applicato ad immagini inserite in pdf, non tutte le immagini dunque. Confermi?

    Saluti
    Sparazza

    Rispondi
  7. Merlinox Autore articolo

    No. Provato anche con il PDF. I pdf sono indicizzati quando al loro interno ci sono dei testi. Se dentro ci sono raster google non vede nulla 🙂

    Rispondi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *