CAPTCHA significa completely automated public Turing tests to tell computers and humans apart e, in italiano, test di Turing pubblico e completamente automatizzato per distinguere i computer dagli umani. Più semplicemente, si tratta di un sistema anti-spam diventata popolare con i blog: si chiede all’utente che sta postando un commento di scrivere anche la combinazione di caratteri e numeri distorti che appaiono in un’immagine. Questa combinazione non è comprensibile per un computer e di conseguenza il bot che prova a inserire dello spam nei commenti di un blog si blocca. Viceversa, l’umano dovrebbe riuscire a capire cosa c’è scritto e quindi andare avanti.
Alla Carnegie Mellon University hanno calcolato che ogni giorno vengono risolti 60 milioni di Captcha generati casualmente per un totale di oltre 150 mila ore sprecate. E se invece potessimo impiegare queste ore per qualcosa di utile?
Attualmente sono in corso molti progetti di digitalizzazione di vecchi libri che, oltre a creare un’immagine elettronica dei documenti, prevedono anche il riconoscimento ottico dei caratteri. Il problema è che gli originali non sono sempre in buone condizioni e quindi i caratteri sono difficili da decodificare per i programmi di Ocr.
I ricercatori dell’università americana hanno quindi pensato di utilizzare i Captcha per generare immagini che contengono, non più combinazioni casuali di caratteri, ma parole scansionate che il computer non è riuscito a comprendere. In questo modo, ogni volta che un utente posta un commento nel vostro blog, aiuta l’Internet Archive ad arricchire la propria biblioteca digitale.
Il progetto si chiama ReCaptcha e a me sembra un’idea utile e intelligente, quindi ho deciso di istallare il plug-in per WordPress nei miei due blog e invito tutti a fare lo stesso. Sarebbe bello se questa iniziativa fosse accolta dai gestori di piattaforme di blogging e dai gestori di netwrok di nano-publishing. Se decidete di aderire, lasciate un commento a questo post 🙂
Technorati tags: captcha, recaptcha, carnegiemellon, internetarchive, ocr