reCaptcha: un’idea da adottare

CAPTCHA significa completely automated public Turing tests to tell computers and humans apart e, in italiano, test di Turing pubblico e completamente automatizzato per distinguere i computer dagli umani. Più semplicemente, si tratta di un sistema anti-spam diventata popolare con i blog: si chiede all’utente che sta postando un commento di scrivere anche la combinazione di caratteri e numeri distorti che appaiono in un’immagine. Questa combinazione non è comprensibile per un computer e di conseguenza il bot che prova a inserire dello spam nei commenti di un blog si blocca. Viceversa, l’umano dovrebbe riuscire a capire cosa c’è scritto e quindi andare avanti.
Alla Carnegie Mellon University hanno calcolato che ogni giorno vengono risolti 60 milioni di Captcha generati casualmente per un totale di oltre 150 mila ore sprecate. E se invece potessimo impiegare queste ore per qualcosa di utile?
Attualmente sono in corso molti progetti di digitalizzazione di vecchi libri che, oltre a creare un’immagine elettronica dei documenti, prevedono anche il riconoscimento ottico dei caratteri. Il problema è che gli originali non sono sempre in buone condizioni e quindi i caratteri sono difficili da decodificare per i programmi di Ocr.

sample-ocr.gif

I ricercatori dell’università americana hanno quindi pensato di utilizzare i Captcha per generare immagini che contengono, non più combinazioni casuali di caratteri, ma parole scansionate che il computer non è riuscito a comprendere. In questo modo, ogni volta che un utente posta un commento nel vostro blog, aiuta l’Internet Archive ad arricchire la propria biblioteca digitale.
Il progetto si chiama ReCaptcha e a me sembra un’idea utile e intelligente, quindi ho deciso di istallare il plug-in per WordPress nei miei due blog e invito tutti a fare lo stesso. Sarebbe bello se questa iniziativa fosse accolta dai gestori di piattaforme di blogging e dai gestori di netwrok di nano-publishing. Se decidete di aderire, lasciate un commento a questo post 🙂

Technorati tags: , , , ,

30 comments

  • Non ho capito, se sono parole che non sono state tradotte dai computer, come fanno a sapere se quello che digito è corretto?

    (sto provando a scrivere una parola sbagliata)reCAPTCHA WP Error:incorrect-captcha-sol

  • @Sergio – Le parole sono 2. Una di cui il computer sa la risposta e l’altra di cui non la sa. Se azzecchi quella che lui sa, il sistema prende per buona anche l’altra.

  • Mi sembra un’ottima idea. Immagino la lampadina accesa sopra la testa di chi ha avuto l’intuizione. Avvalendosi di una buona dose di pensiero laterale (o deviante, fate voi) quali e quanti utilizzi inconsueti ma utili potrebbero essere proposti per gli strumenti, le applicazioni e le utilities web based attualmente in voga?

  • Veramente ci avevo pensato, infatti nei due commenti che ho fatto ho scritto una parola correttamente sbagliando l’altra. Avrò snagliato quella che conosce tutte e due le volte.reCAPTCHA WP Error:incorrect-captcha-sol

  • Ho segnalato il fatto che, anche quando non si riportano correttamente le parole, il commento viene postato lo stesso: mi hanno risposto che si mettono subito a lavorare al bug! Sperem 🙂

  • E tuttavia c’è un problema: essendo un’attività potenzialmente utile, uno è tentato a fare più commenti del necessario xD

  • Un altro problema è: cosa succede se si sbaglia deliberatamente la parola non conosciuta (che magari è riconoscibile, tra le due)? Visto come si maltratta Wikipedia, non mi stupirei che si facesse lo stesso qui. Speriam.

  • @StM. Beh, molti commenti hanno due vantaggi: il primo è ce risolvi molte parole, il secondo è che migliori il punteggio della pagina per Google 😉 Per quanto gli errori deliberati, immagino che sottopongano la stessa parola a più di un utente e che la considerino buona quando l’interpretazione coincide più di una volta.

  • mhhh… c’erano due parole, una lunga e una corta… supponendo che non fosse riuscito a identificare quella lunga ci ho scritto una parolaccia e se l’è presa per buona! 😀
    Questo sistema non mi pare proprio il massimo!reCAPTCHA WP Error:incorrect-captcha-sol

  • Ho rifatto lo stesso giochetto e ha funzionato di nuovo… questo sistema non è per niente buono!reCAPTCHA WP Error:incorrect-captcha-sol

  • quoto Dzmir.

    se le parole sono da indovinare entrambe è un lavoro inutile, il sistema le conosce già. Se solo una è da indovinare e con l’altra si contribuisce all’implementazione del sapere umano… vedo che abbiamo avuto tutti la stessa idea su come utilizzarlo 😉 a meno che non si basino su N risposte alla stessa parola da decifrare, prendendo per buono il risultato che appare nel 90% delle volte… ma anche qua mi smebra dura, vedo già un nerd nella nebbia che si attrezza per dare il 90% di probabilità alle interpretazioni scurrili…. come si dice… molto lavoro per nulla 😉

  • L’idea mi sembra assolutamente meritevole, ma voglio prima finire di spulciarmi il sito e capire con che licenza verranno rilasciati i testi (nella prima veloce indagine non l’ho mica scoperto..)reCAPTCHA WP Error:incorrect-captcha-sol

  • L’idea sembra geniale, ma…
    come fa a verificare se inserisco il testo corretto se il sistema non sa ancora il contenuto delle immagini e usa il nostro lavoro per interpretarlo?
    Prende per buona qualsiasi risposta e le elabora successivamente? Ma allora come farà a bloccare lo spam?

  • Effettivamente se la prima è giusta, il sistema prende buona la seconda anche se sbagliata (volutamente e di poco: cambio vocale)

  • Divertente: procede anche se è la prima è sbagliata e la seconda giusta. Cosa non ho capito? Aiutatemi

  • Sto sbagliando volutamente entrambe le parole e il sistema mi accetta. Non riesco più a capire quale sia il grado di protezione. Chiedo aiuto agli esperti