reCaptcha: un’idea da adottare

CAPTCHA significa completely automated public Turing tests to tell computers and humans apart e, in italiano, test di Turing pubblico e completamente automatizzato per distinguere i computer dagli umani. Più semplicemente, si tratta di un sistema anti-spam diventata popolare con i blog: si chiede all’utente che sta postando un commento di scrivere anche la combinazione di caratteri e numeri distorti che appaiono in un’immagine. Questa combinazione non è comprensibile per un computer e di conseguenza il bot che prova a inserire dello spam nei commenti di un blog si blocca. Viceversa, l’umano dovrebbe riuscire a capire cosa c’è scritto e quindi andare avanti.
Alla Carnegie Mellon University hanno calcolato che ogni giorno vengono risolti 60 milioni di Captcha generati casualmente per un totale di oltre 150 mila ore sprecate. E se invece potessimo impiegare queste ore per qualcosa di utile?
Attualmente sono in corso molti progetti di digitalizzazione di vecchi libri che, oltre a creare un’immagine elettronica dei documenti, prevedono anche il riconoscimento ottico dei caratteri. Il problema è che gli originali non sono sempre in buone condizioni e quindi i caratteri sono difficili da decodificare per i programmi di Ocr.

sample-ocr.gif

I ricercatori dell’università americana hanno quindi pensato di utilizzare i Captcha per generare immagini che contengono, non più combinazioni casuali di caratteri, ma parole scansionate che il computer non è riuscito a comprendere. In questo modo, ogni volta che un utente posta un commento nel vostro blog, aiuta l’Internet Archive ad arricchire la propria biblioteca digitale.
Il progetto si chiama ReCaptcha e a me sembra un’idea utile e intelligente, quindi ho deciso di istallare il plug-in per WordPress nei miei due blog e invito tutti a fare lo stesso. Sarebbe bello se questa iniziativa fosse accolta dai gestori di piattaforme di blogging e dai gestori di netwrok di nano-publishing. Se decidete di aderire, lasciate un commento a questo post 🙂

Technorati tags: , , , ,

30 Responses

  1. Non ho capito, se sono parole che non sono state tradotte dai computer, come fanno a sapere se quello che digito è corretto?

    (sto provando a scrivere una parola sbagliata)reCAPTCHA WP Error:incorrect-captcha-sol

  2. C’è qualcosa che non capisco: forse ho sbagliato qualcosa nella configurazione…reCAPTCHA WP Error:incorrect-captcha-sol

  3. Ciò che dici è possibile.reCAPTCHA WP Error:incorrect-captcha-sol

  4. @Sergio – Le parole sono 2. Una di cui il computer sa la risposta e l’altra di cui non la sa. Se azzecchi quella che lui sa, il sistema prende per buona anche l’altra.

  5. Mi sembra un’ottima idea. Immagino la lampadina accesa sopra la testa di chi ha avuto l’intuizione. Avvalendosi di una buona dose di pensiero laterale (o deviante, fate voi) quali e quanti utilizzi inconsueti ma utili potrebbero essere proposti per gli strumenti, le applicazioni e le utilities web based attualmente in voga?

  6. Veramente ci avevo pensato, infatti nei due commenti che ho fatto ho scritto una parola correttamente sbagliando l’altra. Avrò snagliato quella che conosce tutte e due le volte.reCAPTCHA WP Error:incorrect-captcha-sol

  7. Ho segnalato il fatto che, anche quando non si riportano correttamente le parole, il commento viene postato lo stesso: mi hanno risposto che si mettono subito a lavorare al bug! Sperem 🙂

  8. Ho dovuto fare il refresh della pagina perché una delle parole non la capivo nemmeno io 😐

  9. E tuttavia c’è un problema: essendo un’attività potenzialmente utile, uno è tentato a fare più commenti del necessario xD

  10. Un altro problema è: cosa succede se si sbaglia deliberatamente la parola non conosciuta (che magari è riconoscibile, tra le due)? Visto come si maltratta Wikipedia, non mi stupirei che si facesse lo stesso qui. Speriam.

  11. @StM. Beh, molti commenti hanno due vantaggi: il primo è ce risolvi molte parole, il secondo è che migliori il punteggio della pagina per Google 😉 Per quanto gli errori deliberati, immagino che sottopongano la stessa parola a più di un utente e che la considerino buona quando l’interpretazione coincide più di una volta.

  12. mhhh… c’erano due parole, una lunga e una corta… supponendo che non fosse riuscito a identificare quella lunga ci ho scritto una parolaccia e se l’è presa per buona! 😀
    Questo sistema non mi pare proprio il massimo!reCAPTCHA WP Error:incorrect-captcha-sol

  13. Ho rifatto lo stesso giochetto e ha funzionato di nuovo… questo sistema non è per niente buono!reCAPTCHA WP Error:incorrect-captcha-sol

  14. @Dzamir: In realtà a quanto pare c’è un buf che ho segnalato al sito e che mi hanno promesso di risolvere velocemente… Vedremo!

  15. quoto Dzmir.

    se le parole sono da indovinare entrambe è un lavoro inutile, il sistema le conosce già. Se solo una è da indovinare e con l’altra si contribuisce all’implementazione del sapere umano… vedo che abbiamo avuto tutti la stessa idea su come utilizzarlo 😉 a meno che non si basino su N risposte alla stessa parola da decifrare, prendendo per buono il risultato che appare nel 90% delle volte… ma anche qua mi smebra dura, vedo già un nerd nella nebbia che si attrezza per dare il 90% di probabilità alle interpretazioni scurrili…. come si dice… molto lavoro per nulla 😉

  16. L’idea mi sembra assolutamente meritevole, ma voglio prima finire di spulciarmi il sito e capire con che licenza verranno rilasciati i testi (nella prima veloce indagine non l’ho mica scoperto..)reCAPTCHA WP Error:incorrect-captcha-sol

  17. L’idea sembra geniale, ma…
    come fa a verificare se inserisco il testo corretto se il sistema non sa ancora il contenuto delle immagini e usa il nostro lavoro per interpretarlo?
    Prende per buona qualsiasi risposta e le elabora successivamente? Ma allora come farà a bloccare lo spam?

  18. Effettivamente se la prima è giusta, il sistema prende buona la seconda anche se sbagliata (volutamente e di poco: cambio vocale)

  19. Divertente: procede anche se è la prima è sbagliata e la seconda giusta. Cosa non ho capito? Aiutatemi

  20. Sto sbagliando volutamente entrambe le parole e il sistema mi accetta. Non riesco più a capire quale sia il grado di protezione. Chiedo aiuto agli esperti