Legacy Blog

Normalizzazione dei tag: strategie

Insieme con Enzo Augieri, stiamo realizzando una piattaforma per il giornalismo collaborativo. Uno degli aspetti su cui ci stiamo concentrando riguarda la classificazione degli articoli, per la quale abbiamo deciso di adottare un approccio basato sulle folksonomy.
Come ho scritto in un precedente post (Folksonomy: questione di semantica), affidare l’assegnazione di parole e frasi chiave agli utenti pone molti problemi, tra cui quello della normalizzazione dei termini. Infatti, un’entità si può indicare in vari modi e, in assenza di istruzioni, un utente è autorizzato a considerare “S. Nicola”, “San Nicola” o “sannicola” soluzioni equivalenti.
E’ ovvio che non si può immaginare che l’utente impari quale grafia utilizzare: in altri termini, nel nostro contesto, la normalizzazione dei dati è un’utopia e probabilmente non è neanche una soluzione desiderabile. Abbiamo quindi deciso di sperimentare dei sistemi che permettano di diminuire il rumore dell’informazione.
Tra le varie ipotesi passate al nostro vaglio, abbiamo deciso di iniziare implementando una funzione di autocompletamento:

tag_completion.gif

Man mano che l’utente scrive un tag, il sistema cerca quali sono le parole che iniziano con i caratteri che ha utilizzato fino a quel momento e le propone in una tendina. Il meccanismo è abbastanza semplice da usare e una piccola animazione rende evidente che il sistema sta reagendo all’input dell’utente: finora ha sortito un buon effetto.
Ovviamente, ci sono delle controindicazioni in quanto la funzione dipende in modo sostanziale dalle performance della rete e quindi ci sono dei casi in cui non si riesce a mostrare i suggerimenti abbastanza in fretta. Tuttavia, la strada intrapresa si sembra promettente e pensiamo di approfondirla e svilupparla. Il prossimo passo potrebbe essere presentare i suggerimenti in ordine di popolarità dei tag invece che in ordine alfabetico, oppure individuare una strategia di caching per affrontare i casi di scarse performance della rete.