Tutta questione di Sentiment Analysis

Buonasera a tutti voi e ben ritrovati qui con me nel mio blog!

Allora, l’ultima volta nel mio post “Basta un poco di social e la DMO va su!” vi avevo lasciato in sospeso relativamente al mio prossimo articolo. Finalmente è giunto il momento della rivelazione… Questa sera vi parlerò di Sentiment Analysis.

Cos’è la Sentiment Analysis?

La Sentiment Analysis (SA), letteralmente “analisi del sentimento“, consente di analizzare la polarità di un testo attraverso uno strumento automatico. Tale strumento non è altro che un algoritmo che, senza l’intervento dell’uomo, riesce ad analizzare il testo in questione e a rilevare se quanto emerge si può considerare un’opinione e/o un sentimento positivo, negativo o neutrale.

Un’idea semplicemente geniale! Pensate solo all’uso che una pagina web di un hotel, di una compagnia aerea o di un’azienda in generale potrebbe farne per scovare la soddisfazione o meno dei propri clienti. Una sorta di questionario sulla qualità in versione digitale.

Come al solito però io credo nell’approccio pratico e quindi ecco a voi un caso studio specifico: la 72a Mostra del Cinema di Venezia.

Il mio scopo era dimostrare quanto difficile possa essere per uno strumento automatico, rilevare la polarità di un commento o di un sentimento. Infatti ci sono numerosissime difficoltà che l’algoritmo deve saper valutare… Come può riuscire a comprendere il vero significato di un testo? Come può percepire la sottile sfumatura di sarcasmo, ironia, dispiacere o felicità che ognuno di noi può utilizzare per esprimersi?

Certo siamo nel 2016 e la tecnologia come ben sappiamo, è ormai in grado di fare di tutto. E infatti la linguistica computazionale più sofisticata può anche riuscire a comprendere le varie venature della lingua.

Ma ho voluto metterla alla prova ugualmente!

Dopo aver definito l’intero algoritmo (che vi giuro, è complicatissimo!), sono riuscita ad impostare l’oggetto del nostro caso studio: i Tweets con hashtag “#Venezia72“. Non c’è nulla di meglio di un social network quale Twitter per analizzare pensieri ed opinioni.

Nell’algoritmo ho poi inserito due liste di parole in lingua inglese: una di parole con connotazione positiva e una con quelle con connotazione negativa. Quindi, ho attivato un altro comando che consentisse all’algoritmo di calcolare per ogni Tweet, il numero di parole positive e il numero di parole negative. Infine, con l’ultimo step, ho impostato la funzione di calcolo della polarità di ogni post, ovvero la sottrazione dal numero di parole positive, di quello delle parole negative. Il risultato finale va valutato come segue:

tabella-1

 

ANALISI DEL RISULTATO OTTENUTO

tabella-2

Come potete vedere ho ottenuto ben 44.789 Tweets con hashtag #Venezia72.

La maggioranza, secondo l’algoritmo, corrisponde ad una polarità neutrale mentre il resto dei risultati si concentra molto di più nei livelli più prossimi, ovvero +1/+2 e -1/-2. Credo che sia naturale. D’altro canto sono quelli che si potrebbero definire nel “limbo” dell’analisi in quanto hanno un numero di parole positive e negative che di fatto è piuttosto simile. Non a caso, di risultati netti al 100% (positivi o negativi) ne abbiamo solo 16 con +5 e addirittura soltanto 1 con -6.

Dalla lettura dei Tweets è emersa un’opinione complessivamente molto positiva sulla 72a Mostra del Cinema sebbene alquanto variopinta. Dalle critiche invidiose dei vestiti più belli della Haute Couture sul Red Carpet, alle gioie infinite di aver sfiorato con un dito il proprio beniamino; dai commenti negativi di noia e disgusto di alcune pellicole proiettate a quelli di entusiasmo per un pluri-applaudito capolavoro da maestro. Si può affermare che forse la problematica maggiore dell’evento è stata l’attesa: quella delle conferenze stampa, quella del Red Carpet e quella per la proiezione dei film. Moltissimi Tweets poi hanno inevitabilmente come oggetto gli attori stessi, il loro look e le loro performances.

 

ANALISI DEI TWEETS

Ma noi vogliamo vedere “quanto c’ha preso l’algoritmo“, giusto?

Ecco allora alcuni esempi di valutazione della polarità:

 

3

GIUSTO! La polarità è super-negativa ed effettivamente si tratta di un post piuttosto critico e negativo.

4

SBAGLIATO! Il post non è negativo relativamente al film visto ma è di rabbia contro coloro che hanno riso durante un film che, a giudizio del commentatore, è piuttosto emozionale. Conclude dicendo che non è una commedia. Questo è un classico esempio di errore computazionale in quanto è vero che ci sono molte parole negative, ma l’essenza del messaggio non lo è.

5

SBAGLIATO! Non sembra affatto essere un commento negativo al film o all’attore. Si potrebbe interpretare come un complimento alla bravura di Depp a immedesimarsi nel personaggio e a risultare così spaventoso.

6

SBAGLIATO! Non è negativo. Sembra invece positivo un “Non perdetevi Venezia72”!

7

SBAGLIATO! Il post semmai è neutrale. Non c’è nulla di negativo. Si tratta di un’affermazione.

8

GIUSTO! Il post è assolutamente neutrale e informa il pubblico che Pattinson è alla conferenza stampa.

9

SBAGLIATO! Non può avere polarità neutrale quando il post è tutto una gioia! Addirittura è scritto tutto in maiuscolo!

10

SBAGLIATO! Questo è un esempio di sarcasmo. Il Tweet indica che il tipo in questione è in coda da 101 minuti e il “pensieri positivi” inserito tra asterischi è una sorta di mantra per sopravvivere all’attesa. Di sicuro è negativo!

11

GIUSTO! La polarità positiva qui è perfetta. Il post è assolutamente positivo.


 

CONCLUSIONI

Quindi come abbiamo visto assieme, la tecnica computazionale automatica è semplicemente una meravigliosa maniera per controllare l’opinione diffusa relativamente a un certo argomento. Ma è anche vero che si tratta pur sempre di un algoritmo e per quanto la nostra fiducia nella tecnologia ci stia sempre di più portando ad affidarci completamente a lei, forse un piccolo intervento umano è ancora necessario!

 

GRAZIE MILLE A TUTTI per l’attenzione!

Non mi resta che augurarvi buona serata e A PRESTO!

Elena

Lascia un commento