Quali pericoli nasconde la voce artificiale?

Hey Mercedes, portami a Milano!– breve pausa – Hey Mercedes, che tempo troverò oggi a Milano?

Se vedete una persona al volante di un’auto mentre parla da sola, forse sta conversando con un conoscente utilizzando il viva-voce collegato al proprio smartphone, o forse sta proprio parlando con la sua auto, grazie al nuovo sistema di infotainment MBUX.

Dentro le mura di casa parlare da soli è sempre stato un modo per concentrarsi – io lo facevo da studente quando ripassavo la lezione – o come auto-rinforzo motivazionale, come dialogo interno o per altre ragioni che lasciamo indagare agli psicologi. Da qualche tempo in casa non si parla più da soli “in senso stretto”, ma si comunica con entità non presenti: Alexa, buongiorno! E dopo aver appreso alcune informazioni sulla giornata che inizia, ecco un altro: Alexa, apri Virgin Radio; e la musica parte.

Questo nuovo colloquio con entità invisibili, ma presenti, sta uscendo dall’ambito della nostra abitazione, per entrare in auto, presto in ufficio e poi ovunque.

L’altro giorno, il mio medico specialista, prima di annotare l’anamnesi mi ha detto: “adesso io parlo con il computer, poi te la leggo e mi dici se è corretta”, ed ha subito iniziato il dettato.

Ci abitueremo presto a questo nuovo modo di comunicare?

Nel farmi questa domanda, mi torna alla mente il film Her (in italiano, Lei) di Spike Jonze, che ho spesso citato nelle mie presentazioni su Innovazione e Futuro. Uscito nel 2013, qui si racconta di un sistema operativo, basato sull’intelligenza artificiale, che interagisce emozionalmente con il protagonista. Nel vederlo mi ha subito colpito la feconda immaginazione dello sceneggiatore/regista nel descrivere un futuro che aveva in sé molti tratti di credibilità, a partire dall’interazione diretta dell’uomo con la macchina tramite una voce artificiale dotata di inflessioni di tono, di ritmo, di altezza che la rendevano del tutto reale, cosa che imponeva al protagonista le stesse reazioni che avrebbe avuto con un simile umano (non a caso nella versione originale del film é stata utilizzata la voce di Scarlett Johansson).

Questo film viene portato sempre più spesso come esempio proprio perché la velocità esponenziale dell’evoluzione tecnologica ha fatto sì che i sistemi di interazione vocale uomo-macchina si siano affinati al punto dal divenire oggetti di consumo a rapida diffusione, rendendo questa finzione sempre più vicina alla realtà di ogni giorno. Strumenti come Amazon Alexa, Google Echo o Siri sono già diffusi oltre oceano e iniziano ad esserlo anche da noi.

Un report di NPR ed Edison Research riporta che 43 milioni di americani possiedono uno smart speaker, mentre già due anni fa la società di ricerca Ovum stimava che entro il 2021 gli assistenti digitali presenti nei vari device saranno 7,5 miliardi, superando così il numero degli abitanti del pianeta.

Gartner prevede che entro il 2021 il 25% dei lavoratori digitali avrà al suo servizio un assistente che consentirà loro di delegare alcune attività. Entro il 2023 il 25% delle interazioni tra dipendenti e applicazioni avverrà tramite voce.

Le tecnologie del futuro ci conosceranno meglio di quanto noi conosciamo loro”, ha affermato Michael Björn, responsabile della Ricerca e della Qualità dei Consumer & IndustryLab di Ericsson, commentando una ricerca su 34 milioni di persone svolta dal ConsumerLab della sua azienda.

Secondo questa ricerca, tra le 10 tendenze più significative del 2019 previste dagli utenti di internet ci sono gli assistenti virtuali, che saranno presto in grado di comprendere i nostri stati d’animo. Per gli intervistati, tali assistenti tra non molto tempo saranno in grado di discutere con noi come un membro della famiglia e non saranno quindi utilizzati solo per automatizzare diverse operazioni quotidiane.

Io, probabilmente per dato generazionale, non provo alcun desiderio di interagire con un assistente virtuale e tantomeno di parlare con una macchina, ma non è detto che riuscirò a tenere questo atteggiamento per lungo tempo. Proprio pochi giorni fa ho sostituito il mio vecchio computer e nel configurare il sistema operativo di quello nuovo sono stato guidato dalla voce femminile di Cortana. Ovviamente, tra le varie opzioni di configurazione, ho scelto di non continuare ad interagire vocalmente con il computer (ma non sono sicuro che in futuro non cambierò questa mia impostazione).

Già qui potrei fare un paio di incisi.

Innanzitutto la scelta del genere della voce è stata probabilmente dettata da chi considera che l’attività di assistenza debba essere femminile, secondo una logica mista di servizio professionale e di cura, considerata appunto caratteristica tipica della donna. Va precisato anche che nel passato alcune ricerche hanno evidenziato che le persone reagiscono meglio a ordini presi da una voce femminile e che è più facile trovare una voce femminile che piaccia a tutti, rispetto a una voce maschile che metta tutti d’accordo. Ma i tempi stanno cambiando. Altri sondaggi hanno riportato che le persone preferiscono una voce neutrale e forse anche questo ha contribuito a far mutare la situazione: oggi alcuni sistemi consentono di scegliere il genere della voce e recentemente è nato un progetto volto a creare una voce senza genere.

Mi sono poi accorto che l’assistente mi ha posto con immediatezza di fronte alle scelte di configurazione che dovevo effettuare, ma in un modo che definirei orizzontale, che restava alla superficie del problema: se volevo capire l’impatto delle mie scelte, dovevo leggere gli approfondimenti e quindi tornare al classico metodo “verticale”. E’ un po’ come googlare o surfare sul web, restando sempre in superficie. Ah, le vecchie verifiche effettuate restando chinati sui libri! Ma queste sono cose d’altri tempi…

Non sono però questi i due punti su cui mi voglio soffermare. Ciò che ha suscitato questa mia riflessione è stata la lettura dell’articolo di Judith Shulevitz apparso nel numero di novembre 2018 della rivista Atlantic, che ho letto qualche tempo fa nella traduzione italiana comparsa sul settimanale D di La Repubblica del 23 febbraio 2019 e ancora disponibile online per gli abbonati.

Alexa, dovrei fidarmi di te?

E’ un articolo che invito a leggere integralmente e che offre diversi spunti sul perché molte persone si stanno “innamorando” degli e, di conseguenza, sul perché questi si stanno diffondendo rapidamente, nonostante qualche problema di immaturità tecnologica. La riflessione verte soprattutto sulla forza ed il potere che la parola esercita e su come questa avvicini naturalmente la macchina all’uomo, creando un senso di intimità e anche di affinità. Se consideriamo gli sviluppi in corso che stanno rendendo l’interazione vocale uomo-macchina emotivamente compatibile, possiamo paventare una minaccia che incombe sul benessere psicologico delle persone. E’ proprio questo che mi ha portato a pensare ad alcuni esiti problematici che lo sviluppo dell’intelligenza artificiale ci porrà nell’immediato futuro.

Non passa giorno che ben oltre il recinto degli addetti lavori si parli e si scriva dei rischi, dei benefici e delle implicazioni dell’intelligenza artificiale, tanto che è lecito domandarsi se non si stia assistendo ad un fenomeno di amplificazione mediatica esagerata. Ciò è del tutto ragionevole, perché non vi è argomento più interessante per far presa sul pubblico di quello che racchiude in sé un po’ di futuro, un po’ di mistero, di incertezza e anche di paura. Se poi, come fa più di qualche autore, aggiungiamo un pizzico di fiction con robot umanoidi e algoritmi che evolvendosi autonomamente portano ad esiti impensabili, oltre a previsioni di distruzione dell’umanità, ecco che il gioco è fatto.

Ma l’articolo di Judith Shulevitz pone l’accento su temi a mio avviso realmente preoccupanti, alcuni dei quali meritano di essere ripresi qui, proprio per aumentare la nostra consapevolezza e consentire di attrezzarci per qualche contromisura.

Le interazioni senza attriti

Oggi, secondo l’autrice che riporta alcune testimonianze, gli assistenti vocali come Alexa sono considerati insostituibili perché consentono di ridurre il tempo che le persone trascorrono davanti ad un monitor: se voglio chiedere un’informazione a Google, la chiedo ad Alexa; se voglio ascoltare un brano musicale lo chiedo ad Alexa, senza dover accendere alcun apparato o sedermi davanti al video di un computer. Ma ben presto anche l’interazione con gli elettrodomestici, con molti degli oggetti della casa o dell’ufficio avverrà con l’interazione vocale. L’assistente vocale elimina gli “attriti” di queste interazioni: “nessun bisogno di andare alla scrivania e digitare una stringa di ricerca su un programma di navigazione; nessun bisogno di ricordarvi dove avete lasciato l’iPhone e inserire il codice di sblocco”.

Nella visione del futuro dell’interazione uomo-macchina di Kevin Kelly, nel suo “L’inevitabile”, si dice che “una persona che parla da sola agitando le mani di fronte a sé sarà, in futuro, il segnale per capire che sta lavorando al computer. Non solo i computer, tutti i dispositivi devono interagire. Se una cosa non interagisce, sarà considerata rotta”.

Alessandro Baricco, in “The Game” ha individuato nella ricerca di leggerezza la ragione profonda che ha dato il via alla trasformazione digitale del sistema in cui viviamo. Proprio questa “leggerezza” nell’interazione continua sarà, a mio avviso, il fattore di successo per l’affermazione di questi assistenti per le attuali generazioni, mentre li renderà un elemento naturale – vorrei dire quasi un componente della famiglia – per le nuove generazioni.

La forza della parola

La parola conferisce personalità e presenza. L’autrice ha confessato che qualche volta si è confidata con il suo assistente vocale: “Alexa, mi sento sola”.

La voce crea senso di intimità e può essere più facile rivelare particolari intimi ad una macchina che ad una persona. Uno studio del 2017 pubblicato dall’American Psychological Association, e ripreso nell’articolo, sostiene che quando le persone parlano senza vedersi riescono a comprendersi meglio in quanto la comunicazione solo vocale abilita una concentrazione attiva ed accurata sulla trasmissione delle proprie emozioni, aumentando inoltre il livello di empatia.

Il potere della voce raggiunge l’apice del mistero quando non siamo in grado di localizzare il suo proprietario, quando è in ogni posto e in nessun posto contemporaneamente”.

Il rischio che corriamo è quello di rimanere incantati dall’utilità di questi assistenti che ci facilitano le operazioni quotidiane e ci offrono nuove possibilità di accesso a informazioni di cui nemmeno pensavamo di aver bisogno, ma anche di restare ammaliati dalla loro essenza di assistente fedele, che si prende cura di noi e ci vuol far star bene a tutti i costi.

Il possesso della nostra identità e il controllo delle fonti

Quando facciamo una ricerca su internet, postiamo un messaggio su un social o anche semplicemente indichiamo “mi piace”, stiamo fornendo informazioni su noi stessi alle aziende molto attente a carpire ogni informazione che possa risultare utile nel futuro e non solo per indirizzare i nostri acquisti. Con gli assistenti virtuali questo spazio si amplia notevolmente perché la nostra conversazione verbale, se pure sintetica e guidata da parole chiave, trasmette molto di più di noi stessi. Inoltre, saremo portati ad approfondire le informazioni nel reagire alle risposte dell’assistente che potrà sollecitare un vero colloquio. Quanto di tutto questo verrà archiviato nel cloud delle grandi aziende e quali le garanzie di anonimato? Non sembra però che questa preoccupazione possa arrestare il diffondersi di questi strumenti. Dobbiamo dare per scontato che, come accaduto per i servizi gratuiti disponibili in rete, anche in questo caso e in modo molto maggiore l’utilità del servizio annienterà la preoccupazione degli utenti di fornire alle major dell’informazione i propri interessi, gusti e anche le proprie emozioni. E questo sarà probabilmente accettato per avere in cambio un servizio personalizzato e ancora più in linea con i nostri desideri.

Resta da domandarsi se le informazioni che riceveremo saranno sempre corrette: un altro rischio sarà quello di prendere per buona ogni risposta, dimenticandosi sempre più spesso di approfondire e controllare le fonti. E’ possibile che il fenomeno delle fake news trovi nuovo vigore in una stagione ancora più difficile da controllare proprio per la facilità della loro diffusione con questi nuovi mezzi. Ma questo ragionamento apre un’altra storia che non intendo approfondire qui.

Sempre meno artificialità

Oggi gli smart speaker hanno molti difetti, ma tutte le previsioni dicono che non solo questi verranno colmati rapidamente, ma che gli assistenti vocali avranno la capacità di regolare il tono, l’altezza del volume, il ritmo della voce, ovvero quelle caratteristiche che ci fanno rivelare i nostri sentimenti quando parliamo. E successivamente saranno anche in grado di comprendere il contesto.

Quando gli assistenti vocali avranno una voce credibile, probabilmente simpatica, ecco che saranno capaci di ispirare fiducia. Molti team stanno lavorando perché questa possibilità sia colta rapidamente: la capacità di analizzare nel dettaglio la nostra voce e nel rispondere di conseguenza. Affectiva è una delle aziende attive nel riconoscimento delle emozioni, non solo attraverso l’analisi facciale, ma anche nel contenuto emotivo della voce, attraverso l’individuazione delle vocalizzazioni non lessicali che consentono di individuare lo stato psicologico di chi parla. Una volta individuati questi elementi, il passo successivo sarà quello di utilizzarli come dati di apprendimento per applicazioni che consentano agli assistenti digitali di migliorare le proprie espressioni, aggiungendo perfino elementi di ironia, sarcasmo, empatia.

Conformismo e perdita della diversità

Ma è corretto che gli assistenti vocali si fingano umani? L’articolo cita alcune affermazioni di membri del team di progetto dell’assistente vocale di Google dove si dice che quest’ultimo “dev’essere in grado di parlare come una persona, senza mai fingere di esserlo. Un assistente dev’essere fedele alla sua natura cibernetica, ma non deve nemmeno suonare alieno.”

Quando gli algoritmi di intelligenza artificiale saranno in grado di trasmettere emozioni, potranno farci credere di essere umani? Non sarà meglio ricevere una dichiarazione a priori che espliciti che stiamo parlando con una macchina? E anche se fosse prevista, chi ci garantirà che tutti la rispettino?

Ma dopotutto, è proprio quello che vogliamo? O piuttosto, non è che un finto-umano possa essere ancora più comunicativo dell’originale? In definitiva, un sistema che apprende da una quantità enorme di dati attiverà una comunicazione che sarà il distillato di milioni di essere umani e non di uno solo. Qualcuno la potrebbe ritenere più efficace.

A mio avviso, in questo modo ci avviamo in una direzione dove la diversità, con la sua potenza generatrice, potrebbe silenziosamente, ma inesorabilmente sparire. Se poi immaginiamo che questi assistenti possano imparare ad essere solo servizievoli, a viziarci, a darci sempre una visione positiva di tutto, potremmo scivolare lentamente verso quel conformismo cui già oggi i media ci costringono, ma in un modo meno appariscente e che può esercitare ancora più ampio consenso.

Come conclude Judith Shulevitz: “guardo I miei figli adolescenti che non si staccano un secondo dai loro smartphone per paura di essere costretti a sopportare un momento di noia, e mi chiedo quanto più drogati ancora saranno i loro figli di dispositivi che non si limiteranno a metterli in contatto con i loro amici, ma sono essi stessi degli amici, irresistibilmente gioviali e bene informati, forse un po’ insipidi ma sempre disponibili, normalmente servizievoli e instancabilmente leali, tranne quando vendono ad altri i nostri segreti. Se ci pensate un attimo, non è con delle intelligenze artificiali che vorreste che passassero le giornate i vostri figli.

Il mondo esiste grazie alle parole

Nel fare queste riflessioni, è opportuno un rimando alle parole di Martino Cambula, che quando commenta l’opera di Ludwig Wittgenstein, il “Tractatus logico-philosophicus”, dice: “il linguaggio è il sistema dei simboli che rendono possibile, a priori, la conoscenza del mondo. Paradossalmente, sembra dire Wittgenstein, il mondo c’è perché c’è il linguaggio… Il mondo c’è per noi, si dà a noi solo ed esclusivamente nelle forme naturali del linguaggio. Noi e il mondo siamo immersi nel linguaggio come i pesci nell’acqua.”

Se il mondo esiste grazie alle parole, è lecito pensare che quando queste non saranno più il frutto di creatività individuali e naturalmente diverse, ma scaturiranno da una generazione automatica che sintetizza milioni di voci in un’unica direzione, con toni ed inflessioni apparentemente diversi, ma secondo un canone impostato su binari predefiniti, allora il mondo cambierà davvero.

Perché questo percorso inevitabile che per certi aspetti migliorerà la vita di noi umani, non ne pregiudichi la natura delle relazioni, possiamo agire a due livelli: da un lato spingere il dibattito tra gli addetti ai lavori affinché gli algoritmi ed i metodi di sviluppo dell’intelligenza artificiale alimentino la diversità delle fonti e dei processi per ottenere dei risultati che non siano conformi ad un unico modello sociale; dall’altro, nell’aumentare la consapevolezza delle persone circa l’enorme differenza tra una relazione, anche dura e faticosa, con altri esseri umani, da quella con entità impersonali che devono sempre rimanere strumentali al nostro agire senza sovrapporre o sostituire con la propria presenza la natura di una sincera relazione interpersonale.

 

Nota conclusiva: ho citato Alexa come esempio di assistente virtuale. Questo non ha alcun scopo di promozione verso uno di questi sistemi, ma è un puro puro espediente narrativo, in parte derivato dall’articolo all’origine della mia riflessione.

 

Facebook Comments

Previous articleInnova Retail Award: aperte le candidature
Next articleDati: temiamo di perderli ma non li proteggiamo?
Gabriele Ruffatti
Libero pensatore con interessi vari, membro di comunità opensource globali, è sostenitore di una collaborazione aperta, sempre alla ricerca di nuovi punti di vista. Nel recente passato è stato manager d’azienda con la responsabilità della direzione di team di innovazione digitale e in particolare di centri di competenza su big data, analytics e sullo sviluppo ed adozione di software open source. Si interessa al rapporto dell’uomo con la tecnologia nei suoi vari aspetti ed alla riflessione sui principi etici che devono guidare la trasformazione digitale, anche con la raccolta di spunti e contributi da fonti di natura diversa, siano esse imprenditoriali, scientifiche, culturali o letterarie.

LEAVE A REPLY

Please enter your comment!
Please enter your name here