Assistenti virtuali e macchine parlanti: le voci di Nuance nascono a Torino

20 ottobre 2018

La voce con cui la vostra automobile risponde ai comandi che impartite mentre siete alla guida nasce a Torino, negli uffici italiani di Nuance Communications , pioniera e leader nelle innovazioni di intelligenza artificiale conversazionale. 

Torino non a caso, come spiega Paolo Coppo, Director TTS R&D di Nuance Communications: «La sezione italiana di Nuance nasce dall’acquisto, nel 2011, da parte del colosso statunitense di Loquendo Spa , nato come gruppo di ricerca all’interno dei TLab Cselt .» Qui sono concentrate principalmente due business unit, Automotive ed Enterprise, e da qui viene coordinata l’attività di sviluppo del Text To Speech (TTS), tema centrale e trasversale per Nuance. 

Parlare con l’automobile  

«In ambito Automotive stiamo assistendo a una vera rivoluzione copernicana: con il lancio della nuova Mercedes Classe-A, anziché puntare sul motore o sulle prestazioni del mezzo, per la prima volta il marketing è stato incentrato sul sistema di infotainment – spiega con soddisfazione Silvio Nasi, Sales Director Automotive EMEA –. Non si vende solo un veicolo, ma un’esperienza.» Esperienza che Nuance contribuisce a rendere il più possibile naturale e intuitiva, grazie al suo sistema di Conversational AI. Il veicolo deve capire le richieste del guidatore e rispondere senza interferire con la guida; l’assistente di bordo ha dunque caratteristiche diverse dalle varie Siri o Cortana. Essendo integrato con il veicolo può inoltre offrire una serie di informazioni aggiuntive, come ad esempio i chilometri che posso ancora percorrere prima di dovermi fermare a fare benzina. 

DAIMLER AG

Nato più o meno recentemente, il riconoscimento vocale in auto è oggi diffuso quasi su ogni tipologia di veicolo. Dragon Drive è venduto con 200 milioni di automobili, è in grado di parlare più di 40 lingue e lo usano quasi tutti i car maker, con poche eccezioni sul mercato asiatico. 

E i servizi sono destinati a crescere ulteriormente. Integrando i comandi vocali e delle microcamere, che possono leggere dove si sta posando lo sguardo del guidatore, è possibile immaginare tutta una serie di informazioni aggiuntive da fornire in tempo reale. Molto di tutto questo è stato mostrato in una demo all’ultima edizione dell’IFA di Berlino

Nina, l’assistente virtuale di livello enterprise  

Se in ambito Automotive sull’assistenza vocale c’è stata una marcata accelerazione, si muove un po’ più a rilento il settore Enterprise, anche se Intelligenza Artificiale, biometria e tecnologie vocali iniziano a ritagliarsi sempre più spazio. Si prevede che entro il 2020 l’85% delle interazioni con i clienti sarà automatizzato. E per venire incontro all’esigenza del cliente, sarà necessario fornire un’assistenza omnichannel, semplice, rapida e proattiva.  

A partire dall’autenticazione: «Il riconoscimento biometrico è un punto fondamentale – racconta Saverio Ricchiuto, Sales Director Enterprise Italia –. Con le soluzioni sviluppate da Nuance il sistema riconosce il cliente dalla voce, senza richiedere di digitare codici o fornire ulteriori informazioni.» Unendo Conversational AI e cognitive AI, le piattaforme sono in grado di condividere tutte le informazioni sulle richieste di un cliente (non importa con quale canale siano avvenute) e di dialogare con lui, in modo naturale, venendo incontro alle sue richieste. 

Questo grazie all’assistente virtuale di livello enterprise Nina. La piattaforma integra diverse modalità di dialogo: dal mobile al chatbot, alla chiamata attraverso smart speaker come Google Home o Alexa. Dopo essersi autenticati ripetendo la frase richiesta dall’assistente virtuale si ha accesso alle informazioni e alle operazioni bancarie. E l’assistente è in grado di gestire la conversazione mantenendo memoria delle ultime richieste: se ho appena eseguito un bonifico, basterà dire «ne voglio fare un altro a…» perché l’operazione venga impostata. E nel caso che dopo alcune operazioni si richieda di contattare un operatore reale, grazie al riconoscimento vocale del sistema, questi saprà subito con chi sta parlando e le richieste o le operazioni fatte precedentemente, in modo da non dover ricominciare da zero. Con vantaggi per tutti: da una parte maggiore efficienza nei confronti del cliente, dall’altra risparmio di tempo da parte dell’erogatore del servizio. 

«Nel primo trimestre del 2019 saranno operativi i primi due casi, in ambito utility e finance; entrambi saranno realizzati con i prodotti e con il supporto di Nuance – specifica Saverio Ricchiuto –. Questo è un altro aspetto importante, non ci limiteremo a fornire lo strumento, ma li affiancheremo nell’installazione e nell’impiego in modo da facilitarne l’utilizzo di tutte le potenzialità». 

Paolo Coppo, Director TTS R&D di Nuance Communications  

Assistenti sempre più umani  

Nel 2013 il film “Her ” immaginava un sistema operativo dotato di intelligenza artificiale in grado di provare emozioni e sentimenti. Cinque anni dopo la realtà non è poi così lontana dal film di Spike Jonze: l’affective computing, ramo specifico dell’intelligenza artificiale, su cui Nuance lavora in partnership con Affectiva , spin off dell’MIT di Boston, si propone di realizzare sistemi e strumenti in grado di riconoscere, interpretare, processare e simulare le emozioni umane. «Trenta o quaranta anni fa, i primi assistenti virtuali parlavano in modo robotico, l’importante era farsi capire – riassume Paolo Coppo –. Oggi è stato raggiunto un livello di naturalezza tale per cui ci si può spingere oltre e inserire la capacità di riconoscere e riprodurre le emozioni». 

Se ci si rivolge a un assistente robotico con tono ironico, il senso letterale delle parole può essere stravolto e solo un sistema in grado di rilevare il tono di voce permette di recepire correttamente il comando o la richiesta. Allo stesso modo l’assistente virtuale può rispondere in modo diverso a seconda delle situazioni: se si chiede un risultato sportivo e il sistema conosce la squadra per cui si fa il tifo, potrà usare toni trionfali o sommessi a seconda del risultato. A bordo di un veicolo, se il guidatore chiede un’informazione con tono urgente, l’assistente potrà parlare più velocemente, per fornire in tempi brevi le informazioni. 

Sempre in tema Automotive, ci sono potenziali applicazioni nell’ambito delle self driving car: negli Stati Uniti sarà ammessa la guida autonoma in autostrada, quando poi i veicoli entrano in aree urbane l’autista dovrà riprendere il controllo del mezzo, il ruolo dell’assistente virtuale proattivo in questo caso può essere molto importante per segnalare quando l’utente deve prendere in mano il volante e mettersi a guidare. 

Dalla costruzione della voce alla capacità di inserire intonazioni e inflessioni differenti, tutta la catena del Natural Language Generation (NLG) è coordinata dai laboratori torinesi. «Il lavoro più lungo e complesso è l’acquisizione delle voci: ci vogliono circa cinquanta ore di registrazione con degli attori – spiega Paolo Coppo –. Il registrato viene indicizzato in un database, dove vengono cercati i suoni necessari a produrre un parlato il più possibile fluido e naturale. Intelligenza artificiale e reti neurali permettono di creare voci vicinissime al pre-registrato e in alcuni casi è molto difficile distinguere l’uno dall’altro». 

GETTY IMAGES/ISTOCKPHOTO

La personalizzazione della voce è un elemento sempre più richiesto, diventa parte del branding e spesso arrivano richieste molto specifiche. In alcuni casi è possibile, attraverso il cosiddetto voice morphing, ottenere più voci da un’unica registrazione, risparmiando tempo e denaro. In questo modo è possibile ringiovanire una voce, modificare il timbro, renderla più gioiosa. Un caso ormai di qualche anno fa è quello delle voci realizzate per Aldebaran Robotics, che aveva sviluppato un robottino giocattolo, in grado di parlare con tono neutro, allegro e didattico. Attraverso manipolazioni sonore della registrazione fu possibile realizzare le diverse varianti partendo dalla stessa registrazione. 

Per il futuro, la sfida è l’ulteriore sviluppo delle reti neurali: «Addestrandole con un testo e una forma d’onda sonora si potranno ottenere risultati impressionanti – conclude Coppo –. Nei prossimi due o tre anni vedremo i primi risultati». 



 
 


© 2018 | Yuss P.IVA 06727120963 Privacy Policy
 

 Possiamo aiutarti?