vai direttamente al contenuto e salta il menu di navigazione
CINECA
> Attività > Sistemi informativi per la Gestione dell'Informazione e della Conoscenza > Comunicazione Multicanale > Portale vocale

Portale vocale


La possibilità di accedere a Internet mediante strumenti come PC e browser, con tariffe economicamente sostenibili per il grande pubblico, rende possibile l’accesso a una grande quantità di informazioni in formato digitale. La diffusione delle reti di comunicazione mobile cellulare sempre più capillari, abbinate a terminali di accesso sempre più compatti e performanti, hanno reso possibile comunicare in qualunque situazione.
Oggi molte persone hanno un cellulare, mentre poche, in percentuale, hanno un calcolatore connesso a Internet.
Il nostro obiettivo è quello di coniugare la mole di informazioni potenzialmente disponibili mediante le tecnologie Internet con la larga diffusione di terminali cellulari. Poiché in questo caso il mezzo di comunicazione può essere solo vocale, l’idea è quella di dar voce alle informazioni sulla rete, ovvero implementare strumenti che interfaccino le informazioni disponibili via web e l’utente con terminale cellulare, contribuendo alla realizzazione dei cosiddetti portali vocali.

Definizione dei requisiti

I requisiti alla base del design della soluzione che abbiamo implementato, in ordine di priorità, sono:
  • massima qualità del parlato
  • astrazione del portale vocale dai contenuti delle applicazioni
  • proprietà da parte del Cineca della maggior parte delle componenti software della soluzione
  • riduzione degli investimenti in materiale a forte obsolescenza
  • qualificazione professionale del personale addetto.
Alla base del progetto del portale vocale c’è la completa sintesi della voce. Altri sistemi vocali automatici usano messaggi completamente preregistrati. L’uso della lingua e della prosodia da parte dello speaker può realizzare messaggi con un elevato grado di comprensione e qualità, ma funziona solo in presenza di portali con contenuti statici. Un tale approccio è inadatto al nostro caso, dove è importante la gestione di contenuti altamente dinamici.
Si è quindi proceduto alla ricerca del fornitore di voce sintetica di miglior qualità, realizzando allo scopo una partnership fra il Cineca e Loquendo, lo spin-off dei laboratori CSELT di Telecom Italia preposto proprio alla creazione e mantenimento di tecnologie di sintesi vocale.

Come seconda priorità, abbiamo previsto un disaccoppiamento totale tra la nostra struttura di portale vocale e la parte di produzione di contenuti. Questa decisione nasce da alcune considerazioni: innanzitutto non si vuole entrare nel merito del trattamento delle informazioni di pertinenza delle applicazioni, ad esempio per considerazioni sulla sicurezza e sulla sensibilità dei dati; in secondo luogo dal fatto di poter e voler valorizzare la natura del Cineca come centro servizi, rendendo disponibile l’infrastruttura del portale vocale installata presso il Cineca ad un numero crescente di servizi e applicazioni dislocabili anche presso il partner (azienda o Ente Pubblico) e quindi condividere risorse costose, come le connessioni alla rete telefonica e le licenze dei vari motori di sintesi e di riconoscimento.
La gestione della navigazione dell’utente mediante l’interfaccia vocale rimane quindi a carico del gestore dell’applicazione; questo permette al gestore stesso di mantenere e aggiornare le informazioni in autonomia, così come la possibilità di identificare e risolvere, attraverso l’analisi degli opportuni log, eventuali pattern anomali nella navigazione del portale.

La terza esigenza nasce dalla volontà di poter controllare le evoluzioni del prodotto in base alle possibili esigenze future, e per rendere partecipe la comunità dei vantaggi di questa tecnologia.
Infatti, sono state utilizzate a questo scopo molte componenti software open source, che permettono di essere utilizzate, condivise, modificate e aggiornate. In particolare, per l’applicazione di telefonia abbiamo utilizzato Linux come piattaforma operativa, e un progetto di “centralino” software (Asterisk) come base del portale vocale.
Questo approccio soddisfa anche il successivo requisito, ovvero ridurre gli investimenti fortemente obsolescenti come hardware e licenze.

Certo è che, con un approccio legato all’uso di software aperto, solamente sviluppando una solida base di competenze professionali si può mantenere ed elaborare una soluzione in modo da collocarla allo stato dell’arte.

Architettura della piattaforma

Ad oggi sono installati per la parte di produzione in un design del tipo illustrato nella corrispondente figura:
  • un commutatore ISDN che permette di condividere un flusso primario su più server
  • due server Loquendo con funzione di motore di sintesi vocale (TTS) e di riconoscimento (ASR)
  • due server di accesso telefonico Linux con il motore di commutazione telefonico Asterisk.
Tutti i server sono sottoposti a monitoraggio e backup regolari, per garantire la necessaria affidabilità del portale anche in caso di applicazioni mission-critical.
Per la gestione dell’accounting delle chiamate, alcune procedure inviano periodicamente dei "cartellini di tassazione" elettronici, che contengono le informazioni di ogni singola connessione come numero telefonico, servizio erogato, data e durata della chiamata, verso un database per il consolidamento: è importante garantire la massima affidabilità di questa parte, in quanto nella modalità outbound, dove è il portale vocale a chiamare gli utenti, si viene a generare del traffico telefonico a carico del sistema Cineca, quindi, questo costo potenzialmente elevato (si pensi alle tariffe da fisso a mobile in ore di punta) deve essere puntualmente computato e rendicontato all’application service provider.

Alcune applicazioni della tecnologia

La diffusione all’interno del Cineca di informazioni relative alle potenzialità di questo canale di interazione ha prodotto un notevole riscontro da parte di vari gruppi interessati ad accedere a questo servizio.
Il portale vocale si è subito presentato come un ottimo strumento per espandere le funzionalità del servizio di messaggistica HERMES erogato dal Cineca, in primis, come “helpdesk” automatizzato, allo scopo di garantire agli utenti con problemi di configurazione del sistema un canale alternativo di comunicazione per la diagnosi dei principali errori di configurazione, la notifica di eventi anomali presenti sulla rete e nelle applicazioni centralizzate, ed eventualmente la possibilità di lasciare un messaggio di avviso o reclamo.
In una versione futura, inoltre, sarà possibile anche leggere attraverso il portale vocale la propria casella di posta elettronica e rispondere lasciando un messaggio vocale (in formato mp3).
Un altro cliente del Cineca, che opera nel campo farmaceutico, ha ritenuto estremamente utile il portale vocale allo scopo raccogliere tempestivamente informazioni da pazienti sottoposti a cure farmacologiche. La precedente soluzione era legata a una raccolta volontaria di note su diari cartacei, con gli inevitabili problemi dovuti alla compilazione di un modulo, successivamente alla cura, e le prevedibili imprecisioni nella valutazione soggettiva dello stato di salute al momento della somministrazione del farmaco.
Il portale, opportunamente programmato, è in grado di chiamare periodicamente tutti i pazienti di un certo programma di test sanitario e, con semplici domande, richiedere l’immissione di una serie di dati legati alle quantità di farmaco, allo stato di salute e altre informazioni. In questo modo i pazienti non devono ricordare nessuna scadenza: sono le macchine a cercare le persone. È chiaro che questo tipo di servizio automatico, per la sua natura intrusiva, richiede una particolare attenzione nella implementazione di politiche di chiamata il meno fastidiose possibile, specialmente in presenza di situazioni di mancata connessione (ad esempio per utente occupato, o per assenza di campo). In questo caso, inoltre, la richiesta di una corretta gestione dei dati sensibili, oltremodo importante in presenza di una applicazione del campo sanitario farmaceutico, ha beneficiato dell’architettura svincolata dall’applicazione con cui il servizio è stato implementato.

Prospettive future

Alcune evoluzioni della piattaforma vocale attuale sono facilmente intuibili. Ad oggi, infatti, il sistema sintetizza campioni vocali a partire dal testo proveniente dalla applicazione e riceve input dall’utente remoto attraverso la pressione dei tasti della tastiera del telefono.
Questo tipo di interazione permette la massima affidabilità per quanto riguarda il riconoscimento della volontà dell’utente ma non massimizza la facilità d’uso. L’interazione ideale è quella attraverso il linguaggio parlato naturale. La funzionalità di riconoscimento della voce (ASR) è già presente nella nostra piattaforma ma deve ancora essere effettuata una seria analisi del grado di affidabilità del riconoscimento per capire se sia effettivamente accettabile per precisione, velocità e naturalezza di interazione. Potrebbe rendersi necessario anche scalare dall’attuale protocollo di comunicazione portale- applicazione a uno di maggiore complessità, ratificato dall’apposito gruppo di lavoro W3C: il VXML (voice-xml).
Altre funzionalità interessanti sono legate alla interazione con call center; la possibilità di trasferire la chiamata a un agente umano risulta infatti necessaria per poter gestire i casi in cui l’interazione con il portale automatico non è sufficiente. Molte ricerche indicano, ad esempio, che spesso una transazione di ecommerce non giunge a buon fine solo perché il cliente vuole una conferma da una persona reale in relazione a qualche dettaglio ma il sistema non lo consente. L’interazione con il call center deve chiaramente poter permettere anche il trasferimento dello stato della navigazione del cliente in modo che l’operatore possa identificare il contesto della chiamata, nonché eventualmente un elenco delle precedenti interazioni per quel cliente.
Un altro ambito di studio riguarda l’utilizzo di protocolli di segnalazione su IP come H323 e SIP per la gestione delle connessioni telefoniche in alternativa a ISDN. Questo rientra anche nell’evoluzione del design della piattaforma di portale vocale in modalità distribuita (come illustrato nella figura) che consentirebbe applicazioni vocali con porte di accesso telefonico “localizzate” presso il partner (ad esempio le Università) con riduzione dei costi telefonici degli utenti.

Stiamo inoltre investigando le soluzioni di voce sintetica fornite da terzi. Il CNR ha già intrapreso il percorso di realizzazione di una voce sintetica basandosi su un motore di sintesi chiamato Festival, la cui qualità di emissione non permette però a oggi l’uso in produzione. Sono allo studio anche paradigmi di interazione uomo-macchina dove l’utente si interfaccia al sistema con il testo e la voce (XHTML+V), ritenuti più funzionali e flessibili, orientati ai moderni dispositivi palmari come PDA e smartphone. Riteniamo che sia un campo di indagine promettente, e intendiamo sperimentarla nella generica navigazione web per poter aumentare la accessibilità alle informazioni. Più futuribile è l’implementazione del portale vocale nella versione multilingue, con un traduttore automatico tra lingue per permettere di interagire anche a chi non conosce la lingua base del servizio. Va detto che sistemi simili in uso sulla rete Internet (ad esempio Babelfish) generano, in chi li adopera, la sensazione di essere a volte più divertenti (per la comicità del risultato) che utili.

Per ulteriori informazioni sui servizi disponibili e in corso di sperimentazione, e per offrire un contributo di idee, commenti e critiche, è disponibile l’indirizzo e-mail voiceportal@cineca.it