Dal testo alla voce: come cambia l’interazione con l’IA grazie a Velvet Speech 2B
Intelligenza Artificiale
19 febbraio 2026
Oggi l’utilizzo della GenAI avviene prevalentemente attraverso l’interazione scritta. Cittadini e professionisti chiedono per iscritto all’intelligenza artificiale di tradurre un testo, redigere un documento o sintetizzare informazioni, e ricevono in risposta contenuti testuali.
Questo modello di interazione funziona bene in molti contesti aziendali, ma vi sono altri scenari in cui l’intelligenza artificiale può supportare i processi con modalità differenti. In tali casi, le dinamiche operative prevedono che le interazioni si svolgano principalmente tramite la voce, sia tra persone, sia tra una persona e un sistema automatizzato. È il caso, per esempio, di conferenze o riunioni aziendali, delle comunicazioni che passano tramite i canali digitali, di numerose attività di customer care o di contesti particolarmente delicati come quelli sanitari.
È qui che sfruttare la voce può fare la differenza. La possibilità di interagire con un’IA in grado di comprendere anche input e comandi vocali consente di ottenere o organizzare informazioni, porre domande o avviare analisi, traduzioni e trascrizioni senza interrompere l’attività in corso.
Per questo non è un caso se i modelli di intelligenza artificiale più recenti si stanno orientando verso forme di interazione multimodale, ossia capaci di affiancare alla scrittura anche altre modalità di interazione: in questo caso parliamo della voce.
Velvet Speech 2B nasce proprio per rispondere a questa esigenza, estendendo i modelli della famiglia di LLM Velvet a una nuova modalità di interazione basata sulla voce, particolarmente adatta a contesti professionali reali molto dinamici.
Velvet Speech 2B: interagire con l’IA tramite voce
Velvet Speech 2B è il primo modello multimodale di Velvet: compatto e versatile, è progettato per interazioni dinamiche con la capacità di elaborare e comprendere il linguaggio parlato. Ciò significa che è possibile fornire una richiesta al modello sia tramite input scritto che vocale, mentre l’output resta in formato testuale.
Questo sviluppo si inserisce in un percorso già consolidato: Almawave lavora da anni su tecnologie vocali e di riconoscimento del parlato nei propri laboratori, competenze che oggi trovano una nuova applicazione anche nell’evoluzione dei suoi modelli linguistici.
Dal punto di vista tecnico, Speech 2B conserva i punti di forza di Velvet 2B e li estende con nuove capacità legate alla voce, come la trascrizione automatica del parlato (Automatic Speech Recognition), interrogazioni vocali e question answering (Spoken Query & Question Answering).
Il modello supporta le lingue italiano e inglese anche in conversazioni miste, e integra funzionalità di analisi della componente emotiva del parlato (speech emotion recognition), utili per comprendere meglio il tono e il contesto delle interazioni.
Vediamo in dettaglio queste caratteristiche distintive di Velvet Speech 2B:
Automatic speech recognition
La trascrizione automatica del parlato consiste nella capacità del modello di ascoltare una registrazione o una conversazione e convertirla in testo scritto. Questa funzionalità è molto utile quando è necessario trasformare i dialoghi durante riunioni, sedute pubbliche o colloqui in documenti strutturati immediati.
Spoken queries and question answering
L’utente può porre una domanda a voce, ad esempio “mostrami le pratiche aperte negli ultimi 30 giorni”, e il sistema elabora la richiesta esattamente come se fosse un comando scritto, restituendo una risposta chiara e strutturata.
Interazione coerente tra voce e testo
Che la richiesta venga digitata o pronunciata, il sistema la interpreta nello stesso modo e fornisce una risposta coerente. Non esistono “due sistemi diversi”: l’esperienza resta uniforme, indipendentemente dal canale utilizzato.
Supporto bilingue (italiano e inglese)
Speech 2B è in grado di comprendere e trascrivere sia l’italiano sia l’inglese, anche quando le due lingue si alternano nella stessa conversazione. Questa caratteristica lo rende particolarmente indicato in contesti istituzionali o aziendali in cu si alternano interlocutori di lingue diverse, garantendo massima precisione all’interno di un unico flusso di elaborazione delle informazioni.
Speech emotion recognition
Oltre al contenuto delle parole, il modello analizza alcuni elementi della voce, per esempio l’intonazione e il ritmo, e individua segnali emotivi. Questa funzionalità si rivela molto utile per comprendere meglio il contesto di un’interazione, specialmente in ambiti in cui la componente emotiva può svolgere un ruolo importante e delicato, come nell’interazione tra personale medico e pazienti oppure nel customer care pubblico.
Design compatto e versatile
La caratteristica maggiormente distintiva di Velvet Speech 2B contiste nelle sue dimensioni e nella sua ottimizzazione interna. È infatti un modello leggero, integrabile anche all’interno di infrastrutture con limitata potenza di calcolo, senza richiedere ambienti complessi o dipendenze esterne. Questo lo rende adatto soprattutto a scenari in cui i dati non possono uscire dall’organizzazione, come amministrazioni pubbliche, strutture sanitarie o aziende che gestiscono informazioni sensibili, per garantire la massima governance del dato.
Dalla PA ai contesti operativi: quando la voce diventa uno strumento di lavoro
Velvet Speech 2B può essere impiegato con successo in molteplici contesti, pubblici e privati. La sua leggerezza, che lo rende particolarmente adatto alle infrastrutture locali o piccoli dispositivi (edge), e il focus sulla protezione del dato e sulla data quality, ne fanno uno strumento molto promettente per ambiti maggiormente interessati dall’uso dei dati personali.
Stiamo parlando di ambiti come la Pubblica Amministrazione e la sanità, dove i dati sensibili sono all’ordine del giorno. In questo caso è fondamentale avere il massimo controllo su dove risiedono le informazioni e chi vi può accedere.
Nel caso di Velvet Speech 2B è possibile sfruttare l’interazione vocale senza modificare l’assetto infrastrutturale esistente. Il parlato viene trasformato in testo pronto per essere gestito secondo le policy già in uso, senza generare nuovi livelli di esposizione informativa.
Vediamo alcune possibili applicazioni di questo nuovo modello.
Pubblica Amministrazione: trascrizione e sintesi automatica di sedute pubbliche
Durante un consiglio comunale o un’audizione pubblica, Velvet Speech 2B può trascrivere la conversazione pubblica, generando un verbale o un sommario dei punti chiave. Questo garantisce un notevole risparmio di tempo e di attività amministrative, maggiore trasparenza e documentazione accessibile fin da subito.
Healthcare: riepilogo scritto del colloquio medico–paziente
In ambito sanitario, solitamente i medici sono costretti a riportare manualmente sul computer tutti i dati emersi da colloqui e visite mediche. Grazie a Velvet Speech 2B, il medico potrà concentrarsi esclusivamente sulla visita, mentre il modello si occuperà di registrare fedelmente per iscritto il colloquio e realizzare sintesi utili per redigere i referti.
Healthcare: pre-triage strutturato
Il pre-triage è un momento di semplice raccolta informazioni che i modelli IA potrebbero supportare in modo molto efficace. In questo caso il paziente risponde a voce a una serie di domande guidate sul suo stato di salute, ad esempio sintomi, durata e patologie pregresse. Velvet Speech 2B è in grado di trascrivere le risposte, magari compilando una scheda preliminare che sarà validata dal personale sanitario.
Field operations: consultazione normativa
I cantieri sono ambienti ad alta intensità operativa, rumorosi, in cui i professionisti hanno spesso le mani occupate e la sicurezza è essenziale. In questi contesti, poter consultare i documenti con l’uso della voce risulta necessario diventa non solo auspicabile ma necessario. In questo modo i tecnici possono verificare le normative e le procedure dialogando direttamente con il sistema, senza dover impiegare manuali cartacei e accedendo alle informazioni con grande rapidità.
Altri scenari possibili
Sono davvero innumerevoli i casi in cui l’impiego di Velvet Speech 2B potrebbe velocizzare le attività, ridurre i tempi di attesa, potenziare l’attività dei professionisti e ridurre errori e imprecisioni.
In ambito di servizi al cittadino o customer care pubblico, ad esempio, Velvet Speech 2B può supportare la trascrizione automatica delle chiamate e l’organizzazione delle richieste ricevute. Nelle riunioni operative aziendali o nei briefing tecnici, invece, il modello può trasformare i dialoghi in verbali e punti chiave.
La voce non sostituisce la scrittura, ma la integra. Come abbiamo visto, con Velvet Speech 2B, l’intelligenza artificiale amplia le modalità di interazione e si adatta meglio ai contesti professionali reali, dove l’operatività richiede flessibilità, rapidità e controllo del dato.
In un panorama in cui sicurezza, governance e affidabilità sono elementi centrali, integrare la voce significa rendere l’IA non solo più potente, ma anche più aderente alle reali necessità di imprese e istituzioni.
Vuoi conoscere più da vicino la famiglia Velvet?