Velvet Speech 2B: come cambia l’interazione con l’IA grazie alla voce
x icon pop up SCOPRI AIWAVE PLATFORM

Cerca sul sito

Non hai trovato quello che cercavi?

Dal testo alla voce: come cambia l’interazione con l’IA grazie a Velvet Speech 2B

Smartphone using AI voice recognition technology on dark table. Mobile phone screen projects virtual hologram of microphone icon, audio soundwave. Using smart assistant app for speech commands,

Intelligenza Artificiale

19 febbraio 2026

Oggi l’utilizzo della GenAI avviene prevalentemente attraverso l’interazione scritta. Cittadini e professionisti chiedono per iscritto all’intelligenza artificiale di tradurre un testo, redigere un documento o sintetizzare informazioni, e ricevono in risposta contenuti testuali.

Questo modello di interazione funziona bene in molti contesti aziendali, ma vi sono altri scenari in cui l’intelligenza artificiale può supportare i processi con modalità differenti. In tali casi, le dinamiche operative prevedono che le interazioni si svolgano principalmente tramite la voce, sia tra persone, sia tra una persona e un sistema automatizzato. È il caso, per esempio, di conferenze o riunioni aziendali, delle comunicazioni che passano tramite i canali digitali, di numerose attività di customer care o di contesti particolarmente delicati come quelli sanitari.

È qui che sfruttare la voce può fare la differenza. La possibilità di interagire con un’IA in grado di comprendere anche input e comandi vocali consente di ottenere o organizzare informazioni, porre domande o avviare analisi, traduzioni e trascrizioni senza interrompere l’attività in corso.

Per questo non è un caso se i modelli di intelligenza artificiale più recenti si stanno orientando verso forme di interazione multimodale, ossia capaci di affiancare alla scrittura anche altre modalità di interazione: in questo caso parliamo della voce.

Velvet Speech 2B nasce proprio per rispondere a questa esigenza, estendendo i modelli della famiglia di LLM Velvet a una nuova modalità di interazione basata sulla voce, particolarmente adatta a contesti professionali reali molto dinamici.

Person using AI voice search on a laptop with futuristic interface and data visualizations

Velvet Speech 2B: interagire con l’IA tramite voce

Velvet Speech 2B è il primo modello multimodale di Velvet: compatto e versatile, è progettato per interazioni dinamiche con la capacità di elaborare e comprendere il linguaggio parlato. Ciò significa che è possibile fornire una richiesta al modello sia tramite input scritto che vocale, mentre l’output resta in formato testuale.

Questo sviluppo si inserisce in un percorso già consolidato: Almawave lavora da anni su tecnologie vocali e di riconoscimento del parlato nei propri laboratori, competenze che oggi trovano una nuova applicazione anche nell’evoluzione dei suoi modelli linguistici.

Dal punto di vista tecnico, Speech 2B conserva i punti di forza di Velvet 2B e li estende con nuove capacità legate alla voce, come la trascrizione automatica del parlato (Automatic Speech Recognition), interrogazioni vocali e question answering (Spoken Query & Question Answering).

Il modello supporta le lingue italiano e inglese anche in conversazioni miste, e integra funzionalità di analisi della componente emotiva del parlato (speech emotion recognition), utili per comprendere meglio il tono e il contesto delle interazioni.

Vediamo in dettaglio queste caratteristiche distintive di Velvet Speech 2B:

Automatic speech recognition

La trascrizione automatica del parlato consiste nella capacità del modello di ascoltare una registrazione o una conversazione e convertirla in testo scritto. Questa funzionalità è molto utile quando è necessario trasformare i dialoghi durante riunioni, sedute pubbliche o colloqui in documenti strutturati immediati.

Spoken queries and question answering

L’utente può porre una domanda a voce, ad esempio “mostrami le pratiche aperte negli ultimi 30 giorni”, e il sistema elabora la richiesta esattamente come se fosse un comando scritto, restituendo una risposta chiara e strutturata.

Interazione coerente tra voce e testo

Che la richiesta venga digitata o pronunciata, il sistema la interpreta nello stesso modo e fornisce una risposta coerente. Non esistono “due sistemi diversi”: l’esperienza resta uniforme, indipendentemente dal canale utilizzato.

Supporto bilingue (italiano e inglese)

Speech 2B è in grado di comprendere e trascrivere sia l’italiano sia l’inglese, anche quando le due lingue si alternano nella stessa conversazione. Questa caratteristica lo rende particolarmente indicato in contesti istituzionali o aziendali in cu si alternano interlocutori di lingue diverse, garantendo massima precisione all’interno di un unico flusso di elaborazione delle informazioni.

Speech emotion recognition

Oltre al contenuto delle parole, il modello analizza alcuni elementi della voce, per esempio l’intonazione e il ritmo, e individua segnali emotivi. Questa funzionalità si rivela molto utile per comprendere meglio il contesto di un’interazione, specialmente in ambiti in cui la componente emotiva può svolgere un ruolo importante e delicato, come nell’interazione tra personale medico e pazienti oppure nel customer care pubblico.

Design compatto e versatile

La caratteristica maggiormente distintiva di Velvet Speech 2B contiste nelle sue dimensioni e nella sua ottimizzazione interna. È infatti un modello leggero, integrabile anche all’interno di infrastrutture con limitata potenza di calcolo, senza richiedere ambienti complessi o dipendenze esterne. Questo lo rende adatto soprattutto a scenari in cui i dati non possono uscire dall’organizzazione, come amministrazioni pubbliche, strutture sanitarie o aziende che gestiscono informazioni sensibili, per garantire la massima governance del dato.

Man using voice assistant on his mobile phone showcasing voice recognition technology

Dalla PA ai contesti operativi: quando la voce diventa uno strumento di lavoro

Velvet Speech 2B può essere impiegato con successo in molteplici contesti, pubblici e privati. La sua leggerezza, che lo rende particolarmente adatto alle infrastrutture locali o piccoli dispositivi (edge), e il focus sulla protezione del dato e sulla data quality, ne fanno uno strumento molto promettente per ambiti maggiormente interessati dall’uso dei dati personali.

Stiamo parlando di ambiti come la Pubblica Amministrazione e la sanità, dove i dati sensibili sono all’ordine del giorno. In questo caso è fondamentale avere il massimo controllo su dove risiedono le informazioni e chi vi può accedere.

Nel caso di Velvet Speech 2B è possibile sfruttare l’interazione vocale senza modificare l’assetto infrastrutturale esistente. Il parlato viene trasformato in testo pronto per essere gestito secondo le policy già in uso, senza generare nuovi livelli di esposizione informativa.

Vediamo alcune possibili applicazioni di questo nuovo modello.

Pubblica Amministrazione: trascrizione e sintesi automatica di sedute pubbliche

Durante un consiglio comunale o un’audizione pubblica, Velvet Speech 2B può trascrivere la conversazione pubblica, generando un verbale o un sommario dei punti chiave. Questo garantisce un notevole risparmio di tempo e di attività amministrative, maggiore trasparenza e documentazione accessibile fin da subito.

Healthcare: riepilogo scritto del colloquio medico–paziente

In ambito sanitario, solitamente i medici sono costretti a riportare manualmente sul computer tutti i dati emersi da colloqui e visite mediche. Grazie a Velvet Speech 2B, il medico potrà concentrarsi esclusivamente sulla visita, mentre il modello si occuperà di registrare fedelmente per iscritto il colloquio e realizzare sintesi utili per redigere i referti.

Healthcare: pre-triage strutturato

Il pre-triage è un momento di semplice raccolta informazioni che i modelli IA potrebbero supportare in modo molto efficace. In questo caso il paziente risponde a voce a una serie di domande guidate sul suo stato di salute, ad esempio sintomi, durata e patologie pregresse. Velvet Speech 2B è in grado di trascrivere le risposte, magari compilando una scheda preliminare che sarà validata dal personale sanitario.

Field operations: consultazione normativa

I cantieri sono ambienti ad alta intensità operativa, rumorosi, in cui i professionisti hanno spesso le mani occupate e la sicurezza è essenziale. In questi contesti, poter consultare i documenti con l’uso della voce risulta necessario diventa non solo auspicabile ma necessario. In questo modo i tecnici possono verificare le normative e le procedure dialogando direttamente con il sistema, senza dover impiegare manuali cartacei e accedendo alle informazioni con grande rapidità.

Altri scenari possibili

Sono davvero innumerevoli i casi in cui l’impiego di Velvet Speech 2B potrebbe velocizzare le attività, ridurre i tempi di attesa, potenziare l’attività dei professionisti e ridurre errori e imprecisioni.

In ambito di servizi al cittadino o customer care pubblico, ad esempio, Velvet Speech 2B può supportare la trascrizione automatica delle chiamate e l’organizzazione delle richieste ricevute. Nelle riunioni operative aziendali o nei briefing tecnici, invece, il modello può trasformare i dialoghi in verbali e punti chiave.

La voce non sostituisce la scrittura, ma la integra. Come abbiamo visto, con Velvet Speech 2B, l’intelligenza artificiale amplia le modalità di interazione e si adatta meglio ai contesti professionali reali, dove l’operatività richiede flessibilità, rapidità e controllo del dato.

In un panorama in cui sicurezza, governance e affidabilità sono elementi centrali, integrare la voce significa rendere l’IA non solo più potente, ma anche più aderente alle reali necessità di imprese e istituzioni.

Vuoi conoscere più da vicino la famiglia Velvet?

Visita la sezione dedicata arrow right