Velvet Speech 2B: como muda a interação com a IA graças à voz
x icon pop up Descubra a plataforma AiWave

Pesquisar no site

Não encontrou o que estava procurando?

Do texto à voz: como muda a interação com a IA graças ao Velvet Speech 2B

Smartphone using AI voice recognition technology on dark table. Mobile phone screen projects virtual hologram of microphone icon, audio soundwave. Using smart assistant app for speech commands,

Inteligência Artificial

19 Fevereiro 2026

Hoje, o uso da GenAI ocorre predominantemente por meio da interação escrita. Cidadãos e profissionais pedem por escrito à inteligência artificial que traduza um texto, redija um documento ou sintetize informações, e recebem como resposta conteúdos textuais.

Esse modelo de interação funciona bem em muitos contextos empresariais, mas há outros cenários em que a inteligência artificial pode apoiar os processos de maneiras diferentes. Nesses casos, as dinâmicas operacionais preveem que as interações ocorram principalmente por meio da voz, tanto entre pessoas quanto entre uma pessoa e um sistema automatizado. É o caso, por exemplo, de conferências ou reuniões empresariais, das comunicações realizadas por canais digitais, de inúmeras atividades de atendimento ao cliente ou de contextos particularmente delicados, como os da área da saúde.

É aqui que aproveitar a voz pode fazer a diferença. A possibilidade de interagir com uma IA capaz de compreender também inputs e comandos de voz permite obter ou organizar informações, fazer perguntas ou iniciar análises, traduções e transcrições sem interromper a atividade em curso.

Por isso, não é por acaso que os modelos de inteligência artificial mais recentes estão se orientando para formas de interação multimodal, ou seja, capazes de combinar a escrita com outras modalidades de interação: neste caso, falamos da voz.

Velvet Speech 2B nasce justamente para responder a essa necessidade, ampliando os modelos da família LLM Velvet para uma nova modalidade de interação baseada na voz, particularmente adequada a contextos profissionais reais e muito dinâmicos.

Person using AI voice search on a laptop with futuristic interface and data visualizations

Velvet Speech 2B: interagir com a IA por meio da voz

Velvet Speech 2B é o primeiro modelo multimodal da Velvet: compacto e versátil, foi projetado para interações dinâmicas, com a capacidade de processar e compreender a linguagem falada. Isso significa que é possível fornecer uma solicitação ao modelo tanto por meio de input escrito quanto por voz, enquanto o output permanece em formato textual.

Esse desenvolvimento se insere em um percurso já consolidado: a Almawave trabalha há anos com tecnologias de voz e reconhecimento de fala em seus laboratórios, competências que hoje encontram uma nova aplicação também na evolução de seus modelos linguísticos.

Do ponto de vista técnico, o Speech 2B mantém os pontos fortes do Velvet 2B e os amplia com novas capacidades relacionadas à voz, como a transcrição automática da fala (Automatic Speech Recognition), consultas por voz e question answering (Spoken Query & Question Answering).

O modelo oferece suporte aos idiomas italiano e inglês, inclusive em conversas mistas, e integra funcionalidades de análise do componente emocional da fala (speech emotion recognition), úteis para compreender melhor o tom e o contexto das interações.

Vejamos em detalhe essas características distintivas do Velvet Speech 2B:

Automatic speech recognition

A transcrição automática da fala consiste na capacidade do modelo de ouvir uma gravação ou uma conversa e convertê-la em texto escrito. Essa funcionalidade é muito útil quando é necessário transformar diálogos durante reuniões, sessões públicas ou entrevistas em documentos estruturados imediatos.

Spoken queries and question answering

O usuário pode fazer uma pergunta por voz, por exemplo: “mostre-me os processos abertos nos últimos 30 dias”, e o sistema processa a solicitação exatamente como se fosse um comando escrito, retornando uma resposta clara e estruturada.

Interação coerente entre voz e texto

Independentemente de a solicitação ser digitada ou pronunciada, o sistema a interpreta da mesma forma e fornece uma resposta coerente. Não existem “dois sistemas diferentes”: a experiência permanece uniforme, independentemente do canal utilizado.

Suporte bilíngue (italiano e inglês)

O Speech 2B é capaz de compreender e transcrever tanto o italiano quanto o inglês, mesmo quando os dois idiomas se alternam na mesma conversa. Essa característica o torna particularmente indicado em contextos institucionais ou empresariais nos quais há alternância entre interlocutores de diferentes línguas, garantindo máxima precisão dentro de um único fluxo de processamento das informações.

Speech emotion recognition

Além do conteúdo das palavras, o modelo analisa alguns elementos da voz, como entonação e ritmo, e identifica sinais emocionais. Essa funcionalidade é especialmente útil para compreender melhor o contexto de uma interação, sobretudo em áreas nas quais o componente emocional pode desempenhar um papel importante e delicado, como na interação entre equipe médica e pacientes ou no atendimento ao público.

Design compacto e versátil

A característica mais distintiva do Velvet Speech 2B consiste em suas dimensões e em sua otimização interna. Trata-se de um modelo leve, que pode ser integrado inclusive em infraestruturas com capacidade de processamento limitada, sem exigir ambientes complexos ou dependências externas. Isso o torna especialmente adequado para cenários nos quais os dados não podem sair da organização, como administrações públicas, instituições de saúde ou empresas que gerenciam informações sensíveis, garantindo a máxima governança dos dados.

Man using voice assistant on his mobile phone showcasing voice recognition technology

Da Administração Pública aos contextos operacionais: quando a voz se torna uma ferramenta de trabalho

O Velvet Speech 2B pode ser utilizado com sucesso em múltiplos contextos, públicos e privados. Sua leveza — que o torna particularmente adequado para infraestruturas locais ou pequenos dispositivos (edge) — e o foco na proteção dos dados e na qualidade da informação fazem dele uma ferramenta muito promissora para áreas mais impactadas pelo uso de dados pessoais.

Estamos falando de setores como a Administração Pública e a saúde, onde os dados sensíveis fazem parte do dia a dia. Nesse caso, é fundamental ter o máximo controle sobre onde as informações residem e quem pode acessá-las.

No caso do Velvet Speech 2B, é possível aproveitar a interação por voz sem modificar a infraestrutura existente. A fala é transformada em texto pronto para ser gerenciado de acordo com as políticas já em uso, sem gerar novos níveis de exposição informacional.

Vejamos algumas possíveis aplicações desse novo modelo.

Administração Pública: transcrição e síntese automática de sessões públicas

Durante uma reunião do conselho municipal ou uma audiência pública, o Velvet Speech 2B pode transcrever a conversa pública, gerando uma ata ou um resumo dos pontos-chave. Isso garante uma economia significativa de tempo e de atividades administrativas, maior transparência e documentação acessível desde o início.

Saúde: resumo escrito da consulta médico–paciente

Na área da saúde, normalmente os médicos são obrigados a registrar manualmente no computador todos os dados coletados durante consultas e atendimentos. Com o Velvet Speech 2B, o médico poderá se concentrar exclusivamente na consulta, enquanto o modelo se encarrega de registrar fielmente por escrito a conversa e elaborar sínteses úteis para a redação de relatórios médicos.

Saúde: pré-triagem estruturada

A pré-triagem é um momento simples de coleta de informações que os modelos de IA podem apoiar de forma muito eficaz. Nesse caso, o paciente responde por voz a uma série de perguntas guiadas sobre seu estado de saúde, como sintomas, duração e doenças prévias. O Velvet Speech 2B é capaz de transcrever as respostas, possivelmente preenchendo uma ficha preliminar que será validada pela equipe de saúde.

Operações em campo: consulta normativa

Os canteiros de obras são ambientes de alta intensidade operacional, ruidosos, nos quais os profissionais frequentemente estão com as mãos ocupadas e a segurança é essencial. Nesses contextos, poder consultar documentos por meio da voz torna-se não apenas desejável, mas necessário. Dessa forma, os técnicos podem verificar normas e procedimentos dialogando diretamente com o sistema, sem recorrer a manuais em papel e acessando as informações com grande rapidez.

Outros cenários possíveis

São realmente inúmeros os casos em que o uso do Velvet Speech 2B pode acelerar atividades, reduzir tempos de espera, potencializar o trabalho dos profissionais e diminuir erros e imprecisões.

No âmbito de serviços ao cidadão ou de atendimento público, por exemplo, o Velvet Speech 2B pode apoiar a transcrição automática de chamadas e a organização das solicitações recebidas. Em reuniões operacionais empresariais ou briefings técnicos, o modelo pode transformar diálogos em atas e pontos-chave.

A voz não substitui a escrita, mas a integra. Como vimos, com o Velvet Speech 2B, a inteligência artificial amplia as modalidades de interação e se adapta melhor aos contextos profissionais reais, onde a operação exige flexibilidade, rapidez e controle dos dados.

Em um cenário no qual segurança, governança e confiabilidade são elementos centrais, integrar a voz significa tornar a IA não apenas mais poderosa, mas também mais alinhada às reais necessidades de empresas e instituições.

Quer conhecer mais de perto a família Velvet?

Visite a seção dedicad arrow right