Automatic Speech Recognition, Identification e Diarization
x icon pop up Descubra a plataforma AiWave

Pesquisar no site

Não encontrou o que estava procurando?

Quem está a falar? O poder da ASR, da identificação do orador e da diarização

As tecnologias de voz estão a tornar-se cada vez mais uma parte integrante da nossa vida quotidiana. De facto, estão a transformar a forma como interagimos com o mundo digital, permitindo uma comunicação mais fluida entre os seres humanos e a tecnologia. Mas como é que estas tecnologias, como os assistentes virtuais, os serviços de transcrição automática ou os comandos activados por voz, reconhecem, interpretam e respondem ao discurso humano?

BLOG 12092024 4

Inteligência Artificial

3 outubro 2024

Introdução às tecnologias da voz: 3 ferramentas que estão a revolucionar as conversas

As tecnologias da fala referem-se a todos os sistemas e ferramentas que permitem às máquinas processar, analisar e responder ao discurso humano.

Estas tecnologias utilizam algoritmos complexos e inteligência artificial para compreender a linguagem falada e, ao fazê-lo, resultam em várias aplicações que tornam as interações homem-máquina mais naturais e intuitivas.

Entre as tecnologias mais poderosas atualmente disponíveis encontra-se o reconhecimento automático do discurso (ASR), que converte palavras faladas em texto. A isto juntam-se a identificação do orador e a diarização, que permitem aos sistemas identificar e distinguir entre vários sujeitos falantes num fluxo de áudio a que sujeito pertence a voz.

Neste artigo, vamos concentrar-nos nestas tecnologias que, quando combinadas, resultam num sistema altamente eficiente e poderoso, capaz de transcrever com precisão o discurso e identificar quem está a falar num determinado momento.

BLOG 12092024 2

O que é o reconhecimento automático do discurso (ASR) e como funciona?

O reconhecimento automático da fala (ASR) é uma tecnologia que permite às máquinas converter a linguagem falada em texto escrito.

É amplamente utilizada em várias aplicações, como assistentes de voz (por exemplo, Siri e Alexa), serviços de transcrição, dispositivos controlados por voz e até sistemas automatizados de atendimento ao cliente.

Ao processar e reconhecer o discurso humano, a ASR permite uma interação mais natural entre o homem e a máquina.

 

Como é que o ASR funciona?

A ASR funciona através de várias etapas fundamentais que lhe permitem interpretar e converter a fala em texto:

  • Entrada de áudio: o processo começa quando um utilizador fala para um microfone ou outro dispositivo de gravação. As palavras faladas são captadas como um sinal áudio.
  • Pré-processamento de áudio: o sistema limpa o sinal de áudio filtrando o ruído de fundo, separando a fala de outros sons e detectando a atividade vocal. Desta forma, garante que apenas as partes relevantes do áudio são processadas.
  • Descodificação: converte o sinal pré-processado em texto. Utiliza as probabilidades fornecidas pelo modelo acústico, o léxico e o modelo linguístico para encontrar a sequência de palavras mais provável através de algoritmos de pesquisa eficientes.
  • Pós-processamento: Aplica transformações ao texto para o tornar mais legível (por exemplo, converte números como “dezanove e noventa” em “1990”).
  • Saída: A fase final é a saída do texto, em que a fala reconhecida é apresentada como texto, utilizada como um comando ou processada posteriormente, dependendo da aplicação.

Prós e contras da ASR

A RAE melhora muito a experiência do utilizador, porque permite a transcrição em modo mãos-livres e a acessibilidade, especialmente para pessoas com deficiência ou em situações em que a introdução manual não é prática.

Ao converter a fala em texto, tanto em modo batch como em tempo real, facilita uma comunicação mais rápida e permite aplicações como assistentes activados por voz, serviços de transcrição e tradução automática em tempo real.

Além disso, o pré-processamento melhora a precisão ao filtrar o ruído de fundo, tornando a ASR eficaz mesmo em ambientes menos ideais.

Apesar das suas vantagens, a ASR enfrenta desafios que podem limitar a sua eficácia.

A elevada variabilidade de sotaques, dialectos, tipos de discurso (por exemplo, fomal vs. espontâneo) e falantes pode levar a interpretações erradas e erros, reduzindo a precisão.

O ruído de fundo intenso, as perturbações do sinal (por exemplo, as causadas pela reverberação) e a sobreposição do discurso de vários oradores também podem confundir o sistema, comprometendo o seu desempenho.

Apesar destas limitações, os avanços na aprendizagem automática e nas redes neuronais tornaram a ASR altamente precisa e uma tecnologia fundamental na comunicação e automação modernas.

No entanto, o que é dito num áudio é apenas parte da informação que este contém. Existem alguns componentes importantes que enriquecem o processo de ASR, nomeadamente a identificação do locutor e a diarização.

BLOG 12092024 3

O que é a identificação do orador e a diarização do orador?

A identificação do orador e a diarização do orador são duas tecnologias-chave de processamento do discurso que ajudam os sistemas a distinguir entre vários oradores numa gravação áudio.

Identificação do orador: reconhece e identifica quem está a falar com base em caraterísticas de voz únicas incluídas numa base de dados de perfis de oradores conhecidos do mundo real.

Diarização do orador: determina quando diferentes sujeitos estão a falar numa conversa, dividindo o áudio em segmentos para cada orador.

Como funciona a diarização do altifalante?

  • Deteção da atividade vocal (VAD): o primeiro passo é detetar onde ocorre a fala no fluxo de áudio. O sistema identifica os segmentos em que as pessoas estão a falar e ignora o silêncio ou o ruído de fundo.
  • Segmentação do orador: uma vez detectada a fala, o sistema divide o áudio em diferentes segmentos com base nas variações das caraterísticas da voz. Esta fase ajuda a detetar quando um sujeito termina de falar e outro começa.
  • Agrupamento de oradores: após a segmentação, o sistema analisa cada segmento para determinar a que pessoa pertence. Utilizando modelos de aprendizagem automática, agrupa os segmentos de voz do mesmo orador, mesmo que este fale várias vezes. Além disso, o algoritmo de agrupamento estima o número total de oradores envolvidos no áudio de entrada.
  • Atribuição de etiquetas de orador: os segmentos que pertencem ao mesmo cluster são atribuídos a uma etiqueta específica (por exemplo, orador, locutor).
BLOG 12092024 5

Como funciona a identificação do orador?

Fase preliminar: é extraída uma impressão vocal de identidade para cada pessoa a ser correspondida. As impressões vocais são armazenadas numa base de dados de perfis de locutores conhecidos que é utilizada na fase de correspondência.

  • Segmentação: o sistema começa por extrair segmentos de áudio com um único locutor da entrada; um processo que pode envolver um ou mais locutores. A segmentação é efectuada pelo sistema de diarização do altifalante descrito acima.
  • Extração da impressão vocal: é extraída uma impressão vocal para cada segmento utilizando uma rede neural. A impressão digital vocal é uma representação compacta das caraterísticas vocais únicas do perfil de um orador. A rede neural é capaz de calcular impressões altamente distintivas, uma vez que foi treinada em expressões de milhares de oradores.
  • Correspondência com perfis conhecidos: o sistema compara as impressões vocais extraídas com todos os perfis de sujeitos na base de dados e identifica o perfil correspondente. Por exemplo, num centro de atendimento ao cliente, o sistema pode reconhecer os clientes que já telefonaram anteriormente com base na sua voz.
  • Tomada de decisões: depois de comparar os dados vocais com os perfis de locutor armazenados, o sistema fornece a identidade do locutor, permitindo a personalização dos serviços ou a autenticação de um utilizador.
BLOG 12092024 1

Identificação e diarização do orador: vantagens e desafios

Estas tecnologias poderosas trazem naturalmente vantagens e desafios.

As tecnologias de identificação e diarização do sujeito da fala oferecem vantagens significativas em cenários em que é fundamental distinguir entre várias pessoas, como em reuniões, chamadas de serviço ao cliente e aplicações de segurança.

Estes sistemas são capazes de etiquetar e seguir automaticamente os sujeitos individuais num fluxo de áudio, facilitando a atribuição do conteúdo falado a indivíduos específicos.

Isto melhora a precisão dos serviços de transcrição e permite experiências de utilizador mais personalizadas, como o ajuste das respostas de acordo com o perfil ou as preferências da pessoa identificada.

No entanto, existem vários desafios técnicos para que o processo seja eficiente.

O ruído de fundo, a sobreposição do discurso e a qualidade e duração variáveis do áudio podem complicar o processo de diferenciação exacta dos oradores.

As variações na voz de um orador devido a factores como emoções, doença ou condições ambientais também podem afetar a precisão do reconhecimento.

Para além disso, estes sistemas requerem frequentemente uma grande quantidade de dados rotulados para treino, o que levanta problemas de privacidade.

Fala e Voz: as soluções da Almawave

As soluções de Fala e Voz da Almawave vão além da transcrição padrão, oferecendo tecnologia de fala tudo-em-um adequada para muitos contextos de utilização.

Para além da ASR, da identificação do orador e da diarização, a plataforma oferece tradução automática, identificação avançada de idiomas e até mesmo estimativa da qualidade da fala, garantindo um processamento altamente preciso de ambientes de áudio complexos.

A plataforma foi concebida para uma sincronização áudio-texto perfeita, ajudando os utilizadores a ler, editar e verificar transcrições, tanto em lote como em tempo real.

A capacidade de lidar com uma vasta gama de formatos de ficheiros e de se integrar em vários fluxos de trabalho torna-a adequada para sectores como a administração pública, relatórios jurídicos e monitorização dos meios de comunicação social. Ao reduzir o trabalho manual e melhorar a velocidade e a qualidade da produção, a solução Almawave revoluciona a forma como as organizações gerem os dados de voz.

Casos de utilização

  • Documentos judiciais: a solução da Almawave fornece transcrição e identificação de oradores para processos judiciais, garantindo uma documentação jurídica precisa e uma integração perfeita com fluxos de trabalho jurídicos.
  • Relatórios médicos: a plataforma permite a transcrição em tempo real de notas médicas, suporte linguístico avançado e avaliação de áudio de alta qualidade, melhorando a precisão dos registos médicos e a comunicação multilingue.
  • Media Intelligence: a transcrição e a tradução automáticas de conteúdos multimédia e multilingues melhoram a monitorização e a análise, enquanto a identificação do orador ajuda a localizar e a analisar várias vozes dos meios de comunicação.
  • Centro de contacto: transcrição, identificação do locutor e tradução das interações com os clientes para melhorar a qualidade do serviço e a eficiência operacional.
  • Portais Web: suporta a transcrição e tradução automáticas de eventos e conteúdos na Web, tornando a informação multilingue mais acessível aos utilizadores a nível internacional.
  • Administração pública: a transcrição em tempo real e a avaliação áudio de alta qualidade de reuniões públicas e procedimentos oficiais garantem registos exactos e uma melhor acessibilidade para os cidadãos.
  • Telecomunicações: Transcrição das interações com os clientes para melhorar a qualidade do serviço e a documentação. Estas tecnologias ajudam as empresas de telecomunicações a identificar as partes interessadas, a simplificar a comunicação e a monitorizar o desempenho dos serviços, aumentando assim a participação dos clientes e a eficiência operacional.

Graças à sua experiência avançada em tecnologias da fala, a Almawave é capaz de resolver problemas desafiantes para os seus clientes, que a maioria das soluções comerciais actuais apenas abordam parcialmente ou não resolvem totalmente.

Estes aspectos são destacados em artigos recentemente publicados na Interspeech, a principal conferência mundial de tecnologia da fala: ‘Explorando Estratégias de Identificação da Linguagem Falada para Transcrição Automática de Discurso Institucional e de Transmissão Multilingue’, e ‘Um Kit de Ferramentas para Diários de Oradores Conjuntos’. Speech”, e ‘A Toolkit for Joint Speaker Diarisation and Identification with Application to Speaker-Attributed ASR’, do Laboratório de Engenharia da Voz da Almawave.

O primeiro artigo explora a identificação da língua falada (SLI) e o reconhecimento da fala no contexto da radiodifusão multilingue e da fala institucional, áreas frequentemente negligenciadas na investigação da SLI.
É apresentado um sistema em cascata que combina a diarização do orador com a identificação da língua, contrastando esta abordagem com os métodos tradicionais.

Os resultados demonstram que o sistema proposto reduz significativamente os erros de classificação de idioma e diarização, em até 10% e 60%, respectivamente, enquanto reduz o erro de transcrição (WER) em conjuntos de dados multilíngues em mais de 8%. É importante destacar que este método não tem impacto negativo na precisão do reconhecimento de voz em áudio monolíngue.

Leia o artigo completo.

O segundo artigo é um relatório técnico de uma demonstração de um kit de ferramentas modular capaz de segmentar e identificar a identidade dos falantes em áudio com múltiplos falantes. Além disso, é possível solicitar transcrições atribuídas ao falante selecionando as opções apropriadas.

O kit de ferramentas pode tirar proveito de diferentes modelos de diarização, identificação e ASR de falantes. Essa flexibilidade permite que o sistema funcione corretamente em diversas condições acústicas e domínios (por exemplo, monitoramento de mídia, fala institucional, análise de fala). O sistema é acessível através de uma interface web fácil de usar, onde os usuários podem enviar gravações de áudio/vídeo, visualizar os resultados e exportá-los em formatos padrão legíveis (por exemplo, SRT).

Leia o artigo completo.

 

Descubra mais sobre as nossas tecnologias de Speech & Voice. arrow right