Da fala ao texto: recursos que orientarão as escolhas de adoção | Almawave
x icon pop up SAIBA MAIS

Pesquisar no site

Não encontrou o que estava procurando?

Da fala ao texto: recursos que orientarão as escolhas de adoção

Automatic Speech Recognition, Automatic Speech Recognition

18 Maio 2021

Da fala ao texto: recursos que orientarão as escolhas de adoção

O mercado de transcrição de voz para texto está crescendo, com aplicativos abrangendo os mais diversos setores. Mas quais são as características importantes através das quais chamar a atenção nos próximos dois ou três anos? Propomos algumas.

Precisão do reconhecimento de voz

Para transcrições de áudio nas línguas mais populares (por exemplo, o inglês), foi alcançada uma precisão que em alguns cenários é próxima à de humanos, com valores próximos a 95% (portanto, com WER – taxa de erro de palavra – de 5 %). Portanto, quem lida com tecnologia de reconhecimento de voz terá que trazer os mesmos padrões de precisão para outras línguas, certificando-se de atingir níveis mais do que satisfatórios para realidades cada vez mais multinacionais e multilíngues (empresas e, consequentemente, clientes finais).

Para além destas capacidades, os jogadores terão de incluir na oferta soluções que visem melhorar a qualidade do output disponibilizado aos seus clientes, que vão desde a identificação das línguas faladas à diarização do locutor (mais sobre isto adiante), garantindo que o os níveis de precisão prometidos realmente se materializam conforme se aplicam ao mundo real. Um exemplo que muitas vezes é dado como certo é a capacidade de fornecer saída de transcrição de qualidade em ambientes ruidosos, conversas espontâneas ou áudio gravado em dispositivos de baixa qualidade.

Identifique quem diz o quê

A diarização de locutores é usada para identificar as vozes de indivíduos em arquivos de áudio/multimídia gravados em um único canal: os “locutores únicos” são identificados atribuindo-se um rótulo a cada um deles e associando-o às partes do texto correspondentes na transcrição.

Esta atividade representa um verdadeiro desafio para os sistemas automatizados: um único locutor pode variar o tom e a maneira de falar de acordo com o humor, hesitação, ênfase que deseja dar às palavras, ruído ambiente e muitas outras variáveis, trazendo assim todas as suas nuances para um único rótulo, e diferenciá-lo dos outros não é tão óbvio quanto pode parecer.

Identificação automática da língua falada

Automatizar a etapa de identificação do idioma falado em tempo real antes de iniciar o processo de transcrição (uma atividade que de outra forma ocorreria com a seleção manual do pacote de idioma correto) permite que as empresas simplifiquem a gestão dos processos de negócios em contextos multilíngues, evitando que o ativo vocal se perca ou esteja disponível tarde demais.

Personalização de modelos acústicos e linguagem

A disponibilidade de tecnologias proprietárias é a força motriz para obter o melhor desempenho de transcrição automática. A adaptação de modelos acústicos e de linguagem, específicos ao contexto de referência, permite-lhe transcrever áudio em texto a partir de uma vasta gama de entradas (telefone, emissão), obtendo elevados padrões de qualidade, bem como ultrapassando os obstáculos da voz reconhecimento devido a ambientes acústicos particulares e terminologias de domínio específicas (por exemplo: nomes de estruturas, produtos, marcas, siglas usadas pelo cliente).

A capacidade de ajuste desses modelos permite garantir saídas mais adequadas e precisas, ao contrário da adoção de sistemas de uso geral. Mas o caminho deve ser refinado, também por meio de uma colaboração mais próxima entre usuários e fornecedores, desde o compartilhamento de dados até a obtenção (progressiva e incremental) de resultados realmente eficazes.

Extensão das capacidades dos Assistentes Virtuais

Dada a grande atenção dada ao mundo dos assistentes virtuais e seu uso crescente em smartphones e outros dispositivos, é essencial aumentar a precisão, mesmo em contextos específicos e cenários de aplicação (por exemplo, suporte para bloqueio de cartões de crédito, reserva de exames médicos).

Os consumidores esperam que seus assistentes virtuais os entendam, independente do sotaque, dialeto ou língua, mesmo no caso de frases nem sempre contextualizadas com facilidade.

Da fala ao texto e tradução automática no idioma de destino

Uma necessidade típica das empresas que operam globalmente é usar uma linguagem comum, única e reconhecível que as represente, independentemente do país em que as comunicações (institucionais ou internas à própria empresa) serão veiculadas. Nesse cenário, é necessário contar com ferramentas avançadas que permitam a transcrição imediata do idioma do falante para o do ouvinte.

As soluções para comunicação multilíngue devem permitir altos níveis de precisão e latência reduzida.