Quem nunca tentou usar o recurso de comando de voz de um smartphone e se viu em apuros? Praticamente todos que possuem um recurso parecido conseguem se relacionar com os problemas de quem quer procurar por “casas na Catalunha” e acaba com pesquisas sobre preços para pintar a unha.
Esse tipo de engano ainda é muito comum hoje em dia por uma razão até que bem óbvia: máquinas não possuem ouvidos e, portanto, não conseguem entender o som. O que se faz é capturar o som pelo microfone do smartphone e então utilizar a frequência sonora dele para tentar inferir o seu significado.
Por isso que palavras parecidas são um pesadelo para programadores. Isso que nem começamos a falar de sotaques, gírias, maneirismos e problemas de fala.
Porém esse tempo de enganos em recursos de comando de voz está com os dias contados – pelo menos é o que promete um novo sistema da Microsoft. O novo sistema de reconhecimento de voz da empresa norte-americana chegou a um patamar histórico: empatou com o índice de reconhecimento de fala de um humano.
Para conseguir medir a capacidade do sistema, a empresa americana usou a métrica WER, que mede a taxa de erro por palavras ditas num ditado. Basicamente, se alguém diz "Batatinha quando nasce, espalha a rama pelo chão" e a máquina registra "Batatinha quando nasce se esparrama pelo chão", ela obtem uma nota de 37,5%, já que errou duas palavras.
O sistema da Microsoft registrou uma taxa de erros de apenas 5,9%, a mesma obtida por humanos que receberam a tarefa de fazer a transcrição do mesmo conteúdo de texto.
Segundo Huedong Huang, chefe de cientistas do setor de fala da Microsoft, o feito é para se ter orgulho, mas ainda está longe do resultado ideal da empresa, que é tem 0% de WER.
O progresso do sistema, porém, tem acontecido a velocidades assustadoras. Apenas no mês passado, o sitema obteve uma pontuação de 6,3 WER, melhorando 0,4 pontos em um mês.
O próximo passo para o sistema é conseguir obter uma pontuação perfeita em situações de teste e, claro, em situações adversas (como a existência de barulhos de fundo, como restaurantes, chuva ou ventos).