Advertisement

Microsoft registra 12% de melhora no sistema de reconhecimento de fala e atinge nível de compreensão humano


Com o lançamento da Bixby o mercado de inteligência artificial ficou ainda mais disputado. Entre tantas opções, a Microsoft é, de longe, a que mais investe no setor: são mais de 25 anos de investimentos em sistemas de reconhecimento de fala. 

Tudo começou lá em 1991 com o Microsoft Research e já naquela época a empresa fazia previsões bem ousadas como a de que um dia as máquinas ouviriam e entenderiam os seres humanos. Em dezembro do ano passado a empresa já vinha demonstrando que as coisas estavam indo muito bem de acordo com a seguinte declaração:

Em diversos testes do setor, nossos algoritmos de visão computacional superaram outros do mercado – até mesmo humanos. Mas o que é mais interessante para mim é que o progresso de nossa visão está aparecendo em nossos produtos, como o HoloLens, e em clientes, como os apps construídos pelo Uber para usar esses recursos.
declarou Harry Shum, vice-presidente executivo do grupo de Inteligência Artificial (IA) e Pesquisa da Microsoft.

Mas agora é oficial: a Microsoft atingiu uma margem de erro de apenas 5.1% no reconhecimento na fala, o que representa uma melhora de 12% em relação ao ano passado quando estava em 5.9%. Calma que o mais impressionante está por vir: esses 5.1% de margem de erro é o mesmo registrado em uma conversa entre humanos. Ou seja, ao pedir algo para a Cortnana, ela registrará a mesma precisão que um amigo seu registraria caso você pedisse pra ele.

Para chegar a essa marca a Microsoft adicionou novas tecnologias como o CNN-BLSTM (convolutional neural network combined with bidireccional long-short-term memory) que melhorou a interpretação da fala em diversos ambientes e sotaques. Mas, a empresa afirma que ainda tem muito o que evoluir, já que a interpretação em ambientes com muito ruídos e, quem sabe, no futuro fazer com que o sistema consiga interpretar falas ditas.

Fontes: PPLWare e Microsoft