Comandos de Voz em Aplicações Windows 8

Por que eu devo ler este artigo:Hoje em dia, principalmente devido ao avan�o nos dispositivos m�veis, o reconhecimento de voz em aplica��es tem se tornado uma realidade. Com a presen�a massiva de microfones e alto-falantes nos dispositivos, � muito interessante utilizar reconhecimento e s�ntese de voz em aplica��es. Para isso, o Bing Speech � uma excelente op��o, e muito simples de ser utilizado em aplica��es Windows 8 e Windows Phone 8.

Ele � dividido em duas APIs b�sicas: uma para reconhecimento, e outra para s�ntese de voz, sendo a primeira baseada em um web service e a segunda sendo baseada em streams de �udio, criadas a partir de strings. Esse artigo apresenta essa API e ensina como utiliz�-la para criar texto a partir da fala (reconhecimento de voz) e fazer a aplica��o fornecer feedbacks de �udio ao usu�rio (s�ntese de voz).

Atualmente, temos visto um avan�o muito grande em tecnologias que, at� poucos anos atr�s, n�o eram nem sequer cogitadas. Os avan�os na Intelig�ncia Artificial foram muitos na �rea de reconhecimento e s�ntese de voz, o que faz com que essa tecnologia nem seja tratada mais como um conceito de IA, j� tendo se desvinculado e se tornado um campo totalmente independente.

As possibilidades que os dispositivos �inteligentes� oferecem s�o muitas e � preciso que o desenvolvedor saiba utiliz�-las para criar a melhor experi�ncia poss�vel para os usu�rios.

Nesse contexto, o Windows 8 traz uma tecnologia que vem se consolidando desde o seu lan�amento e tem atra�do os olhares dos usu�rios ao redor do mundo. Isso se d� pelo fato de ser uma tecnologia, visualmente falando, extremamente atrativa ao usu�rio comum. Al�m disso, se trata de um sistema muito simples de ser utilizado, muito intuitivo.

Para o desenvolvedor, o Windows 8 tamb�m traz uma s�rie de benef�cios, principalmente a partir da Windows Store, onde � poss�vel comercializarmos aplica��es com todos os usu�rios da plataforma.

Com o aumento do poder de processamento dos dispositivos, cada vez mais os usu�rios tem buscado elementos que melhorem sua experi�ncia ao utilizar aplica��es. Pensando nisso, o Bing oferece uma s�rie de APIs e controles que auxiliam os desenvolvedores na hora de aplicar essas tecnologias �s suas aplica��es.

Um deles � o Bing Speech Control, controle destinado � adi��o de comandos, reconhecimento e s�ntese de voz em aplica��es Windows 8 e Windows Phone 8. Trata-se de um controle bastante simples de ser utilizado, e � poss�vel criarmos aplica��es extremamente ricas tratando de assuntos como a navega��o atrav�s de comandos de voz, entre outros elementos interessantes.

Reconhecimento de discurso

O reconhecimento de discurso, ou Speech Recnognition, � a capacidade de tradu��o da fala em texto. Trata-se de um campo que at� pouco tempo atr�s estava nos bra�os da Intelig�ncia Artificial, e que hoje em dia � um campo de estudos independente. � muito comum vermos, em salas de aula ao redor do Brasil e do mundo, professores ditando conte�do para seus alunos.

O reconhecimento de voz funciona dessa forma: a diferen�a � que o usu�rio est� ditando para o dispositivo. A utiliza��o dessa tecnologia inclui opera��es presentes em diversos dispositivos modernos, como chamadas por voz, pesquisa, entrada de dados e avia��o. � um conceito que leva diretamente a outro, muito utilizado em seguran�a de sistemas de informa��o, que � o reconhecimento de voz, ou Voice Recognition (BOX 1).

BOX 1. Voice Recnognition

O reconhecimento de voz � uma aplica��o bastante interessante da tecnologia de Speech Recognition, que diz respeito muito mais � seguran�a de sistemas de informa��o do que qualquer outra coisa. � um conceito que trata da identifica��o das pessoas atrav�s da voz das mesmas.

Todos sabem que cada pessoa possui uma tonalidade de voz �nica, embora muitas tenham vozes muito parecidas. Para n�s, pode ser bastante complicado identificarmos a pessoa apenas atrav�s de sua voz em alguns casos, mas os computadores possuem a capacidade de distinguir mesmo vozes muito similares.

� um conceito que � bastante confundido com o conceito de reconhecimento de discurso, que � respons�vel por identificar o que est� sendo dito, e n�o quem est� dizendo.

As tecnologias atuais de reconhecimento de discurso podem ser aplicadas em diversas �reas, come�ando pela sa�de, onde surge como um meio de facilitar a escrita de relat�rios m�dicos, prescri��es, entre outros, at� telefonia e avia��o, onde pode ser utilizado nos sistemas de controle.

Algumas dessas aplica��es podem trazer problemas na utiliza��o dessa tecnologia, devido a barulhos externos. Para isso, muitas vezes s�o utilizados microfones especiais, espec�ficos para detectar determinadas frequ�ncias, e, com isso, eliminar os ru�dos da comunica��o.

Speech Recognition � baseado em modelos de linguagem, ou Language Models. Esses modelos nada mais s�o que distribui��es de probabilidade atrav�s de sequ�ncias de caracteres ou palavras.

Em outras palavras, se trata de encontrar a sequ�ncia de palavras mais prov�vel, dado o som que foi captado. Isso � baseado no Teorema de Bayes, com algumas altera��es, conforme mostra a Figura 1, onde S* � a senten�a poss�vel e O � o modelo ac�stico do sistema. O objetivo �, baseado em uma evid�ncia (o som observado), definir qual hip�tese � mais prov�vel entre um conjunto de informa��es que o sistema possui.

At� certo ponto, conforme o conjunto aumenta, a performance do sistema de reconhecimento tamb�m. Por�m, chega um ponto em que o leque de op��es aumenta tanto que a taxa de erro come�a a crescer muito, o que diminui a capacidade do sistema. Por isso, � importante definir com precis�o o tamanho do conjunto de teste sobre o qual a distribui��o de probabilidades ser� calculada.

Por exemplo, ao receber um som, o sistema poder� compar�-lo para definir a probabilidade de o som ser �Quando ir para a praia� e �Quando cair na gandaia�, entre outras frases similares.

Figura 1. Teorema de Bayes aplicado ao Reconhecimento de Discurso

A performance de sistemas de reconhecimento de discurso normalmente s�o definidas em termos de qualidade e velocidade. A velocidade do sistema � importante, pois nenhum usu�rio gosta de esperar muito tempo para obter um resultado, em qualquer meio.

A qualidade, por sua vez, � medida em termos de taxas de erros. Conforme foi comentado, conforme o vocabul�rio do sistema, a taxa de erros tende a aumentar a partir de certo ponto, uma vez que as similaridades entre os sinais ac�sticos tendem a ficarem maiores.

Outro ponto que pode definir a qualidade e velocidade do sistema � o foco do mesmo: caso seja um sistema criado para um usu�rio apenas, acaba sendo mais simples e os resultados s�o melhores; do contr�rio, trata-se de um sistema mais complexo e que tende ...

Quer ler esse conteúdo completo? Tenha acesso completo

Tecnologias:

Confira outros conte�dos:

Teste unit�rio com NUnit

Como migrar projetos do ASP.NET MVC...

Crie relat�rios com o Stimulsoft...

Assista grátis a nossa aula inaugural

Perguntas frequentes

Quem somos?

Por que a programação se tornou a profissão mais promissora da atualidade?

Como faço para começar a estudar?

Em quanto tempo de estudo vou me tornar um programador?

Sim, você pode se tornar um programador e não precisa ter diploma de curso superior!

O que eu irei aprender estudando pela DevMedia?

Principais diferenciais da DevMedia

Qual o investimento financeiro que preciso fazer para me tornar um programador?

Como funciona a forma de pagamento da DevMedia?

Por Henrique Em 2014

Nossos casos de sucesso

Leonardo Carlos

Eu sabia pouqu�ssimas coisas de programa��o antes de come�ar a estudar com voc�s, fui me especializando em v�rias �reas e ferramentas que tinham na plataforma, e com essa bagagem consegui um est�gio logo no in�cio do meu primeiro per�odo na faculdade.

Lucas Rodrigues

Estudo aqui na Dev desde o meio do ano passado! Nesse per�odo a Dev me ajudou a crescer muito aqui no trampo.
Fui o primeiro desenvolvedor contratado pela minha empresa. Hoje eu lidero um time de desenvolvimento!
Minha meta � continuar estudando e praticando para ser um Full-Stack Dev!

Her�clito J�nior

Economizei 3 meses para assinar a plataforma e sendo sincero valeu muito a pena, pois a plataforma � bem intuitiva e muuuuito did�tica a metodologia de ensino. Sinto que estou EVOLUINDO a cada dia. Muito obrigado!

Julio Cablen

Nossa! Plataforma maravilhosa. To amando o curso de desenvolvimento front-end, tinha coisas que eu ainda n�o tinha visto. A did�tica � do jeito que qualquer pessoa consegue aprender. S�rio, to apaixonado, adorando demais.

Joelberth Sena

Adquiri o curso de voc�s e logo percebi que s�o os melhores do Brasil. � um passo a passo incr�vel. S� n�o aprende quem n�o quer. Foi o melhor investimento da minha vida!

Felipe Nunes

Foi um dos melhores investimentos que j� fiz na vida e tenho aprendido bastante com a plataforma. Voc�s est�o fazendo parte da minha jornada nesse mundo da programa��o, irei assinar meu contrato como programador gra�as a plataforma.

Wanderson Oliveira

Comprei a assinatura tem uma semana, aprendi mais do que 4 meses estudando outros cursos. Exerc�cios pr�ticos que n�o tem como n�o aprender, est�o de parab�ns!

Jos� Lucas

Obrigado DevMedia, nunca presenciei uma plataforma de ensino t�o presente na vida acad�mica de seus alunos, parab�ns!

Eduardo Dorneles

Aprendi React na plataforma da DevMedia h� cerca de 1 ano e meio... Hoje estou h� 1 ano empregado trabalhando 100% com React!

Adauto Junior

J� fiz alguns cursos na �rea e nenhum � t�o bom quanto o de voc�s. Estou aprendendo muito, muito obrigado por existirem. Est�o de parab�ns... Espero um dia conseguir um emprego na �rea.

Ver todos os casos de sucesso

Comandos de Voz em Aplica��es Windows 8

Esse artigo apresenta a API de reconhecimento de voz e ensina como utiliz�-la para criar texto a partir da fala (reconhecimento de voz) e fazer a aplica��o fornecer feedbacks de �udio ao usu�rio (s�ntese de voz).