Transformando texto escrito em texto narrado com .NET e a biblioteca System.Speech

Natal DevMedia: Assine hoje e ganhe 3 meses gr�tis

Introdu��o

O objetivo deste artigo � mostrar como gerar arquivos de �udio, contendo seus textos sendo narrados pelo sintetizador de voz do windows, atrav�s da biblioteca System.Speech.

O conceito de transformar texto em voz (ou texto em narra��o - termo: Text to Speech) n�o � algo novo, existem relatos de sistemas operacionais come�ando a implementar este recurso desde a d�cada de 80.

O objetivo deste artigo � demonstrar a praticidade que podemos ter ao querer usar este recurso, uma vez que, ao longo dos anos, tem evolu�do bastante na qualidade do �udio produzido, e sua utiliza��o � muito simples dentro do framework .net. E, com isso, poder vir a integrar, eficazmente, nossos projetos.

A quem interessa este artigo

- Desenvolvedores interessados em solu��es de acessibilidade (e tamb�m comodidade) destinada a sites/softwares com op��o para os seus usu�rios terem acesso ao conte�do j� escrito tamb�m em �udio.

- Desenvolvedores interessados em solu��es para aux�lio de estudantes de idiomas; Que podem tamb�m utilizar deste recurso para praticar a pron�ncia de palavras.

- Pesquisadores ou estudantes interessados no recurso de �Text to Speech�.

- Qualquer pessoa, que, por algum motivo, necessite transformar texto em �udio.

Do que vamos precisar

1 - Baixar uma �Voice� (voz), capaz de reproduzir um texto no idioma que queremos.

2 - Desenvolver uma pequena aplica��o capaz de utilizar a biblioteca System.Speech, junto com a voz correspondente ao idioma, para converter o texto em �udio.

Encontrado uma Voz correspondente ao idioma do texto

Por padr�o, o windows possui uma voz capaz de ler textos no idioma ingl�s, com sotaque norte americano. Esta voz chama-se microsoft SAM ( no windows xp) ou Microsoft Ana (Windows 7). N�s podemos come�ar j� utilizando esta voz em nosso exemplo, e depois ir incorporando vozes de outros idiomas.

De imediato, qualquer pessoa pode testar a voz do windows indo no painel de controle -> teclado -> op��es de texto e fala (windows xp), ou painel de controle -> reconhecimento de voz -> Text to speech (windows 7).

Para o nosso idoma, portugu�s, a melhor voz que encontrei � chamada �Raquel�, do fabricante Scan Soft. Ela � capaz de ler textos em portugu�s com o som muito fiel ao de uma pessoa de verdade. Infelizmente n�o � gratuita, custa em torno de uns $40 a $90, mas a sua qualidade vale o pre�o.

Este �udio, foi feito durante a confec��o deste artigo e foi gerado usando a voz �Raquel�, e dizendo o texto �eu sou a mosca que pousou em sua sopa�:

http://www.rendti.com.br/examples/texttospeech/exemplo_ptBR.mp3

No final do artigo colocarei mais alguns links de projetos text to speech, de refer�ncias usadas para criar este artigo, e o c�digo fonte de um projeto de demonstra��o.

A biblioteca System.Speech

biblioteca System.Speech, do .net framework, possui 3 poderosos namespaces:

System.Speech.Synthesis: Namespace respons�vel por conter classes para manipular o sintetizador de voz, capaz de transformar texto em �udio.

System.Speech.AudioFormat: Namespace respons�vel por conter classes para gerar o arquivo de �udio e definir a qualidade do mesmo.

System.Speech.Recognition: Cont�m classes e namespaces respons�veis por fazer o efeito inverso do proposto neste artigo; ou seja, reconhecer a voz e transformar em texto.

Para realizar nosso exemplo, usaremos os namespaces: System.Speech.Synthesis e o System.Speech.AudioFormat.

Colocando a m�o na massa

Primeiramente, adicionamos a refer�ncia para o System.Speech em nosso projeto. No Visual Studio, criei um projeto C# Windows Application, e em seguida adicionei a refer�ncia. ( References -> Add Reference -> .NET -> System.Speech ).

Em seguida vamos desenvolver nosso c�digo de exemplo. Dentro do namespace respons�vel pelo sintetizador de voz, a classe que mais utilizaremos � a SpeechSynthesizer.

A maneira mais simples de �ouvir o computador falar� � instanciando esta classe e utilizando seu m�todo Speak, como no c�digo abaixo.


new
 System.Speech.Synthesis.SpeechSynthesizer().Speak("Hello World!");

Com este comando voc� ouvir� a narra��o do texto. Muito simples, n�o � mesmo ?. � claro que temos tamb�m mais outras op��es interessantes; como o m�todo GetInstalledVoices (dispon�vel a partir do .net framework vers�o 3) que ir� nos dar uma lista das vozes instaladas em nosso sistema operacional. No exemplo abaixo, vamos popular um combo com essa informa��o:

Declaramos, no in�cio do arquivo, os namespaces que vamos precisar:


   using System.Speech.Synthesis;
   using System.Speech.AudioFormat;

   //E este � o nosso m�todo: CarregaComboVozes

//---------------------------------
   private void carregaComboVozes(ComboBox cmb)
        {
            SpeechSynthesizer synth = new SpeechSynthesizer();
            foreach (InstalledVoice voice in synth.GetInstalledVoices())
            {
                VoiceInfo info = voice.VoiceInfo;
                     string detalhesVoz =
                    "Nome : " + info.Name + " - Idioma: " + info.Culture + 
                    " - Idade: " + info.Age + " G�nero: " + info.Gender + 
                    " - Descri��o: " + info.Description;
                cmb.Items.Add(detalhesVoz);
            }
        }
//---------------------------------

Ao passar para este m�dodo, via par�metro, um objeto do tipo ComboBox, o resultado ser� similar a imagem abaixo:

Figura 1. Exemplo de Texto no Combobox.

Retornamos uma lista de InstalledVoice e, para cada uma, temos o objeto VoiceInfo que cont�m v�rias propriedades que descrevem cada voz instalada.

Dessas propriedades, temos uma em especial, chamada Name. Mais a frente, ela ser� a refer�nia que iremos passar para o nosso sintetizador saber qual voz querermos ouvir.

Entrando texto e gerando um arquivo de �udio .wav

O m�todo Speak nos permite ouvir o texto no mesmo instante ou gerar um arquivo de �udio. Abaixo temos um exemplo de como criar o nosso arquivo .wav, usando a voz Raquel, no idioma pt-BR.


// Instanciamos um objeto para a classe 
// System.Speech.Synthesis.SpeechSynthesizer
using (SpeechSynthesizer synth = new SpeechSynthesizer())
            {

            // Configuramos a sa�da do �udio, indicando a 
           //  qualidade do arquivo .wav 
                synth.SetOutputToWaveFile(@"C:\teste.wav",
                new SpeechAudioFormatInfo(32000, AudioBitsPerSample.Sixteen, 
                AudioChannel.Mono));

             //Criamos o objeto SoundPlayer, respons�vel por �tocar� 
             // um arquivo .wav

                System.Media.SoundPlayer m_SoundPlayer =
                  new System.Media.SoundPlayer(@"C:\teste.wav");


                // Constru�mos um promptBuilder
                PromptBuilder builder = new PromptBuilder();

                // Indicamos o nome da voz (propriedade Name -> VoiceInfo ) 
                builder.StartVoice("ScanSoft Raquel_Full_22Hz");

                // Adicionamos o texto ao nosso prompt
                builder.AppendText("Eu sou a mosca que pousou em sua sopa");

                builder.EndVoice();

                // Speak the prompt.
                synth.Speak(builder);

                //Vamos ouvir o arquivo .wav
                m_SoundPlayer.Play();
            }

 //--------------------------------------------

Ao setar a op��o SetOutPutToWaveFile estamos avisando ao sintetizador que ele deve salvar a narra��o em um arquivo .wav. Automaticamente ele n�o ir� executar o �udio, ir� apenas gravar em arquivo. Por isso, para poder escutar, inst�nciamos a classe System.Media.SoundPlayer, cujo objeto, m_SoundPlayer, ter� a finalidade apenas de reproduzir o �udio do arquivo .wav.

Um pouco abaixo, temos a classe PromptBuilder, que pertence ao namespace System.Speech.Synthesis e cont�m parametros e m�todos para adicionar conte�do, selecionar vozes, controlar atributos das vozes e controlar a pron�ncia de palavras. No c�digo acima, em nosso objeto builder, n�s adicionamos o nosso texto (m�todo AppendText) e indicamos qual voz n�s gostariamos de usar (m�todo StartVoice - recebendo o nome da voz: este nome pode ser obtido atrav�s da propriedade Name, da classe VoiceInfo, citada anteriormente).

Ap�s setar o objeto builder, passamos o mesmo para o nosso sintetizador, atrav�s do m�todo Speak; onde ent�o ser� criado um arquivo .wav com a narra��o do nosso texto.

Convertendo .wav para .mp3

Caso prefira guardar a sua narra��o no formato .mp3, por ser mais leve, voc� pode usar o FFMPEG (http://ffmpeg.org/) para converter de wav para mp3.

Linha de comando do ffmpeg:

ffmpeg -i teste.wav -f mp3  teste.mp3

Executando esta linha de comando no nosso c�digo .NET


using System.Diagnostics;
(...)
//  ------------------------------------------------             
string caminhoFFmpeg = "C:\\ffmpeg\\ffmpeg.exe";
string origem = @"c:\teste.wav";
string saida = @"c:\teste.mp3";
string formatosaida = "mp3";
string comando = "-i \"" + origem + "\" -f  " + 
formatosaida + " \"" + saida + "\"";

System.Diagnostics.ProcessStartInfo processStartInfo = new 
System.Diagnostics.ProcessStartInfo(caminhoFFmpeg, comando);

System.Diagnostics.Process process = new System.Diagnostics.Process();
process.StartInfo = processStartInfo;

//  Executa o comando..             
bool processStarted = process.Start();
//  ------------------------------------------------

O FFMPEG � uma poderosa ferramenta, que funciona por linha de comando, capaz de realizar convers�es entre formatos de �udio e v�deo, caso tenha interesse no FFMPEG, pode ler meu artigo onde falo sobre o mesmo, no link:

//www.devmedia.com.br/-net-e-ffmpeg--convertendo-arquivos-de-videos---mpeg-flv-mov-3gp-vcd-vob---e-varios-outros/23702

Baixe o c�digo fonte de exemplo

Fiz este pequeno projeto, de demonstra��o, usando Windows.Forms com o Visual Studio 2005 (mas voc� pode converter para qualquer vers�o mais nova do visual studio), e o .net Framework 3.5, capaz de executar as funcionalidades descritas no artigo:

1 - Listar as vozes instaladas

2 - Selecionar a voz instalada e ouvir a narra��o de um texto.

3 - Selecionar a voz instalada e gravar um arquivo .mp3 com a narra��o do texto digitado.

Figura 2. Projeto em execu��o.

Baixando os arquivos .mp3 gerados na confec��o deste artigo

Para ter uma no��o da qualidade do �udio, ouvindo os arquivos gerados durante a cria��o deste artigo, � s� baixa-los nos links abaixo.

http://www.rendti.com.br/examples/texttospeech/exemplo_ptBR.mp3 -> Em portugu�s, falando �eu sou a mosca que pousou em sua sopa, eu sou a mosca que chegou pra te abusar�.

http://www.rendti.com.br/examples/texttospeech/exemplo_enUS.mp3 -> Em ing�s, falando �Hello, I am Hungry�.

Conclus�o

Atrav�s da biblioteca System.Speech � poss�vel integrar a funcionalidade de leitura de texto em suas aplica��es. Seu uso � f�cil, e voc� pode, tanto ouvir quanto salvar a narra��o em arquivo.

Salvar a narra��o em arquivo � uma funcionalidade que pode ser extendida junto com a biblioteca ffmpeg, para transformar o arquivo de �udio de .wav para .mp3.

O suporte aos idiomas fica condicionado �s vozes dispon�veis, instaladas no seu PC.

Para aqueles que t�m interesse no reconhecimento de voz, existem algumas fontes de material na internet. Dentre elas a p�gina da Universidade Federal do Par�. (Link no final do artigo)