Speechz Text to speech 1.0

Licença: Grátis ‎Tamanho do arquivo: N/A
‎Classificação dos utilizadores: 0.0/5 - ‎0 ‎votos

Sobre Speechz Text to speech

Texto de Speechz para a fala

A síntese da fala é a produção artificial da fala humana. Um sistema informático utilizado para este fim é chamado de sintetizador de fala, e pode ser implementado em software ou produtos de hardware. Um sistema text-to-speech (TTS) converte o texto linguístico normal em fala; outros sistemas tornam representações linguísticas simbólicas como transcrições fonéticas em discurso. [1] A fala sintetizada pode ser criada através da concatenação de peças de fala gravadas que são armazenadas numa base de dados. Os sistemas diferem no tamanho das unidades de fala armazenadas; um sistema que armazena telefones ou diphones fornece a maior gama de saída, mas pode não ter clareza. Para domínios de utilização específicos, o armazenamento de palavras ou frases inteiras permite uma saída de alta qualidade. Alternativamente, um sintetizador pode incorporar um modelo do trato vocal e outras características de voz humana para criar uma saída de voz completamente "sintética". [2] A qualidade de um sintetizador de discurso é avaliada pela sua semelhança com a voz humana e pela sua capacidade de ser compreendida. Um programa inteligível de texto para falar permite que pessoas com deficiências visuais ou com deficiências de leitura ouçam trabalhos escritos num computador doméstico. Muitos sistemas operativos informáticos incluem sintetizadores de fala desde o início dos anos 90.

Visão geral de um sistema TTS típico

Anúncio automático MENU0:00 Uma voz sintética anunciando um comboio que chegava à Suécia. Problemas em reproduzir este ficheiro? Consulte a ajuda dos media.

Amostra de Microsoft Sam MENU0:00 A voz padrão do sintetizador de voz do Microsoft Windows XP diz "A raposa castanha rápida salta sobre o cão preguiçoso 1.234.567.890 vezes. soi " Problemas em reproduzir este ficheiro? Consulte a ajuda dos media. Um sistema text-to-speech (ou "motor") é composto por duas partes:[3] uma extremidade frontal e uma extremidade traseira. A frente tem duas grandes tarefas. Em primeiro lugar, converte textos crus contendo símbolos como números e abreviaturas no equivalente a palavras escritas. Este processo é muitas vezes chamado de normalização de texto, pré-processamento ou tokenização. O front-end atribui então transcrições fonéticas a cada palavra, e divide e marca o texto em unidades prosódicas, como frases, cláusulas e frases. O processo de atribuição de transcrições fonéticas a palavras chama-se conversão de texto-a-telefone ou de grafeme-para-telefone. Transcrições fonéticas e informações prosóditas juntos compõem a representação linguística simbólica que é produção pela parte frontal. O back-end—muitas vezes referido como o sintetizador—em seguida, converte a representação linguística simbólica em som. Em certos sistemas, esta parte inclui a computação da prosódia-alvo (contorno de altura, duração do fonâne)[4] que é então imposta no discurso de saída.