Caderno de Colab para demostración de síntese de voz (TTS) en galego usando o modelo ONNX de Celtia.
Este caderno demostra como usar un modelo VITS pre-adestrado en formato ONNX para xerar voz en galego a partir de texto. Utiliza o modelo Jarbas/proxectonos-celtia-vits-graphemes-onnx
dispoñible en Hugging Face, que é unha conversión do modelo Nos_TTS-celtia-vits-graphemes
do Proxecto Nós.
Unha das vantaxes de usar esta versión ONNX co código proporcionado neste caderno é que non require a instalación nin o uso do software externo Cotovía para o preprocesamento do texto. A normalización necesaria realízase mediante clases Python incluídas no propio caderno, simplificando a configuración.
Outra característica deste modelo é que require menos recursos para se executar xa que só pesa 131MB (en comparación co modelo orixinal de case 1 GB)
Podes escoitar un exemplo da voz xerada aquí:
exemplo.mp4
Facilitar o uso e a experimentación con modelos TTS para galego, proporcionando un exemplo funcional e auto-contido en Google Colab.
- Abrir en Colab: Fai clic no botón "Open In Colab" arriba.
- Configurar Directorio (Opcional): Na cela "1. Configuración...", activa
USE_GDRIVE
e axustaGDRIVE_PROJECT_PATH
se queres usar Google Drive para gardar os modelos e os audios xerados. Se non, usará o almacenamento temporal de Colab. - Executar Celas: Executa as celas en orde (Menú:
Entorno de ejecución
->Ejecutar todas
, ou unha por unha). - Autenticar en Hugging Face: Introduce o teu token de acceso de Hugging Face (con permisos de lectura) cando se solicite na cela "3. Autenticación...". Asegúrate tamén de ter aceptado os termos de uso na páxina do modelo en Hugging Face.
- Sintetizar Texto: Na cela "7. Execución...", modifica o
texto_para_sintetizar
se queres probar outras frases e/ou onome_base_arquivo
. - Escoitar/Descargar Audio: O audio (wav) xérase na carpeta
wavs
(no directorio base elixido) e móstrase un reprodutor ao final da cela - Podes descargar o arquivo desde o panel de arquivos de Colab.
onnxruntime
numpy
scipy
huggingface_hub
requests
- Modelo:
Jarbas/proxectonos-celtia-vits-graphemes-onnx
(Hugging Face) - Orixe: Conversión ONNX realizada por JarbasAl do modelo
proxectonos/Nos_TTS-celtia-vits-graphemes
(Hugging Face) do Proxecto Nós-TTS - Licenza do Modelo: Apache 2.0 (segundo os repositorios de orixe).
Este caderno distribúese baixo a Licenza MIT. Consulta o arquivo LICENSE
para máis detalles.
- Proxecto Nós (USC): Pola creación dos modelos TTS orixinais para galego.
- JarbasAl (Jarbas): Pola conversión dos modelos a formato ONNX e por compartilos.
- Grupo de Tecnoloxías Multimedia (GTM) da UVigo e CRPIH: Pola creación dos datasets de voz galegos fundamentais.
- Hugging Face: Polo aloxamento de modelos e datasets.
- Google Colab: Polo contorno de execución gratuíto.
- Gemini: Pola asistencia durante o desenvolvemento e depuración deste caderno.
- A calidade da síntese pode variar segundo a complexidade do texto de entrada.
- Este caderno utiliza unha voz estándar (Celtia). O soporte para diferentes variantes dialectais ('falas') requiriría outro tipo de traballos, como o afinamento (fine-tuning) de modelos usando datasets como FalAI (GTM-UVigo) e a disposición pública de versións dixitalizadas de invaluables recursos da lingua como o volume III do Atlas Lingüístico Galego adicado a fonética (Atlas Lingüístico Galego. Volume III: Fonética).