APLICACIÓN DE REDES NEURONALES MORFOLÓGICAS AL RECONOCIMIENTO DE VOCABLOS SIMPLES
DOI:
https://doi.org/10.24054/rcta.v1i19.1940Palabras clave:
Reconocimiento de voz, aprendizaje automático, redes neuronalesResumen
En este trabajo se realiza un estudio de los métodos más utilizados para la extracción de características de voz que permitan obtener una buena descripción de los fonemas independientemente del hablante. Se examinan también, las técnicas
tradicionales en el reconocimiento de habla, en especial, las orientadas al reconocimiento de vocablos simples para crear un marco de referencia bajo el cual se pueda evaluar el rendimiento de las redes neuronales morfológicas como técnica de reconocimiento de voz.
Descargas
Citas
Makhoul, J. (2006). Speech Procesing at BBN,
BBN Technologies.
Molina, C., Becerra, N., Huenupán, F, Garretón C.
Y Wuth J. (2010). “Maximum Entropy-Based
Reinforcement Learning Using a Confidence
Measure in Speech Recognition for
Telephone Speech”. IEEE Trans. On audio, Speech, and Language Processing, Vol. 18,
No. 5.
Bou-Ghazale, S. Y. Hansen, J. “A Comparative
Study of Traditional and Newly Proposed
Features for Recognition of Speech Under
Stress”. IEEE Trans. On Speech Audio
Processing, Vol. 8, pp. 429-442.
Fandiño, D. (2005). Estado del arte en el
reconocimiento automático de voz.
Universidad Nacional de Colombia.
Sanz P. Y Vera De Payer, E. (S.F). Reconocimiento
de comandos de voz aplicado a sistema
robótico médico, Universidad Nacional de
Córdoba.
Zañartu, M. (2003). Aplicaciones del análisis
acústico en los estudios de la voz humana.
Seminario Internacional de Acústica,
Universidad Pérez Rosales.
Jones, R. (2009). Inteligibilidad del habla. Cetear.
Sepúlveda, F. Y Castellanos, G. (2004)
“Estimación de la frecuencia fundamental de
señales de voz usando Transformada
Wavelet”. Scientia Et Technica.
Díaz, J., Sapienza, C., Rothman, H., Y Natour, Y.
(2003). Algoritmo robusto para la detección
de la frecuencia fundamental en la voz
basado en el espectrograma. Ingeniería UC,
Universidad de Carabobo, pp. 7-16.
Cáceres, J. (2007). Transformada corta de Fourier
y ventanas. Stanford University.
Cortés, J., Medina, F., Y Chávez, J. (2007). “Del
análisis de Fourier a las Wavelets”. Scientia
Et Technica.
Ravelli, E., Richard, G., Y Daudet, L. (2010).
“Audio Signal Representations for Indexing
in the Transform Domain”. IEEE Trans. On
Speech Audio Processing, Vol. 18, pp. 434-
Álvarez, A. (2001). Algoritmos de extracción de
características. Universidad Politécnica de
Madrid.
San Martin, y C., Carrillo, R. (2004).
“Implementación de un reconocedor de
palabras aisladas dependiente del locutor”.
Revista Facultad de Ingeniería U.T.A Chile,
Vol. 12.
Terrádez, M. (S.F). Análisis de componentes
principales. Universidad Abierta de Cataluña.
IBM SPSS. (2002). Guía para el análisis de datos.
Díaz, E. (2003). Análisis discriminante.
Galbiati, J. (2009). Análisis discriminante.
Barrón, R. (2006). Memorias asociativas y redes
neuronales morfológicas para la
recuperación de patrones. Instituto
Politécnico Nacional, México D.F.
Ritter, G., Y Sussner, P. (1996). An Introduction to
Morphological Neural Networks. Proceedings
of the 13th International Conference on
Pattern Recognition.
Sun, X. (2000). A pitch determination algorithm
based on subharmonic-to-harmonic ratio. 6th
International Conference of Spoken Language
Processing.
Sepúlveda, F. (2004). Extracción de parámetros de
voz usando técnicas de análisis en tiempofrecuencia.
Universidad Nacional de
Colombia.
SITIOS WEB
Wikipedia. (2010-1). Señal de voz.
http://es.wikipedia.org/wiki/Se%C3%B1al_de
_voz. (26 de julio 2010).
Wikipedia. (2010-2). Mel-frequency cepstrum.
http://en.wikipedia.org/wiki/Melfrequency_
cepstrum. (10 de agosto 2010).
Wikipedia. (2010-3). Linear Predictive Coding.
http://en.wikipedia.org/wiki/Linear_predictive
_coding. (12 de agosto 2010)
Descargas
Publicado
Versiones
- 2012-01-02 (4)
- 2012-01-02 (3)
- 2012-01-02 (2)
- 2022-11-08 (1)
Cómo citar
Número
Sección
Licencia
Derechos de autor 2022 REVISTA COLOMBIANA DE TECNOLOGIAS DE AVANZADA (RCTA)
Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.