Reconeixement afectiu automàtic mitjançant l'anàlisi de paràmetres acústics i lingüístics de la parla espontània

Aquesta tesi aborda el reconeixement automàtic d'emocions espontànies basat en l'anàlisi del senyal de veu. Es realitza dins del Grup de recerca de Tecnologies Mèdia d'Enginyeria i Arquitectura La Salle, tenint el seu origen en un moment en el qual existeixen obertes diverses línies d...

Descripción completa

Detalles Bibliográficos
Autor principal: Planet García, Santiago (-)
Autor Corporativo: Escola Tècnica Superior d'Enginyeria Electrònica i Informàtica La Salle (-)
Otros Autores: Iriondo Sanz, Ignasi, dir (Conductor)
Formato: Tesis
Idioma:Catalán
Publicado: [Barcelona] : Universitat Ramon Llull DL 2013
Materias:
Acceso en línea:Accés lliure
Ver en Biblioteca Universitat Ramon Llull:https://discovery.url.edu/permalink/34CSUC_URL/1im36ta/alma991009635020206719
Descripción
Sumario:Aquesta tesi aborda el reconeixement automàtic d'emocions espontànies basat en l'anàlisi del senyal de veu. Es realitza dins del Grup de recerca de Tecnologies Mèdia d'Enginyeria i Arquitectura La Salle, tenint el seu origen en un moment en el qual existeixen obertes diverses línies de recerca relacionades amb la síntesi afectiva però cap d'elles relacionada amb la seva anàlisi. La motivació és millorar la interacció persona-màquina aportant un mòdul d'anàlisi en l'entrada dels sistemes que permeti, posteriorment, generar una resposta adequada a través dels mòduls de síntesis en la sortida dels mateixos. El focus d'atenció se situa en l'expressivitat afectiva, intentant dotar d'habilitats d'intel·ligència emocional a sistemes d'intel·ligència artificial amb l'objectiu d'aconseguir que la interacció persona-màquina s'assembli, en la major mesura possible, a la comunicació humana. En primer lloc es realitza una anàlisi preliminar basada en locucions gravades en condicions ideals. L'expressivitat vocal en aquest cas és actuada i els enregistraments responen a un guió previ que determina a priori l'etiqueta que descriu el contingut afectiu de les mateixes. Si bé aquest no és el paradigma de la interacció en un entorn realista, aquest primer pas serveix per provar les primeres aproximacions a la parametrització dels corpus, els mètodes de selecció de paràmetres i la seva utilitat en l'optimització dels procediments, així com la viabilitat de considerar el sistema de reconeixement afectiu com un exercici de classificació categòrica. Així mateix, permet comparar els resultats obtinguts en aquest escenari amb els que s'obtenen posteriorment en l'escenari realista. Si bé pot considerar-se que la utilitat d'un marc de treball com l'aquí proposat manca d'interès més enllà de l'exercici de comprovació citat, en aquesta tesi es proposa un sistema basat en aquest plantejament la finalitat del qual és la validació automàtica d'un corpus de veu expressiva destinat a síntesi, ja que en síntesi sí és necessari que el corpus estigui gravat en condicions òptimes posat perquè serà emprat per a la generació de noves locucions. En segon lloc la tesi aprofundeix en l'anàlisi del corpus FAU Aibo, un corpus multilocutor de veu expressiva espontània gravat en alemany a partir d'interaccions naturals d'un grup de nens i nenes amb un robot dotat d'un micròfon. En aquest cas el plantejament és completament diferent a l'anterior partint de la definició del propi corpus, en el qual les locucions no responen a un guió previ i les etiquetes afectives s'assignen posteriorment a partir de l'avaluació subjectiva de les mateixes. Així mateix, el grau d'expressivitat emocional d'aquestes locucions és inferior al de les gravades per un actor o una actriu perquè que són espontànies i les emocions, atès que es generen de forma natural, no responen necessàriament a una definició prototípica. Tot això sense considerar que les condicions d'enregistrament no són les mateixes que les que s'obtindrien en un estudi d'enregistrament professional. En aquest escenari els resultats són molt diferents als obtinguts en l'escenari anterior raó per la qual es fa necessari un estudi més detallat. En aquest sentit es plantegen dues parametritzacions, una a nivell acústic i una altra a nivell lingüístic, ja que la segona podria no veure's tan afectada pels elements que poden degradar la primera, tals com a soroll o altres artefactes. Es proposen diferents sistemes de classificació de complexitat variable malgrat que, sovint, els sistemes més senzills produeixen resultats adequats. També es proposen diferents agrupacions de paràmetres intentant aconseguir un conjunt de dades el més petit possible que sigui capaç de dur a terme un reconeixement afectiu automàtic de forma eficaç. Els resultats obtinguts en l'anàlisi de les expressions espontànies posen de manifest la complexitat del problema tractat i es corresponen amb valors inferiors als obtinguts a partir de corpus gravats en condicions ideals. No obstant això, els esquemes proposats aconsegueixen obtenir resultats que superen els publicats a data d'avui en estudis realitzats en condicions anàlogues i obren, per tant, la porta a recerques futures en aquest àmbit.
Descripción Física:1 recurs electrònic (217 p.)