Godkända
Röstigenkänning med Biologi-Inspirerad Särdragsextraktion
Edvin Andersson (2015)
Start
2021-01-20
Presentation
2021-06-21 11:15
Plats:
https://lu-se.zoom.us/j/69378152860
Avslutat:
2021-06-30
Examensrapport:
Sammanfattning
Den mänskliga hjärnan kan skilja på olika personers röster enbart med de frekvenser som registreras av innerörat. Röstigenkänning är en del av datavetenskapen där man med hjälp av bearbetning av ljuddata försöker efterlikna denna process. Relevant information som kan användas för att särskilja mellan olika talare extraheras ur den högdimensionella ljuddata och med hjälp av denna information kan ljudklipp kategoriseras efter talare. Det finns flera metoder som kan användas för att bearbeta data, varav de flesta bygger på att modellera ett ljudklipp som en sekvens av mindre tidsenheter med information om frekvensernas intensiteter vid respektive tidsenhet. Det är vanligt att använda MFCC koefficienter vilka representerar den övergripande formen på frekvensspektrumet istället för att ta hänsyn till de enskilda frekvenserna. Inspirerat av hur den mänskliga hjärnan bearbetar sensorisk data presenterar denna rapport ett annat tillvägagångssätt som låter en oövervakad modell urskilja särskilda kombinationer av frekvenser från in-data. Dessa kombinationer uppstår ur modellen eftersom frekvenserna har ett temporalt förhållande mellan varandra där deras intensiteter korrelerar i tiden över flera ljudklipp och olika talare. Att extrahera de temporala mönster som uppstår mellan olika frekvenser istället för den övergripande formen på frekvensspektrumet leder till nya sätt att bearbeta ljuddata.
Handledare: Fredrik Edman (EIT)
Examinator: Erik Larsson (EIT)