ČESKÉ VYSOKÉ UČENÍ TECHNICKÉ V PRAZE Fakulta elektrotechnická Katedra teorie obvodů

ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2009

Editoři sborníku Doc. Ing. Petr Pollák, CSc. Doc. Ing. Roman Čmejla, CSc.

Prosinec 2009 ANALÝZA A ZPRACOVÁNÍ ŘEČOVÝCH A BIOLOGICKÝCH SIGNÁLŮ SBORNÍK PRACÍ 2009

Editoři: Doc. Ing. Petr Pollák, CSc. Doc. Ing. Roman Čmejla, CSc.

[email protected] [email protected]

Katedra teorie obvodů http://amber.feld.cvut.cz vedoucí: Prof. Ing. Pavel Sovka, CSc. http://noel.feld.cvut.cz/speechlab - Laboratoř zpracování řeči http://amber.feld.cvut.cz/bio - LaBiS - Laboratoř biologických signálů

Foniatrická klinika 1.LF UK a VFN http://fonja.lf1.cuni.cz vedoucí: Doc. MUDr. Olga Dlouhá, CSc.

Poděkování: Tato publikace vznikla za podpory grantu GAČR 102/08/0707 „Rozpoznávání mluvené řeči v reálných podmínkáchÿ, GAČR 102/08/H008 „Analýza a modelování biomedicínských a řečových signálůÿ a výzkumných záměrů MSM 210000012 „Transdisciplinární výzkum v oblasti biomedicínského inženýrstvíÿ a MSM 212300014 „Výzkum v oblasti informačních technologií a komunikacíÿ.

Vydalo nakladatelství ČVUT, Zikova 4, 166 36 Praha 6, v roce 2009.

ISBN: 978-80-01-04474-2 Ediční poznámka

Předložený sborník je souhrnem prací realizovaných doktorandy katedry teorie obvodů v oblasti číslicového zpracování signálů a aplikačním zaměřením na zpracování biomedi- cínských a řečových signálů a navazuje na sborníky vydávané od roku 2005.

Sborník dává přehled o jednotlivých výzkumných aktivitách řešených ve skupině zpraco- vání signálů na katedře teorie obvodů. Prezentované příspěvky jsou shrnující a podrobnější informace o řešených problémech lze nalézt v odkazovaných pramenech.

V Praze 23. listopadu 2009

Doc. Ing. Petr Pollák, CSc. Doc. Ing. Roman Čmejla, CSc. editoři sborníku Předmluva

Tento díl sborníku prací studentů doktorského studia plynule pokračuje v tradici katedry teorie obvodů, kdy studenti doktorského studia pravidelně prezentují výsledky své práce před svými kolegy i pedagogy na seminářích označovaných jako ”Pondělky”. Sborník, který držíte v ruce, obsahuje vybrané prezentace roku 2009 zaměrené na aplikaci metod číslicového zpracování signálů v oblastech zpracování řeči a biologických signálů. Text proto poskytuje určitou představu nejen o práci doktorandů, ale i o zaměření části vý- zkumu prováděného na katedře. Semináře a často kritické diskuse slouží dokorandům i jejich školitelům ke tříbení myšlenek a nápadů. Přinášejí nové podněty pro zpracování disertačních prací. Vědecká práce na katedře je podporována nejen institucionálními výzkumnými záměry, ale i účelově financovanými projekty několika grantových agentur. Všem poskytovatelům podpory výzkumu chceme tímto sborníkem poděkovat. Zájemce o témata uvedená ve sborníku rádi přivítáme na našich seminářích. Jejich pro- gram je pod názvem ”Pondělky” uveden internetových stránkách http://amber.feld.cvut.cz/bio/

V Praze dne 25.11.2009

Prof. Ing. Pavel Sovka, CSc. vedoucí katedry Obsah

Jan Bartošek: Prozodie, zjištění a využití základního tónu v rozpoznávání řeči 1

Marek Bártů: Možnosti využití algoritmů nelineární aproximace pro parametrizaci řečových signálů 9

Petr Bergl: Parametry zkoumající pravidelnost energie a znělosti řečového signálu neplynulých promluv 16

Václav Bolom: Zvýrazňování řeči v osobním automobilu 22

Tomáš Bořil: Grangerova kauzalita a EEG 30

Jaromír Doležal: BCI založený na manifestaci pohybové aktivity v EEG II 38

Jan Janda: Studie věkově závislých akustických parametrů v dětské řeči 44

Robert Krejčí: Optimalizace výpočetně náročné části rozpoznávače řeči se zaměře- ním na hardwarovou platformu OMAP 50

Ondřej Kučera: Mechanické oscilace buněk 58

Martina Nejepsova: Multimediální slabikář 62

Josef Rajnoha: Robustní rozpoznávání spojitých promluv kombinující metody po- tlačování šumu a průběžnou adaptaci akustických modelů na prostředí 70

Jan Rusz: Hodnocení rytmu v raném neléčeném stádiu Parkinsonovy nemoci 77

Adam Stráník: Návrh frameworku pro zpracování signálů v reálném čase v prostředí .NET 82

Barbora Vokáčová: Stimulace zpracování řečových signálů u dětí s vývojovou dys- fázií pomocí arteterapeutických technik a strategií 90

Petr Zetocha: Zpřístupnění strukturované databáze dětských promluv 95 Jan Bartošek 1

Prozodie, zjiˇstˇen´ıa vyuˇzit´ız´akladn´ıhot´onu v rozpozn´av´an´ıˇreˇci

Jan Bartoˇsek

Cesk´evysok´euˇcen´ıtechnick´evˇ Praze, Fakulta elektrotechnick´a [email protected]

Abstrakt: Pˇr´ıspˇevek pˇrin´aˇs´ıprvotn´ıpˇribl´ıˇzen´ıpr´acena r´amcov´emdisertaˇcn´ım t´ematu”Vyuˇzit´ıprozodie v rozpozn´av´an´ısouvisl´eˇreˇci”.Nejprve je definov´ana prozodie jako informaˇcn´ıdoplnˇekkaˇzd´ehotypu ˇreˇcia d´alejsou pˇredstaveny hlavn´ı prozodick´erysy a funkce ve smyslu lingvistiky (a zejm´enaˇceˇstiny). N´aslednˇeje diskutov´anomoˇzn´evyuˇzit´ıprozodie ve strojov´emrozpozn´av´an´ı souvisl´eˇreˇci.Dalˇs´ıkapitola se zab´yv´ametodami pro detekci z´akladn´ıfrek- vence (f0) ˇreˇcov´ehosign´alu,kter´aje hlavn´ımnositelem intonaˇcn´ıinformace promluvy. Nakonec jsou zm´ınˇeny c´ıle pr´acejak kr´atkodob´eho,tak dlouho- dob´ehocharakteru.

1. Uvod´

Rozpozn´avaˇcesouvisl´eˇreˇcis neomezenou dom´enou(uˇzivatelova promluva m˚uˇzesest´avat ze vˇsech slov dan´ehojazyka) zaloˇzen´ena klasick´ych pˇr´ıstupech (skryt´eMarkovovy modely pro vyhodnocen´ıakustick´epodobnosti s promluvou) dosahuj´ıv dneˇsn´ıdobˇepomysln´eho stropu v ´uspˇeˇsnostirozpozn´an´ı.Tohoto stropu nemus´ıvˇsakb´ytv˚ubec dosaˇzeno,pokud vstupn´ısign´alnedosahuje odpov´ıdaj´ıc´ıch parametr˚u- napˇr.co do pomˇeru´urovn´ısign´alu a ˇsumu. Jednou z moˇznost´ı, jak ale takov´ypomysln´ystrop zv´yˇsit,m˚uˇzeb´ytvyuˇzit´ı pˇr´ıdavn´ych informac´ıv promluvˇe, se kter´ymisouˇcasn´e“standardn´ı“rozpozn´avaˇcenepra- cuj´ı.Takov´ymipˇr´ıdavn´ymiinformacemi mohou b´ytnapˇr´ıkladintonace (ˇcasov´ypr˚ubˇehf0) promluvy ˇcipˇr´ızvuk.Obecnˇese tyto (a nˇekter´edalˇs´ı,jak uvid´ımeposl´eze)jevy oznaˇcuj´ı jako prozodie. C´ılem tohoto pˇr´ıspˇevkuje pˇredstavit ˇcten´aˇriprozodick´erysy a funkce, kter´eby mohly naj´ıtuplatnˇen´ıv re´aln´ych rozpozn´avaˇc´ıch souvisl´eˇreˇci.To by mohlo v´est napˇr´ıkladk inteligenci diktovac´ıhostroje, kter´yby kromˇepˇrepisuˇreˇcn´ıkovy promluvy na text spr´avnˇedoplˇnoval i interpunkˇcn´ıznaˇcky, ke kter´ymby dospˇelz pr˚ubˇehu jeho into- nace. Z´aroveˇnsi tak´edok´aˇzemepˇredstavit ”r´adce”rozpozn´avaˇce,kter´yby pro akusticky velmi podobnˇeznˇej´ıc´ıhypot´ezydok´azalpˇriˇraditkaˇzd´ez nich pravdˇepodobnost existence na z´akladˇeprozodick´einformace, a tak navedl rozpozn´avaˇcke spr´avn´emu v´ysledku.

2. Prozodie

Tato kapitola pˇrin´aˇs´ıv prvn´ıˇc´astidefinici slova spolu s vytyˇcen´ımn´azvoslov´ıprozodick´ych rys˚ua funkc´ı.Hlavn´ımiprozodick´ymifunkcemi se zab´yv´adruh´aˇc´asta moˇzn´evyuˇzit´ı prozodie v re´aln´ych ˇreˇcov´ych technologi´ıch je diskutov´anov ˇc´astitˇret´ı. 2 Jan Bartošek

2.1. Co je to prozodie Slovo prozodie nese v souˇcasn´edobˇedva r˚uzn´e,avˇsakne aˇztak nesouvisl´ev´yznamy. Prvn´ım v´yznamemje prozodie jako nauka o rytmiˇcnostiˇreˇcia skl´ad´an´ı verˇs˚u.Touto umˇeleckou oblast´ıse jiˇzd´alezab´yvat nebudeme, za to se o to v´ıcepozastav´ıme u prozodie jako obecn´ehov´yrazupro informaˇcn´ıdoplnˇekkaˇzd´ehotypu ˇreˇci.Svou prozodickou in- formaci opravdu nese kaˇzd´aˇreˇc,tedy napˇr´ıkladi ˇreˇcznakov´a,kdy je prozodie vyj´adˇrena mohutnost´ıgestikulace (vlastn´ıdefinovan´agesta jsou jen jazykem, kter´emu kaˇzd´yz gesti- kuluj´ıc´ıch dod´apomoc´ıprosodie sv˚ujosobit´ycharakter). N´asovˇsembude zaj´ımatob- last lingvistiky, kde prozodie popisuje fonologick´epˇr´ıznaky jazyka, kter´ese uplatˇnuj´ı ´urovni vyˇsˇs´ıneˇzjednotliv´yfon´em(hl´aska, segment) a souhrnnˇese hovoˇr´ıo tzv. ”supraseg- ment´aln´ıch jevech” (rysech prozodie). Z´aroveˇnje tˇreba rozliˇsovat mezi funkcemi prozodie (co zp˚usobuje,k ˇcemu je dobr´a)a prozodick´ymiformami (rysy - co ji tvoˇr´ı).

Funkc´ıprozodie je tedy d´avat posluchaˇciinformace, kter´enejsou obsaˇzeny v pouh´ekom- binaci jazykov´ych segment˚u.Prozodie tak m˚uˇzem˚uˇzeslouˇzitk: vyj´adˇren´ıpostoje a moment´aln´ıhoemotivn´ıhorozpoloˇzen´ımluvˇc´ıho • urˇcen´ı,jestli je promluva ozn´amen´ı,ot´azka ˇcipˇr´ıkaz • zd˚uraznˇen´ıˇc´astipromluvy nebo v´yznamov´ykontrast • urˇcen´ı,zda-li je mluvˇc´ıironick´yˇcisarkastick´y • Dvˇeobecnˇedefinovan´efunkce prozodie jsou ”chunking” (nepˇrekl´ad´ano) a pˇr´ızvuk(focus). Obˇetyto prozodick´efunkce budou podrobnˇejirozvedeny d´ale.

Prozodick´eformy (rysy, elementy) jsou naopak stavebn´ımi kameny prozodie a jak jiˇz bylo uvedeno v´yˇse,souhrnnˇese hovoˇr´ıo tzv. ”suprasegment´aln´ıch jevech” odvozen´ych z akustick´ych charakteristik promluvy. Jedn´ase o tyto prvky: intonace (melodie) - v´yˇska z´akladn´ıhot´onu (f0, pitch) • fr´azov´an´ı,rytmus, mluvn´ıtempo • intenzita, hlasitost (ˇrevvs. ˇsepot, zvyˇsuj´ıc´ıse hlasitost, ...) • d˚uraz,pˇr´ızvuk(z anglick´eho stress) • Terminologie je v tomto pˇr´ıpadˇepomˇernˇenejednotn´aa to i v anglick´emjazyce. Slova d˚uraz a pˇr´ızvuk v ˇceˇstinˇev´yznamovˇespl´yvaj´ı,avˇsakv anglicky psan´eliteratuˇrejsou ˇcasto odliˇsov´any “stress” a “focus”. Pˇr´ızvukjako prozodick´yrys zde spl´yv´as funkc´ızd˚uraznˇen´ı ˇc´astipromluvy, je totiˇzbudov´anna komplexu prozodick´ych vlastnost´ıˇreˇcia realizov´an souˇcasnˇejak pomoc´ı zmˇendynamiky (tento jev oznaˇcmejako d˚urazov´ypˇr´ızvuk), tak v´yˇskyhlasu (intonaˇcn´ı pˇr´ızvuk). Cetnostˇ pouˇz´ıv´an´ı obou typ˚upˇr´ızvuk˚use v r˚uzn´ych jazyc´ıch liˇs´ı.Ani jeden z nich nem´anapˇr.Kambodˇzˇstina,u vˇetˇsiny jazyk˚upˇrevl´ad´apˇr´ızvuk d˚urazov´y(plat´ıi pro ˇceˇstinu). Kromˇehlavn´ıhopˇr´ızvukuobvykle existuje v promluvˇei pˇr´ızvukvedlejˇs´ı(na pˇredposledn´ıslabice je bˇeˇzn´ynapˇr.v n´aˇreˇc´ıch severu Moravy). 2.2. Funkce prozodie Kombinac´ıprozodick´ych rys˚uvznikaj´ıdvˇepomˇernˇepˇresnˇedefinovan´eprozodick´efunkce - chunking a pˇr´ızvuk. Jan Bartošek 3

2.2.1. Chunking Chunking je term´ınpro rozdˇelen´ıˇreˇcina ´useky(chunks) tak, ˇzekaˇzd´ytakov´y´usekzn´ı celistvˇe.Pro rozdˇelen´ıse vyuˇz´ıv´akr´atk´ych pauz mezi slovy a vznikl´eprozodick´e´usekyjsou tak´ezn´amy jako informaˇcn´ıjednotky, t´onov´ejednotky ˇciintonaˇcn´ıfr´aze.Lepˇs´ıpˇredstavu lze navodit dvˇemapˇr´ıklady:

1. Pˇr´ıklad- d´elka pauzy m´avliv na z´apispromluvy

”byla taˇzenaˇc´ısla:20, 8 a 5” x ”byla taˇzenaˇc´ısla:28 a 5” • stˇeˇzejn´ınapˇr.pro souslov´ıv AJ - ”cofee-cake” x ”cofee, cake” • v ˇceˇstinˇetypicky probl´emtelefonn´ıch ˇc´ısel: tel. ˇc´ıslo”200 30 5” x ”235” • 2. Pˇr´ıklad - m˚uˇzeindikovat tak´erozsah p˚usobnostiadjektiva - jestli je aplikov´ano pouze na n´asledn´epodstatn´ejm´enonebo na v´ıcen´asleduj´ıc´ıch:

”Komorn´ısbor a orchestr” • Pokud chceme pˇr´ıdavn´ejm´enovzt´ahnoutpouze na slovo sbor, pak za t´ımto slo- vem dˇel´amedelˇs´ıpauzu spolu s rostouc´ıintonac´ı.Pokud naopak chceme vyj´adˇrit p˚usobnostpˇr´ıdavn´ehojm´enajak na sbor, tak na orchestr, pak pauza mezi obˇema podstatn´ymijm´eny bude mnohem menˇs´ıa intonaˇcnˇenebude slovo sbor nikterak z promluvy vyˇcn´ıvat.

2.2.2. Hled´an´ıpˇr´ızvuk˚u(focus) Pˇr´ızvukem jsou obvykle odliˇseny ty ˇc´astipromluvy, kter´ejsou pro sdˇelen´ı v´yznamovˇe nejd˚uleˇzitˇejˇs´ı. Nejednotnost n´azvoslov´ı jiˇzbyla zm´ınˇenav´yˇse,v anglick´eliteratuˇrelze pˇr´ızvuknaj´ıtnapˇr´ıkladpod hesly focus, accent, nucleus, stress, emphasis... Pˇr´ızvukje v promluvˇev´yznaˇcn´y,coˇzznamen´a,ˇzeakusticky vyˇcn´ıv´aze zbytku promluvy (energie pro d˚urazov´ypˇr´ızvuk,pitch pro pˇr´ızvukintonaˇcn´ı).D˚uleˇzitost pˇr´ızvukupro zmˇenu smyslu promluvy si opˇetuk´aˇzemena pˇr´ıkladech:

1. Pˇr´ıklad:

”Chci suˇsenkua ˇcokol´adu.” • Zd˚uraznˇen´ımvˇzdyjednoho ze slov (kromˇeprvn´ıho)oproti zbytku promluvy vede ke vˇet´amse zcela odliˇsn´ymv´yznamem, kdy jednou chceme hlavnˇe suˇsenku, podruh´e obˇedvˇevˇeci najednou a naposledy ˇz´ad´ame ˇcokol´adu a nikoliv nˇecojin´eho.

2. Pˇr´ıklad- odliˇsn´eum´ıstˇen´ıhranice mezi ”pˇr´ızvukov´ymitakty”

”svˇetlovn´ımaj´ı”x ”svˇetlov n´ımaj´ı” • ”proti vnˇejˇs´ım”x ”protivnˇejˇs´ım” • 4 Jan Bartošek

2.3. Vyuˇzit´ıprozodie v ˇreˇcov´ych technologi´ıch Mnoho studi´ıpublikovan´ych jiˇzv minul´emstolet´ıpouk´azalona to, ˇzeprozodick´ainfor- mace m˚uˇzehr´at pro strojov´ezpracov´an´ısouvisl´eˇreˇciv´yznamnou roli. V rozpozn´av´an´ı souvisl´eˇreˇcin´amm˚uˇzeprozodie pomoci pˇriˇreˇsen´ın´asleduj´ıc´ıch ´uloh:

f0 tracking pro doplnˇen´ıinterpunkce ( ? . , ! ) • hled´an´ısamostatn´ych ”funkˇcn´ıch bloku” ve vˇetˇe(chunking) • hled´an´ıpˇr´ızvuk˚uv promluvˇe • d´ıkyrys˚umvyextrahovan´ymz promluvy lze napˇr´ıklad pˇriˇraditr˚uzn´epravdˇepodobnosti • jednotliv´ymhypot´ez´amrozpozn´avaˇce

D´alen´amprozodie m˚uˇzepomoci pˇridetekci emoc´ımluvˇc´ıho, kter´ese z hlediska sign´alu projevuj´ıpˇrev´aˇznˇeve vyˇsˇs´ıch formantov´ych kmitoˇctech. Teoreticky je aplikace prozodie v t´etooblasti moˇzn´a,jako pˇr´ıkladuved’me syst´empro hodnocen´ıspokojenosti z´akazn´ık˚u callcentra. Oblast rozpozn´an´ıemoc´ıvˇsaknen´ıpˇredmˇetempr´acea d´alese j´ızab´yvat ne- budeme.

Posledn´ıoblast´ı,kde je prozodie jiˇzmnoho let vyuˇz´ıv´ana,jsou syst´emy Text To Speech (TTS), kde slouˇz´ızejm´enak modelov´an´ıpˇrirozen´ehopr˚ubˇehu z´akladn´ıfrekvence. Existuje mnoho metod, jak tyto intonaˇcn´ımodely tvoˇrita aplikovat, avˇsakani touto oblast´ıse pr´aced´alezab´yvat nebude.

3. Detekce f0 se zamˇeˇren´ımna lidskou ˇreˇc

Detekce z´akladn´ıfrekvence sign´aluje ´uloha,jej´ımˇzˇreˇsen´ımse vˇedcizab´yvaj´ızhruba jiˇzod poloviny 20. stolet´ı.Za tuto dobu bylo nalezeno nˇekolik funguj´ıc´ıch metod pro konkr´etn´ı aplikaˇcn´ıoblasti, st´alese vˇsaknedaˇr´ınaj´ıttakovou, kter´aby byla dostateˇcnˇeuniverz´alnˇe pouˇziteln´a. Pˇriˇreˇsen´ı probl´emu detekce f0 ˇreˇcov´ehosign´aluvystaˇc´ıme z fyzik´aln´ı podstaty ˇreˇcis metodami spadaj´ıc´ımi do tˇr´ıdy SPE (Single Pitch Estimation), kter´aje obecnˇemno- hem jednoduˇsˇs´ıneˇztˇr´ıdaMPE (Multi Pitch Estimation). Proto vˇsechny metody, kter´ymi se budeme d´alezab´yvat, spadaj´ıdo prvn´ıkategorie. Omezen´ypˇrehlednˇekolika v praxi pouˇziteln´ych metod pˇrin´aˇs´ınapˇr´ıkladv monografii [6]. 3.1. Vlastnosti lidsk´eˇreˇci Lidsk´aˇreˇcm´az hlediska zpracov´an´ısign´al˚ujist´eobecnˇezn´am´evlastnosti. Jej´ıfrekvenˇcn´ı rozsah se pohybuje v rozmez´ı60-600 Hz (na rozd´ılod zpˇevov´ehosign´alu,kde je hlavnˇe horn´ıhranice u opern´ıch sopranistek posunuta aˇzk 1kHz) [5]. Z hlediska prozodie je pod- statn´e,ˇzefrekvenˇcn´ırozsah jedn´epromluvy obvykle nepˇresahuje interval kvinty (cca 6-7 p˚ult´on˚u,konkr´etn´ıhodnota se samozˇrejmˇeliˇs´ıjak podle n´arodnosti, tak podle konkr´etn´ıho mluvˇc´ıho).Pro n´aslednoupr´acis intonaˇcn´ımipr˚ubˇehy budeme vˇzdyuˇz´ıvat logaritmick´y pˇrevod detekovan´ych frekvenc´ına p˚ult´ony (a centy), coˇzzp˚usob´ılinearizaci frekvenˇcn´ı osy. Jan Bartošek 5

3.2. Prozat´ımimplementovan´ametoda - autokorelace ve frekvenˇcn´ıoblasti Metoda je zaloˇzena na autokorelaˇcn´ıfunkci z frekvenˇcn´ıoblasti, kter´aje d´anaWiener- Chinchinov´ymvztahem:

ACF (n) = ifft [abs(fft(x(k)))]2 { } 3.2.1. Aplikace na zpˇevov´ysign´al Metoda byla implementov´anas tˇemitoparametry - segmentace po 512 vzorc´ıch v´ahovan´a Hammingov´ymoknem, 50% pˇrekryvoken, pr´ahnormalizovan´eACF empiricky stanoven na hodnotu 0.76 a vyhlazen´ıv´ysledk˚u5-bodov´ymmedian filtrem. Implementace v jazyce C byla uˇzitav [2] pro online hodnocen´ı´uspˇeˇsnostizpˇevu,kde podala velmi dobr´ev´ysledky. Frekvenˇcn´ırozliˇsovac´ıschopnost algoritmu roste s rostouc´ıvzorkovac´ıfrekvenc´ı(FS), nao- pak rozliˇsen´ıkles´apro s rostouc´ımidetekovan´ymifrekvencemi. Pro FS=11025Hz a oblast kolem 200Hz dosahuje metoda pˇresnostipˇribliˇznˇetˇretiny p˚ult´onu. Frekvenˇcn´ırozliˇsen´ıby se dalo samozˇrejmˇemˇeniti pomoc´ıvelikosti okna, avˇsakna ´ukor rozliˇsen´ıˇcasov´eho. 3.2.2. Aplikace metody na ˇreˇc Frekvenˇcn´ırozliˇsen´ımetody pro zpˇevteoreticky dostaˇcujei pro ˇreˇc.Avˇsakjako bylo ex- periment´alnˇezjiˇstˇeno,metoda t´emˇeˇrnefunguje na testovac´ıpodmnoˇzinˇedat z datab´aze SPEECON (sada promluv Office Spontaneous). Drobn´ehozlepˇsen´ımetody lze dos´ahnout sn´ıˇzen´ımprahu normalizovan´eACF, ale i tak nedostaˇcuje.Oproti zpˇevujsou v ˇreˇcimno- hem kratˇs´ı´usekyznˇel´ych hl´asek,i niˇzˇs´ıenergie sign´alu,coˇzvede na obt´ıˇznˇejˇs´ı´ulohu. Je proto tˇrebanaj´ıttakov´ealgoritmy, kter´edok´aˇz´ınaj´ıtf0 tˇrebajen ze dvou period sign´alu, coˇzpravdˇepodobnˇepovede na zkoum´an´ıpˇr´ımopr˚ubˇehˇcasov´ywaveformu a metody pra- cuj´ıc´ıv ˇcasov´eoblasti. 3.3. Dalˇs´ımetody ˇreˇs´ıc´ıdetekci f0 3.3.1. AMDF - average magnitude difference function Metoda pracuje v ˇcasov´eoblasti, definov´anatakto:

N 1 1 − ψ(τ) = x(n) x(n + τ) N | − | nX=0 Na prvn´ıpohled je zˇrejm´an´apadn´apodobnost s autokorelac´ı(ACF) v ˇcasov´eoblasti. Oproti n´ı je ale metoda m´enˇev´ypoˇcetnˇen´aroˇcn´a,protoˇzesouˇcetje v´ypoˇcetnˇem´enˇe n´aroˇcn´yneˇzsouˇcin(u ACF). Na rozd´ılod n´ıse hledan´afrekvence projev´ıjako minimum v´ysledn´efunkce. Metoda je n´achyln´ana detekci n´asobk˚uz´akladn´ıfrekvence (nejˇcastˇeji 2x, 1/2x), proto b´yv´a”vhodnˇe”doplnˇena,napˇr´ıkladkepstr´aln´ımetodou. 3.3.2. Kepstr´aln´ımetoda Tato metoda je pro detekci f0 pomˇernˇerozˇs´ıˇren´a.Jedn´ımz moˇzn´ych pohled˚uje analogie s autokorelac´ız frekvenˇcn´ıoblasti, pouze kvadr´atje zamˇenˇenza logaritmus. Obˇemetody pro detekci f0 vyuˇz´ıvaj´ıobsahu vyˇsˇs´ıch harmonick´ych sloˇzek(a t´ımjist´eperiodicity) ve spektru, viz obr´azek1. V´ysledn´yvztah je tedy:

c(n) = abs(ifft log(abs(fft x(n) )) ) { { } } 6 Jan Bartošek

Obr´azek1: Spectrum (a) vs. cepstrum (b), ˇspiˇcka na hodnotˇeT sekund odpov´ıd´aF0

Obr´azek2: Blokov´esch´emakombinovan´emetody AMDF a ACF, pˇrevzatoz [1]

3.3.3. Kombinovan´ametoda - AMDF a ACF Pokroˇcil´ametoda [1] vyuˇz´ıvaj´ıc´ı k detekci v´ysledn´ef0 jak ˇcasovou ACF, tak AMDF. Vyuˇz´ıv´ase komplementarita obou funkc´ıa v´ysledn´ametoda je tak odoln´aproti ˇsumu. Pro v´ystupkaˇzd´ehoze vz´ajemnˇese pˇrekr´yvaj´ıc´ıch se p´asmov´ych propust´ıjsou spoˇcteny obˇefunkce. Ty jsou pot´epomoc´ı operac´ı souˇct˚ua souˇcin˚uzkombinov´any tak,aby se zv´yraznilivhodn´ıkandid´aty f0 a naopak potlaˇcilikandid´atinechtˇen´ı.Nakonec jsou so- fistikovan´ymalgoritmem pˇriˇrazeny kandid´at˚umv´ahy a ten s nejvˇetˇs´ıv´ahouje prohl´aˇsen za reprezentanta f0 pro dan´y´useksign´alu.Cel´yblokov´ydiagram je zn´azornˇenna ilu- straci 2. Robustnost metody byla podle [1] ovˇeˇrenav r˚uzn´ych prostˇred´ıch. 3.3.4. Real-time time domain pitch tracking using wavelets Jde o pomˇernˇenovou metodu pracuj´ıc´ıv ˇcasov´eoblasti zpracov´an´ısign´alu[4]. Metoda pouˇz´ıv´a Fast Lifting Wavelet Transform (FLWT). Vlnkov´atransformace rozsek´ap˚uvodn´ı sign´alna mnoˇzinu r˚uznˇeˇsk´alovan´ych a posunut´ych mateˇrsk´ych vlnek, zde je jako mateˇrsk´a pouˇzitaHaarova vlnka, jej´ıˇzrovnice je: 1 t τ ψs,τ (t) = ψ( − ) s s | | q Metoda klade d˚urazna n´ızkou latenci (25 ms), odolnost v˚uˇciˇsumu (aˇzdo SNR 20–25 dB) a pˇresnostrozpozn´an´ı- RMS chyba pod 2 centy (1/50 p˚ult´onu) na sinusov´emsign´alupˇres 4 okt´avy. D´aleje vhodn´apro rozliˇsen´ıznˇel´ych a neznˇel´ych ´usek˚u.Metoda m´apomˇernˇe sloˇzit´ymatematick´ypopis, avˇsakexistuje podp˚urn´amatematick´aknihovna LIFTpack [3] implementuj´ıc´ıFLWT, pˇriˇcemˇzud´avan´aˇcasov´asloˇzitostFLWT je N (line´arn´ı)oproti FFT sloˇzitosti N(log(N)). Jan Bartošek 7

4. C´ıle

4.1. Kr´atkodob´ec´ıle Prvn´ımc´ılemv ˇcasovˇekr´atk´emhorizontu je naimplementovat a otestovat pˇredchoz´ıme- tody a naj´ıtobecnˇepouˇzitelnoumetodu i s ohledem na robustnost, pˇriˇcemˇzse m˚uˇzest´at, ˇzefin´aln´ıf0 budeme poˇc´ıtat z kombinace v´ysledk˚uv´ıceparci´alnˇevhodn´ych metod.

Druh´ymkr´atkodob´ymc´ılemnavazuj´ıc´ımna c´ılpˇredchoz´ıje implementovat ”modul” do experiment´aln´ıhorozpozn´avaˇcesouvisl´eˇceˇstiny (ˇreˇsitel V.Hanˇzl).Modulem se v tomto pˇr´ıpadˇemysl´ıkonzolov´yprogram dost´avaj´ıc´ına standardn´ımvstupu vzorky sign´alus do- hodnut´ymiparametry, na v´ystupunapˇr´ıkladtextov´ysoubor s detekovan´ymifrekvencemi.

Pravdˇepodobnˇenebude potˇrebanavrhnout syst´empro vyhodnocen´ı´uspˇeˇsnostimetody detekce f0 na testovac´ıch datech, protoˇzeoˇcek´av´ame,ˇzevhodnou metodu se podaˇr´ıim- plementovat pomˇernˇebrzy, pˇrestotato ´ulohanen´ızcela zcestn´a.Obecnˇevˇsaknen´ıpodle ˇcehorozhodnout skuteˇcnouf0, metody lze jen porovn´avat mezi sebou. Uloha´ by vˇsak mohla dostat nov´yrozmˇer,pokud by byla k dispozici referenˇcn´ıdatab´azepromluv vˇcetnˇe jejich pr˚ubˇeh˚uf0. 4.2. Dlouhodob´ec´ıle 4.2.1. Implementace interpunkˇcn´ıhodetektoru pro diktovac´ısyst´em Pro probl´emindikace interpunkce diktovac´ıho syst´emu existuj´ı 2 pˇr´ıstupy diktov´an´ı - pˇrirozen´e(uˇzivatel nev´ı, ˇzese prozodick´ainformace pouˇz´ıv´apro detekci interpunkce, intonuje jako pˇribˇeˇzn´epromluvˇe)a nauˇcen´e(s online odezvou - uˇzivatel je vystaven v´ysledku,zmˇen´ısvou prozodii tak, aby mˇelsyst´emvˇetˇs´ı´uspˇeˇsnostdetekce interpunkce). V tuto chv´ılinen´ıjasn´e,jak´yapar´atbude vhodn´epouˇzitpro klasifikaci interpunkce z pr˚ubˇehu f0, to bude pˇredmˇetemdalˇs´ıhov´yzkumu. Prozat´ımjsou teoreticky uvaˇzov´any n´asleduj´ıc´ımoˇznosti:

hledat v ˇcasev kombinaci s pauzami povˇedom´evzestupy ˇcisestupy v pr˚ubˇehu f0 • pouˇz´ıtklasifik´atorna ´useky, napˇr´ıklad pomoc´ıumˇel´ych neuronov´ych s´ıt´ı(ANN) - • natr´enovat s´ıt’ na ´usec´ıch interpunkˇcnˇeoanotovan´ych promluv

hledat v pr˚ubˇehu f0 zn´am´enebo jim podobn´etvary (vz´ıtv potaz zmˇenu mˇeˇr´ıtka v • obou os´ach)

4.2.2. Implementace ”r´adce pro v´ybˇervhodn´ehypot´ezy” Uloha´ m˚uˇzeb´ytdefinov´anatakto: Z rozpozn´avaˇcesouvisl´eˇreˇciobdrˇz´ımemeziv´ysledek rozpozn´an´ı- moˇzn´ehypot´ezy odpov´ıdaj´ıc´ıdan´epromluvˇe.Naˇs´ımc´ılemje ohodnotit jejich pravdˇepodobnost existence z hlediska prosodie. V´ystuprozpozn´avaˇces hypot´ezami bude grafov´a(mˇr´ıˇzkov´a)struktura podobn´aˇcitotoˇzn´as HTK Standard Lettice Format (SLF). Probl´emsi pojd’me pˇribl´ıˇzitna pˇr´ıkladu.Do rozpozn´avaˇcevstupuj´ıpromluvy ”A tak se na konec pˇripravili dobˇre.“a ”A tak se nakonec pˇripravili dobˇre.“Jejich ˇcasov´epr˚ubˇehy sign´al˚ubudou t´emˇeˇridentick´ea moˇzn´agrafick´areprezentace grafov´estruktury hypot´ez rozpozn´avaˇceje uvedena na obr´azku3. Naˇs´ımc´ılembude tedy pro takovou z hlediska rozpozn´avaˇcenejendoznaˇcnoupromluvu stanovit pravdˇepodobnost, kter´abude charakterizovat existenci takov´ehypot´ezypodle vstupn´ıpromluvy z hlediska prozodick´einformace. Uloha´ pravdˇepodobnˇepovede na hled´an´ı 8 Jan Bartošek

Obr´azek3: Grafick´areprezentace grafov´estruktury hypot´ezrozpozn´avaˇce

”rytmick´ych jednotek” spjat´ych s intonac´ı.Na t´etodvojici parametr˚use budeme snaˇzit vystavˇetstatistick´ymodel. Jsem obezn´amens moˇzn´ymprobl´emempˇridetekci pˇr´ızvuk˚u, kdy podle [7] v jazyc´ıch se slab´ympˇr´ızvukem, jako je napˇr.ˇceˇstina,je rozd´ılpˇr´ızvuˇcn´ea nepˇr´ızvuˇcn´eslabiky pˇriakustick´eanal´yzenev´yznamn´y.Bude-li tedy v˚ubec ´ulohaˇreˇsiteln´a, pak takov´y`r´adceı stejnˇenebude kl´ıˇcov´ymbodem rozpozn´avaˇce,ale mohl by vylepˇsit jeho ´uspˇeˇsnost v ˇr´adujednotek procent.

5. Z´avˇer

Byla pˇredstavena prozodie jako prostˇredekpromluvy vyuˇziteln´yv rozpozn´avaˇc´ıch souvisl´e ˇreˇci,toto vyuˇzit´ıbylo diskutov´ano.D´alebyly pˇrestaveny moˇzn´emetody detekce f0 pro extrakci intonaˇcn´ıhopr˚ubˇehu

Podˇekov´an´ı

Tento v´yzkumbyl podporov´anz grantu GACRˇ 102/08/0707 “Rozpozn´av´an´ımluven´eˇreˇci v re´aln´ych podm´ınk´ach”.

Reference

[1] Abdullah-Al-Mamun, K. A high resolution pitch detection algorithm based on amdf and acf. Journal of the Acoustical Society of America (2009), 111(4). [2] Bartoˇsek,J. Karaoke pro set-top-box. Diplomov´apr´ace,FEL CVUTˇ Praha, 2009. [3] Fern´andez,G.; Periaswamy, S.; Sweldens, W. LIFTPACK: A software package for wa- velet transforms using lifting. In Wavelet Applications in Signal and Image Processing IV 1996, M. Unser, A. Aldroubi, and A. F. Laine, Eds., Proc. SPIE 2825, pp. 396–408. [4] Larson, E. Real-time time domain pitch tracking using wavelets. Journal of the Acoustical Society of America (2005), 111(4). [5] Syrov´y,V. Hudebn´ıakustika, 2nd ed. HAMU Praha, 2008. [6] Uhl´ıˇr,J. Technologie hlasov´ychkomunikac´ı. CVUTˇ Praha, 2007. [7] Z. Palkov´a,J.Veroˇnkov´a,V. J. V´yzkumprozodick´ych charakteristik ˇceˇstiny rele- vantn´ıch pro systematickou materi´alovou anal´yzumluven´eˇreˇci. GACRˇ 102/02/0124, Hlasov´e technologie v podpoˇre informaˇcn´ı spoleˇcnosti, Souhrnn´y pˇrehled aktivit ˇreˇsitelsk´ychkolektiv˚u (2004), 27–29. Marek Bártů 9

Moºnosti vyuºití algoritm· nelineární aproximace pro parametrizaci °e£ových signál·

Marek Bárt·

ƒeské vysoké u£ení technické v Praze, Fakulta elektrotechnická Laborato° aplikací um¥lých neuronových sítí (LANNA) [email protected]

Abstrakt: Tento £lánek popisuje moºnosti vyuºití nelineární aproximace pro parametrizaci °e£ových signál·. Je zde uveden skromný teoretický rozbor jeº si klade za cíl popsat hlavní rozdíly mezi aproximací lineární (nap°. lineární mul- tirezolu£ní analýza) a nelineární. Nelineární metody jsou zde p°edstavovány algoritmy adaptivního výb¥ru báze a algoritmem Matching Pursuit. Na záv¥r je uvedeno p°ehled moºností popsaných algoritm· vzhledem k parametrizaci °e£ových signál·.

1. Úvod

Pro zpracování °e£ových signál· pomocí um¥lých neuronových sítí je t°eba p°evést signál do vhodné reprezentace. Obvykle se signál reprezentuje pomocí vektor· koecient· PLP nebo MFCC. Pro n¥které úlohy zpracování °e£ového signálu pomocí um¥lé neuronové sít¥ je také vhodná reprezentace signál· pomocí LPC koecient· [1]. Tento £lánek se v¥nuje zevrubnému popisu dal²ích algoritm·, které jsou vhodné pro reprezentaci signálu pro dal²í zpracování um¥lými neuronovými sít¥mi.

2. Lineární aproximace

Jinou moºností jak reprezentovat signál je popsat jej pomocí vektoru koecient· daných skalárním sou£inem signálu s N vektory p°edem vybrané báze

= gm m N (1) B { } ∈ Obvykle se báze volí jako ortonormální, resp. ortogonální. Takto zvolená báze umoº¬uje efektivn¥ aproximovat n¥které typy signál·. Mezi výhody m·ºeme uvaºovat nap°. jed- nozna£nost nebo výhodu jednoduchého výpo£tu. Obvykle jsou také jednodu²e dostupné rutiny realizující vlastní výpo£et. Dal²í výhoduo je konstantní sloºitost (£asová náro£nost) výpo£tu. Signál f je aproximován sou£tem skalárními sou£t· signálu s jednotlivými vektory báze

fM = f, gm gm (2) m Nh i X∈ 10 Marek Bártů kde fM aproximuje signál f s chybou :

f = fM +  (3) P°íkladem vyjád°ení k takovéto bázi m·ºe být Fourierova transformace. Báze je v tomto p°ípad¥ tvo°ena signály sinusového pr·b¥hu. Za podmínky f 2[0, 1] lze pak ve smyslu rovnice (2) p°epsat aproximaci Fourierovu transformací jako ∈ L

i2πmu i2πmt fM (t) = f(u), e e (4) m M/2h i | |≤X kde

i2πmu i2πmu f(u), e = f(u)e− du (5) h i Z Jinou moºností jak aproximovat signál nabízí multirezolu£ní analýza. Signál f je moºné aproximovat s vyuºitím M prvních wavelet· (vlnek):

2 l 1 − − f = f, φ φ (6) M h l,ni l,n nX=0 Výhody této aproximace se uplatní hlavn¥ pro signály s izolovanými singularitami. Exis- tují i dal²í moºnosti výb¥ru báze vhodné pro aproximaci signálu, nap°. Karhunen-Loèvova báze. Shodnou vlastností lineárních aproximací je ºe vyjad°ují signál k p°edem zvolené ortonor- mální bázi. Vhodnou volbou báze lze sníºit chybu aproximace  (3) a zlep²it tím aprox- imaci signálu. Ideální je vybrat pro kaºdou t°ídu signál· vhodnou bázi a vzhledem k té pak signál aproximovat. P°i hledání takové báze se ov²em ukazuje ºe by bylo volit vektory báze tak, aby tyto vektory byly co nejvíce podobné vlastnímu signálu, resp. jeho sloºkám a efektivn¥ tak signál aproximovaly

3. Nelineární aproximace

Nelineární aproximace signálu pracuje s rozsáhlej²ím slovníkem vektor·, kterými aprox- imuje daný signál. Ideáln¥ jde o nekone£ný slovník, v praxi se ale setkáme spí²e s kone£nými slovníky. Na základ¥ vhodn¥ zvolené pokutové funkce jsou ze slovníku vybírány vhodné aproxima£ní vektory. Mnoºina t¥chto vektor· je také nazývána báze, a£koliv zde obvykle nejsou dal²í podmínky na ortogonalitu vektor·. Celou situaci lze popsat jako

+ ∞ f = Θ ( f, g )g (7) M T h mi m mX=1 kde ΘT p°edstavuje funkci jejíº prost°ednictvím jsou ze slovníku vybírány vhodné vektory ze slovníku . D λ (8) = gm 1 m N D { } ≤ ≤ Jednotlivé báze λ obsaºené ve slovníku[ jsou obvykle ortonormální. Pro sjednocení t¥chto gm bází není vhodné tuto podmínku poºadovat. Pokud se ale poda°í zkonstruovat takový slovník, pak to m·ºe mít zásadní vliv na rychlost vyhledávání ve slovníku. Marek Bártů 11

ƒasto se v souvislosti s uspo°ádáním slovníku mluví o tzv. slabá ortogonalit¥. Slabá or- togonalita popisuje situaci kdy pro v²echny moºné dvojice vektor· ze slovníku je sou£in

gm, gn nulový nebo je jeho hodnota malá. Slabá ortogonalita m·ºe mít také významný hvliv nai rychlost algoritmu aproximace.

4. Adaptivní výb¥r báze

Rovnice (7) lze brát jako výchozí bod pro odvození algoritmu výb¥ru aproximující báze.

Je t°eba najít vhodnou funkci ΘT která vybírá ze slovníku vhodné (ve smyslu dobré aproximace) báze. V [3] lze najít odvození tzv. Shurova konkávníhoD kriteria (9). Sou£ástí tohoto kritéria je pokutová funkce φ. Tato funkce musí být konkávní. ObvykleC je za funkci φ dosazována entropie u ln u. − N f, gλ 2 (f, ) = φ |h mi| (9) C B f 2 ! mX=1 k k Pomocí Shurovy konkávní funkce lze porovnat dv¥ r·zné báze ze slovníku, a ur£it, která z nich lépe aproximuje daný signál. S vyuºitím Shurovy konkávní funkce a s pouºitím princip· dynamického programování lze odvodit algoritmy rychlého prohledáváníC strom· bází pro multirezolu£ní analýzu. V [3] jsou uvedeny p°íklady algoritm· Wavelet Packet Basis a Local Cosine Basis. Algoritmus Wavelet Packet Basis d¥lí frekven£ní osu na intervaly s r·znou délkou. D¥lení probíhá s ohledem na dosaºení nejlep²í aproximace. Algoritmus je optimální pro signály, které se skládají ze struktur s podobnou distribucí ve frekvenci. Algoritmus Local Co- sine Basis funguje obdobn¥ pouze s tím rozdílem, ºe d¥lí £asovou osu. Obdobn¥, tento algoritmus je optimální pro signály sloºené ze struktur s podobnou distribucí v £ase. Oba tyto algoritmy nejsou invariantní v·£i posunutí. Tato skute£nost m·ºe p°ivodit jisté komplice p°i pouºití t¥chto algoritm· pro hledání p°íznak· v signálu. Vzhledem k specické funkci, která umoº¬uje nalezení vhodné báze pro signál obsahující obdobné struktury není ani jeden z algoritm· vhodný pro zpracování °e£ových signál·.

5. Algoritmus Matching Pursuit

Tento algoritmus je reprezentantem rodiny Pursuit algoritm·. Tyto algoritmu jsou ur£eny k nalezení dobré aproximace signálu, tak jako algoritmy popsané v p°edchozím odstavci. Oproti t¥mto algoritm·m ale Pursuit algoritmy hledají optimální d¥lení frekven£ní i £asové osy. Algoritmy pracují s redundantním slovníkem a provádí neortogonální rozklad signálu. Algoritmus aproximace neprochází celý strom °e²ení ale provádí pouze omezený pr·chod. Nalezené °e²ení je tedy suboptimální (problém aproximace signálu je NP-t¥ºký).

Typický p°edstavitel této rodiny, algoritmus Basic Pursuit provádí aproximaci signálu minimalizací pokutové funkce pro celý slovník. Tento algoritmus je díky tomuto speci- ckému postupu náro£ný na výpo£etní výkon. Pro ú£ely aproximace °e£ového signálu je vhodn¥j²í jiný algoritmus z této rodiny - algoritmus Matching Pursuit [4]. Algoritmus Matching Pursuit provádí iterativní rozklad signálu. V kaºdém kroku je nalezen vektor ze slovníku, který nabývá v sou£inu se signálem maximálních hodnot (10). Signál 12 Marek Bártů je tedy rozloºen na sloºku reprezentovanou vektorem gγ a reziduum f. Reziduum se potom pouºije p°i dal²í iteraci pro hledání dal²ího vektoru ze slovníku.R

f = f, g g + f (10) |h γi| γ R U nalezeného maxima není garantováno ºe jde o maximum globální - algoritmus je pouze suboptimální. Jako maximální je brán vektor který spl¬uje podmínku (11), kde α je konstanta jejíº volba je libovolná s podmínkou α 1. Toto zjednodu²ení má zásadní vliv na rychlost výpo£tu. ≥

f, gγ0 α sup f, gγ (11) |h i| ≥ γ Γ |h i| ∈ Vlastní iterativní výpo£et probíhá ve dvou krocích. Prvním krokem je nalezení vít¥zného vektoru gγ0 ze slovníku. Vít¥zný vektor je nalezen podle kritéria (11). V tomto tvaru je kritérium platí pouze pro první pr·chod, pro dal²í iterace má kritérium následující tvar:

m m f, gγm α sup f, gγ (12) |hR i| ≥ γ Γ |hR i| ∈ V druhém kroku je proveden výpo£et rezidua f (13). Reziduum m+1f se pouºije op¥tovn¥ p°i dal²í iteraci. R R

m+1f, g = mf, g mf, g g , g (13) hR γi hR γi − hR γih γm γi Pro algoritmus je je²t¥ t°eba denovat ukon£ující podmínku. Iterace je moºné ukon£it po provedení ur£itého po£tu krok·. Dal²ím pouºívanou podmínkou ukon£ení výpo£tu je také dosaºení ur£itého prahu chybovosti aproximace. Tuto situaci popisuje rovnice (14); práh chybovosti aproximace zde reprezentuje symbol .

Rm+1f 2 2 f 2 (14) k k ≤ k k Implementace algoritmu je náro£ná, nicmén¥ je moºné vyuºít n¥které z jiº existujících implementací. Vyzdvihnul bych zejména balík MPtoolbox [2]. Tento software je imple- mentovaný v jazyce C++ a optimalizovaný pro rychlé výpo£ty. Obsahuje také podporu pro integraci s Matlabem. Balík je dostupný v£etn¥ zdrojových kód· na adrese [5].

6. Gaborovy atomy

Prozatím nebylo nic °e£eno o struktu°e slovníku a moºnostech vyuºití r·zných bází. V ter- minologii pouºívané komunitou jsou tyto vektory ozna£ovány jako atomy. Vlastní rozklad signálu pomocí slovníku je nazýváno rozkladem signálu na atomy. Atomy musí spl¬ovat Heisenberg·v princip neur£itosti,D musí tedy spl¬ovat relaci

1 w w (15) t f ≥ 2

Symbol wt p°edstavuje délku (trvání) atomu, symbol wt pak ²í°ku pásma atomu. Jinými slovy jejich rozli²ení v £ase a frekvenci je limitováno. Jako základní atomy se obvykle pouºívají tzv. Gaborovy atomy, které spl¬ují relaci (15) a to se znaménkem rovnosti místo nerovnosti. Jde o Gaussovo okno

g(t) = 21/4 exp( πt2) (16) − Marek Bártů 13 které je nasamplováno a diskretizováno

+ ∞ n pN (17) gj[n] = Kj g −j p=  2  X−∞ a posunuto ve frekvenci a £ase

i2πkn gγ[n] = gj[n p] exp (18) − N !

7. P°íklad

V následujícím textu je uveden p°íklad rozkladu °e£ového signálu. Jedná se o d¥tskou promluvu "papír". V²echny výpo£ty jsou provedeny v MP Tootboxu [5]. Na obrázku 1 je uveden rozklad signálu na atomy. Na vodorovné ose je vynesen £as v sekundách, na svislé ose je potom frekvence v Hertzích. Pro porovnání je v obrázku také vizualizace koecient· PLP a MFCC. Na za£átku prom- luvy je vid¥t struktura krátkých atom· pokrývajících spektrum do 2kHz. Tato struktura odpovídá hlásce "p". Po ní v £ase 0.1 sec následuje struktura odpovídající hlásce "a". Na obrázku jsou vid¥t Gaborovy atomy s malým spektrálním rozsahem a del²ím £asovým trváním oproti atom·m reprezentující hlásku "p". V £ase 0.3 sec je vid¥t struktura odpoví- dající druhé hlásce "p". Op¥t se jedná o strukturu sloºenou z krátkých atom·, které jsou rozprost°eny v celém spektru.

Figure 1: Rozklad promluvy "papír" pro 200 atom· 14 Marek Bártů

V £ase 0.3 aº 0.4 sec je vid¥t struktura odpovídající hlásce "í". Jednotlivé atomy kopírují formantovou strukturu této samohlásky. Je také dob°e patrné jak se tato struktura m¥ní v rámci p°echodu od hlásky "p" a také p°i p°echodu k hlásce "r". struktura hlásky "r" je patrná v £ase 0.5 sec. Rozloºení na obrázku 1 bylo spo£ítáno s tím, ºe výpo£et byl ukon£en po nalezení 200 atom·. Na obrázku 2 je výpo£et rozloºení pro stejnou promluvu, s tím ºe jsou zde uvedena rozloºení pro r·zné po£ty atom·

Figure 2: Rozklad promluvy "papír" pro r·zný po£et atom·

8. Záv¥r

Pro vyuºití popsaného rozkladu pro neuronové sít¥ je t°eba najít postup jak p°evést analytický popis signálu pomocí atom· na vektor vhodný pro zpracování neuronovými sít¥mi. Výhodou je p°esnost popisu která umoº¬uje pouºít tuto parametrizaci pro zpra- cování náro£n¥j²ích úloh. Dal²í výhodou pouºitého algoritmu je, ºe je velmi snadné provést z popisu signálu atomy zp¥tn¥ syntézu signálu. Pouºitím popsaného algoritmu odpadají problémy s pouºitím um¥lé neuronové sít¥ typu ASSOM (Adaptive Subspace Self-Organizing Maps). Je t°eba poznamenat ºe iterativní algoritmus rozkladu rezidua je velmi podobný algoritmu KSOM (Kohonen Self-Organizing Maps). Marek Bártů 15 Pod¥kování

Tento výzkum byl podporován grantem GAƒR £. 102/08/H008 "Analýza a modelování biologických a °e£ových signál·".

Reference

[1] Bárt·, M.; Tu£ková, J. A classication method of children with developmental dyspha- sia based on disorder speech analysis. In Proceedings of the International Conference on Articial Neural Networks (ICANN'08) September 2008.

[2] Krstulovic, S.; Gribonval, R. MPTK: Matching Pursuit made tractable. In Proc. Int. Conf. Acoust. Speech Signal Process. (ICASSP'06) Toulouse, France, May 2006, vol. 3, pp. III496  III499.

[3] Mallat, S. A Wavelet Tour of Signal Processing, 2nd ed. Elsevier, 1999.

[4] Mallat, S.; Zhang, Z. Matching pursuit with time-frequency dictionaries. IEEE Trans- actions on Signal Processing 41, 12 (December 1993), 33973415.

[5] MPTK - matching pursuit toolkit. http://mptk.irisa.fr.

[6] Psutka, J.; Müller, L.; Matou²ek, J.; Radová, V. Mluvíme s po£íta£em £esky. Academia, 2006. 16 Petr Bergl

Parametry zkoumající pravidelnost energie a znělosti řečového signálu neplynulých promluv

Petr Bergl, Roman Čmejla

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected], [email protected] 22. listopadu 2009

Abstrakt: V příspěvku budou představeny dva parametry pro zkoumání ne- plynulých promluv. První se zabývá pravidelností výdeje energie řečového sig- nálu, druhý parametr zkoumá pravidelnost znělosti promluv. Jejich výsledky jsou analyzovány na databázi 121 mluvčích, pro každého z nich je k dispozici známka od dvou lékařů hodnotící tíži neplynulosti. Parametr zkoumající ener- gii s hodnocením prvního lékaře koreloval s koeficientem 0, 767, s hodnocením druhého pak s koeficientem 0, 73. Druhý parametr zkoumající pravidelnost znělosti koreluje s hodnocením prvního lékaře s koeficientem 0, 711, s hodno- cením druhého pak s koeficientem 0, 656.

1. Úvod

Poruchy plynulosti řeči mohou mít mnoho příčin. Může se jednat o menší dispozice k roz- manitému mluvenému projevu, charakterové vlastnosti či výsledek emocionální rozladě- nosti jedince. Kromě toho mohou být jejich důvodem různá onemocnění, např. koktavost. Koktavost (balbuties) se projevuje opakováním určitých hlásek či slabik (repetice), pro- dlužováním hlásek (prolongace), četnými pauzami apod. Koktaví si jsou své poruchy dobře vědomi, s tím spojený stres pak může vést až ke strachu z mluvení. Teorií o vzniku koktavosti je nespočet, s tím je spojeno i značné množství používaných terapeutických přístupů (až 250). Volba léčebného postupu tak není nikterak jednoduchou otázkou, správné posouzení tíže poruchy a výskytu příznaků je velmi důležité. Metoda, která by objektivně určila vážnost poruchy řeči, by byla velkým přínosem. Umožnila by zejména ([1, 2]): 1) Určení tíže poruchy. 2) Hodnocení výsledků léčby. 3) Porovnání efektivnosti a účinnosti léčebného postupu s jiným léčebným postupem. Pro posouzení vážnosti se dají použít různé škály, které ale mají základ v subjektivním posouzení výskytu repetic a prolongací. Tento příspěvek popisuje dva parametry zkouma- jící pravidelnost promluv na základě analýzy audio nahrávek balbutiků. Tyto parametry se spolu s dalšími stanou základem systému, který odhaduje tíži poruchy plynulosti řeči. Petr Bergl 17

2. Databáze promluv

Základem výzkumu je databáze obsahující audio nahrávky od 154 mluvčích, z tohoto po- čtu je 12 kontrolních zdravých jedinců, zbytek je tvořen pacienty různého věku, s různou vážností poruchy plynulosti řeči. Databáze vznikla na Foniatrické klinice 1.LF UK a VFN. U většiny mluvčích byly zaznamenány jak čtené, tak volně formulované promluvy. Expe- rimenty popsané v tomto článku se zaměřují na čtený text, konkrétně úryvek (cca 75 slov) z Babičky od Boženy Němcové. Důležitým faktem je, že během roku 2008 byly všechny čtené promluvy posouzeny dvěma foniatry, kteří tíži poruchy plynulosti řeči popsali po- mocí 5-ti stupňové klasifikace (známkou v rozmezí 0 až 4) na základě relativní četnosti neplynulých slov cnepl, konkrétně: 0 - žádné příznaky koktavosti, c = 0% • nepl 1 - balbuties levis, 0% < c 5% • nepl ≤ 2 – balbuties gradus medius, 5% < c 20% • nepl ≤ 3 - balbuties gravis, 20% < c 60% • nepl ≤

4 - balbuties gravis inaptus, cnepl > 60% nebo promluva obsahuje dlouhé prefonační • spazmy (bloky) v délce trvání 2 s a více.

Poznamenejme, že hodnocení zahrnuje jak neplynulosti způsobené koktavostí (tony, klony, tonoklony či prefonační spazmy), tak neplynulosti vyplývající z technických obtíží při čtení, prostého přeřeknutí či projevů specifické poruchy čtení - dyslexie. Pro každého mluvčího jsou tedy k dispozici dvě známky (jedna od každého lékaře), sloužící jako kontrolní pro navržené parametry. Použity jsou signály se vzorkovací frekvencí 16 kHz, v 16 bitovém formátu. Technická kva- lita části databáze je bohužel nízká (brum, kolísání zesílení během nahrávky), celkem 33 mluvčích muselo být z experimentů vyřazeno. Zbylo tak 121 mluvčích, nejmladšímu bylo v době nahrávání 7 let a 5 měsíců, nejstaršímu pak 49 let a 5 měsíců. Ženy a dívky představují 23% (28 ze 121). Počet jedinců se známkami 0 až 4 ukazuje tabulka 1.

Známka „0ÿ „1ÿ „2ÿ „3ÿ „4ÿ Celkem Počet 15 27 43 26 10 121 Tabulka 1: Počet mluvčích s danou známkou.

3. Parametry zkoumající pravidelnost promluvy

3.1. Pravidelnost energie promluvy Pro neplynulé promluvy jsou typické změny tempa řeči, intervaly s běžnou rychlostí řeči se střídají s intervaly s velmi nízkou rychlostí, s bloky apod. Tuto nepravidelnost můžeme pozorovat na „nepravidelném výdejiÿ energie promluvy. Použijeme následující postup: 1) Vzorky signálu umocníme na druhou. 2) Tyto hodnoty postupně přidáváme do aku- mulátoru. 3) Pokud je hodnota akumulátoru menší než práh h, pak opakujeme krok 2, v opačném případě (práh byl překročen) akumulátor vynulujeme a uložíme okamžik i (číslo vzorku), kdy došlo k překročení prahu. 18 Petr Bergl

Obrázek 1: Ukázka signálu. Nahoře: Energetická obálka a její lokální maxima užitá pro definici prahu h. Dole: Průběh akumulátoru s vyznačenými místy, kde byl překročen práh h.

Výsledkem je sada indexů i, udávající místa překročení prahu. Pro každého mluvčího je možné zkoumat jejich průměrný počet, střední vzdálenost, rozptyl této vzdálenosti apod. Pro obdržení dobrých výsledků je nutné správné nastavení prahu h. Pokud byl zvolen pevně, tj. jako konstantní číslo pro celou databázi, nebyly výsledky příliš nadějné. Proto se práh pro každého jedince určuje adaptivně na základě maxim energetické obálky signálu. Na obr. 1 nahoře je ukázka signálu a jeho energetické obálky spolu s lokálními maximy. Všimněme si, že největší maximum výrazně převyšuje všechna ostatní maxima, odvozovat práh z této extrémní hodnoty se proto příliš nehodí. Raději tak práh odvodíme z maxim dalších. Na obr. 1 dole je pak ukázka průběhu akumulátoru s vyznačenými místy, kde byl překročen práh h, odvozený ze šestého největšího maxima energetické obálky. Otázkou zůstává, kolikáté maximum a jakou část z něj použít pro definici prahu. Zamě- říme se na parametr daný rozptylem vzdálenosti míst, kde byl překročen práh h. Dá se očekávat, že rozptyl s nepravidelností (neplynulostí) promluvy poroste. Tabulka 2 uvádí korelační koeficienty mezi logaritmem tohoto parametru a neplynulostí hodnocenou prv- 75 ním lékařem. Nejvyšší hodnotu 0, 767 nacházíme pro práh daný jako 100 z patnáctého největšího maxima. Detailní výsledky nalezneme na obr. 2, kde je reprezentace rozdělena na dvě části: 1) neplynulost hodnocená prvním lékařem (vlevo), 2) neplynulost hodno- cená druhým lékařem (vpravo). Rozložení hodnot parametru je vykresleno pomocí funkce Matlabu boxplot. Tato funkce pro každou známku 0 až 4 vykreslí „boxÿ, v jehož středu je vodorovná čára pro medián, „dnoÿ a „stropÿ boxu odpovídají kvartilům. Kromě toho jsou křížky zdůrazněny odlehlé hodnoty. Pokud má zkoumaný parametr vypovídat o vážnosti poruchy, pak by boxy měly být v různé výšce (tj. měly by mít různé mediány), a jejich rozměr by měl být co nejmenší (minimální rozdíl mezi mediánem a kvartily). V nadpisu grafů je dále uveden korelační koeficient a výsledky Wilcoxonova znaménkového testu pro Petr Bergl 19

Práh h = c M · k k c 1 5 10 13 15 17 0, 25 0, 696 0, 727 0, 75 0, 755 0, 749 0, 751 0, 50 0, 695 0, 729 0, 755 0, 76 0, 765 0, 76 0, 75 0, 692 0, 734 0, 747 0, 764 0, 767 0, 764 1, 00 0, 681 0, 726 0, 75 0, 759 0, 762 0, 764 1, 25 0, 677 0, 722 0, 748 0, 756 0, 763 0, 761 1, 50 0, 678 0, 72 0, 747 0, 754 0, 758 0, 762 2, 00 0, 668 0, 712 0, 742 0, 754 0, 752 0, 756 Tabulka 2: Korelační koeficient mezi logaritmem rozptylu vzdálenosti míst, kde byl pře- kročen práh h, a neplynulostí hodnocenou prvním lékařem. Práh h = c M , k určuje · k kolikáté největší maximum se uvažuje, Mk je hodnota maxima.

Obrázek 2: Pravidelnost energie - logaritmus rozptylu vzdálenosti míst, kde byl překro- 75 čen práh h daný jako 100 z patnáctého největšího maxima energetické obálky. Boxplot, korelační koeficient a výsledky Wilcoxonova testu. dvě hladiny významnosti (α = 0, 01 a α = 0, 05), který testuje hypotézu, že mediány mezi jednotlivými skupinami jsou stejné. Např. zápis „0 1 1 0ÿ značí, že hypotézu o shodných mediánech zamítáme mezi daty pro skupiny 1 a 2 (první jednička) a skupinami 2 a 3 (druhá jednička). Volně přeloženo, zkoumaný parametr by mohl být užitečný pro roze- znávání, zda mluvčí patří do skupiny 1, 2, nebo 3. Pro ideální parametr bychom tedy měli vidět osm jedniček. Na závěr dodejme, že pro další parametry postavené na tomto základě nebylo dosaženo lepších výsledků. Průměrný počet překročení prahu měl korelační koeficient pod 0, 5 a je- jich průměrná vzdálenost kolem 0, 7. 3.2. Pravidelnost znělosti promluvy Obdobně můžeme zkoumat pravidelnost znělosti promluvy. Základem je detekce znělých úseků řeči a určení hodnoty základního hlasivkového tónu F0 pro každý takový úsek. Oba tyto úkoly můžeme provést např. v systému Praat. Ukázku signálu s odhadnutou hodnotou F0 najdeme na obr. 3 nahoře. Akumulátor tentokráte inkrementujeme za každou pitch periodu signálu (viz obr. 3 dole), práh pro každého mluvčího odvodíme z mediánu 20 Petr Bergl

Obrázek 3: Nahoře: Signál a hodnota F0 dle Praatu. Dole: Průběh akumulátoru s vyzna- čeným místem překročení prahu h.

c 0, 01 0, 05 0, 10 0, 20 0, 30 0, 40 r 0, 694 0, 711 0, 708 0, 695 0, 691 0, 684 Tabulka 3: Korelační koeficient r mezi logaritmem rozptylu vzdálenosti míst, kde byl překročen práh h, a neplynulostí hodnocenou prvním lékařem. Práh h = c med(F0), kde · med(F0) značí medián hodnot F0 každého mluvčího.

hodnot F0. Zajímavě se opět jeví rozptyl z délek intervalů vymezených okamžiky překročení prahu. Výsledky jsou uvedeny v tabulce 3, nejvyšší korelační koeficient najdeme pro práh daný 5 jako 100 mediánu F0. Detailní výsledky pro toto nastavení najdeme na obr. 4. Znalost F0 umožňuje výpočet dalších charakteristik jako je jitter a shimmer, bohužel se však nepodařilo prokázat souvislost mezi nimi a mírou neplynulosti.

4. Závěr

V příspěvku byly představeny dva parametry pro zkoumání neplynulých promluv. První se zabýval pravidelností výdeje energie řečového signálu. S hodnocením prvního lékaře ko- reloval s koeficientem 0, 767, s hodnocením druhého pak s koeficientem 0, 73. Wilcoxonův test nasvědčuje, že nejlépe by mohl zachycovat rozdíly neplynulosti mezi skupinami 1, 2, a 3. Druhý parametr zkoumá pravidelnost znělosti promluv. S hodnocením prvního lékaře koreluje s koeficientem 0, 711, s hodnocením druhého pak s koeficientem 0, 656. Wilcoxo- nův test podobně jako pro první parametr nasvědčuje, že nejlépe by mohl rozlišovat mezi skupinami 1, 2, a 3. Celkově můžeme říci, že parametr zkoumající pravidelnost energie dosáhl lepších výsledků, dosáhl vyšších korelačních koeficientů pro oba lékaře a ve Wilcoxonových testech má více pozitivních výsledků. Oba parametry se spolu s dalšími (zkoumajícími rozložení ticha a řeči, analyzujícími spektrum promluv, viz [3, 4]) stanou základem systému pro objektivní hodnocení neplynulosti řeči. Jeho principem je spojení několika parametrů, které zkoumají Petr Bergl 21

Obrázek 4: Pravidelnost znělosti - logaritmus rozptylu vzdálenosti míst, kde byl překročen 5 práh h daný jako 100 z mediánu F0. Boxplot, korelační koeficient a výsledky Wilcoxonova testu.

řeč z různých hledisek, přičemž výstupem bude hodnocení na škále 0 až 4, tedy stejné škále, která byla užita lékaři při anotaci databáze.

Poděkování

Děkuji MUDr. M. Hrbkové a Dr.Ing. J. Vokřálovi z Foniatrické kliniky 1.LF UK a VFN za poskytnutí signálů. Tento výzkum byl podporován z grantů GAČR 102/03/H085 ‘Modelo- vání biologických a řečových signálů’, IGA MZ ČR NR 8287-3/2005, ‘Počítačová analýza řečového projevu a celonočních EEG záznamů u dětí’ resp. výzkumného záměru MŠMT MSM6840770012 ‘Transdisciplinární výzkum v biomedicínckém inženýrství 2’.

Reference

[1] M. Lašťovka, J. Vokřál, L. Černý, K. Radilová, M. Hrdličková, Hodnocení tíže poruchy plynulosti řeči pomocí neuronových sítí, Závěrečná zpráva grantu 237/1998/C/1.LF

[2] P. Howell, A. Hamilton, A. Kyriacopoulos, Automatic detection of repetitions and prolongations in stutterred speech, Speech Input/Output: Techniques and Applicati- ons, IEE Publications, 252–256, 1986.

[3] P. Bergl, R. Čmejla, L. Černý, M. Hrbková, Objective and Subjective Evaulation of Dysfluent Speech. In Digital Technologies 2008 [CD-ROM]. Žilina: University of Žilina, Fakulty of electrical engineering, 2008, vol. 1, ISBN 978-80-8070-953-2.

[4] P. Bergl, Akusticko - fonetické charakteristiky neplynulých promluv. In Ana- lýza a zpracování řečových a biologických signálů - Sborník prací 2007. Praha: ČVUT, 2007, díl 1, s. 7-12. ISBN 80-01-03940-3. 22 Václav Bolom

Zvýrazňování řeči v osobním automobilu

Václav Bolom

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Tento příspěvek se zabývá možnostmi zvýrazňování řeči v osobním automobilu. Je zde představena metoda RGSC, která slibuje využitelnost více- kanálových metod v reálném prostředí. Tato metoda je porovnána s metodou GSC. Obě metody jsou porovnány jednak na modelu vícekanálového signálu, a dále na signálu nahraném v osobním automobilu. Dosažené výsledky jsou porovnávány na základě tří kritérií respektující nejen míru zvýraznění řeči, ale také její zkreslení během zpracování.

1. Úvod

Tento příspěvek se zabývá zvýrazňováním řeči v osobním automobilu. Tato úloha má velký význam pro mobilní komunikace, případně pro rozpoznávání jednoduchých povelů. Její význam spočívá hlavně ve zvýšení bezpečnosti silničního provozu. V tomto příspěvku je diskutováno použití vícekanálových metod v reálném prostředí. Vícekanálové metody provádějí vzorkování signálu nejen v čase, ale i v prostoru. Tím je dosaženo směrového příjmu. Signál je prostorově vzorkován pomocí mikrofonního pole. V našem případě je pole tvořeno čtyřmi mikrofony uspořádanými do lineární řady s roztečí mikrofonů 4 cm. V příspěvku jsou nejprve v části 2. definovány typy rušení ve vícekanálových systémech. Dále jsou v části 3. popsány porovnávané metody zpracování signálů. Zejména je uvedena metoda RGSC. Následující části 4. a 5. pojednávají o způsobu vyhodnocování porov- návaných metod. Je zde popsána metodika vytváření vstupních signálů a kritéria pro vyhodnocování výsledků. Pak následuje experimentální část a závěr.

2. Rušení ve vícekanálových systémech

Ve vícekanálových systémech se většinou uvažují tři typy rušení. Kritériem pro jejich rozdělení je koherence Γ(ejωT ) [17] definována jako

jωT jωT φij(e ) Γij(e ) = , (1) jωT jωT φii(e )φjj(e ) q jωT jωT kde φii(e ) značí spektrální výkonovou hustotu (PSD) signálu v j-tém kanálu a φij(e ) vzájemnou PSD signálů v i-tém a j-tém kanálu. V literatuře se často používá absolutní Václav Bolom 23

1 1 1

Theory Theory Theory 0.8 0.8 0.8 Γ (1 − 2) Γ (1 − 3) Γ (1 − 4) 12 13 14

0.6 0.6 0.6 MSC MSC MSC 0.4 0.4 0.4

0.2 0.2 0.2

0 0 0 0 1000 2000 3000 4000 0 1000 2000 3000 4000 0 1000 2000 3000 4000 freguency [Hz] freguency [Hz] freguency [Hz]

Obrázek 1: Porovnání koherence rušení v automobilu s teoretickým průběhem. hodnota koherence umocněná na druhou, označovaná jako MSC (Magnitude squared coherence). MSC nabývá hodnoty od 0 do 1. Podle průběhu MSC lze klasifikovat rušení do třech kategorií. Je-li rušení reprezentováno rovinnou akustickou vlnou, hovoří se o prostorově koherentním rušení. MSC se blíží jedné v celém frekvenčním rozsahu. Koherentní rušení je v kabině automobilu reprezentováno např. hlukem ventilátoru. Pokud se MSC blíží v celém frekvenčním rozsahu nule, hovoří se o prostorově nekoherentním rušení. Prostorově nekoherentním rušením je např. elektrický šum mikrofonů. Speciálním případem je difusní rušení. To vzniká v uzavřených prostorách díky odrazům zvuku od stěn. Koherence difusního rušení má tvar [3]

ωD jωT sin( c ) Γ12(e ) = ωD , (2) c kde ω značí úhlovou frekvenci, D vzdálenost mikrofonů a c rychlost šíření zvuku. Rušení v kabině automobilu má difusní charakter. Na obrázku 1 je možné porovnat prů- běhy koherence nahraného šumu a teoretického průběhu podle vztahu 2. Koherence je zobrazena pro tři dvojice kanálů ze čtyřkanálového záznamu.

3. Zpracování vícekanálových signálů

Zpracování vícekanálových signálů může být prováděno jak v časové, tak ve frekvenční oblasti. V současné době se často používá zpracování ve frekvenční oblasti. Důvodem je jednak fakt, že některé metody vyžadují ze své podstaty zpracování ve frekvenční oblasti [18, 2, 13]. Dalšími důvody je možnost blokového zpracování metodou sčítání přesahů (OLA) a rychlejší konvergence adaptivních algoritmů. To je dáno faktem, že se každá spektrální čára adaptuje samostatně. Tento příspěvek se zaměřuje na rozdíl mezi zpracováním signálů naměřených v osobním automobilu a zpracováním modelových signálů. Pro příklad bude použita metoda GSC [5] a RGSC (Robust GSC) [8, 9, 10]. Obě metody jsou implementovány ve frekvenční oblasti. Algoritmus GSC výborně potlačuje koherentní rušení [11]. Vynikajících vlastností však dosahuje pouze pro modelové signály, kdy je užitečný signál reprezentován rovinnou vl- nou dopadající kolmo na mikrofonní pole a rušení je též reprezentováno rovinnou vlnou dopadající na mikrofonní pole pod jiným úhlem. V práci [1] bylo ukázáno, že při nedodr- žení předpokladu na kolmý dopad užitečného signálu na mikrofonní pole metoda selhává. V osobním automobilu nejsou předpoklady pro GSC dodrženy. Jedná se zejména o poru- šení předpokladu na vzájemnou polohu zdroje signálu a mikrofonního pole, nepřesnosti v nastavení polohy mikrofonů a nerovinnosti akustických vln. 24 Václav Bolom

Obrázek 2: Blokové schéma RGSC.

3.1. RGSC Metoda RGSC byly postupně prezentována v pracech [8, 9, 10]. Její implementace ve frekvenční oblasti je popsána např. v [7]. Jedná se, v podstatě, o zdokonalení metody GSC, aby byla použitelná pro zpracování reálných signálů. Blokové schéma je zobrazeno na obrázku 2. Zásadním rozdílem oproti GSC je adaptivní blokovací matice (ABM). ABM jωT je sadou adaptivních filtrů. Ty upravují signál Yb(e ) tak, aby byl minimální rozptyl jωT Yl(e ). Rovnici filtrace lze pro ABM napsat jako

Yl(k) = X(k) B(k)Yb(k)11 M . (3) − ×

Význam matic je zřejmý z obrázku 2, 11 M je řádkový vektor M jedniček a k je index × frekvenčního pásma. ABM je aktualizována NLMS algoritmem [7] podle předpisu

(1 λ)µ(speech(k)11 M (Yb∗(k)11 M )Yl(k) B(r + 1, k) = B(r, k) + − × × , (4) φYbYb (k) kde λ konstanta blízká jedné, µ konvergenční konstanta, speech(k) značí detektor řečové aktivity (VAD), φYbYb (k) PSD Yb a r je index bloku. Váhy ANC filtrů H jsou aktua- lizovány obdobně jako u GSC. Za zmínku stojí VAD, který je rozdělen do frekvenčních pásem. Hodnota 1 znamená, že je v daném frekvenčním pásmu přítomna řeč, 0 znamená řečovou pauzu. Použitý VAD je založen na prostorových vlastnostech signálu. Kritériem pro posuzování přítomnosti řeči je koherence. Tato myšlenka byla převzata z [12]. Předpokládá se, že řečový signál je koherentní a MSC by se při jeho přítomnosti měla blížit jedné. V praxi je stanoven práh, při jehož překročení je dané frekvenční pásmo považováno v daném bloku za řeč. Práh je typicky 0, 7. Příklad rozložení řečových úseků a pauz ve frekvenčních pásmech je uveden na obrázku 3. Autor [7] navrhuje zcela potlačit frekvenční pásma do 200 Hz. To je v případě uváděných experimentů realizováno tak, že jsou tato frekvenční pásma označena za pauzu vždy, bez ohledu na hodnotu MSC. Václav Bolom 25

VAD (0−pause, 1−dont know, 2−speech 4000 2

3000 1.5

2000 1

frequency [Hz] 1000 0.5

0 0 2 4 6 8 10 12 time [s]

Obrázek 3: Příklad rozložení řeči a pauz ve frekvenčních pásmech.

Obrázek 4: Blokové schéma metodiky testování.

4. Metodika testování

Při hodnocení úspěšnosti zvýraznění řeči je obtížné oddělit užitečný signál a rušení a sta- novovat např. SNR na vstupu a výstupu systému. Toto oddělení je však klíčové pro posouzení vlastností dané metody. Pro testování použitých metod byl zvolen následující přístup. Užitečný signál a rušená byly zaznamenány odděleně. Před samotnou analýzou jsou tyto signály smíchány v požadovaném SNR. Za užitečný signál jsou považovány nahrávky promluv ve stojícím automobilu s vypnutým motorem a s minimálním rušením z vnějšího prostředí. Rušení je pak reprezentováno nahrávkami v jedoucím voze bez přítomnosti řeči. Blokové schéma znázorňující testovací metodiku je zobrazeno na obrázku 4. Užitečný signál s[n] a rušení u[n] vytvoří směs x[n] s definovaným SNR. Zpracováním směsi je získán výstupní signál y[n]. Pomocí filtrů nastavených při filtraci signálu x[n] jsou také zpracovány signály s[n] a u[n]. Výsledné signály ys[n] a yu[n] nesou informaci o vlivu systému na užitečný signál a rušení.

5. Kritéria pro hodnocení systémů

Kritéria pro hodnocení míry zvýraznění lze rozdělit na objektivní a subjektivní. K sub- jektivním metodám patří poslechové testy. Pro jejich provedení je třeba mít k dispozici několik školených posluchačů a dostatek času. Jejich nespornou výhodou je posouzení vlivu dané metody na zkreslení řeči lidským smyslem. K objektivním kritériím, která jsou 26 Václav Bolom použita pro hodnocení výsledků jsou potlačení rušení (Noise reduction, NR), logaritmus průřezových koeficientů (Log area ratio, LAR), vylepšení poměru energií signálu a rušení (Signal to noise ratio enhancement, SNRE) a spektrogramy. Všechna z těchto kritérií jsou počítána z kvazistacionárních úseků signálu. Často je výhodné ohodnotit výsledek jednoho experimentu jedním číslem. V takovém případě se použije průměrná hodnota daného kritéria. V případě kritéria LAR se průměrování provádí pouze přes bloky s řečí. 5.1. NR NR ukazuje, do jaké míry lze je s pomocí zvolené metody potlačen šum. Je definována jako [14] jωT jωT φuu(e ) NR(e ) = 10 log jωT (5) φy y (e )¯ u u ¯φss=0 ¯ jωT ¯ jωT kde Φuu(e ) značí spektrální výkonovou hustotu (PSD) rušení¯ na vstupu systému a Φyuyu (e ) PSD rušení po zpracování daným systémem. Předpokladem je, že na vstupu systému není přítomen užitečný signál. Kritérium NR bere v úvahu pouze potlačení rušení. Nevypovídá vůbec nic o vlivu systému na užitečný signál. Pro hodnocení kvality daného systému musí být kombinováno s dalšími kritérii. 5.2. LAR Logaritmus průřezových koeficientů [16] zohledňuje vliv systému na srozumitelnost řeči. Jeho velkou výhodou je korelace s poslechovými testy [4]. Předpokladem použití LAR je, že zpracovávaným signálem je řeč. Výpočet je založena na nalezení parciálních korelačních koeficientů (PARCOR) AR modelu signálu. Pro výpočet LAR je třeba znát čistý užitečný signál s[n] a výstupní signál ys[n]. Výpočet LAR probíhá v následujících krocích: 1. Odhad PARCOR koeficientů k(p, l) bloku vzorků signálu s[n]. Index p značí p- tý PARCOR koeficient l-tého bloku vzorků. Řád modelu se volí typicky P = 12. K odhadu koeficientů lze použít Burgova algoritmu [6].

2. Výpočet průřezových koeficientů 1 + k(p, l) g(p, l) = , p = 1,..., 12, (6) 1 k(p, l) − kde k(p, l) je p-tý PARCOR koeficient 1 l-tého bloku.

3. Výpočet LAR l-tého bloku

12 gs(p, l) LAR(l) = 20 log10 . (7) ¯ g (p, l)¯ p=1 ¯ y ¯ X ¯ ¯ ¯ ¯ ¯ ¯ LAR vyjadřuje „vzdálenost“ modelu signálu s[n] od modelu signálu ys[n]. Čím je LAR menší, tím je užitečný signál méně zkreslený. 5.3. SNRE SNRE je často užívaným kritériem. Vyjadřuje, jak se zvýší poměr energií signálu a rušení po zpracování daným systémem. SNRE se vypočítá jako rozdíl SNRin SNRout. Signály − s[n] a u[n] jsou použity pro výpočet SNRin a ys[n] a yu[n] pro SNRout

1PARCOR koeficienty k(p, l) jsou v některých pramenech [15] označovány jako záporná hodnota ko- eficientů odrazu Václav Bolom 27

LAR 15 GSC RGSC 10

5 LAR [dB]

0 −10 −5 0 5 10 SNR [dB] SNRE in 15 GSC RGSC 10

5 SNRE [dB] 0 −10 −5 0 5 10 SNR [dB] NR in 15 GSC RGSC 10

NR [dB] 5

0 −10 −5 0 5 10 SNR [dB] in (a) Model signálu.

LAR 6 GSC RGSC 4

2 LAR [dB]

0 −10 −5 0 5 10 SNR [dB] SNRE in 20 GSC RGSC 10

0 SNRE [dB] SNR [dB] −10 in −10 −5 0 5 10 NR 15 GSC RGSC 10

NR [dB] 5

0 −10 −5 0 5 10 SNR [dB] in (b) Nahraný signál.

Obrázek 5: Výsledky experimentů.

6. Experimenty

Metody GSC a RGSC byly porovnány pomocí dvou experimentů. V prvním experimenty byla použita směs modelu užitečného signálu a rušení nahraného v osobním automobilu při jízdě mimo obec. Model signálu byl vytvořen zkopírováním užitečného signálu do všech kanálů. Pro druhý experiment byla použita směs reprodukované nahrávky a rušení. Obě byly pořízeny v automobilu. Nahrávka řeči byla pořízena při stání a vypnutém motoru a nahrávka rušení opět při jízdě mimo obec. Experimenty byly prováděny pro různá SNRin v rozsahu od 10 do 10 dB. − 28 Václav Bolom

Délka použitých signálů byla přibližně 12 s. Před samotným zpracováním byly signály převzorkovány na 8 kHz. Délka okna pro OLA byla zvolena 128 vzorků s 50 % překryvem. Výsledky experimentů jsou zobrazeny ve formě sloupcových grafů na obrázku 5. Pro jednotlivá SNRin jsou vyjádřena kritéria LAR, SNRE a NR.

7. Závěr

Experiment s modelem signálu (obr. 5(a)) ukazuje vyšší schopnost zvýraznění pro RGSC. GSC naproti tomu vykazuje prakticky nulové zkreslení užitečného signálu. Při bližším zkoumání se však ukázalo, že zkreslení signálu u RGSC bylo velkou měrou způsobeno skutečností, že byl v pásmu od 0 do 200 Hz potlačen veškerý signál (viz kapitola 3.1.). Dále lze z prvního experimentu vypozorovat klesající výkon systému s rostoucím SNRin. Pro směs reprodukované nahrávky a rušení je již výsledek odlišný (obr. 5(b)). RGSC dosahuje lepších výsledků podle všech tří kritérií. Velký přínos je zejména pokles zkreslení užitečného signálu. Vysoké hodnoty LAR u GSC jsou dány porušením předpokladů na parametry vstupních signálů. Nepřesnost polohy mluvčího a mikrofonů je v případě RGSC kompenzována ABM. I u tohoto experimentu lze vypozorovat trend klesajícího výkonu systémů s rostoucím SNRin. Provedené experimenty ukázaly, že pro praktické nasazení vícekanálových systémů je klí- čové brát v úvahu reálné parametry vstupních signálů. Odchylky od modelových situací lze kompenzovat např. pomocí ABM. Experiment ukázal, že systémy s fixní blokovací maticí pro reálné situace selhávají. Jejich přínos je zejména ve stádiu teoretických analýz a vývoje systémů pro zvýrazňování řeči.

Poděkování

Tento výzkum byl podporován z grantů GAČR č. 102/08/H008 „Modelování biologických a řečových signálů“, GAČR č. 102/08/0707 „Rozpoznávání mluvené řeči v reálných pod- mínkách“. a výzkumného záměru MŠMT MSM6840770012 „Transdisciplinární výzkum v biomedicínském inženýrství 2“.

Reference

[1] Bolom, V. Influence of Beamformer Parameters on Speech Enhancement. In PO- STER 2007 Prague, 2007, CTU, Faculty of Electrical Engineering, p. 1.

[2] Bouquin, R. L. Enhancement of noisy speech signals: application to mobile radio communications. Speech Commun. 18, 1 (1996), 3–19.

[3] Cron, B. F.; Sherman, C. H. Spatial-correlation functions for various noise models. Journal of Acoustic Society of America 34, 11 (1962).

[4] Fischer, S.; Kammeyer, K.-D.; Simmer, K. Adaptive microphone arrays for speech enhancement in coherent and incoherent noise fields. In Invited talk at the 3rd joint meeting of the Acoustical Society of America and the Acoustical Society of Japan Honolulu, Hawaii, Dec 1996. Václav Bolom 29

[5] Griffiths, L. J.; Jim, W. C. An alternative approach to linearly constrained adaptive beamforming. Antennas and Propagation, IEEE Transactions on 30, 1 (Jan 1982), 27–34.

[6] Haykin, S. Adaptive filter theory (3rd ed.). Prentice-Hall, Inc., Upper Saddle River, NJ, USA, 1996.

[7] Herbordt, W. Sound Capture for Human/Machine Interfaces. Practical Aspects of Microphone Array Signal Processing. Springer, 2005.

[8] Hoshuyama, O.; Sugiyama, A. A robust adaptive beamformer for microphone arrays with a blocking matrix using constrained adaptive filters. In ICASSP ’96: Proceedings of the Acoustics, Speech, and Signal Processing, 1996. on Conference Proceedings., 1996 IEEE International Conference Washington, DC, USA, 1996, IEEE Computer Society, pp. 925–928.

[9] Hoshuyama, O.; Sugiyama, A.; Hirano, A. A robust adaptive beamformer for micro- phone arrays with a blocking matrix using constrained adaptive filters. Signal Pro- cessing, IEEE Transactions on 47, 10 (Oct 1999), 2677–2684.

[10] Hoshuyama, O.; Sugiyama, A.; Hirano, A. A robust adaptive beamformer with a blocking matrix using coefficient-constrained adaptive filters. IEICE Trans Fundam Electron Commun Comput Sci (Inst Electron Inf Commun Eng) E82-A, 4 (1999), 640–647.

[11] Ingerle, J. Methods of speech signal enhancement combining beamforming and post- filtration. PhD thesis, FEL ČVUT, Prague, February 2003. [in Czech].

[12] Le Bouquin Jeannes, R.; Faucon, G. Proposal of a voice activity detector for noise reduction. Electronics Letters 30, 12 (Jun 1994), 930–932.

[13] Mahmoudi, D.; Drygajlo, A. Combined wiener and coherence filtering in wavelet domain for microphone array speech enhancement. Acoustics, Speech and Signal Processing, 1998. Proceedings of the 1998 IEEE International Conference on 1 (12- 15 May 1998), 385–388 vol.1.

[14] Marro, C.; Mahieux, Y.; Simmer, K. Analysis of noise reduction and dereverbe- ration techniques based on microphone arrays with postfiltering. Speech and Audio Processing, IEEE Transactions on 6, 3 (May 1998), 240–259.

[15] Psutka, J.; Müller, L.; Matoušek, J.; Radová, V. Mluvíme s počítačem česky. Acade- mia, Prague, 2006.

[16] Simmer, K.; Bitzer, J.; Marro, C. Microphone Arrays. Springer, Berlin, Heidelberg, New York, May 2001, ch. Post-filtering Techniques, pp. 39–57.

[17] Uhlíř, J.; Sovka, P. Číslicové zpracování signálů. Vydavatelství ČVUT, Praha, 2002.

[18] Zelinski, R. A microphone array with adaptive post-filtering for noise reduction in reverberant rooms. In International Conference on Acoustic Speech Signal Processing New York, 1988, pp. 2578–2581. 30 Tomáš Bořil

Grangerova kauzalita a EEG

Tomáš Bořil

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Lidský mozek je nejméně probádaným orgánem, mapování jednotlivých center při různých aktivitách je užitečné nejen pro samotné pochopení jeho činnosti, ale může také vést k novým postupům při léčení nejrůznějších nemocí. EEG (elektroencefalografie) je jednou ze základních zobrazovacích metod, vyhodnocující elektrickou aktivitu neuronů na povrchu hlavy. V posledních letech se začíná provádět tzv. tomografická analýza EEG, neboli promítnutí dat z povrchových elektrod do 3D prostoru. To umožňuje lokalizaci zdrojů umístěných hlouběji v mozku. Je dlouho známo, že interakce neuronů jsou směrové, Grangerova kauzalita je nástroj, který může takové vztahy v EEG pomoci nalézt.

1. Úvod

Simultánní záznamy elektrod v elektroencefalografii (EEG) produkují velké množství dat. Identifikace statistických kauzálních vztahů je významným problémem v oblasti multidimensionální analýzy časových sérií. Grangerova kauzalita je jedním z nástrojů pro odhalování takových vazeb, umožňuje nejen měřit sílu kauzálních vazeb, ale i směr jejich působení. Úspěšná lokalizace aktivních center v EEG a jejich propojení by mohla hrát klíčovou roli v pochopení mozkové aktivity pacientů s psychiatrickými nemocemi, jako je schizofrenie, deprese, fóbie, ale i pacientů s chronickou bolestí. Jeden z možných přístupů pro vyhodnocení kauzálních vztahů mezi dvěma sériemi je sledování, zda predikce první časové série může být vylepšena na základě znalosti předchozích vzorků druhé časové série. Takto definoval kauzalitu Wiener (1956) a později ji formuloval Granger (1969) v kontextu lineárních regresních modelů stochastických procesů. Pokud rozptyl chyby predikce první časové série v aktuálním časovém okamžiku je redukován zahrnutím předchozích vzorků druhé časové série do autoregresního (AR) modelu, pak říkáme, že druhá časová série má kauzální vliv na sérii první. Je tedy zřejmé, že posloupnost jevů v čase je v Grangerově kauzalitě důležitým prvkem. Výzkum v posledních letech ukazuje, že AR modely slouží dobře pro popis EEG signálů a Grangerova kauzalita může být využívána pro analýzu EEG [1]. Měření a zpracování povrchového EEG patří k nejstarším zobrazovacím metodám pro mapování činnosti mozku. Jedná se o neinvazivní měření, narozdíl od funkční magnetické rezonance (fMR) nezpůsobuje problémy pacientům s klaustrofobií. Nicméně největší výhodou je vysoké časové rozlišení pořízených záznamů a přímý vztah k elektrické aktivitě neuronů. Povrchová data naměřená malým počtem elektrod poskytují nízké prostorové rozlišení zdrojů takové aktivity. Potenciál elektrického napětí na jedné elektrodě představuje výsledek sumace elektrické aktivity velkého množství neuronů. V posledních letech se objevila možnost tomografického (3D) zpracování takových dat (tzv. řešení inverzní úlohy), umožňující rekonstrukci zdrojů elektrické aktivity, což podstatně rozšiřuje možnosti využití EEG pro mapování mozkové činnosti. Přestože takto vypočtená data nedosahují přesnosti prostorového rozlišení u fMR, zvyšování počtu elektrod detailněji pokrývajících povrch hlavy vede k neustálému vylepšování prostorového rozlišení tomografického EEG. Tomáš Bořil 31

Během naší nedávné práce byl vytvořen kompletní soubor nástrojů propojující již existující softwareové celky, umožňující zpracování EEG v řetězci od pořízení dat až po jejich tomografickou analýzu [5]. V současné době zkoumáme možnosti použití Grangerovy kauzality pro další získání informací z EEG dat, čímž se zabývá tento příspěvek. Před analýzou reálných dat je nutné provést řadu experimentů na známých matematických modelech, abychom ověřili chování metody a mohli vytvořit vhodnou metodiku práce tak, abychom měli jistotu správných výsledků a ty uměli intepretovat.

2. Inverzní úloha EEG

Výpočet projekce dat povrchového EEG do 3D prostoru se nazývá inverzní úlohou, neboť hledá zdroje elektrické aktivity, které tato povrchová data generují (tzv. přímá úloha). Na obr. 1 je schematické znázornění přímé úlohy (tzv. leadfield matice popisuje zobrazení zdrojů na povrchová data) a inverzní úlohy (povrchová data jsou pomocí tzv. transformační matice přepočítána na zdroje). Jedním z nástrojů pro tuto tomografickou analýzu je program sLoreta [6, 7], distribuovaný jako freeware pro vědecké použití. Vypočítává transformační matici z 3D pozic elektrod, a pak mapuje záznamy z těchto elektrod do prostoru mozku (pokrývající šedou kůru, hippocampus a amygdalu), který je rozdělen na 6239 krychlí s rozměry 5 × 5 × 5 mm, tzv. voxelů (obr. 2). Nevýhodou je, že operuje s průměrným anatomickým obrazem mozku vypočteného z velkého množství osob. Výhodou inverzního řešení sLorety je linearita této transformace. Data nejsou poškozena ve smyslu nelinearity, což je důležité pro následné další analýzy (např. Grangerovu kauzalitu).

V V ? ? ? ? ? ? ? I ? ? ? ?

leadfield matice transformační matice (a) (b)

Obrázek 1: Přímá (a) a inverzní (b) úloha

Obrázek 2: Výstup sLoreta – 6239 voxelů 32 Tomáš Bořil

3. Multidimensionální AR modely a Grangerova kauzalita

Uvažujme gaussovský bílý šum s nulovou střední hodnotou a definovaným rozptylem (výkonem): vt()= ε (),var() t ε = 1, (1) kde t značí index v diskrétním čase. Jedná se o náhodný signál, jednotlivé vzorky nejsou nijak provázány (nejsou korelovány), znalost předchozích vzorků neumožňuje predikovat vzorky nové. Zaveďme vazbu aktuálního vzorku na předcházející vzorky:

vt111( )=+ε ( t ) 0.9 v( t −− 1) 0.3 v( t − 4) , var(ε ) = 1, (2) přestože se jedná stále o náhodný signál, zavedli jsme tu jistou logiku, vzorky jsou provázané, předchozí vzorky mají vliv na vzorky nové. Takovémuto signálu říkáme autoregresní (AR) signál, vzorky jsou navzájem korelované. Uvažujme nyní ještě jeden signál:

vt222( )=+η ( t ) 0.8 v( t −− 1) 0.5 v( t − 2) (3) +−−−+−=0.16vt11() 1 0.2 vt ( 2 ) 0.2 vt 1 ( 5 ) , var(η ) 1, kde η je opět gaussovský bílý šum s nulovou střední hodnotou a daným rozptylem. Je zřejmé, že kromě vazby na předchozí vzorky sebe sama je zde ještě navíc přítomna vazba na předchozí vzorky proměnné v1. Takové signály označujeme jako vícerozměrné (multidimensionální) autoregresní, označujeme zkratkou MVAR. Přestože v2 je náhodný signál, předchozí vzorky v1 mají vliv na jeho aktuální vzorky a mluvíme tak o kauzalitě ve směru v1 → v2. Grangerova kauzalita pak sílu této vazby kvantifikuje jedním konkrétním číslem.

3.1 Párová Grangerova kauzalita

Mějme dva stacionární stochastické AR signály x a y, zapsány jako AR model řádu m:

m xt()=−+=Σ∑αεj xt ( j )111 (),var() t ε , j=1 (4) m yt()=−+=Γ∑ βηj yt ( j )111 (),var( t η ) . j=1 Oba procesy mohou být zapsány jako MVAR modely pro zachycení jejich vzájemných vztahů:

mm x()taxtjbytjt=−+−+∑∑jj () ()(),ε 2 jj==11 mm (5) y()tcxtjdytjt=−+−+∑∑jj ( ) ( )η2 (), jj==11

var(εη22 )=Σ , var( 22 ) =Γ .

Σ1 měří přesnost autoregresní predikce x(t) na základě předchozích m hodnot x, zatímco Σ2 představuje přesnost predikce x(t) na základě předchozích m hodnot jak x, tak zároveň y. Jestliže je Σ2 menší než Σ1 ve statistickém smyslu, říkáme, že y má kauzální vliv na x. Můžeme potom definovat Grangerovu kauzalitu [2]:

Σ1 Fyx→ = ln . (6) Σ2 Pokud není žádný kauzální vliv z y do x, pak Fy՜x = 0, jinak Fy՜x > 0. Tomáš Bořil 33

Pro výpočet Grangerovy kauzality na reálných naměřených datech musíme nejdříve nalézt koeficienty MVAR modelu. Odhad vhodného řádu modelu je diskutován dále v tomto příspěvku. Základní metodou pro nalezení koeficientů MVAR modelu je řešení tzv. Yule- Walkerových rovnic, obdržených jako výsledek podmínky minimálního rozptylu chyb predikcí. Alternativním přístupem je použití Levinson, Wiggins, Robinson (LWR) algoritmu [3, 4], který je více robustní procedurou postavenou na základě maximální entropie.

3.2 Podmíněná Grangerova kauzalita

Párová Grangerova kauzalita je nedostačující pro analýzu kauzálních vztahů mezi třemi a více proměnnými, protože nedokáže rozlišit mezi přímou vazbou a vazbou nepřímou, zprostředkovanou skrz třetí proměnnou.

3.2.1 Problém sekvenčního buzení

Mějme následující MVAR model tří proměnných v1, v2 a v3:

vt1 ( ) = ε ( t),

vt21()= ξ () t+− vt (1, ) (7)

vt32()=η () t+− vt (1, ) schéma takového procesu je na obr. 3a, šipkami je naznačen směr kauzalit a opačná hodnota horního indexu z symbolizuje velikost zpoždění ve vzorcích. Párová Grangerova kauzalita správně detekuje obě přímé kauzality v1 → v2 a v2 → v3, ale bude navíc detekovat i kauzalitu v1 → v3. Není schopna rozpoznat, že se jedná o nepřímou kauzalitu zprostředkovanou proměnnou v3.

3.2.2 Problém buzení s rozdílným zpožděním

Mějme následující MVAR model tří proměnných v1, v2 a v3:

vt1 ( ) = ε ( t),

vt21()=+−ξ () t vt (1, ) (8)

vt31()=+−η () t vt (2, ) schéma takového procesu je na obr. 3b. Párová Grangerova kauzalita správně detekuje obě přímé kauzality v1 → v2 a v1 → v3, ale bude detekovat navíc i kauzalitu v2 → v3, neboť v2 i v3 v sobě obsahují složku v1, v proměnné v3 je však o jeden vzorek zpožděna oproti proměnné v2, tudíž v2 pomáhá predikovat v3.

z−2 v1 v3 v1 v3

z−1 z−1 z−1

v2 v2

(a) (b)

Obrázek 3: Problémy párové Grangerovy kauzality, (a) sekvenční buzení, (b) buzení s rozdílným zpožděním 34 Tomáš Bořil

Z důvodu těchto problémů byla zavedena tzv. podmíněná Grangerova kauzalita. Mějme tři stacionární stochastické AR procesy x, y a z. Pro vyjádření kauzálního vlivu z y do x vyjádříme x jako MVAR model proměnných x a z (tedy všech proměnných kromě y):

mm x()txtjztjt=−+−+∑∑αβε11jj () ()xz (), jj==11 (9)

var(εxz )=Σ xz . Pak vyjádříme x jako MVAR model proměnných x, y a z (oproti (9) přidáme y):

mmm x()taxtjbytjcztjt=−+−+−+∑∑∑111jjj () () ()ε xyz (), jjj===111 (10)

var(ε xyz )=Σ xyz . Grangerova kauzalita z y do x za podmínky z je podle [2]:

Σ xz Fyxz→ | = ln . (11) Σ xyz

Pokud je kauzální vliv z y do x celkově zprostředkovaný z, členy b1j jsou všechny nulové, Σxz = Σxyz a Fy→x|z = 0. Proces výpočtu je schematicky znározněn na obr. 4, je možné jej zobecnit na libovolný počet proměnných. V prvním kroku je vypočtena chyba predikce MVAR modelu bez proměnné, jejíž kauzální vliv je vyhodnocován, v druhém kroku je pak přidána. Pokud se projeví snížením chyby predikce, mluvíme o kauzálním vlivu.

3.3 Experimenty na známých matematických modelech

Vygenerovali jsme 2000 vzorků tří MVAR signálů s kauzalitami v1 → v2 → v3 (obr. 3a):

vt11( )=−−−+ 0.9 vt ( 1) 0.3 vt 1 ( 4)ε ( t ),

vt22( )=−−−+ 0.8 vt ( 1) 0.5 vt 2 ( 2)

+−−−+−+0.16vt11 ( 1) 0.2 vt ( 2) 0.2 vt 1 ( 5)η ( t ), (12)

vt33( )=− 0.2 vt ( − 2) − 0.4 vt 3 ( − 5) −

−−+−+0.27vt22 ( 1) 0.1 vt ( 3)γ ( t ), kde ε, η a γ jsou gaussovské bílé šumy s nulovou střední hodnotou a rozptyly var(ε) = 1, var(η) = 0.7 a var(γ) = 0.4.

3.3.1 Odhad řádu modelu

Prvním krokem při výpočtu podmíněné Grangerovy kauzality je odhad řádu MVAR modelu. Jednou možností je experimentální změna hodnot řádu a analýza vývoje koeficientů podmíněné Grangerovy kauzality. Vypočtené hodnoty kauzalit ve všech směrech pro řády od 1 do 10 jsou zobrazeny na obr. 5a. V rozsahu od 1 do 5 dochází k významným změnám kauzalit, zatímco pro řády 5 a výše jsou hodnoty prakticky konstantní. Z toho důvodu volíme řád 5 jako nejvhodnější, což koresponduje s generujícími vztahy (12), kde maximální zpoždění je právě 5. Tento způsob navrhujeme pro použití v reálných datech, kde generující vztahy nejsou známé, avšak je možné nalézt hranici, kde kauzality začínají být ustálené.

3.3.2 Šumová imunita

K testovacím signálům byl přičten gaussovský bílý šum s nulovou střední hodnotou. Na obr. 5b je znázorněno rozpoznání kauzalit pro různé úrovně SNR, až do 20 dB je rozlišení velmi Tomáš Bořil 35 dobré, s nižším SNR pak rapidně klesá. V dalším kroku byla provedena analýza pro zkrácené signály s délkou 1000 resp. 300 vzorků (obr.5c a 5d). Je zřejmé, že s kratšími signály šumová imunita podmíněné Grangerovy kauzality klesá, a doporučená délka signálů je tedy minimálně 1000 vzorků.

Obrázek 4: Schéma výpočtu podmíněné Grangerovy kauzality

0.25 0.25

0.2 0.2

0.15 0.15 CGC indexCGC Fv1->v2|v3 CGC index 0.1 0.1 Fv1->v2|v3 Fv2->v3|v1 Fv2->v3|v1 Fv1->v3|v2 Fv1->v3|v2 Fv2->v1|v3 Fv2->v1|v3 0.05 Fv3->v1|v2 0.05 Fv3->v1|v2 Fv3->v2|v1 Fv3->v2|v1

0 0 1 2 3 4 5 6 7 8 9 10 -20 0 20 40 60 80 100 MVAR model order SNR [dB] (a) (b)

0.25 0.25

0.2 0.2

0.15 0.15 Fv1->v2|v3 Fv1->v2|v3 Fv2->v3|v1 Fv2->v3|v1 Fv1->v3|v2 CGC index 0.1 Fv1->v3|v2 index CGC 0.1 Fv2->v1|v3 Fv2->v1|v3 Fv3->v1|v2 Fv3->v1|v2 Fv3->v2|v1 Fv3->v2|v1 0.05 0.05

0 0 -20 0 20 40 60 80 100 -20 0 20 40 60 80 100 SNR [dB] SNR [dB] (c) (d)

Obrázek 5: Experimenty na známých modelech, (a) odhad řádu modelu, (b) šumová imunita 2000 vzorků, (c) 1000 vzorků, (d) 300 vzorků 36 Tomáš Bořil

3.4 Použití na reálných datech

V případě reálných dat je možné volit různé postupy zpracování dat a měnit velké množství parametrů (segmentace apod.). Je tak nutné najít kritérium pro vyhodnocení úspěšnosti postupu. Nejraději bychom nalezli jasné odpovědi typu zde je několik silných vazeb a zbytek není kauzálně provázán vůbec. Je však jasné, že se setkáme s celou řadou hodnot mezi a nebude snadné oddělit kauzální vazby od šumu, který pro různé parametry (délka signálů, počet proměnných, SNR) může mít různou hladinu. Jako vhodný ukazatel navrhujeme použít distribuční funkci všech vyhodnocených kauzalit, na kterých by opticky mělo být vidět ostré oddělení několika silných vazeb a velký počet zbylých vazeb, které můžeme považovat za šum, viz obr. 6a (nevhodná metoda, nejasná hranice oddělení silných a slabých vazeb) a obr. 6b (velmi ostré oddělení). Distribution function of CGC values 100

90

80

70

60

50 (a)

40

30

20

10

Number of indexes CGC with the same value higher or [%] 0 8 7 6 5 4 3 2 1 0 CGC value -3 x 10 Distribution function of CGC values 100

90

80

70

60

50 (b)

40

30

20

10

Number ofindexes CGC with thesame value higher[%]or 0 0.025 0.02 0.015 0.01 0.005 0 CGC value

Obrázek 6: Distribuční funkce vazeb, (a) špatné oddělení, (b) dobré oddělení silných a slabých vazeb Tomáš Bořil 37

4. Závěry

Podmíněná Grangerova kauzalita se jeví jako velmi užitečný nástroj pro vyhodnocování vazeb a směru jejich působení mezi aktivními centry mozku. Bylo provedeno otestování metody na umělých matematických modelech z důvodu získání zkušeností, které jsou nutné pro vyhodnocování reálných dat, u kterých nejsou generující vztahy dopředu známé. Byla vytvořena metodika volby parametrů a interpretace získaných výsledků tak, aby bylo možné vyhodnocovat úspěšnost způsobu zpracování a případně porovnávat s jinými možnostmi postupu. Byla vytvořena celá řada programových souborů, usnadňujících jednotlivé činnosti v řetězci zpracování EEG od jeho pořízení přes tomografickou analýzu až po vyhodnocení kauzálních vazeb mezi aktivními centry.

5. Poděkování

Tento výzkum byl podporován z grantu GAČR 102/08/H008 “Analýza a modelování biomedicínských a řečových signálu” a výzkumného záměru MŠMT MSM6840770012 “Transdisciplinární výzkum v oblasti biomedicínském inženýrství 2”.

Reference

[1] Brovelli A., Ding, M., Ledberg, A., Chen, Y., Nakamura, R., Bressler, S. Beta oscillations in a large-scale sensorimotor cortical network: Directional influences revealed by Granger causality. Proc. Natl. Acad. Sci. USA, 2004, vol. 101, no. 26, p. 9849 – 9854.

[2] Ding, M., Chen, Y., Bressler, S. L. Granger Causality: Basic theory and application to neurosience. In Winterhalder, M., Schelter, B., Timmer, J. (eds.) Handbook of Time Series Analysis, Wiley, Chichester, 2006.

[3] Morf, M., et al. Recursive multichannel maximum entropy spectral estimation. IEEE trans. GeoSci. Elec., 1978, vol. GE-16, no. 2, p. 85 – 97.

[4] Haykin, S. Nonlinear Methods of Spectral Analysis. 2nd ed. Springer-Verlag, chapter 2, 1983.

[5] Bořil, T. Toolkit for EASYS2 EEG data format processing in Matlab, EEGLAB and sLoreta environment. In Proceedings of the 8th Czech-Slovak Conference Trends in Biomedical Engineering [CD-ROM] 2009, Bratislava: Slovak University of Technology in Bratislava.

[6] Pascual-Marqui, R. D., Michel, C. M., Lehmann., D. Low Resolution Electromagnetic Tomography: A New Method for Localizing Electrical Activity in the Brain. International Journal of Psychophysiology, vol. 18, 1994, no. 1, 49–65.

[7] Frei, E., Gamma, A., Pascual-Marqui, R. D., Lehmann, D., Hell, D., Vollenweider, F. X. Localization of MDMA-induced Brain Activity in Healthy Volunteers Using Low Resolution Brain Electromagnetic Tomography (Loreta). Hum. Brain Mapp., 2001, vol. 14, 152–165. 38 Jaromír Doležal

BCI založený na manifestaci pohybové aktivity v EEG II

Jaromír Doležal

České vysoké u čení v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Práce navazuje na p ředchozí p řísp ěvek [1] uvád ějící do problematiky návrhu experimentu a zpracování dat. Náš vyvíjený BCI systém pracuje s extenzními a flexními pohyby ukazová čku a je založen na skrytých markovských modelech (HMM). Jelikož HMM jsou pro BCI jen z řídkakdy používány, porovnáváme je vždy i s dalšími mén ě komplexními systémy. HMM jsou schopny klasifikovat mezi pohyby na základ ě využití časové dynamiky, u dalších systém ů se poda řilo pohyby rozlišit až po zavedení rozší ření o časový vývoj a vhodném nastavení parametriza čních technik. Práce také popisuje pokra čující nahrávání vlastních dat, p ředevším jejich normalizaci, dlouhodobou stabilitu a experimentální výsledky klasifikace.

1. Úvod

Koncept rozhraní člov ěk-stroj (Brain Computer Interface, BCI) usnad ňuje interakci t ěžce pohybov ě postižených pacient ů s okolním sv ětem. Potenciál využití je však širší, krom medicínských diagnostických aplikací také v oblasti zábavy. V našich pracích se zabýváme pohybovou aktivitou, konkrétn ě drobnými extenzními a flexními pohyby jednoho prstu na rozdíl od v ětšiny ostatních prací, které se zabývají pohyby r ůzných částí t ěla. Mezi výhody pohybové aktivity v obecné rovin ě pat ří p ředevším p řirozené ovládání systému, jelikož touto cestou obvykle ovládáme naše okolí. Rozpoznávané stavy mozku související s pohybovou aktivitou lze p řepínat rychleji než většinu ostatních aktivit používaných pro BCI a dále není nutné trénovat pokusnou osobu ani není nutno koncentrovat se, p řípadn ě zam ěř ovat pozornost na r ůzné stimuly. Díky t ěmto vlastnostem není ovládání systému vy čerpávající a má předpoklady pro dlouhodobé užívání. V této práce jsou prezentovány výsledky práce se starou databázi pohyb ů, jejíž popis lze nalézt v [2] i p ředb ěžné výsledky na nov ě nahrávané databázi, jejíž detailní popis lze nalézt v [1]. Na nové databázi je analyzována dlouhodobá stabilita EEG a jsou nazna čeny metody, jak normalizovat data získaná v delších časových rozestupech nahrávání.

2. Metody

Detailn ější popis použitých klasifika čních systému a parametrizací lze nalézt nap říklad v [1] nebo [3]. Zde jsou uvedeny pouze jejich základní charakteristiky, především pak nové poznatky a metody které umožnily zvýšení klasifika čního skóre. Systém HMM se čty řstavovým jednopr ůchodovým modelem dělí nahrané 10 sekundovém úseky na p řed-pohybovou klidovou aktivitu, pohyb doprovázející desynchronizaci a synchronizaci, a po-pohybovou klidovou aktivitu, více kapitola 4.2, obrázek 5. Klasifikace je v tomto p řípad ě založená nejenom na rozdílech v absolutních hodnotách parametr ů mezi pohyby ale také na rozdílech v časovém vývoji, tedy délky a časové hranice fází odhadnutých z nam ěř ených dat. Zde je prezentován vliv použitých parametr ů na úsp ěšnost klasifikace pomocí HMM. Mén ě komplexní klasifika ční systémy používané ke srovnání Perceptron (PCT), Support Vector Machine (SVM) a Learning Vector Quantization (LVQ) z principu pracují s jedním vektorem parametr ů, tedy s jedním stavem. Při základním nastavení Jaromír Doležal 39 parametrizace to odpovídá úseku o délce 1 sekundy. Aby bylo možno zachytit časovou dynamiku bylo provedeno rozší ření v duchu Time Delay Neural Net (TDNN) a to za řazením parametr ů vypo čtených z po sob ě jdoucích časových rámc ů do jednoho vektoru parametr ů ke klasifikaci. P ři tomto rozší ření je možné sledovat vliv po čtu časových rámc ů a jejich překryvu. Jelikož se snažíme hlavn ě detekovat zm ěny související s pohybem, k vektor ům parametr ů byly dále přidány delta parametry vypo čtené dle [4]. Výpo čet polynomiální aproximací byl proveden protože jednoduchá diference byla p říliš zatížena šumem.

3. Experimentální výsledky

3.1 Stará databáze

Jako stará databáze je ozna čována databáze popsaná v [2]. Experimenty na této databázi jsou již uzav řeny. Podrobné výsledky budou publikovány v časopisu. Shrnující výsledky jsou uvedeny v tabulce 1. Detailn ější výsledky lze nalézt nap říklad v [5]. Nejlepších výsledk ů bylo dosaženo se skrytými markovskými modely a to především díky využití delšího časového úseku a dynami čtějšímu p řístupu.

Extenze/Flexe/Klid Extenze/Flexe Exteze/Klid HMM 89,5 ± 05,4 % 84,1 ± 07,9 % 99,9 ± 0,07 % PCT Není možné 71,2 ± 11,6 % 93,6 ± 05,3 % SVM Nefunguje 74,3 ± 08,9 % 95,4 ± 03,4 % LVQ Nefunguje 71,3 ± 08,8 % 90,3 ± 03,7 %

Tabulka 1: Srovnání dosažených výsledk ů, pr ůměrováno p řes všechny osoby, nejlepší parametrizaci, rozší ření o delší časový úsek a elektrody.

3.1.1 Skryté markovské modely

Jako jedinému systému se poda řilo klasifikovat všechny t ři t řídy (extenzní pohyb, flexní pohyb a klidovou aktivitu), pro srovnání byly provedeny i díl čí binární klasifikace, tedy klasifikace extenzního pohybu proti flexnímu pohybu a extenznímu pohybu proti klidové aktivit ě. Jako nejvhodn ější parametrizace se ukázala FFT s 80 % p řekryvem. Díky p řidaným delta parametr ům se poda řilo zlepšit pr ůměrné klasifika ční skóre FFT o dalších 6 %.

3.1.2 Srovnávací klasifika ční systémy

Klasifikace všech t říd u perceptronu není z principu možná, u LVQ a SVM se nepoda řilo získat v ěrohodné výsledky, zde prezentované výsledky jsou tedy vždy výstupem binárních klasifikací. Klí čový vliv m ělo nastavení parametrizací, p ředevším velikost p řekryvu časových rámc ů používaných pro rozší ření o časovou dynamiku. Jako optimální se ukázal p řekryv 40 % oproti 80 % u HMM. Samotné rozší ření o časovou dynamiku se ukázalo velmi užite čným, nejlepších výsledk ů bylo dosaženo jen 2krát bez použití rozší ření, 8krát p ři rozší ření na 3 rámce a 50krát při rozší ření na 5 rámc ů z celkového po čtu 60 experiment ů. Odpovídající délka efektivního časového úseku pak je 1, 1,74 a 2,47 sekund. Trénování klasifika čních systém ů bylo provád ěno na úseku centrovaného podle rozhraní ERD/ERS, konkrétn ě tedy <+0,14;+1,14 s>, <-0,22;+1,51 s> a <-0,59;+1,87 s> vzhledem k okamžiku pohybu pro 1, 3 a 5 časových rámc ů. Tímto optimálním nastavením se poda řilo získat v ěrohodnou klasifikaci i mezi pohyby což v předchozích pracích nebylo možné. Příklad věrohodné klasifikace mezi pohyby je na obrázku 1. Dosažené výsledky těchto mén ě komplexních klasifika čních systém ů 40 Jaromír Doležal jsou srovnatelné. SVM je nejmén ě časov ě náro čné na trénování i testování a dosahuje o trochu lepších výsledk ů než oba zbývající systémy. Výsledky perceptronu jsou nejmén ě stabilní mezi jednotlivými běhy crossvalidace s náhodným d ělením dat to trénovací a testovací množiny. AR parametry se pro klasifikaci neosv ědčily, parametry v jejichž prostoru lze zkonstruovat metriku dosahují lepších výsledk ů u všech testovaných klasifika čních systém ů. U klasifika čního systému LVQ je možnost konstruovat metriku klíčová, viz srovnání parametr ů AR a parametr ů kepstra z AR [3] vypo čtených na obrázku 2. Perceptron a SVM jsou ovlivn ěny mén ě, nicmén ě použití AR parametr ů v základní form ě stále dává nejhorší výsledky.

100 100

90 90

80 80

70 70 skore [%] skore [%]

60 60

50 50

40 40 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 cas [s] cas [s]

Obrázek 1: Perceptron, úsp ěšnost klasifikace Obrázek 2: LVQ, úsp ěšnost klasifikace E/T, E/F, osoba 4, elektroda 12, FFT parametry. osoba 6, elektroda 6, parametry kepstra (plnou čarou), AR parametry (přerušovanou čarou).

3.2 Nová databáze

Jako nová databáze jsou ozna čena data nahrávaná v Hradci Králové podle protokolu uvedeného v [1]. Zde prezentované výsledky byly dosaženy na první fázi nahrávání, pouze na pravé ruce. B ěhem první fáze se poda řilo získat p řibližn ě 25 realizací na t řídu. To je p řibližn ě 1/3 po čtu realizací ve staré databázi, po čty realizací pro všechny t řídy a osoby lze nalézt v [5]. Nahrávání databáze dále pokra čuje druhou fází, analýza dat a možné další kroky jsou nazna čeny v následující kapitole.

3.2.1 Skryté markovské modely

Klidovou aktivitu lze rozlišit s pr ůměrným klasifika čním skóre 89,6 ± 6,17 %, zatímco mezi pohyby nelze rozhodnout. Dosažená klasifika ční skóre pohyb ů jsou p říliš nízká, pohyby jsou často klasifikovány jako opa čné. Modely klidové a pohybové aktivity se liší významn ě, ale modely pohybové aktivity se mezi sebou významn ě neliší. Předpokládáme, že je to zp ůsobeno nedostate čným po čtem realizací pro trénování model ů. Tento p ředpoklad m ůžeme ov ěř it použitím všech realizací (uzav řený test), tedy bez d ělení do testovací a trénovací množiny ve standardním pom ěru 50:50, které bylo použito pro všechny ostatní zde prezentované výsledky. Touto metodou bylo dosaženo následujících výsledk ů: extenzí pohyb: 84,6 %; flexní pohyb: 87,6 %; klidová aktivita: 93,9 % (E/F/T, klasifikace do t ří t říd). Tyto výsledky potvrzují, že model je schopen pohyby rozlišit, tedy že existují významné rozdíly v datech, které je model schopen zachytit. Aby však klasifikace fungovala je t řeba odhadnout modely p řesn ěji, čehož lze dosáhnout trénováním na větším množství dat. Jaromír Doležal 41

3.2.1 Srovnávací klasifika ční systémy

Klasifikace dalšími systémy obecn ě selhává, nepoda řilo se získat v ěrohodné výsledky pro všechny experimentální osoby. Díl čí výsledky byly dosaženy u experimentální osoby 1 a klasifikátoru LVQ, kde se poda řilo jak rozlišit extenzní a klidovou aktivitu, obrázek 4, tak i extenzní a flexní aktivitu, obrázek 3. Výsledky jsou dokonce lepší než u HMM. Op ět do hry vstupuje faktor malého po čtu dat, u LVQ které využívá princip nejbližšího souseda a neodhaduje parametry modelu tento vliv není tak výrazný.

100 100

90 90

80 80

70 70 skore [%] skore [%]

60 60

50 50

40 40 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 cas [s] cas [s]

Obrázek 3: LVQ, úsp ěšnost klasifikace E/F, Obrázek 4: LVQ, úsp ěšnost klasifikace E/T, osoba 1, elektroda 37 (Cz), FFT parametry. osoba 1, elektroda 37 (Cz), FFT parametry.

4. Další kroky

Množství dat se ukázalo jako st ěží posta čující, proto je t řeba pokra čovat v nahrávání. Jelikož projevy pohybové aktivity v EEG jsou velice individuální je t řeba nahrát stejné osoby jako v první fázi nahrávání. Klasifikaci nezávislá na mluvčím není v případ ě takto drobných pohyb ů možná.

4.1 Normalizace dat

Aby bylo možno nov ě nahraná data za řadit do databáze používané ke klasifika čním experiment ům je t řeba vylou čit rozdíly zp ůsobené nahráváním. Jedná se nap říklad o r ůzné pozice elektrod snímané 3D trackerem p ři konkrétní montáži, respektive jejich vzdálenosti používané p ři prostorové filtraci. Je vhodné p řipomenout, že ve staré databázi [2] bylo použito nestandardní montáže, kde byly elektrody o 1/3 blíže než v námi používaném standardním systému 10-10. Větší vliv má ovšem různá impedance elektrod, která zp ůsobí i rozdílný výkon signál ů. To je problém pro parametrizace které v sob ě nemají zahrnutu normalizaci, jako nap říklad FFT. Pro první experimenty byla použita normalizace výkonu druhé fáze nahrávání po jednotlivých EEG kanál ů nezávisle na výkon první fáze nahrávání. Výkon byl vypo čten v pásmu 5 - 40 Hz, které používáme ke klasifikaci. Tato normalizace byla použita pro výpo čet časového vývoje krátkodobého spektra na obrázku 5. V tomto případ ě trend výkonu ukazuje pokles výkonu mezi pravou a levou hemisférou. To by mohlo být zp ůsobeno tím, že byla čepice na jedné stran ě více p řitisknutá k hlav ě. Pro vyvození dalších záv ěrů bude t řeba zpracovat nov ě nahrané EEG všech experimentálních osob.

42 Jaromír Doležal

4.2 Dlouhodobá stabilita EEG

Analýza nahraných dat z obou fází Extenzní pohyb I. nahrávání je na obrázku 5. V časovém vývoji krátkodobého spektra lze pozorovat projevy související s pohybovou aktivitou, pohyb byl provede páté sekund ě, uprost řed obrázku. Dob ře viditelná je synchronizace (ERS, event related synchronization, [2]) následující provedený pohyb, mén ě pak Flexní pohyb I. desynchronizace (ERD, event related desynchronization [6]) p ředcházející pohyb. Analýza ukazuje že experiment je opakovatelný, je možné pozorovat charakteristické fáze pohybové aktivity, dokonce velice podobné analýze dat staré Extenzní pohyb II. databáze [3]. Pro klasifikaci pomocí markovských model ů je d ůležit ější aby byl mezi extenzním a flexním pohybem rozdíl ve spektrálních charakteristikách a časovém vývoji. Aby bylo možné použít ke Flexní pohyb II. klasifikaci stará i nová data, je naopak f [Hz] nutné aby souhlasily charakteristiky pro odpovídající pohyby z obou fází nahrávání, které od sebe v případ ě této experimentální osoby d ělilo 9 m ěsíc ů. t [s] Časová souslednost je nazna čena černými svislými čarami na obrázku 5. Je vid ět, že Obrázek 5: Časový vývoj krátkodobého spektra v obou p řípadech má flexního pohyb slabší pro oba pohyby, I. - první fáze nahrávání II. - a více zpožd ěnou odezvu. To nazna čuje, druhá fáze nahrávání. Časová souslednost stav ů že projevy pohybové aktivity jsou je schematicky nazna čena svislými čarami. dlouhodob ě stabilní.

4. Záv ěry

Díky optimalizaci parametrizací se poda řilo rozlišit pohyby na staré databázi nejenom pomocí HMM ale i srovnávacích klasifika čních systém ů perceptron, LVQ a SVM. Toho bylo dosaženo p ředevším použitím delšího efektivního časového úseku a vhodným p řekryvem časových rámc ů. Dosažené výsledky jsou ale stále horší než s HMM, které jsou navíc jediné schopny klasifikovat do všech t říd. Detailní výsledky budou publikovány v časopisu. Analýza vlastních nahraných dat ukazuje, že experimenty jsou opakovatelné a nazna čuje, že projevy pohybové aktivity jsou dlouhodob ě stabilní. Další práce bude spo čívat v dokon čení zpracování druhé fáze nahrávání, vhodné normalizaci dat a kone čně za řazení nových dat do databáze pohybového EEG používané pro klasifika ční experimenty. Poté budou experimenty zopakovány na této rozší řené databázi.

Jaromír Doležal 43

5. Pod ěkování

Tento výzkum byl podporován z grantu GA ČR č. 102/08/H008 "Analýza a modelování biologických a řečových signál ů" a výzkumného zám ěru MŠMT MSM6840770012 "Transdisciplinární výzkum v oblasti biomedicínského inženýrství 2". Pod ěkování pak pat ří p. doc. Janu Kremlá čkovi za pomoc p ři realizaci nahrávání vlastní databáze.

Reference

[1] J. Doležal, BCI založený na manifestaci pohybové aktivity v EEG, seminá ře katedry teorie obvod ů, analýza a zpracování řečových a biologických signál ů - sborník prací 2008 , str. 25-33, 2008.

[2] A. Stan čák Jr., The electroencephalographic β synchronization following extension and flexion finger movements in humans, Neuroscience Letters, vol. 284 , str. 41-44, 2000.

[3] J. Doležal, Optimalizace klasifikace pohyb ů z EEG. (Diplomová práce). České vysoké učení technické v Praze, fakulta elektrotechnická, katedra teorie obvod ů, 2008.

[4] J. Š ťastný, P. Sovka, High-resolution Movement EEG Classification. Computational Intelligence and Neuroscience, str 1-12, 2007.

[5] J. Doležal, J. Š ťastný, P. Sovka, Recording and recognition of movement related EEG signal. In Applied Electronics, Applied Electronics , str. 95-98, 2009.

[6] A. Stan čák Jr., Event-related desynchronization of the rhythm in E/F finger movements, Clinical Neurophysiology at the Beginning of the 21st Century, Supplements to Clinical Neurophysiology, vol. 53 , str. 210-214, 2000.

44 Jan Janda

Studie věkově závislých akustických parametrů v dětské řeči

Jan Janda

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Tento příspěvek se zabývá hledáním věkově závislých akustických parametrů v dětské řeči. Tyto parametry jsou zde porovnávány podle míry jejich věkové závislosti a je posuzována jejich dostatečnost pro odhad věku dítěte.

1. Úvod

Analýza souvislostí mezi akusticko-fonetickou stránkou promluvy a věkem mluvčího může nalézt uplatnění v řadě aplikací. Motivace této práce vychází z foniatrické a logopedické praxe. Při zkoumání dětských patologických promluv je často snaha odpovědět na otázku jakému věku daná promluva odpovídá a usoudit tak například na to, v jakém věku dítěte se vývoj řeči zastavil. Chronologický věk je určen jednoznačně datem narození. Logopedický věk je věk, na který usuzujeme z akusticko-fonetické stránky promluvy člověka. Tato práce je zaměřena na hledání věkově závislých parametrů v dětské řeči. Věková závislost těchto parametrů často pochází ze skutečnosti, že děti mají kratší vokální trakt a drobnější hlasivky. To se projevuje zejména vyšší základní frekvencí hlasivkového tónu a vyššími formanty. Dále pak větší spektrální a suprasegmentální změny jsou přičítány nepřesné dětské výslovnosti. Tyto parametry jsou v této práci z hlediska věkové závislosti porovnány a statisticky zhodnoceny.

2. Databáze

Pro potřeby tohoto výzkumu byla nahrána databáze dětských promluv. Tvoří ji promluvy 195 dětí ve věku od tří do dvanácti let. Obsahuje 28 izolovaných slov (babička, časopis, čokoláda, dědeček, kalhoty, kniha, košile, květina, květiny, maluje,mateřídouška, motovi- dlo, peníze, pohádka,pokémon, popelnice, radost, rukavice, různobarevný, silnice, škola, špička, televize, ticho, trumpeta, vlak, zelenina, zmrzlina). Slova byla navržena ve spolu- práci s Foniatrickou klinikou 1.LF UK a pochází od 104 chlapců a 91 dívek. Každý ročník je zastoupen přibližně 20 dětmi (tříletých se však podařilo nahrát pouze 5). Jan Janda 45

F0 − samohláska /a/ 19

18

17

16

ST100 15

14

13

12 2 4 6 8 10 12 14 vek

Obrázek 1: Věková závislost F0 pro hlásku /a/

3. Věkově závislé akustické charakteristiky

3.1. Samohlásky 3.1.1. Základní frekvence hlasivkového tónu F0 závisí na velikosti hrtanu a délce hlasivek. Jedná se o nejčastěji uváděnou charakteristiku v souvislosti s věkem člověka. Nabývá hodnot od 500 Hz u nejvyšších dětských hlasů a s vě- kem může u mužů klesnout až na hodnoty kolem 80 Hz. Analýzu základního hlasivkového tónu můžeme provádět jak u izolovaných samohlásek vždy ze stejného místa promluvy, tak celých znělých úseků promluvy. Aby frekvenční intervaly lépe odpovídaly vnímání intonačních intervalů lidským sluchem, bývají hodnoty F0 převedeny do půltónové stupnice s počátkem v 100 Hz:

ln(F (Hz)/100) F (ST )=12 0 . (1) 0 ln(2) Analyzovány byly jednak izolované samohlásky slabik /la/, /le/, /li/, /lo/, /lu/ ze slov škola, košile, zmrzlina, letadlo a maluje, dále pak celé znělé úseky promluv. Analýza byla provedena autokorelační metodou v programu Praat v. 5.0.15 s parametry time step=0.0, pitch floor=100Hz a pitch ceiling=600 Hz. Výsledné hodnoty byly ověřeny v programu Wavesurfer v. 1.8.5 a případně ručně modifikovány. Nejčastěji docházelo k chybné detekci o oktávu nižší F0. Pro statistické potvrzení věkové závislosti F0 uvažujme nulovou hypotézu H0, která tuto závislost popírá. H0 můžeme zamítnout na základě výsledku t-testu pro korelovaná měření. V našem případě lze H0 zamítnout na hladině p< 0, 001, n = 193. Sílu korelace můžeme vyjádřit Pearsonovým korelačním koeficientem r. Pro věkovou závislost F0 samohlásky /a/ dostaneme r =0, 43, tedy středně silnou, uspokojivou korelaci. Na obrázku 1 můžeme vidět průměrné F0 jednotlivých věkových skupin. Pro veškeré znělé úseky promluvy dostaneme r =0, 41 na p< 0, 001, n = 113. Trend F0 naznačuje obr. 2. 3.1.2. Rozptyl F0 Rozptyl základní frekvence hlasu souvisí s intonačním rozpětím promluvy. V tomto pa- rametru se odráží celková melodičnost a zpěvnost hlasového projevu, typická pro děti předškolního věku. 46 Jan Janda

F0 − celé promluvy 19

18

17

16

ST100 15

14

13

12 2 4 6 8 10 12 14 vek

Obrázek 2: Věková závislost F0 - celé promluvy

Rozptyl F0 byl analyzován na všech znělých úsecích promluvy a vykazoval vzhledem k věku klesající trend. Koeficient korelace zde činil r = 0, 61, (p< 0, 001, n = 113) − 3.1.3. Formanty F1, F2 Formantové frekvence odpovídají rezonančním frekvencím dutin hlasového ústrojí. Lze je odhadnout pro jednotlivé samohlásky z LPC (linear predictive coding) spektra pomocí Burgova algoritmu. Věková závislost je u formantů méně zřetelná než u F0. Pro F2 byl v rámci celé promluvy korelační koeficient r = 0, 34. − 3.2. Souhlásky 3.2.1. Spektrální těžiště Mějme komplexní spektrum sykavky S(f), kde f je frekvence. Spektrální těžiště můžeme definovat jako ∞ 2 fc = f S(f) df (2) Z0 | | děleno energií ∞ S(f) 2 df. (3) Z0 | | 3.2.2. Centrální spektrální moment řádu n je dán:

n 2 ∞(f f ) S(f) df = 0 c (4) µn − | 2 | ∞ S(f) df R 0 | | 3.2.3. Spektrální směrodatná odchylka R Standardní směrodatná odchylka spektra je dána odmocninou z druhého centrálního mo- mentu tohoto spektra. 3.2.4. Spektrální zešikmení Normované zešikmení spektra je dáno podílem třetího centrálního momentu a druhého centrálního momentu umocněného na 3/2. Spektrální zešikmení vyjadřuje jak moc se liší tvar spektra pod a nad spektrálním těžiš- těm. Například bílý šum má spektrální zešikmení rovné nule. Jan Janda 47

3.2.5. Spektrální špičatost Normovaná spektrální špičatost je čtvrtý centrální moment dělený druhou mocninou dru- hého centrálního momentu zmenšený o 3. Spektrální špičatost vyjadřuje míru podobnosti tvaru spektra s Gaussovou křivkou. Výše uvedené spektrální charakteristiky sykavek byly naměřeny pro souhlásky /s/, /ss/ a /cc/ ze slov silnice, košile a babička. Významné zde bylo zejména zvýšení polohy spek- trálního těžiště (r = 0.45, p < 0.001, n = 193)(obr. 3) a pokles spektrálního zešikmení (r = 0.47, p< 0.001, n = 193)(obr. 4) u souhlásky /s/ s věkem dítěte. −

Spektralni teziste: /s/ 12000

10000

8000

6000 Hz

4000

2000

0 2 4 6 8 10 12 14 vek

Obrázek 3: Posun spektrálního těžiště.

Spektralni zesikmeni 5

4

3

2

1

0

−1

−2

−3 2 4 6 8 10 12 14 vek

Obrázek 4: Pokles spektrálního zešikmení.

3.3. Kontext samohláska-souhláska 3.3.1. Voice onset time (VOT) Doba nástupu hlasivkového tónu (VOT) je doba od uvolnění artikulačního závěru do začátku kmitání hlasivek. Tento interval je měřen v milisekundách. Měření VOT probíhalo na slabice /ka/ ze slova ”babička”. Z naměřených hodnot však zatím nešlo ani na hladině p< 0.05 prokázat věkovou závislost tohoto parametru. 3.3.2. Souhláska–samohláska doba přechodu a kepstrální vzdálenost Jednou z nejdůležitějších příčin změn akustických parametrů v řeči je koartikulace, kdy je realizace jednotlivého fonému ovlivněna fonémy sousedními. M. Gerosa et al. [4] uvádí 48 Jan Janda příklad vlivu koartikulace na vlastnosti přechodu mezi souhláskou a samouhláskou (CV), konkrétně na délku jeho trvání a na mel-kepstrální vzdálenost mezi souhláskou a samohlás- kou daného CV páru. Má za to, že pokud se spektrální charakteristiky mění pozvolna v CV páru, pak je vyšší i význam koartikulace. Naopak při náhlých spektrálních změnách je vliv koartikulace malý. Celková spektrální změna mezi dvěma fonémy je pak dána jednak inherentní spektrální vzdáleností mezi těmito fonémy v izolaci a dále pak lokálně rychlostí pohybu artikulačního aparátu. Můžeme tedy usuzovat, že spektrální změny budou korelovány s mírou artiku- lační dovednosti a budou tedy věkově závislé. Práce [4] uvádí pro korelaci doby přechodu CV s věkem r =0.87. 3.4. Analýza slov 3.4.1. Akumulovaná vzdálenost řečových parametrizací Při posuzovani srozumitelnosti (resp. patlavosti) dětske řeči použijeme vedle analyzované promluvy i promluvu referenční stejneho obsahu, precizně vyřčenou. V matici vzdáleností jednotlivých segmentů v prostoru dané řečové parametrizace nalezneme křivku DTW. Kumulativni vzdálenost podél křivky DTW bude značně korelovat s nesrozumitelnosti zkoumané promluvy. Z provedených experimentů bylo ověřeno, že tato kumulativní vzdálenost s věkem klesá a promluvy starších dětí jsou tedy srozumitelnější. Největší věkovou závislost vykazo- vala kumulovaná vzdálenost v prostoru kepstrálních koeficientů (obr. 5) a spektrálních koeficientů PLP.

Kepstralni koeficienty 0.6

0.55

0.5

0.45 kumulovana vzdalenost

0.4

0.35 4 5 6 7 8 9 10 11 12 13 vek

Obrázek 5: Věková závislost kumulované vzdálenosti DTW funkce slova motovidlo v pro- storu kepstrálních koeficientů.

4. Hodnocení věkové závislosti akustických charakteristik

Následující tabulka shrnuje zkoumané akustické charakteristiky. Jednotlivé příznaky jsou seřazeny podle míry korelace s věkem (sloupec r ). Sloupec Ho obsahuje hodnoty hladin významnosti, na který je teoreticky možné zamítnout nulovou hypotézu o věkové nezá- vislosti parametru. Parametry pod dvojitou čarou nelze na hladině p< 0.05 považovat za věkově závislé. Jan Janda 49

Charakteristika r H0 Rozptyl F0 -0.61 9.3E-13 Spektrální zešikmení /S/ -0.47 5.0E-12 Spektrální těžiště /S/ 0.45 8.7E-11 F0 – celá promluva -0.42 4.0E-06 F2 – celá promluva -0.34 1.9E-04 Sp. směrodatná odchylka /CC/ -0.30 1.4E-03 F1 – celá promluva -0.25 2.0E-03 Sp. směrodatná odchylka /S/ -0.21 3.2E-03 Sp. směrodatná odchylka /SS/ -0.20 4.6E-03 Spektrální špičatost /S/ -0.17 1.8E-02 Spektrální zešikmení /SS/ -0.14 4.9E-02 Spektrální těžiště /SS/ 0.11 1.4E-01 Spektrální těžiště /CC/ -0.12 1.9E-01 Spektrální špičatost /CC/ 0.11 2.6E-01 Spektrální zešikmení /CC/ 0.10 2.8E-01 Voice onset time /K-A/ -0.08 3.7E-01 Spektrální špičatost /SS/ 0.00 9.6E-01 Tabulka 1: Přehled věkově závislých charakteristik.

5. Závěr

Vybrané řečové charakteristiky vykazují různě velikou závislost na věku. Charakteristiky založené na základní hlasivkové frekvenci a některé spektrální vlastnosti konsonanty /s/ vykazují korelaci s věkem okolo 0.5. Řečové parametry se silnou věkovou závislostí budou v dalším výzkumu použity pro návrh věkového klasifikátoru.

Poděkování

Tento výzkum je podporován z grantu GD102/08/H008 - Analysis and modeling biome- dical and speech signals.

Reference

[1] OHNESORG, K. Naše dítě se učí mluvit. Praha : SPN, 1976. ISBN 80-04-25233-8. [2] SCHÖTZ, S. Acoustic Analysis of Adult Speaker Age. In Speaker Classification I. Heidelberg : Springer-Verlag, 2007 [3] S. P. WHITESIDE & J. MARSHALL: Developmental trends in voice onset time: some evidence for sex differences. Phonetica, 58 (3). pp. 196-210. [4] M. GEROSA, S. LEE et al.: Analyzing Children’S Speech: an Acoustic Study of Con- sonants and Consonant-Vowel Transition. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on Volume 1, Issue , 14-19 May 2006 50 Robert Krejčí

Optimalizace výpočetně náročné části rozpoznávače řeči se zaměřením na hardwarovou platformu OMAP

Robert Krejčí

České vysoké učení v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Tento článek popisuje některé metody zrychlení výpočtů výpočetně náročné pravděpodobnostní funkce b(o), která je součástí počítačového rozpoznávače řeči. Optimalizace byly zaměřeny především na hardwarovou platformu OMAP, která je v současné době jedním z průmyslových standardů. Výsledkem je mnohonásobné zkrácení doby výpočtu této funkce oproti původní funkci vytvořené pro platformu PC. Popsané optimalizační metody lze aplikovat i na jiné hardwarové platformy.

1. Úvod Počítačové rozpoznávání řeči je výpočetně velmi náročná úloha. Naštěstí v současné době máme k dispozici výkonné počítače, které jsou schopny takové úlohy zvládnout. Pro rozpoznávání řeči v reálném čase je výkon moderního kancelářského PC vcelku dostatečný, ale jsou typy úloh, kdy není možné použít „běžnou“ platformu PC s procesorem řady x86, např. z důvodů požadavků na malý příkon, malé rozměry, přenositelnost zařízení nebo minimalizaci ceny. Proto je potřeba hledat jinou hardwarovou platformu, která by těmto požadavkům vyhovovala více i přes omezené systémové prostředky, jako je např. menší taktovací frekvence procesoru, méně operační paměti atd. Relativně menší výkon platformy je nutné nahradit efektivnějším prováděním algoritmů, mnohdy však je nutné volit kompromis mezi rychlostí a přesností výpočtů.

2. Hardwarová platforma OMAP-L137 Jako jednu z vhodných platforem pro rozpoznávání řeči na přenosných zařízeních jsme zvolili dvoujádrový procesor od firmy Texas Instruments s označením OMAP-L137 a provedli jsme mnoho experimentů s testováním některých algoritmů, které jsou součástí rozpoznávače řeči. OMAP-L137 je nízkopříkonový hybridní procesor třídy SoC (System on Chip), který je složen z jednoho jádra 32-bitového signálového procesoru TMS320C674x a jednoho jádra 32-bitového procesoru pro všeobecné použití ARM926EJ-S. Obě jádra jsou v současné době dobře známým průmyslovým standardem, takže k nim je k dispozici značné množství dokumentace a programového vybavení.

2.1 Jádro signálového procesoru

Jádro TMS320C674x, jak známo, pracuje s formátem čísel v pevné i plovoucí řádové čárce a jeho architektura VLIW (Very Long Instruction Word) umožňuje současně provádět operace v osmi paralelních jednotkách, avšak např. pouze 2 operace typu násobení s akumulací současně. Při taktovací frekvenci 300 MHz může dosáhnout maximálního výkonu 2400 MIPS / 1800 MFLOPS. S využitím principu SIMD (Single Instruction, Multiple Data) mohou být operace s pevnou řádovou čárkou prováděny velmi efektivně.

2.2 Jádro procesoru pro všeobecné použití Robert Krejčí 51

Jádro procesoru pro všeobecné použití ARM926EJ-S je členem rodiny RISCových procesorů ARM9 s jednotkou pro správu paměti (MMU – Memory Management Unit). Obsahuje rovněž rozšířenou sadu instrukcí pro číslicové zpracování signálů.

2.2 Spolupráce mezi oběma jádry

Kombinace signálového procesoru (DSP) a procesoru pro všeobecné použití (GPP) se ukazuje jako velmi vhodná pro tzv. „embedded“ (vestavěné) systémy rozpoznávání řeči. GPP, na němž funguje nějaký operační systém (např. Linux), zde zajišťuje celkovou funkci systému, komunikační rozhraní s uživatelem, vstupně-výstupní procesy, síťové spojení atd., zatímco DSP, na němž běží kernel (jádro operačního systému) „DSP/BIOS“, je opakovaně spouštěn pro výpočet časově náročných operací. Další výhoda spočívá ve skutečnosti, že jádro GPP obsluhuje události přerušení (např. odběr vzorků z A/D převodníku), takže jádro DSP se jimi nemusí zabývat a výpočetně náročné části programu tedy může provádět bez přerušování.

3. Rozpoznávání řeči

3.1 Parametrizace

Parametrizace signálu je jedním z prvních funkčních bloků v procesu rozpoznávání řeči. Z každého segmentu vstupního řečového signálu se extrahují parametry signálu, které dostatečným způsobem vypovídají o jeho řečových vlastnostech. V případě našeho rozpoznávače jsou vstupní vzorky signálu snímány s frekvencí 16 kHz. Z každého segmentu signálu se následně vypočítá 16 mel-kepstrálních koeficientů a další koeficient nese informaci o logaritmu energie signálu. Z těchto sedmnácti koeficientů se spočtou diferenciální a akcelerační parametry, čímž získáme vektor o s délkou celkem 51 koeficientů. Oproti dalším blokům je tento proces poměrně méně výpočetně náročný, takže lze s výhodou použít hardwarové aritmetiky signálového procesoru pro výpočty v plovoucí řádové čárce. Snahy o další optimalizace se zde zúročí méně než v případě následujícího funkčního bloku.

3.2 Pravděpodobnostní funkce b(o)

Jedna z dalších částí procesu rozpoznávání řeči je výpočet pravděpodobnostní funkce, která se v odborné literatuře běžně označuje jako b(o) [1]. Jedná se o výpočetně velmi náročnou operaci. Tato funkce vyhodnocuje podobnost parametrizovaného segmentu signálu s předem natrénovanými daty akustického modelu trifonů. Její tvar vhodný pro implementaci je následující [2]:

M 51  = ∐ −∑ [ − ⋅ ]2 b o X ok k y k (1) i=1 k =1 M M ∐ = ∑ ai ai ln e (2) i =1 k=1

Výpočet jádra funkce proběhne celkem 51-krát (pro každý koeficient vstupního vektoru), následuje přičtení další konstanty X a aproximace logaritmu sumy exponenciálních funkcí. Tento blok se provádí 20 až 120-krát, průměrně 40-krát. Toto se počítá jednotlivě pro 435 stavů natrénovaných parametrů skrytých Markovových modelů (HMM) a aby rozpoznávač mohl pracovat v reálném čase, celý výpočet se musí stihnout provádět 100-krát za sekundu. 52 Robert Krejčí

Jádro funkce se skládá z několika elementárních operací: rozdíl, násobení, druhá mocnina, akumulace. Pokud počítáme i s ochranou proti numerickému přetečení (škálování, scaling), můžeme v jádře funkce napočítat celkem 6 operací. Operace čtení a ukládání do paměti zde nejsou započítány.

Obrázek 1: Původní funkce b(o) v pevné řádové čárce

Výsledky našich experimentů ukazují, že největší přínos pro zrychlení výpočtů má optimalizace nejvnitřnějšího jádra funkce b(o).

4. Optimalizace Provedli jsme řadu optimalizací funkce b(o), jejichž výsledkem bylo mnohonásobné zvýšení rychlosti výpočtů na platformě OMAP oproti původní funkci převzaté ze zdrojových kódů pro platformu PC. V následujícím textu jsou popsány některé metody, které přispěly k rychlejšímu provedení výpočtu.

4.1 Automatické optimalizace

Texas Instruments ke svým produktům poskytuje také vývojové prostředí Code Composer Studio (CCS) s kompilátorem jazyka C. Dobrých výsledků lze dosáhnout už jen zapnutím vhodné kombinace automatických optimalizací kompilátoru jazyka C [3]. Rychlost výpočtů v našem případě tak vzrostla asi trojnásobně.

4.2 Bitová přesnost vstupních a výstupních dat

Na platformě TMS320C6000 lze dosáhnout optimálního poměru mezi rychlostí a přesností násobení, pokud jsou vstupní data vyjádřena v 16-bitovém formátu a výsledek je ve 32- bitovém formátu v pevné řádové čárce [4]. Redukcí 32×32-bitového násobení na 16×16 bitů se dá dosáhnout znatelného zrychlení s přijatelným vlivem na snížení přesnosti výpočtů.

4.3 Umístění vybraných dat do paměti s rychlým přístupem

Dalšího zrychlení výpočtů lze dosáhnout vhodným umístěním často používaných dat do paměti s rychlejším přístupem. Pokud to není výslovně definováno, kompilátor předpokládá obecné umístění dat v paměti typu far a čtení dat z paměti trvá tři instrukční cykly. Robert Krejčí 53

Klíčovým slovem near v deklaraci proměnné lze přikázat kompilátoru, aby proměnnou umístil do paměti s rychlým přístupem. V takovém případě čtení trvá pouze jeden instrukční cyklus [4].

4.4 Plánování kódu

Přeskupením zdrojového kódu (napsaného v programovacím jazyce C) se dá dosáhnout lepší návaznosti instrukcí bez čekání na přečtení dat z paměti (to je tzv. metoda „Code scheduling“). Nejprve se skupina dat nahraje z paměti do registrů procesoru a pak se s těmito daty provádí výpočty. Ukazuje se, že v takovém případě je kompilátor schopen přeložit zdrojový kód s výrazným paralelizmem instrukcí.

4.5 Intrinzické funkce

Dalšího výrazného zkrácení doby výpočtu lze dosáhnout s využitím tzv. intrinzických funkcí, což je téměř přímý přístup ke speciálním instrukcím konkrétní architektury procesoru v programovacím prostředí jazyka C, které by jinak kompilátor nejspíše nevyužil. Jako příklad uveďme všeobecně známou funkci „saturovaný součet“, která zajistí saturaci výsledku na maximální (nebo minimální) hodnotu v případě, že by došlo k překročení dynamického rozsahu. V obecném programovacím jazyce C by se musela rozepsat do několika řádků kódu a její provedení by bylo pomalejší. Použití instrinzické funkce _sadd() však vede na provedení příslušné jediné instrukce v assembleru, a je tedy rychlejší [4]. Možnost použití intrinzických funkcí se vyskytuje i v jiných kompilátorech pro jiné architektury (např. kompilátor GCC pro platformy PC, ARM nebo MIPS) [5].

4.6 Vektorizace a makro-operace

Možností architektury TMS320C6000 lze plně využít v případě použití principů vektorizace a makro-operace [4]. Vektorizace je počítání s více operandy v jedné instrukci, např. c1=a1×b1, c2=a2×b2. Rozdíl oproti standardním operacím je v tom, že se neprovádí výpočet s jedním 32-bitovým číslem, ale s „balíčkem“ dvou 16-bitových nebo čtyř 8-bitových operandů. Makro-operace je výpočet více operací v jedné instrukci, přičemž může být využit i předchozí princip vektorizace. Jedinou instrukcí tak lze provádět např. výpočet typu c = a1×b1 + a2×b2. V tomto příkladu se současně provedou dvě násobení a zároveň se výsledky sečtou.

4.7 Výpočty s plovoucí řádovou čárkou

Architektura TMS320C674x také poskytuje možnost výpočtů ve formátu čísel s plovoucí řádovou čárkou, i když možnosti optimalizací jsou poněkud omezené oproti výpočtům v pevné řádové čárce. Nevýhoda instrukční sady pro výpočty v plovoucí řádové čárce na této architektuře spočívá v tom, že neobsahuje instrukce s využitím principů vektorizace a makro- operací. Výsledky výpočtů jsou sice velmi přesné, ale pomalejší oproti výpočtům v pevné řádové čárce s plným využitím možností hardwarové architektury.

5. Modifikovaná funkce b(o) Pokud se s původní funkcí b(o) provede následující substituce, vidíme, že v hlavní sumě je eliminováno odečítání a druhá mocnina, přičemž nový tvar funkce vrací numericky stejné výsledky jako původní tvar funkce b(o). 54 Robert Krejčí

51 = 2 = 2 = −  2 = −∑  2⋅2 pk ok , z k yk , vk 2 k yk , X 1 X yk k (3) k =1 M 51  = ∐  −∑ ⋅  ⋅  b o X 1i z i , k pk vi ,k ok (4) i=1 k=1

Koeficienty zk, vk a X1 jsou přepočítané natrénované parametry a koeficienty p se počítají přímo ze vstupního parametrizovaného vektoru o, tj. jednou za segment. Zůstala nám pouze operace typu „násobení s akumulací“, což se dá pokládat za elementární operaci. Signálové procesory obvykle mohou takovou operaci provést během jednoho instrukčního cyklu.

5.1 Modifikovaná funkce b(o) v plovoucí řádové čárce

Na následujícím obrázku je blokové schéma této modifikované funkce pro výpočet v plovoucí řádové čárce. Vidíme, že algoritmus je o něco jednodušší.

Obrázek 2: Modifikovaná funkce b(o) v plovoucí řádové čárce

Když sloučíme vektory o a p a matice přepočítaných natrénovaných parametrů v a z tak, aby byly v paměti umístěny vedle sebe, vznikne vektor či matice o šířce 102 prvků:

⋯ ⋯ v1,1 v1,51 z1,1 z1,51 op = [ o ⋯o p ⋯ p ] , vz = [ ⋮ ⋮ ] 1 51 1 51 k (5) ⋯ ⋯ v M ,1 vM ,51 z M ,1 z M ,51

M 102  = ∐ −∑ ⋅  b o X 1 vzi ,k opk (6) i=1 k =1

Operaci „násobení s akumulací“ se 102 prvky lze provést velmi efektivně s minimální režií na uspořádání cyklu.

5.2 Modifikovaná funkce b(o) v pevné řádové čárce

Nově přepočítané parametry zabírají podstatně větší dynamický rozsah než původní parametry. Konkrétně dynamický rozsah parametrů z je 19 bitů (s hodnotami od 11 do 29 bitů) a dynamický rozsah parametrů |v| je 18 bitů (s hodnotami od 17 do 34 bitů). Je tedy potřeba přepočítat parametry tak, aby se jejich dynamický rozsah vešel do 16 bitů, to znamená 15 bitů pro hodnotu a jeden znaménkový bit. Robert Krejčí 55

Větší přesnosti lze dosáhnout, pokud veškerá data rozdělíme do více pásem, která nemusí nutně odpovídat uspořádání statických, diferenciálních a akceleračních parametrů. V tomto případě jsme podle dynamického rozsahu zvolili tři pásma s 16, 16 a 19 koeficienty.

M 16 32 51  = ∐ −∑  ⋅  ⋅  ∑  ⋅  ⋅  ∑  ⋅  ⋅  b o X 1 zk pk vk ok zk pk vk ok z k pk v k ok (7) i =1 k=1 k=17 k=33

16 z p 16 v 32 z p 32 v 51 z p 51 v ∑ k⋅ k ∑ k⋅o ∑ k⋅ k ∑ k⋅o ∑ k⋅ k ∑ k⋅o M  9 16 14 k 13 16 16 k 15 16 18 k  ======  = ∐ X 1− k 1 2 2  k 1 2  k 17 2 2  k 17 2  k 33 2 2  k 33 2 (8) b o 31 6 17 2 15 0 13 i=1 2 2 2 2 2 2 2

Jádro funkce se skládá ze tří smyček typu „násobení s akumulací“ (tedy šesti sum). Každá suma se počítá v jiné (optimální) bitové přesnosti. Výsledky jsou pak srovnány na stejnou úroveň a další výpočet, který už je o něco méně časově kritický, probíhá stejně jako v předchozích případech.

Obrázek 3: Blokové schéma algoritmu s 3-pásmovým škálováním

Ještě je potřeba se zmínit o přepočítané konstantě X1. Její plný dynamický rozsah je sice 17 bitů, ale naprostá většina hodnot se vejde přibližně do rozsahu osmi bitů. Proto práce s touto konstantou není problematická. Průměrováním výsledků ze 100 realizací jsme zjistili, že algoritmus s globální redukcí přesnosti na 16 bitů vede k výsledkům, jejichž průměrná chyba je ve většině případů 2–3% vzhledem k výpočtu v plné přesnosti (rozlehlejší histogram). Naproti tomu v případě, že výpočet probíhá ve třech pásmech, přičemž každé pásmo má svou optimální bitovou přesnost, lze dosáhnout poměrně přesného výsledku vzhledem k původní funkci b(o). Ve většině případů byla průměrná chyba méně než 1% (užší histogram). Výhodou nové formy funkce b(o) je redukce počtu elementárních operací v jejím jádře. Upravená funkce je založena na operaci typu „násobení s akumulací“, což vede na možnost jejího rychlejšího provedení zvláště v architekturách signálových procesorů. Nové koeficienty lze získat přímo z původních jednoduchou transformací. Koeficienty jsou známy v čase kompilace programu, takže jejich výpočet neubírá výpočetní výkon během rozpoznávání. 56 Robert Krejčí

Obrázek 4: Histogram relativní chyby výpočtu modifikované funkce b(o) vzhledem k původní funkci

5.3 Uspořádání dat v paměti

Vhodným uspořádáním dat v paměti lze dosáhnout optimálního přístupu do paměti tak, aby operace čtení na sebe vzájemně navazovaly a nebylo nutné zbytečně čekat, až se data z hlavní paměti přesunou do paměti typu Cache. Nejlepších výsledků bylo dosaženo v případě uspořádání čtveřic dat podle následujícího obrázku.

Obrázek 5: Optimalizovaná datová struktura nově přepočítaných koeficientů z a v

6. Výsledky

V následujícím grafu jsou zobrazeny doby výpočtů pravděpodobnostní funkce b(o) v závislosti na použité optimalizační metodě. Optimalizace byla prováděla postupně, takže každá následující metoda zahrnuje použití všech předchozích metod. Výjimkou je výpočet ve formátu čísel s plovoucí řádovou čárkou, v grafu je zobrazen pouze nejkratší dosažený čas výpočtu. Jak je vidět, nejvýznamnější přínos má (vedle automatických optimalizací) využití vektorizace a makro-operací (přibližně dvojnásobné urychlení) a dále výpočet modifikovanou formou s optimalizovanými přístupy do paměti (asi 2,5-násobné snížení doby výpočtu).

7. Závěr V tomto článku byly uvedeny některé základní informace o rozpoznávání řeči se zaměřením na hardwarové architektury s omezenými systémovými prostředky. Popsali jsme některé optimalizační metody, které vedou k urychlení výpočtů, a uvedli jsme výsledky testů provedených na platformě OMAP-L137 se signálovým procesorem řady TMS320C674x. Robert Krejčí 57

Obrázek 6: Vliv optimalizačních metod na rychlost výpočtu

Většina uvedených metod je použitelná i na jiných hardwarových architekturách včetně platformy PC [6], případně s drobnými úpravami.

8. Poděkování Tento výzkum byl podporován z grantu GAČR 102/08/H008 „Analýza a modelování biomedicínských a řečových signálu“, GAČR 102/08/0707 „Rozpoznávání mluvené řeči v reálných podmínkách“ a výzkumného záměru MŠMT MSM6840770014 „Výzkum perspektivních informačních a komunikačních technologií“.

Reference

[1] S. Young et al., The HTK Book. http://htk.eng.cam.ac.uk/ftp/software/ htkbook.pdf.zip, 2009.

[2] J. Uhlíř a kol., Technologie hlasových komunikací, Nakladatelství ČVUT Praha, 2007.

[3] TMS320C6000 Optimizing Compiler v 6.1 User's Guide. http://www.ti.com/litv/pdf/ spru187o, 2008.

[4] TMS320C6000 Programmer's Guide. http://www.ti.com/litv/pdf/spru198i, 2006.

[5] Built-in Functions Specific to Particular Target Machines. http://gcc.gnu.org/ onlinedocs/gcc-3.4.0/gcc/Target-Builtins.html.

[6] Intel® 64 and IA-32 Architectures Optimization Reference Manual. http:// developer.intel.com/Assets/PDF/manual/248966.pdf, 2009. 58 Ondřej Kučera

Mechanické oscilace buněk

Ondřej Kučera České vysoké učení technické v Praze, Fakulta elektrotechnická Ústav fotoniky a elektroniky, Akademie věd ČR [email protected]

Abstrakt: Cellular nanomechanical oscillations in kilohertz range were me- asured using Atomic Force Microscopy in recent years. This paper includes explanation of experimental technique and short review of considerable expe- riments. It is furthermore suggested that mechanical oscillations of cells must generate oscillating electric field in their vicinity, because many intracellular structures are electrically polar.

1. Úvod

Vazba mezi buněčnou strukturou, mechanickými vlastnostmi a dynamikou buňky na jedné straně a biologickou funkcí a nemocí na straně druhé není doposud uspokojivě popsána a je v současné době předmětem intenzivního interdisciplinárního výzkumu. Poznatky z těchto oblastí postupně odkrývají nové aspekty buněčné fyziologie, jejichž přínos a význam pro medicínu nelze prozatím plně zhodnotit. Mezi tyto nové objevy patří i experimentální zjištění mechanických oscilací buněčných stěn.

2. Mikroskopie atomárních sil

Mikroskopie atomárních sil [1] (dále AFM z anglického Atomic Force Microscopy) je hlavní větví mikroskopie skenujících sondou (SPM - Scanning Probe Microscopy). AFM nalézá široké uplatnění v nejrůznějších vědecko-technických oblastech zahrnujících jak základní, tak i aplikovaný výzkum. Používá se od materiálového inženýrství přes fy- ziku až k biologii a komunita jejích uživatelů se každoročně rozrůstá. Aplikace AFM není omezena jen na mapování topografie vzorků. Používá se též pro lokální silová měření a pro analýzu lokálních mechanických vlastností vzorků. AFM lze použít i jako mikromani- pulátor pro práci s jednotlivými molekulami. Princip AFM (Obr. 1) spočívá ve sledování silové interakce mezi povrchem vzorku a velmi malým špičatým hrotem s poloměr křivosti v řádu desítek nanometrů. Původcem interakce jsou zejména přitažlivé síly van der Waalsovy a odpudivé síly krátkého dosahu, např. Pauliho repulze. Velikost i směr působící síly se mění v závislosti na vzdálenosti hrotu od povrchu vzorku. Aby bylo možné silové působení měřit, je hrot upevněn na konci mikroskopického nosníku délky několika stovek mikrometrů, který se vlivem výše popsaných sil ohýbá. Ohnutí nosníku je v aparatuře mikroskopu zpravidla snímáno pomocí laserového paprsku (viz Obr. 1). Pro získání topografie povrchu je třeba realizovat měření Ondřej Kučera 59

Laser ete tor

Fotod k

Obvody Nosnkí zpětné H vazby

z y Vzorek x H-H rot

Piezoelektrick ýScanner

Obrázek 1: Princip AFM [6]. v mnoha bodech daných měřící mřížkou, rastrem. Laterální pohyb vzorku pod měřícím hrotem je zajištěn pomocí piezoelektrického scanneru. 4 Laterální rozlišení AFM je v subnanometrové oblasti a velikost působících sil v řádu 10− 14 až 10− N, díky čemuž lze zobrazovat topografii vzorku až na atomární úrovni. Nespornou výhodou AFM je, že na rozdíl od elektronové mikroskopie není třeba provádět měření ve vakuu a vzorek nemusí být vodivý, jak je požadováno u tunelové mikroskopie. Měřený vzorek tak může být umístěn jak ve vakuu, tak v plynu nebo kapalině, což umožňuje např. měření na biologických strukturách v jejich chemicky přirozeném prostředí (viz např. Obr. 2).

3. Přehled experimentů

Pelling et al. [10, 9] změřil pomocí mikroskopu atomárních sil (AFM) mechanické oscilace buněčných stěn kvasinek Saccharomyces cerevisiæ. Vibrační signál se střední hodnotou 3.0 0.5 nm byl přítomen v 70 % provedených měření a byl reprodukovatelný v čase i na ± rozdílných kulturách. Spektru změřených oscilací dominoval teplotně závislý frekvenční vrchol od 0.9 kHz při 22◦C do 1.6 kHz při 30◦C. Oscilační charakter signálu vymizel po utlumení metabolické aktivity buňky podáním azidu sodného. Autoři vyloučili, že by změřený signál byl artefaktem. Naopak vzhledem k teplotní závislosti frekvence předložili hypotézu, že zdrojem oscilací je koordinovaný pohyb motorových proteinů pohybujících se podél cytoskeletárních struktur. Pellingův experiment částečně reprodukoval Pokorný et al. [11, 4]. Mosbacher et al. [8] experimentálně objevil elektrickým napětím řízený pohyb membrán buněk HEK293 pomocí AFM. Pohyb sledoval přiložené střídavé napětí na frekvencích větších než 1 kHz s fázovým předstihem 60–120◦, jak odpovídá posuvnému proudu. Domke et al. [5] s využitím AFM změřil vlastní pulsy kardiomyocytů (buňky srdečního svalu) v rozsahu 0,05–0,4 Hz. Mechanické oscilace buněk rozličných kultur byly dále pozorovány pomocí různých technik v širokém frekvenčním pásmu (mHz–THz). 60 Ondřej Kučera

Obrázek 2: Rekonstrukce topografie sedimentu buněk kvasinek. Měřeno pomocí AFM v kontaktním režimu.

4. Buněčná nanoelektromechanika

Mnoho vnitrobuněčných struktur na úrovni organel i molekul je elektricky polárních. Např. heterodimer tubulinu (s rozměry 5 x 8 nm), který je základní stavební jednotkou 26 mikrotubulů, je silný elektrický dipól s dipólovým momentem řádu 10− C m. Jiným · příkladem může být buněčná membrána, na jejíž tloušťce 10 nm je realizován membránový potenciál až –100 mV. Je evidentní, že mechanické oscilace těchto struktur vytvářejí v jejich blízkosti oscilující elektrické pole [3, 2, 7]. Na rozdíl od akčního potenciálu, který má silnou proudovou složku, by se v tomto případě jednalo o signál s výkonem natolik nízkým, že by nemusel výrazněji překročit úroveň tepelného šumu. Změření takového signálu je technologickou výzvou, která by mohla otevřít dveře novému aspektu buněčné fyziologie – celulární nanoelektromechanice.

5. Závěr

Výše zmíněné mechanické a elektrické biosignály doposud čekají na svoji interpretaci. Jejich analýza pomocí standardních metod zpracování signálů k tomu může významně napomoci.

Poděkování

Autor děkuje spolupracovníkům z ÚFE AV ČR, jmenovitě zejména dr. Michalu Cifrovi a dr. Jiřímu Pokornému, kteří se podíleli na výzkumu. Ondřej Kučera 61

Práce byla částečně podpořena z grantu č. 102/08/H081 GA ČR. Náklady na prezentaci výsledků byly podpořeny ze zdroje č. 13131/10/222 ČVUT v Praze.

Reference

[1] Binnig, G.; Quate, C.; Gerber, C. Atomic force microscope. Phys. Rev. Lett. 3 (1986), 930–933.

[2] Cifra, M.; Pokorný, J.; Havelka, D.; Kučera, O. Electric field generated by axial longitudinal vibration modes of microtubule. submitted (2009).

[3] Cifra, M.; Pokorný, J.; Jelínek, F.; Kučera, O. Vibrations of electrically polar structu- res in biosystems give rise to electromagnetic field: theories and experiments. In Pro- gress In Electromagnetic Research Symposium 2009, Moscow 2009, no. 1, pp. 215– 219.

[4] Cifra, M.; Vaniš, J.; Kučera, O.; Hašek, J.; Frýdlová, I.; Jelínek, F.; Šaroch, J.; Po- korný, J. Electrical vibrations of yeast cell membrane. In Progress In Electromagnetic Research Symposium 2007, Prague 2007, no. 1, pp. 215–219.

[5] Domke, J.; Parak, W.; George, M.; Gaub, H.; Radmacher, M. Mapping the mecha- nical pulse of single cardiomyocytes with the atomic force microscope. Eur. Biophys. J. 28, 3 (1999), 179–186.

[6] Kučera, O. Mikroskopie atomárních sil. Automatizace 4 (2009), 220–222.

[7] Kučera, O.; Pokorný, J.; Cifra, M. Cellular nanomechanical and electrical oscillations in kHz range: a path to biological nanoelectromechanics. In Proceedings of Trendy v Biomedicínskom Inžinierstve 2009, Bratislava 2009.

[8] Mosbacher, J.; Langer, M.; Horber, J.; Sachs, F. Voltage-dependent membrane dis- placements measured by atomic force microscopy. Journal of General Physiology 111, 1 (1998), 65–74.

[9] Pelling, A. E.; Sehati, S.; Gralla, E. B.; Gimzewski, J. K. Time dependence of the frequency and amplitude of the local nanomechanical motion of yeast. Nanomedicine: Nanotechnol. Biol. Med. 1 (2005), 178–183.

[10] Pelling, A. E.; Sehati, S.; Gralla, E. B.; Valentine, J. S.; Gimzewski, J. K. Local nanomechanical motion of the cell wall of saccharomyces cerevisiae. Science 305 (2004), 1147–1150.

[11] Pokorný, J.; Hašek, J.; Vaniš, J.; Jelínek, F. Biophysical aspects of cancer – electro- magnetic mechanism. Indian Journal of Experimental Biology 46 (May 2008), 310– 321. 62 Martina Nejepsova

MULTIMEDIÁLNÍ SLABIKÁ Ř

Martina Nejepsová

České vysoké u čení technické v Praze, Fakulta elektrotechnická

[email protected]

Abstrakt: Multimediální slabiká ř (MS) je terapeutická pom ůcka pro pacienty s postižením sluchového ústrojí – p ředevším pro pacienty s kochleárním implantátem. Tato pom ůcka, ve form ě výukového programu a n ěkolika dalších testovacích program ů v různé náro čnosti, by m ěla sloužit pro zdokonalování poslechu a porozum ění mluveného slova. M ěla by být p řínosem pacient ům p ředevším v dob ě po aktivaci kochleárního implantátu. V závislosti na hodnocení programu pacienty vzniká zp ětná vazba pro zvýšení kvality a ú činnosti tohoto programu.

1. Úvod Program (MS) byl vytvo řen jako terapeutická pom ůcka pro pacienty se sluchovým postižením – p ředevším pro pacienty s kochleárním implantátem. T ěmto pacient ům se po ur čité poopera ční dob ě (4-6ti týdenní lé čba po implantaci) aktivuje kochleární implantát a za číná poimplanta ční terapie. Doba adaptace pacienta a její výsledky jsou r ůzné. Záleží na typu implantátu, na stavu vlastní kochlei a intenzit ě následného cvi čení sluchového aparátu. Rehabilita ční cvi čení postupují od detekce p řes rozlišování a rozeznávání k porozum ění jednotlivým zvuk ům a řeči. U pacient ů, kte ří ohluchli po osvojení řeči a jazyka (postlingváln ě), je tato rehabilitace kratší oproti pacient ům, kte ří ohluchli brzy po narození (prelingváln ě) nebo se již narodili neslyšící. Proto cílem mé práce bylo vytvo řit program, který by pomohl zlepšit poslechovou schopnost pacient ů. Program obsahuje nejen výukovou část, ale je dopln ěn i o testovací část, kde si pacienti mohou sami vyzkoušet, zda-li jsou schopni porozum ět mluvenému slovu.

2. Koncepce programu Již d říve byla vytvo řena verze programu MS, jejímž autorem je Ing. Stanislav Brožek. Pro hodnocení této verze vyplnili pacienti „Dotazník pro uživatele programu MS“, kde uvedli své post řehy a p řipomínky k programu. Vzhledem k mnoha p řipomínkám pacient ů byl vytvo řen nový program. Nejprve bylo nutné vytvo řit nový seznam slov a frází, které by m ěl program obsahovat, dále tento seznam nechat namluvit vhodnými mluv čími a nakonec vytvo řit snadno ovladatelné uživatelské prost ředí a k němu ovládací skript.

2.1. Výb ěr témat Při výb ěru témat a obsahu zvukových záznam ů byla základem témata uvedená v [1], konzultací s odborníky foniatrické kliniky, dále pak z požadavk ů a p řipomínek pacient ů foniatrické kliniky a dalších návrh ů. Témata jsou rozd ělena do t řech hlavních skupin – slabiky, slova a fráze. N ěkteré z nich jsou dále člen ěny na kapitoly respektive podkapitoly – viz. Tab.1.

Martina Nejepsova 63

SLABIKY SLOVA Čísla a číslovky Ovoce Dopravní prost ředky Zájmena Zelenina Hudební nástroje Barvy Potraviny Lidské t ělo Dny a m ěsíce Jména Obuv a oble čení Jazyky Sport Psací a výtvarné pot řeby Zví řata Povolání a zam ěstnání Zem ě Rostliny Domácnost Města FRÁZE Pozdrav V bance Cestování Seznámení V hotelu Sport Dorozumívání V obchod ě Zábava a volný čas Datum a čas V restauraci Po časí U léka ře Tab.1: P řehled kapitol a podkapitol

2.2. Výb ěr mluv čích, nahrávání a st řih zvukových záznam ů V programu MS si uživatel m ůže zvolit p ři p řehrávání zvukových záznam ů jako mluv čího muže nebo ženu. Po p ředchozích p řipomínkách odborník ů z Foniatrické kliniky a vyjád ření pacient ů k předchozí verzi programu bylo t řeba najít vhodné mluv čí pro nahrání zvukových záznam ů. Bylo osloveno n ěkolik dobrovolník ů (z r ůzných profesních obor ů), kte ří by byli ochotni zvukové záznamy namluvit. Ze záznamu četby stejného textu 11ti dobrovolníky, byli foniatrickou klinikou vybráni dva mluv čí – muž a žena, kte ří poté namluvily 1375 zvukových nahrávek. Zvukové nahrávky byly nahrány jako pásma n ěkolika zvukových záznam ů – v ětšinou vždy jako část kapitoly či podkapitoly. Poté bylo nutné jednotlivá zvuková pásma sest řihat na jednotlivé zvukové nahrávky. To bylo provedeno v programu Adobe Audition 1.5. Zvukové nahrávky jsou ve formátu MP3. D ůvodem komprese z formátu WAV do MP3 byla nejen úspora místa na disku, ale i snadn ější komunikace vývojového programového prost ředí Action Script 3.0 s externími zvukovými soubory. Komprese nezp ůsobila slyšitelné zhoršení kvality nahrávky, což bylo i ov ěř eno pomocí programu Praat 4.5.18. Zvukové záznamy jsou rozd ěleny do adresá řů podle jednotlivých kapitol a podkapitol v programu a jsou uloženy v adresá ři Zvukové_nahrávky na CD spole čně s programem. Názvy soubor ů s promluvami jsou totožné s jejich zvukovým obsahem v četn ě há čků a čárek. Pouze místo mezery je vloženo podtržítko. U frází, jejichž název by tímto zp ůsobem byl velmi dlouhý, je zvoleno číslování podle kapitoly do které spadají.

2.3. Tvorba uživatelského prost ředí a ovládacích skript ů Při tvorb ě programu MS byl kladen d ůraz na jednoduchost ovládání programu, snadnou instalaci a dostupnost p řehráva če b ěžným uživatel ům PC – v tomto p řípad ě Adobe Flash Player, který je nutný pro užívání programu. Proto byl tedy zvolen program Adobe Flash CS3 pro tvorbu uživatelského rozhraní. Pro tvorbu ovladacích skript ů byl užit Action Script 3.0, který je sou částí Adobe Flash CS3. Program MS obsahuje čty ři částí – VÝUKA, TEST1, TEST2 a TEST3, které jsou uloženy jako samostatné soubory. Každá část programu byla tvo řena jako jednotlivé snímky (jeden snímek = stránka části programu). Na jednotlivých snímcích jsou mimo autorem vytvo řených prvk ů umíst ěny grafické objekty – obrázky a texty, tla čítka a n ěkolik objekt ů z knihovny programu AdobeFash CS3. Ty jsou v programu užívány dle p ředdefinovaného charakteru. 64 Martina Nejepsova

Zvukové záznamy, jak již bylo zmín ěno, jsou uloženy mimo program. Pomocí URL adresy jsou na čítány do programu. Ve výukové části jsou jednotlivé zvukové záznamy p řidány rovnou ke zvukovým tla čítk ům s názvem jejich obsahu. V testovací části jsou zvukové nahrávky uloženy v jednorozm ěrném poli, odkud jsou náhodn ě vybírány. Pro odkazová tla čítka ve všech částech programu byl užit již p ředdefinovaný p říkaz gotoAndPlay(X) , který je ur čen k přechodu na snímek s číslem uvedeným v závorce p říkazu. Pro každý aktivní prvek (tla čítka, objekty z knihovny, ...) byla vytvo řena samostatná funkce pro jejich ovládání. Ve výukové části bylo t řeba funkcí pro p řehrání zvukových záznam ů, p řidání šumu či ruchu na pozadí a nastavení jejich intenzity. Pro zvuková tla čítka p řehrávající zvukový záznam byla vytvo řena funkce, reagující na kliknutí myší. Funkce nejprve zjistí nastavení pro p řehrání zvukového záznamu s případným šumem a jeho zvolenou intenzitou a poté p řehraje nastavenou kombinaci. V části programu MS – TEST1 slouží pro p řehrání zvukových záznam ů funkce p řiřazená tla čítku P ŘEHRAJ. Krom ě náhodného výb ěru zvukového záznamu a jeho p řehrání obsahuje tato funkce ješt ě po čítadla stisknutí tla čítka P ŘEHRAJ a nezodpov ězených zvukových záznam ů (tj. kdy uživatel p řehrál další zvukový záznam aniž by odpov ěděl na záznam předchozí). Dále obsahuje p říkazy pro zobrazení tla čítka P ŘEHRAJ ZNOVU. Pro toto tla čítko je implementována další funkce, která dostane informaci o výb ěru zvuku a umožní jeho op ětovné p řehrání. Stiskem odpovídacích tla čítek se volá funkce pro porovnání odpov ědi (obsahu zvukového tla čítka) a správné odpov ědi uložené v poli odpov ědí jako textový řet ězec. Podle výsledku porovnávání zobrazí tato funkce hodnocení – zda bylo odpov ězeno dob ře nebo špatn ě a umožní pacientovi zvolit jinou odpov ěď v případ ě neshody odpov ědí. V případ ě shody nastaví aktivní oblast stránky pro další zvukový záznam. Tato funkce má také zabudované po čítadlo pro správné a špatné odpov ědi. Dále je v této části programu ješt ě využívána funkce pro vytvo ření a úpravu vzhledu textových polí, do kterých se zapisují hodnoty z po čítadel. V části programu MS – TEST2 jsou op ět funkce přehrávání a znovup řehrávání zvukových záznam ů. Ob ě funkce jsou obdobné se stejnojmennými funkcemi v části TEST1, liší se jen v přidání ovládání zobrazování n ěkolika prvk ů v aktivní části programu – okénko pro zapsání odpov ědi uživatelem, tla čítko POTVRDIT ODPOV ĚĎ , tla čítko UKAŽ SPRÁVNOU ODPOV ĚĎ , ... . Pro potvrzení odpov ědi, jež uživatel zapíše do p říslušného okénka, slouží tla čítko POTVRDIT ODPOV ĚĎ a s ním i funkce zaznamenávající odpov ěď zadanou uživatelem. Tla čítko UKAŽ SPRÁVNOU ODPOV ĚĎ aktivuje funkci pro zobrazení správné odpov ědi. Krom ě zobrazení o čekávané odpov ědi funkce ješt ě uzavírá p řístup pro zapsání odpov ědi uživatelem, nebo ť již není t řeba nic ur čovat. Část programu MS – TEST3 je programov ě nejsložit ější. Uživatel zde má možnost definovat si nastavení testu. To je provád ěno pomocí CheckBox ů a Radiobuton ů. Nastavení kon čí tla čítkem POKRA ČOVAT a SPUSTIT TEST, které zkontroluje stav t ěchto prvk ů (jsou-li ozna čeny nebo nikoliv). Nastavení a výb ěr uloží do pole. P řehrávání a znovup řehrávání je dáno opět stejnými funkcemi jako v předchozích částech programu, jenž jsou p řiřazeny tla čítk ům P ŘEHRAJ a P ŘEHRAJ ZNOVU. Zde je náhodný výb ěr zvukových nahrávek ovlivn ěn nastavením uživatele. Proto je nutné do náhodného výb ěru za řadit pouze ty zvukové nahrávky, které si uživatel vybere v nastavení testu. To je spolu s náhodným výb ěrem přiřazeno tla čítku P ŘEHRAJ. Tento test je velmi podobný testu TEST2 a proto i funkce v něm použité jsou obdobné. Zde ješt ě p řibývá zápis výsledk ů do tabulky – textového pole a zobrazování o čekávané a uživatelem zadané odpov ědi. To vše je ovládáno pomocí funkcí, které se spustí stisknutím tla čítka POTVRDIT ODPOV ĚĎ . V testu TEST2 a TEST3 je možné potvrdit odpov ěď nejen stiskem tla čítka POTVRDIT ODPOV ĚĎ , ale pomocí klávesy ENTER, což vede k urychlení potvrzení odpov ědi.

Martina Nejepsova 65

3. Popis programu Program MS, jak bylo výše uvedeno je rozd ělen do čty ř částí – VÝUKA, TEST1, TEST2 a TEST3. Dále je program dopln ěn o nápov ědu, která shrnuje informace o ovládání programu v jednotlivých částech. Vzhled uživatelského rozhraní je zam ěř en na p řehlednost, čitelnost a jednoduchost ovládání. Všechny části programu mají proto obdobný vzhled. Vždy po spušt ění programu MS se objeví hlavní menu – titulní stránka konkrétní části programu, na které si uživatel vybírá sm ěr, kterým se bude ubírat. Po volb ě kapitoly p řejde uživatel na stránku menu zvolené kapitoly či podkapitoly, která slouží pouze jako rozcestí – pro lepší orientaci uživatele. Jsou zde uvedeny další podkapitoly, do kterých se uživatel dostane kliknutím na zvolené odkazové tla čítko. Následn ě se uživatel ocitne na aktivní stránce s obsahem dané části programu, které jsou blíže popsány v jednotlivých bodech této kapitoly. V horní části každého snímku je uveden nadpis – název snímku, na kterém se uživatel nachází. Hned pod ním je umíst ěna nabídková lišta, jež je viditelná na každé stránce programu. Slouží nejen k pohybu po programu, ale odkazuje i na stru čnou nápov ědu, informace o programu a jeho autorech a také je zde umíst ěno tla čítko pro ukon čení programu.

3.1. Výuková část Tato část programu je ur čena pro poslech a porozum ění jednotlivých zvukových záznam ů. Je rozd ělena na t ři hlavní části SLABIKY, SLOVA a FRÁZE, které jsou dále člen ěny na tematické sekce.

Obr.1: Vzhled části VÝUKA

Vzhled všech aktivních snímk ů části VÝUKA odpovídá Obr.1. V horní části je umíst ěn nadpis a nabídková lišta. Pod ní se nachází samotná aktivní oblast programu. V části VÝUKA 66 Martina Nejepsova jsou zde umíst ěna zvuková tla čítka. Po kliknutí na zvukové tla čítko se p řehraje zvukový záznam uvedený v názvu tla čítka. Tla čítko lze spoušt ět opakovan ě. V levé části stránky se nachází nastavení. Uživatel si zde m ůže vybrat mluv čího – muže či ženu. Dále si zde m ůže nastavit, zda chce poslouchat pouze čistý záznam, nebo si pro ztížení poslechu p řidá ur čitý šum či ruch na pozadí zvukové nahrávky. Uživatel má na výb ěr z devíti šum ů a ruch ů – bílý šum, r ůžový šum, hn ědý šum, bable šum, industriální šum, tikot hodin, ruch ulice, hudbu či déš ť. K nastavení šum ů pat ří i nastavení jejich intenzity. To lze provést pomocí posuvné lišty v dolní části nastavení. M ůžete si vybrat ze sedmi intenzit šum ů a ruch ů na pozadí. V kapitole FRÁZE je rozší řené nastavení p řehrávání, kde je možné zvolit zvolit rychlost promluv. Hodnoty jsou uvedeny v procentech, kde originálnímu záznamu odpovídá 100% a zpomaleným zvukovým záznam ům 90% a 80%. Tato nastavení lze libovoln ě m ěnit a kombinovat pro každé zvukové tla čítko. Vždy je t řeba nejprve provést zm ěnu nastavení a poté stisknout zvukové tla čítko, které chce uživatel p řehrát.

3.2. Testovací část Testovací část je rozd ělena do t řech částí – TEST1, TEST2 A TEST3. Slouží uživatel ům k otestování jejich poslechové zdatnosti. TEST1 je nejleh čí variantou testování. Princip spo čívá v tom, že pacient vyslechne zvukový záznam a poté vybere odpovídací tla čítko s odpov ědí – se správným obsahem zvukového záznamu. Pokud neodpoví správn ě, m ůže zkusit zvolit jinou odpov ěď – jiné odpovídací tla čítko či si zvukový záznam znovu p řehrát. Po čet p řehrání či po čet špatn ě zvolených odpov ědí není nijak omezen. Pokud pacient není schopen správn ě odpov ědět, m ůže pomocí tla čítka P ŘEHRAJ p řejít na další zvukový záznam. Vzhled aktivních snímk ů v části TEST1 je tém ěř shodný se snímky v části VÝUKA. V horní části je umíst ěn nadpis s nabídkovou lištou. V levé části se nachází tla čítko P ŘEHRAJ, které vždy p řehraje nový zvukový záznam. Pokud pacient nestihne post řehnout zvukový záznam či si není jist správnou odpov ědí, je možné zvukový záznam znovu p řehrát pomocí tla čítka PŘEHRAJ ZNOVU. To se objeví až poté, co je stisknuto tla čítko P ŘEHRAJ. Po čet opakování p řehrávání zvukového záznamu není omezen. Níže pod t ěmito tla čítky je uveden aktuální stav hodnocení – nebylo odpov ězeno, odpov ězeno špatn ě, nebo odpov ězeno správn ě. V aktivní oblasti se nyní nachází odpovídací tla čítka. Ta slouží ke zvolení správné odpov ědi – správnému výb ěru obsahu p řehraného zvukového záznamu. V levém dolním rohu je vid ět skóre pacienta – po čet správn ě zvolených odpov ědí, po čet špatn ě zvolených odpov ědí, po čet zvukových záznam ů, pro které pacient nevybral žádnou odpov ěď – nebyly odpov ězeny a celkový po čet p řehrávání zvukových záznam ů (sou čet stisk ů tla čítka P ŘEHRAJ a P ŘEHRAJ ZNOVU). Tyto údaje jsou pouze orienta ční a slouží pouze k informaci pro pacienta. Na každém snímku se po čítá skóre zvlášť a za číná vždy od 0.

Těžší variantou je TEST2. I zde jsou p řehrávány zvukové záznamy, které po vyslechnutí musí pacient ur čit. Vzhled snímk ů v této části je tém ěř totožný se vzhledem snímk ů z části TEST1. Rozdíl mezi testy TEST1 a TEST2 spo čívá v aktivní oblasti stránky. V části TEST1 byla do této oblasti umístn ěna odpovídací tla čítka. V části TEST2 je zde umíst ěno okénko pro vkládání odpov ědi, kam uživatel zapisuje správnou odpov ěď (obsah zvukového záznamu, který byl p řehrán) pomocí klávesnice. Zde je nutné odpovídat podle daných pravidel (rozlišovat velká a malá písmena, psát há čky a čárky, dodržovat interpunkci ve v ětě a na jejím konci). Po potvrzení správnosti zapsané odpov ědi je pacientova odpov ěď porovnávána s položkami v databázi odpov ědí. Všechna tato pravidla se nacházejí v externí nápov ědě, nebo pod tla čítky NÁPOV ĚDA v nabídkové lišt ě programu. V případ ě nedodržení t ěchto pravidel bude odpov ěď vyhodnocena jako špatná. V případ ě že pacient není schopen ur čit správnou odpov ěď , je v aktivní části stránky ješt ě umíst ěno tla čítko UKAŽ SPRÁVNOU ODPOV ĚĎ , Martina Nejepsova 67 po jehož stisku se zobrazí o čekávaná odpov ěď . V tomto p řípad ě však už nelze na otázku odpov ědět. Uživateli ale stále ješt ě z ůstává možnost vyslechnout si opakovan ě zvukový záznam, který neur čil správn ě či na n ěj neodpov ěděl.

TEST3 je nejt ěžší a zárove ň nejflexibiln ější varianta testu. Op ět musí pacient vyslechnout zvukový záznam a poté ur čit jeho obsah. Po spušt ění MS – TEST3 se uživateli zobrazí hlavní nabídka, kde se nachází pouze odkazové tla čítko NASTAVENÍ TESTU, jehož stisknutím p řejde pacient na první stranu nastavení testu – VÝB ĚR KAPITOL. Zde již záleží na uživateli, zda zvolí pouze jednu kapitolu či naopak všechny. Lze vytvo řit libovolné kombinace uvedených kapitol. Vždy však musí být zvolena minimáln ě jedna kapitola, aby mohl být test spušt ěn. V případ ě, že uživatel neozna čí žádnou z kapitol, nebude mu umožn ěno pokra čovat v dalších nastaveních a spušt ění testu. Uživatel bude vyzván k náprav ě chyby. K ozna čení a zrušení výb ěru kapitol slouží CheckBoxy - zatrhávací polí čka. Pro výb ěr či zrušení výb ěru všech kapitol v dané sekci (SLABIKY, SLOVA, FRÁZE) slouží tla čítka OZNA Č VŠE a ZRUŠ VŠE. Po výb ěru kapitol uživatel pokra čuje v dalším nastavení testu. Volí si mluv čího pro testové zvukové záznamy. Na výb ěr má 3 varianty – muž, žena, muž i žena. Dále pak má uživatel má možnost volby, zda si chce test ztížit a p řidat si na pozadí zvukových nahrávek šum či ruch. Výb ěr je op ět z 10ti možností – bez šumu, bílý šum, r ůžový šum, hn ědý šum, bable šum, industriální šum, tikot hodin, ruch ulice, hudba, déš ť. P řednastaveno je p řehrávání zvukových záznam ů BEZ ŠUMU. Poslední volba pacienta se týká délky testu. Zde je možné zvolit po čet zvukových záznam ů, které budou p ři testu použity – 10, 20 a 30 zvukových záznamů. Po tomto nastavení si uživatel spustí test dle jeho vlastního výb ěru.

Obr.2: Vzhled části TEST3

Vzhled testové stránky je na Obr.2. Oproti části TEST2 se v dolní části stránky nachází dv ě tabulky. Výše st ředu položená tabulka zobrazuje správné a uživatelem zadané odpov ědi. Vše se zobrazí až po potvrzení odpov ědi. Zde si uživatel m ůže zkontrolovat, zda odpov ěděl podle 68 Martina Nejepsova vzoru či p řípadn ě kde ud ělal chybu. Ve spodní tabulce se zobrazuje stav odpov ědí. K pozici ozna čující číslo p řehraného zvukového záznamu se p řiřadí zelený nápis OK v případ ě správné odpov ědi nebo červený X v případ ě odpov ědi špatné. V tomto testu neexistuje možnost pokra čovat na další zvukový záznam bez zvolení odpov ědi. Obtížnost tohoto testu spo čívá nejen v tom, jak si uživatel test nastaví. Hlavním rozdílem od předchozích test ů je pouze jedna možnost zapsání odpov ědi. V testu TEST2 m ěl uživatel možnost si zvukový záznam libovoln ě mnohokrát p řehrát a libovoln ě mnohokrát napsat a potvrdit odpov ěď . V testu TEST3 je možné zvukový záznam libovoln ě mnohokrát p řehrávat, ale pokud již uživatel potvrdí odpov ěď , provede se vyhodnocení a zobrazí se tla čítko PŘEHRAJ pro další zvukový záznam. Po skon čení testu se uživateli zobrazí VYHODNOCENÍ – souhrn informací o úsp ěšnosti absolvovaného testu. Krom ě po čtu správných a špatných odpov ědí, je zde vypo čtena úsp ěšnost odpov ědí v procentech, dále po čet p řehrání a opakování zvukových záznam ů a vypo čtený aritmetický pr ůměr po čtu poslech ů zvukového záznamu. V dolní části z ůstává tabulka se stavy odpov ědí na jednotlivé zvukové záznamy. Pro nové spušt ění testu si uživatel m ůže vybrat, zda provede nové nastavení testu, či spustí znovu test s totožným nastavením.

3.3. Nápov ěda Program MS obsahuje dva typy nápov ěd – nápov ědu umíst ěnou na každé stránce programu a externí nápov ědu, která je uložena spolu s programem na CD jako textový soubor Nápov ěda.pdf. Obsah obou typ ů nápov ěd je p řibližn ě shodný. Nápov ědy umíst ěné na každé stránce programu zobrazují pouze informace související s obsahem stránky. Externí nápov ěda shrnuje veškerou problematiku ovládání programu MS – výuky i testovacích částí.

4. Testování Pro ov ěř ení správné funkce programu a odstran ění p řípadných chyb bylo t řeba provést kontrolu programu a jeho testování. P ři kontrole byla zjiš ťována správná funk čnost všech tla čítek, p řiřazení zvukových záznam ů a jednotnost vzhledu uživatelského rozhraní. První testování (white-box test), vycházelo ze znalosti vnit řní logiky programu. Bylo zam ěř eno p ředevším na kontrolu správné funk čnosti rozhodovacích bod ů. Snahou bylo vybrat co nejvíce vstupních nastavení tak, aby bylo dosaženo všech výstupních stav ů, a to každý více než jednou u každého rozhodovacího bodu. Druhé testování (black-box test) bylo provád ěno osobou – fiktivním uživatelem, jenž nem ěl informaci o skriptu programu. Cílem testera bylo užívat b ěžn ě program tak, jak ho následn ě budou užívat pacienti. P ři nalezení nesrovnalosti oproti specifikaci použití dané autorem byla zapsána chyba.

5. Záv ěr Hlavním cílem bylo vytvo řit terapeutickou pom ůcku – programovou aplikaci s výukovou a testovací částí. Výsledná podoba aplikace byla ovlivn ěna požadavky odborník ů z foniatrické kliniky 1. LF UK a také komentá ři pacient ů k p ředchozí verzi programu. Z d ůvodu zp ětné vazby byl vytvo řen dotazník spokojenosti pacient ů s funkcí programu MS. Je rozd ělen na n ěkolik částí. První část se týká pacienta – v ěku, pohlaví a jeho znalosti s ovládáním PC a tím i možnost vzniku problém ů s instalací programu nebo jeho užívání. Další části se již týkají vzhledu programu, srozumitelnosti ovládání, kvality zvukových nahrávek a obtížnosti jednotlivých částí programu – výukové i testovací části. V poslední části pacient vyplní celkové hodnocení programu. Z doposud p říchozích dotazník ů byla zjišt ěna spokojenost pacient ů s programem MS a to nejen po vzhledové stránce, ale i po stránce obsahové. Za problematickou část byla Martina Nejepsova 69 ohodnocena sekce SLABIKY, nebo ť zvukové záznamy jsou krátké a pro pacienty t ěžko post řehnutelné a následn ě rozpoznatelné. Trend hodnocení obtížnosti testovacích částí programu odpovídá jejich po řadí v programu a tedy i p ředpoklad ům autora.

Pod ěkování Tento výzkum byl podporován z grantu GA ČR č. 102/08/H008 "Analýza a modelování biologických a řečových signál ů", z výzkumného zám ěru MŠMT MSM6840770012 "Transdisciplinární výzkum v oblasti biomedicínského inženýrství 2" a grantu GA ČR č. 102/08/0707 "Rozpoznávání mluvené řeči v reálných podmínkách",

Reference [1] Brožek, Stanislav: Diplomová práce - Multimediální slabiká ř ČVUT, Praha 2008 [2] Psutka, Josef; Müller, Lud ěk; Matoušek, Jind řich; Radová, Vlasta: Mluvíme s po číta čem česky, ACADEMIA Praha 2006 [3] Adobe Creative Team: Adobe Flash CS3 – oficiální výukový kurz, Computer Press a.s., Brno 2008 [4] Shupe, Rich; Rosser, Zevan: Learning Action Script 3.0 – A Beginner’s Guide, O’Reilly Media Inc., Sebastopol 2007 [5] Bureš, Zbyn ěk: Objektivní hodnocení kvality zvuku, ČVUT FEL, Praha, 2005 [6] Pollák, Petr: Metody odhadu odstupu signálu od šumu v řečovém signálu, Akustické listy č. 7, 2001 [7] Centrum kochleárních implantací u d ětí: http://www.ckid.cz, 15.5.2009 [8] Help programu PRAAT verze 4.5.18

70 Josef Rajnoha

Robustní rozpoznávání spojitých promluv kombinující metody potlačování šumu a průběžnou adaptaci akustických modelů na prostředí

Josef Rajnoha

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: Při použití rozpoznávačů řeči v reálném prostředí je potřeba za- jistit robustnost systému vůči šumovému pozadí, jehož přítomnost významně ovlivňuje úspěšnost rozpoznávání. Tento příspěvek prezentuje algoritmus pro zvýšení robustnosti rozpoznávače řeči založený na kombinaci modifikovaného spektrálního odčítání a adaptace modelů na provozní podmínky. Experimenty na signálech z automobilového prostředí ukazují významný přínos algoritmu pro snížení chybovosti rozpoznávače, ve velmi hlučných podmínkách je chyba snížena až o 87% na hodnotu 1,65%, což odpovídá hodnotám úspěšnosti stan- dardních rozpoznávačů v čistých podmínkách.

1. Úvod

Úloha automatického rozpoznávání řeči je vzhledem k roli, kterou řeč zaujímá v lidské ko- munikaci, významným oborem v oblasti zpracování signálů. Při použití rozpoznávače řeči v reálných podmínkách je ale signál ovlivněn rušením, což negativně působí na jeho vý- slednou přesnost. S ohledem na velkou proměnlivost, které je typická pro reálné prostředí, není možné získat dostatečně reprezentativní data, aby byl systém na takové podmínky předem natrénován. Je proto potřeba použít metody, které vliv těchto rušivých podmínek co nejlépe potlačují. Metody pro zvýšení robustnosti rozpoznávače řeči mohou být aplikovány v různých blo- cích systému. Při předzpracování signálu jsou používány metody potlačování šumu, zvý- razňování řeči a robustní parametrizace. V oblasti akustického modelování pak nalezneme metody robustního trénování akustických modelů, kombinace modelů řeči a šumu nebo adaptace akustických modelů na šumové prostředí. Vhodnou kombinací těchto algoritmů pak lze docílit vysoké úspěšnosti rozpoznávání řeči i v nepříznivých akustických podmín- kách. Článek shrnuje návrh robustního algoritmu rozpoznávání řeči pro reálné prostředí auto- mobilu. Systém využívá nástrojů HTK [6], které umožňují aplikovat algoritmy pro po- tlačování vlivu rušivých podmínek a realizovat úlohu rozpoznávání spojité řeči s velkým slovníkem (LVCSR). V této práci jsou provedeny experimenty se zaměřením na studium vlivu jednotlivých algoritmů pro zvýšení robustnosti rozpoznávače. Ty proto probíhají na jednodušších úlohách s ohledem na snadné pozdější rozšíření. Josef Rajnoha 71

2. Robustnost v akustickém modelování

Prezentovaný algoritmus pro zvýšení robustnosti rozpoznávače řeči kombinuje efektivní předzpracování řečového signálu pro použití v šumových podmínkách s adaptačními tech- nikami pro přizpůsobení akustických modelů konkrétním provozním podmínkám. 2.1. Parametrizační techniky Současné rozpoznávače řeči nejčastěji využívají pro reprezentaci řečového signálu stan- dardní parametrizace MFCC či PLP. Obě metody simulují zpracování signálu lidským uchem, ovšem v hlučném prostředí je tato reprezentace řečového signálu pro účely rozpo- znávání stále nedostačující. Standardní příznaky proto bývají doplněny algoritmy pro potlačování šumu ve frekvenční oblasti, jako je spektrální odečítání. Tyto algoritmy odhadují šumové pozadí v pauze řeči, nejčastěji s využitím detektorů řečové aktivity (VAD), jejichž úspěšnost ale obvykle s vyšší mírou zašumění signálu výrazně klesá. V této práci je využit algoritmus rozšířeného spektrálního odčítání [4], který pracuje bez využití VAD. Algoritmus využívá rozdílné rychlosti změn spektrálních charakteristik řeči a šumu a výše zmíněnou nevýhodu VAD obchází kombinací Wienerovy filtrace se spektrálním odečtem. 2.2. Přizpůsobení akustických modelů Častým postupem při tvorbě rozpoznávače řeči pracujícího v hlučném prostředí je při- způsobení akustických modelů čisté řeči provozním podmínkám. Toho lze dosáhnout pře- trénováním modelů na vybrané sadě dat, která reprezentuje konečné provozní podmínky. Obdobným procesem k přetrénování akustických modelů je adaptace, která na základě adaptačních dat hledá transformaci (nejčastěji lineární), vedoucí na modely lépe vystihu- jící předložená data. Přetrénování na šumových datech Je-li k dispozici sada dat, která reprezentují provozní prostředí rozpoznávače, lze provést standardní přetrénování (retraining) na bázi Baum-Welchova reestimačního algoritmu. Tento postup je shodný s běžným trénovacím procesem, proto je snadno realizovatelný. Nevýhodou ovšem je potřeba velkého počtu dat, aby snadno nedošlo k “nadtrénování” (overtraining) modelů a tím ztrátě schopnosti modelovat obecné podmínky na úkor mo- delování trénovacích dat. Navíc je pro kvalitní přetrénování všech modelů kladen důraz na použitá data, především dostatečná fonetická bohatost databáze. Proto je tento postup vhodný především v případě předem známého a víceméně neměnného prostředí, nebo pro případ přizpůsobení modelů základním parametrům systému – použitý mikrofon, typ prostředí. Přetrénování je vhodné provádět ve více cyklech. Adaptace modelů – MLLR Adaptační algoritmus MLLR [1] na základě předložených adaptačních dat transformuje původní akustické modely na nové tak, aby věrohodněji modelovaly data v adaptační sadě. S ohledem na možnost sdílení transformačních matic pro více modelů je typicky využíván v situaci, kdy je k dispozici méně dat pro adaptaci. To je i případ adaptace na průběžně se měnící prostředí v automobilu. Transformace mohou být sdíleny pro jednotlivé třídy modelů (regresní třídy), určené na základě analýzy adaptačních dat nebo podobnosti modelů. Toto seskupení modelů pak ovlivňuje i objem dat potřebný pro určení vhodné transformace, což je podstatné přede- vším v případě průběžné adaptace, kdy je k dispozici jen velmi omezené množství dat. 72 Josef Rajnoha

Vzhledem k uvedeným vlastnostem adaptačního algoritmu lze, na rozdíl od procesu pře- trénování, provádět přizpůsobení modelů průběžně během rozpoznávání a sledovat tak efektivně změny v pozadí signálu. 2.3. Kombinace metod potlačování šumu a adaptace akustických modelů Aplikací metod potlačování šumu v rámci parametrizace signálu dojde k potlačení šumo- vého pozadí, ovšem dochází také k ovlivnění řečového signálu. Kombinací těchto metod s adaptačními technikami lze dosáhnout potlačení vlivu nepříznivých změn v signálu nejen v důsledku použitých algoritmů, ale také změn způsobených dalšími jevy (Lombardův efekt apod.)

3. Experimenty

Obr. 1 zobrazuje blokové schema navrženého systému. Blok předzpracování signálu pro parametrizaci signálu s volbou algoritmu spektrálního odečtu je následován blokem při- způsobení modelů zobrazujícím adaptační schema. Ve schematu jsou dále zobrazeny sady dat, potřebné pro jednotlivé fáze přizpůsobování modelů.

vstupní signál adaptační sada trénovací sada

parametrizace přetrénování rozpoznání

ESS bloková inkrementální MLLR MLLR výsledek rozpoznávání

předzpracování přizpůsobení rozpoznávání signálu modelů

Obrázek 1: Blokové schema rozpoznávacího systému

3.1. Použitá databáze Pro experimenty s proměnným reálným prostředím byla použita databáze nahrávek z au- tomobilu. Ta obsahuje nahrávky od 700 mluvčích zachycené ve dvou kanálech. V experi- mentech je použit kanál ze vzdáleného mikrofonu (far-talk - 700 mluvčích) a z blízkého mikrofonu (close-talk - 329 mluvčích). Nahrávky byly rozděleny na tři sady – trénovací (500 resp. 242 mluvčích), adaptační (100/42) a testovací (100/42), které určují, v jaké fázi přípravy modelů byly využity. Navíc byl každý mluvčí nahráván v rozdílných podmínkách, které jsou označeny podle stavu motoru automobilu jako “OFF” pro stojící automobil s vypnutým motorem, “ON” pro stojící automobil se zapnutým motorem a “DRV” pro jedoucí automobil. Tyto jednotlivé podskupiny byly poté využity pro popis podmínek, na něž byly modely přizpůsobeny. Josef Rajnoha 73

3.2. Přetrénování modelů Schema na obr. 2 zobrazuje proces přizpůsobení modelů na jednotlivé šumové podmínky. Jako výchozí jsou použity modely řeči nahrávané v čistém prostředí kanceláře (OFFICE). Ty jsou následně přetrénovány na čistých datech z automobilu (OFF – fáze I), aby se přizpůsobily zvolenému mikrofonu a prostředí automobilu. Z hlediska provozu rozpozná- vače řeči v reálných podmínkách to odpovídá stavu, kdy existují modely řeči z jiného prostředí a je známo, jakým mikrofonem a v jakém obecném prostředí bude rozpoznávač provozován (např. prostředí automobilu, bez bližší specifikace typu vozu). Přetrénování je provedeno ve třech cyklech. V návaznosti na [3], kde je podrobněji rozebrán vliv trénování modelů v obecných šumo- vých podmínkách na rychlost a úspěšnost adaptace modelů na konkrétní šumové pod- mínky, byl také proveden experiment s natrénováním výchozích modelů na smíšené tréno- vací množině obsahující všechny tři podskupiny “OFF”,“ON” a “DRV” (fáze II). V dů- sledku toho obsahují takto přetrénované modely počáteční informaci o hluku v automo- bilu, což přispívá ke zvýšení efektivity následné adaptace. 3.3. Bloková adaptace Přizpůsobené modely jsou v dalším kroku (fáze III resp. IV) adaptovány na konkrétní podmínky v jednotlivých podskupinách “OFF”,“ON” a “DRV”. Tak je zjištěn vliv adap- tace při různých stupních zašumění. Transformační matice, generovaná v průběhu adap- tace, je v uvedených experimentech vytvořena pro dvě základní třídy modelů – modely řeči a modely pauzy. S ohledem na předchozí experimenty je v popsaných experimentech transformován pouze parametr střední hodnoty.

OFFICE 3-pass I OFF OFF+ON+DRV=MC II

MLLR III OFF ON DRV OFF ON DRV IV

zpětná MLLR OFF

Obrázek 2: Postup přizpůsobení akustických modelů

Po adaptaci na hlučné podmínky v sadě “DRV” ve fázi III byla také provedena adaptace zpět na tiché prostředí automobilu “OFF”. Cílem této zpětné adaptace je zjistit míru ovlivnění modelů adaptačním procesem, kdy je systém střídavě adaptován na výrazně odlišné podmínky. 3.4. Průběžná adaptace Pro experimenty s průběžnou adaptací na prostředí byly použity modely z fáze I. Na- hrávky z adaptační sady, obsahující sled číslovek, byly rozpoznávány a na základě výsledků docházelo k průběžné adaptaci modelů, viz obr. 1 – inkrementální adaptace. Nahrávky byly předkládány systému postupně tak, aby byla simulována situace, kdy se rozpoznává delší promluva, během níž se mění šumové pozadí. 74 Josef Rajnoha

3.5. Testovací prostředí Pro testování vlivu blokové adaptace byla zvolena úloha rozpoznávání českých číslovek s použitím unigramového jazykového modelu. Tuto úlohu lze v další práci rozšířit i na úlohu rozpoznávání řeči s velkým slovníkem. Vzhledem k blokovému zpracování, kdy do- chází k adaptaci modelů na datech od více mluvčích, realizuje experiment rozpoznávání nezávislého na mluvčím. Vliv průběžné adaptace je opět testován na úloze rozpoznávání číslovek, s ohledem na použití dekodéru podporujícího inkrementální adaptaci ale není použit unigramový model, ale gramatika se smyčkou stejně pravděpodobných slov. Výsledky jsou shrnuty ve formě chyby na úrovni slov WER = 100 (D+S +I)/N [%], která shrnuje počet smazaných (D), zaměněných (S) či chybně vložených· (I) slov na celkový počet slov (N) v testovací promluvě.

4. Výsledky

Tabulka 1 shrnuje výsledky rozpoznávače po blokové adaptaci na prostředí podle míry zašumění signálu a pro různá nastavení systému. Po přetrénování modelů na čisté tréno- vací databázi “OFF” (fáze I) dosahuje rozpoznávač chyby okolo 2% v prostředí stojícího automobilu i v případě zapnutého motoru (relativně stacionární šum). V prostředí jedou- cího automobilu je ovšem chyba stále vysoká. Použití algoritmu potlačování šumu (ESS) tuto chybu významně snižuje, především v případě close-talk kanálu, kde je míra hluku nižší a to až o 61% pro parametrizaci PLP. Přetrénováním modelů na smíšené trénovací sadě (fáze II), která obsahuje i zašuměné položky, je dosaženo výrazně vyšších rozpoznávacích skóre, opět lépe patrných především ve velmi hlučném prostředí “DRV”. Tabulka také ukazuje, že i přes méně kvalitní data v této sadě nedochází k významnému snížení chyby rozpoznávání v čistém prostředí. Následná adaptace modelů na provozní podmínky přinesla další zlepšení, především v hluč- ném prostředí jedoucího automobilu. Dosažené výsledky přesahují i hodnoty získané po přetrénování základních modelů na smíšené trénovací sadě. V kanálu s větší mírou za- šumění (far-talk) ale bylo dosaženo vlivem méně kvalitních modelů ve fázi IV vyšší chy- bovosti, než ve fázi III. Pozitivní vliv trénování na smíšené sadě na proces adaptace se tak ukazuje především pro close-talk mikrofon, kde rozpoznávač dosáhl chyby 1,65%.

OFF ON DRV MFCC PLP MFCC PLP MFCC PLP MFCC PLP MFCC PLP MFCC PLP +ESS +ESS +ESS +ESS +ESS +ESS Far-talk I 2,56 2,3 2,14 2,24 2,28 2,15 2,68 1,9 16,9 17,08 14,58 15,39 II 2,69 2,14 2,24 2,59 2,9 3,24 1,71 2,34 12,46 8,91 9,96 7,73 III 3,17 4,03 2,3 2,34 1,75 1,56 2,34 2,06 7,36 6,25 6,48 6,82 IV 2,72 2,05 2,05 2,46 2,68 3,21 1,93 2,46 10,43 7,42 8,17 6,7 Close-talk I 2,09 1,3 1,39 0,96 1,43 2,04 0,95 1,09 27,57 12,6 11,65 4,91 II 1,57 1,3 1,22 0,96 1,15 3,67 1,02 0,68 4,75 2,8 5,62 2,45 III 2,09 1,57 1,39 0,87 1,29 1,97 0,95 0,88 2,77 6,22 2,14 2,26 IV 1,57 1,22 1,31 0,96 1,09 3,26 0,95 0,61 2,92 1,87 1,93 1,65

Tabulka 1: WER pro blokovou adaptaci Josef Rajnoha 75

Experiment se zpětnou adaptací (obr. 3) ukazuje, že po adaptaci modelů, přizpůsobených tichému prostředí automobilu, na hlučné prostředí a zpět na tiché prostředí je dosaženo srovnatelných úspěšností před a po adaptaci a tím schopnost efektivního přizpůsobení proměnným podmínkám. Jen v případě parametrizace PLP, citlivější na přítomný šum, dochází k výraznému zhoršení, které je ovšem eliminováno použitím algoritmu potlačení šumu. MFCC PLP MFCC+ESS PLP+ESS Far-talk Close-talk 8 8 7 7 6 6 5 5 4 4 3 3 WER [%] 2 WER [%] 2 1 1 0 0 OFF DRV OFF OFF DRV OFF Obrázek 3: WER pro zpětnou adaptaci

Grafy na obr. 4 zobrazují průměrnou chybu dosaženou při inkrementální adaptaci, kdy není předem znám obsah promluvy a k adaptaci dochází na základě rozpoznaných vý- sledků. Výsledky pro far-talk mikrofon, zachycující více šumového pozadí, se příliš neliší od výsledků bez adaptace. To je způsobeno nižší úspěšností rozpoznání položek a tedy nižší přesností adaptace na tyto položky. Při použití close-talk mikrofonu je přínos adap- tace již výrazný.

MFCC PLP MFCC+ESS PLP+ESS Far-talk Close-talk 25 25 20 20 15 15 10 10 WER [%] WER [%] 5 5 0 0 3-pass MLLR 3-pass MLLR Obrázek 4: WER pro inkrementální adaptaci

Použití spektrálního odečtu ovšem nepřispělo k zlepšení výsledků. Aplikací spektrálního odečtu dochází ke snížení šumového pozadí. Při adaptaci na těchto datech může proto docházet k chybnému rozpoznání nestacionárních ruchů, které algoritmus spektrálního odečítání neodstraní a tím k předložení chybných vstupů pro následnou adaptaci. Zvýšení chyby ovšem není výrazné a celý proces adaptace dává prostor pro nastavení systému, aby byl tento typ chyby potlačen.

5. Závěr

Článek shrnuje výsledky rozpoznávání řeči v reálných podmínkách s vysokou mírou hluko- vého pozadí s použitím kombinace robustního předzpracování řeči a adaptace akustických modelů. Navrženým postupem bylo dosaženo výrazného snížení chybovosti rozpoznávače řeči v reálném prostředí automobilu. Závěry lze shrnout v následujících bodech: – Uvedený postup zpracování signálu využívá v rámci výpočtu parametrizace modifiko- vaný algoritmus spektrálního odčítání. V porovnání s čistou parametrizací MFCC či PLP 76 Josef Rajnoha bylo dosaženo výrazných zlepšení (až o 81% pro PLP). Výsledky srovnatelné se systémy používajícími VAD (např. [2]) ukazují jeho možné efektivní využití bez nutnosti detekce řečové aktivity. – I přes jednoduchou implementaci procesu adaptace na prostředí s dělením na dvě třídy modelů bylo dosaženo významných zlepšení. Výsledná chybovost 2,14% na nahrávkách pořízených v jedoucím automobilu ukazuje na vhodné vlastnosti algoritmu pro automo- bilové prostředí. Dalšího zlepšení výsledků lze dosáhnout inicializací modelů na datech z databáze obsahující i zašuměné signály (až 1,65% WER). – Experiment se zpětnou adaptací ukázal, že systém je možné přetrénovat na velmi roz- dílné podmínky bez významné ztráty přesnosti. To ukazuje na vhodnost použití algoritmu pro úlohu průběžné adaptace na proměnné prostředí. – Při inkrementální adaptaci se projevila vyšší citlivost PLP parametrizace na přítomný šum oproti MFCC a náchylnost systému na chybovost rozpoznávače při adaptaci na ne- známých promluvách. Vzhledem k počátečnímu jednoduššímu nastavení některých parametrů systému bude v další práci možné systém rozšířit pro zvýšení robustnosti systému. Především je možné zvýšit počet regresních tříd pro algoritmus MLLR, využít komplexnější jazykový model a výběrový algoritmus pro rozhodování o míře věrohodnosti rozpoznaných výsledků pro průběžnou adaptaci.

Poděkování

Tento výzkum byl podporován granty GAČR 102/08/0707 “Rozpoznávání mluvené řeči v reálných podmínkách”, GAČR 102/08/H008 “Analýza a modelování biologických a ře- čových signálů”, výzkumným záměrem MSM 6840770014 “Výzkum perspektivních infor- mačních a komunikačních technologií”.

Reference

[1] Leggetter, C. J.; Woodland, P. C. Maximum likelihood linear regression for speaker adaptation of continuous density hidden markov models. Computer Speech & Language 9, 2 (April 1995), 171–185. [2] Matassoni, M.; Omologo, M.; Santarelli, A.; Svaizer, P. On the joint use of noise reduction and mllr adaptation for in-car hands-free speech recognition. In Proceedings of IEEE International Conference on Acoustics, Speech, and Signal Processing, 2002. (ICASSP ’02). 2002, vol. 1, pp. 289–292. [3] Rajnoha, J. Multi-condition training for unknown environment adaptation in robust asr under real conditions. Acta Polytechnica 49, 2-3/2009 (2009), 3–7. [4] Sovka, P.; Pollak, P.; Kybic, J. Extended spectral subtraction. In Proceedings of the 5th European Conference on Speech Communication and Technology Trieste, Italy, September 1995, pp. 963–966. [5] SPEECON project webpage. http://www.speechdat.org/speecon. [6] Young, S.; et al. The HTK Book (for HTK Version 3.2.1). Cambridge University Engineering Department, 2002. Jan Rusz 77

Rhythm evaluation in early untreated Parkinson’s disease Jan Rusz, and Roman Čmejla Czech Technical University, Faculty of Electrical Engineering [rusz;cmejla]@fel.cvut.cz

Abstract: Parkinson’s disease (PD) is a neurological illness which impairs motor skills, speech, and other functions such as mood, behavior, thinking, and sensation. It causes vocal impairment for approximately 70-90% of the patients. The lower ability of rhythm perception may be one of the deficits in PD speech. Thus, we performed the vocal task of one rhythmically read text according performance of examinator for measuring of the ability to maintain appropriate rhythm. It is based on the modification of the dynamic time warping algorithm called derivative dynamic time warping. The automatical scripts for this measure were performed using Matlab environment. We collected speech data from 46 Czech native speakers, 23 with Parkinson’s disease. As an algorithm validation, speech performance of the each participant was evaluated by speech therapist. The voice of PD group demonstrated significant differences in maintaining the appropriate rhythm.

1. Introduction

The term hypokinetic dysarthria (HD) is in use to describe characteristic disorder of speech corresponding to cardinal motor symptoms of Parkinson’s disease (PD) [1,2]. HD relates to restriction in range, speed and regularity of orofacial movements, and to deficits in respiration, phonation and phonetics. Speech can be defined as the ability to form reproducible sounds with certain semantic meanings. From a more operationalized point of view, the ability to speak can be subdivided into several dimensions, as speech respiration, phonation, articulation, and prosody [3]. Prosody again consists of distinct subdimensions, namely speech rhythm and velocity, articulation rate and speech pause ratio, speech intensity and pitch variation [3]. According to clinical experience, PD patients can show abnormalities related to all these speech dimensions, including monopitch, monoloudness, hypokinetic articulation,voice quality deficits, and a variable speech [3]. In this study, we focus on speech rhythm evaluation.

2. Methods

2.1. Subjects

A grand total of 46 Czech native speakers were studied. Twenty-three individuals (19 men and 4 women) were diagnosed with an early stage of idiopathic PD ([mean age 61.74 (±SD 12.60), Hoehn and Yahr stage 1-2]). None of these PD subjects were not treated with symptomatic pharmacotherapy and did receive speech treatment. In addition, twenty-three neurologically healthy control (HC) speakers, including 16 men and 7 women ([mean age 58.08 (±SD 12.91)]).

78 Jan Rusz

2.2. Data

The speech data was recorded in a sound-treated booth using an external microphone coupled to a Panasonic NV-GS 180 video camera. The voice signals were recorded directly to computer, sampled at 48 kHz, with 16-bit resolution. The vocal task consists of rhythmically read text of 8 rhymes following the example set by examinator.

2.3. Rhythm

The purpose of the measure is to efficiently compare a similarity of the subject and reference speech records. However, one of the difficulties in speech recognition is that the precise timing and the duration of each subword within the word will not match. As a result, efforts to recognize words by matching them to templates will give inaccurate result if there is no temporal alignment. Solution suitable for use may be a dynamic programming technique called Dynamic Time Warping (DTW) [4]. It is used to accommodate differences in timing between sample words and templates. The basic principle is to allow a range of time frames in the space and to find the patch through that space that maximizes the local match between the aligned time frames. The total similarity cost found by this algorithm is a good candidate of how well the sample and template match. The patch which minimizes the warping cost is usually based on dynamic programming. To align two sequences algorithm construct matrix where the element of the matrix contains typically the Euclidean distance between two points: d = (x – y)2 . Although DTW has been successfully used in many domains, it can produce pathological results. The algorithm may try to explain variability in y-axis by warping the x-axis, and this can lead to unintuitive alignments where a simple point on one time series maps onto a large subsection of another time series. Another problem with DTW is that the algorithm may fail into find obvious, natural alignments in two sequences simply because a feature in one sequence is slightly higher or lower than its corresponding feature in the other sequence. See figure 1 for example performed on two synthetic signals. Both problems can be solved by introducing a modification of DTW called Derivative Dynamic Time Warping (DDTW) [5]. In the DDTW algorithms we calculate Euclidean distance as well, but from the derivations in the y-point, instead of the points themselves. This way we eliminate the issue with y-value differences, since we work directly with the waveform which is what really interests us.

Figure 1: A) Two synthetic signals (with the same mean and variance). B) The natural “feature to feature” alignment. C) The alignment produced by dynamic time warping. Figure is obtained from [5].

This measure is computed using the following algorithm: a) Simply estimate derivative of xi Jan Rusz 79

(x  x )  ((x  x ) / 2) D[x ]  i i1 i1 i1 . (1) i 2 b) Calculate Short-Time Fourier Transform (STFT) for derivative sequence D for both records using 25% window overlap c) Construct the local match scores matrix as the Euclidian distance between the STFT magnitudes d) Use dynamic programming to find the lowest-cost path distance [x, y] between opposite corners of the matrix d([x 1][y 1])   [x, y]  d(x, y)  mind([x 1][y]) . (2)   d([x],[y 1])  e) Use the general cost of path distance as a classifier

We measure rhythm similarity as lowest-cost path distance between opposite corners of the matrix.

2.4. Speech therapist validation

In order to validate the algorithm results with speech therapist evaluation, all participants were examined with the 5 points rating scale. The rating scale values represent the speech performance of each subject. The value equal to 1 point signifies the progressing vocal impairment. The value equal to 5 represents the intact speech performance.

2.5. Statistics

For obtaining statistically significant differences between the groups, we compare the measure of rhythm by using the non-parametric two-sided Wilcoxon rank sum test against the null hypothesis of equal medians, at a significance probability of 0.05. The Pearson product-moment correlation coefficient was done to ascertain the relationships between the score obtained from the speech therapist and the acoustic measure of rhythm.

3. Results

Figure 2 shows an example of the optimal frame match path between the speech therapist sample and participant speech sample. There was significant differences between PD and HC groups (p = 0.069). The correlation between the speech therapist and the algorithm result was 56.05 % (r = 0.5605, p = 0.001) and thus complemented the correctness and validated algorithm performance. See table 1 and figure 3 for result details.

80 Jan Rusz

PD subject HC subject

200 200

400 400

600 600

800 800

1000 1000

1200 1200 (N. of frames) (N. of frames) 1400 1400

Therapist speech sample 1600 Therapist speech sample 1600

20040060080010001200 500 100015002000 Speech sample Speech sample (N. of frames) (N. of frames)

Figure 2: Details of measure used in testing of ability to maintain the appropriate rhythm. The figures represent the local match scores matrix as the Euclidean distance between the STFT magnitudes. The white lines show the lowest-cost path distance between opposite corners of the matrix obtained using the DDTW algorithm. The more linear line represents the greater regularity in maintaining the appropriate rhythm. Vertical axes represent the recording of the speech therapist; horizontal axes represent the testing subject.

Parkinson's disease patients Healthy control subjects

Subject code Algorithm result Speech therapist evaluation Subject code Algorithm result Speech therapist evaluation PD01 3.8494 3 HC01 2.1203 5 PD02 2.5025 4 HC02 2.1835 5 PD03 2.6646 4 HC03 2.1301 5 PD04 2.9067 5 HC04 2.3286 5 PD05 2.4391 4 HC05 2.0649 5 PD06 3.2977 2 HC06 2.3599 4 PD07 2.0246 5 HC07 2.3501 5 PD08 2.9789 3 HC08 2.0511 5 PD09 2.3886 4 HC09 2.3322 4 PD10 2.7233 3 HC10 2.5152 5 PD11 2.0640 5 HC11 2.8002 3 PD12 3.3589 4 HC12 2.3855 4 PD13 3.2443 4 HC13 2.8190 5 PD14 2.4221 5 HC14 2.3859 4 PD15 3.5301 2 HC15 2.1025 4 PD16 2.9036 3 HC16 2.0714 5 PD17 2.4868 3 HC17 2.2812 5 PD18 2.0101 2 HC18 1.8937 5 PD19 2.5075 3 HC19 2.8238 3 PD20 2.1102 4 HC20 2.0625 5 PD21 1.6337 4 HC21 1.9542 5 PD22 2.5960 3 HC22 2.3458 4 PD23 2.2658 4 HC23 1.7596 5

Table 1. Detailed results of rhythm and speech therapist evaluation. The lower algorithm value represents more rhythm accuracy. The speech therapist evaluation represent rating scores: 1 point=progressed speech impairment, 5 points=intact speech performance.

Jan Rusz 81

3.5

3

2.5 Rhythm [−]

2

PD HC

Figure 3: Differences between PD and HC groups in rhythm evaluation illustrated as the box plot.

4. Conclusions The significant differences in maintaining the appropriate rhythm was found in PD group. We believe the automatical measurement of rhythm will be useful in assessment of vocal impairment and will have a potential for positive feedback in speech treatment.

Acknowledgement

This study is supported by MSM6840770012 and GACR102/08/H008. We are obliged to doctors Hana Ruzickova, Evzen Ruzicka, Jan Roth, Jiri Klempir, Veronika Majerova, and Jana Picmausova for provision of clinical data.

References

[1] G. J. Canter, “Speech characteristic of patients with Parkinson’s disease. I. Intensity, pitch, and duration,” J. Speech Hear. Disord., 28, 221-229, (1963).

[2] F. L. Darley, A. E. Aronson and J. R. Brown, “Differential diagnostic patterns of dysarthria,” J. Speech. Hear. Res., 12, 426-496, (1969).

[3] F. L. Darley, A.E. Aronson, J. R. Brown, “Motor speech disorders,” Philadelphia: Saunders, (1975).

[4] R. Turetsky, and D. Ellis, “Ground-Truth Transcriptions of Real Music from Force- Aligned MIDI Syntheses,” In 4th International Symposium on Music Information Retrieval ISMIR-03, Baltimore, 135-141, (2003).

[5] E. J. Keogh, and M. J. Pazzani, “Derivative Dynamic Time Warping,” In First SIAM International Conference on Data Mining, Chivaho, IL, (2001). 82 Adam Stráník

Návrh frameworku pro zpracování signálů v reálném čase v prostředí .NET

Adam Stráník

České vysoké učení technické v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: V článku je popsána základní struktura frameworku pro zpracování dat z mikrofonního vstupu v reálném čase vyvíjeného v prostředí .NET, kde pro vstup je použitManaged DirectX. Jsou zde v krátkosti nastíněny možnosti zachytávání těchto dat a jejich zpra- cování. Aplikace realizovaná na základě postupů uvedených v tomto článku je schopna bez problémů zpracovávat a vykreslovat data získaná s vzorkovací frekvencí 44,1 kHz, 16 bity na vzorek.

1. Úvod

Možnost záznamu a vizaulizace dějů v reálném čase má velmi praktické využití. Lze například snáze zkoumat a hodnotit různé děje, které jsou při offline analýze skryty, případně je obtížnější je přiřadit ke konkrétní příčině. Z tohoto důvodu začal vznikat framework, který je schopný v prostředí .NET načítat data ze zvukové karty a v reálném čase je parametrizovat a tyto parametry zobrazovat. V článku je nejprve proveden rozbor vybraných nástrojů, které lze použít pro zachytávání dat z mikrofonního vstupu, jsou představeny jejich možnosti, výhody a nevýhody. Dále bude popsána struktura dll knihovny, která samotné nahrávání obstarává a posílá data k dalšímu zpracování a nakonec budou vyjmenovány jednotlivé parametry, které lze pomocí vzniknuvšího frameworku v současné době počítat a zobrazovat.

2. Zachytávání zvuku

Zachytávání signálu z mikrofonu je, s trochou nadsázky, nejobtížnější část celého procesu. Na první pohled se to nemusí zdát tak obtížné, ale v prostředí .NET neexistují knihovny, které by uměly přímo získávat data ze zvukové karty. Od verze .NET 2.0 existuje kni- hovna, která umí přehrávat wav soubory a systémové zvuky, nicméně programátor je od vlastního zařízení náležitě izolován - což je jeden z požadavků u interpretovaných jazyků. Programátor totiž nikdy neví, na jakém systému bude pracovat, proto jsou k dispozici pouze ty nástroje, které jsou dostatečně nezávislé na systému. K tomu bohužel přístup k hardware, jakým je zvuková karta, nepatří. Adam Stráník 83

2.1. Přístup ke zvukové kartě V zásadě se nabízí několik možností, jak je možné se k datům ze zvukové karty dostat:

winAPI - knihovna winmm.lib, • DirectX, • OpenAL, • neoficiální nástroje • Bohužel ne všechny výše zmíněné možnosti jsou plně funkční, jak bude popsáno na násle- dujících stránkách. Jako nejpoužitelnější se prozatím ukázalo řešení pomocí DirectX, konkrétně s API1 DirectSound. Konkrétní řešení bude popsáno v části 2.2.. 2.1.1. Winmm.lib Jedná se o knihovnu, která je součástí Windows API. Tento fakt může být překážkou pro programátory, kteří nejsou sběhlí v programování ve winAPI. Jedná se o tzv. low-level přístup, to znamená o přístup k zařízení v té nejnižší pro- gramátorské vrstvě. Tento fakt zhruba říká, že knihovna obsahuje pouze nejzákladnější funkčnost, kterou je pro vážnější použití nutné obalit patřičnými obslužnými rutinami. Jedná se tedy o poměrně mocný nástroj, který ovšem není zcela snadné používat. Napsat efektivní aplikaci s tímto nástrojem vyžaduje mnoho zkušeností, což byl jeden z důvodů pro jeho zavrhnutí. Jako další důvod je ten, že aplikace je vyvíjena v prostřední .NET, které pracuje na vyšší vrstvě. Nebylo by tedy příliš elegantní snažit se programovat přes tuto vrstvu. 2.1.2. DirectX DirextX je dlouho a velmi dobře známou sadou API, kterou vyvíjí společnost Microsoft. Jedná se o sadu knihoven, které umožňují pracovat s periferiemi v systému Windows, ať už se jedná o grafiku, zvuk či vstup z klávesnice, myši či herní konzole. Současná verze, DirectX 10, která má podporu pouze na operačních systémech Windows Vista a novějších, například neobsahuje DirectSound a to z toho důvodu, že od této verze Windows je kompletně přepracován koncept zpracování zvuku. Při použití funkcí z Di- rectSound však dojde k emulaci, takže většina starších aplikací funguje. Nemají ovšem hardware akceleraci daného zařízení, protože k emulaci dochází pouze na úrovni oper- ačního systému2 . K použití DirectX v .NET Framework je zapotřebí tzv. Managed DirectX (dále jen MDX). Jedná se o nadstavbu nad DirectX, která obsahuje zabalení většiny funkcí do takové podoby, aby vyhovovala filozofii tříd a jejich použití zavedené v .NET Framework. Byla vydána jediná oficiální verze, MDX 1.1, která dosahuje stejné funkčnosti jako Di- rectX 9. Další vývoj byl vzhledem k vydání Windows Vista zastaven. Verze MDX 2.0 je k dispozici pouze v beta verzi. K MDX bohužel neexistuje ucelená dokumentace, je proto nutné vycházet z dokumentace pro standardní DirectX, která je napsána v jazyce C++. API DirectSound naštěstí není natolik komplikované, proto není obtížné se zorientovat. MDX není standardní součástí DirectX, která je instalována v OS Windows automaticky a je nutné ji doinstalovat dodatečně. Ze strany Microsoftu není popsán jednotný postup,

1Z anglického Application Programming Interface 2Akcelerací je zde myšleno například potlačení akustického echa, šumu pozadí apod., které v současné době zajišťují už DSP obvody na zvukových kartách. Nicméně tyto efekty jsou pro účely vlastního zpra- cování signálů nežádoucí. 84 Adam Stráník jak MDX doinstalovat, proto je toto téma poměrně často více či méně úspěšně řešeno na internetových fórech, např. [1] nebo [2]. Pro tuto aplikaci je zvolen postup, který kontroluje registry systému Windows a hledá, jestli je v nich obsažen určitý specifický klíč. Tento postup je zcela vyhovující. 2.1.3. OpenAL OpenAL, kde AL znamená Audio Library, je multiplatformní API, které zajišťuje přístup ke zvukové kartě. Původně byl tento nástroj vyvíjen jako prostředek pro převod her fungujících na systému Windows na Unixové systémy. Jedná se o velmi robustní API, které je zcela nezávislé na operačním systému a na plat- formě, na které funguje. Při jeho vývoji je dbáno na to, aby byl zcela zpětně kompatibilní a aby programátor, který ho používá, byl odstíněn od té nejnižší vrstvy. Syntaxe je pro programátora stejná na všech platformách, pouze se mění vlastní low-level rozhraní, čili ovladače zvukové karty. OpenAL tedy není možné provozovat na všech strojích ale pouze na strojích, které mají zvukovou kartu, pro kterou existují speciální ovladače. V současné době naštěstí existuje jen velmi málo výrobců zvukových karet, kteří by takové ovladače neposkytovali. Hlavní důvod, proč nebyl OpenAL vybrán je ten, že zatím neexistuje stabilní wrapper, který by zaobaloval vlastní API pro použití v .NET. Existuje však několik projektů, které se danou problematikou zabývají, např. [3] nebo [4]. Jedná se však o malé projekty, jejichž budoucnost je značně nejistá. Pokud by se však nějaký wrapper3 objevil, bylo by použití OpenAL velmi perspektivní. 2.1.4. Neoficiální nástroje Vzhledem k absenci nativních knihoven v .NET Framework, které by přímo přistupo- valy ke zvukové kartě, se na internetu objevují více či méně úspěšné pokusy o vytvoření podobné knihovny. Většinou jsou však tyto projekty tvořeny jednotlivci nebo malými týmy. Jako méně úspěšný projekt bych uvedl projekt PortAudioSharp [5], který se snaží vytvořit obalovou vrstvu pro API PortAudio [6]. Je vyvíjen v operačním systému Linux, na plat- formě Mono. Poslední verze byla vydána v roce 2006 a sám autor píše, že se jedná o nestabilní a pomalý produkt. Navíc se nezdá, že by v jeho vývoji pokračoval. Jako poměrně ambiciózní se jeví projekt SlimDX [7]. Jeho vývojový tým si dává za cíl vytvoření podobného projektu jako byl MDX (viz část 2.1.2.). Z ohlasů v jejich diskuzních fórech lze usuzovat, že je jejich snaha úspěšná. Také lze jako pozitivní fakt brát, že tým vývojářů je poměrně široký a projekt tedy patrně neskončí při odstoupení některého z členů. 2.2. Implementace Při návrhu této části projektu byl kladen zvláštní důraz na to, aby bylo možné “kdyko- liv” vyměnit nejspodnější vrstvu, to znamená samotný mechanismus nahrávání zvuku. Současné rozdělení objektů v projektu Recorder je znázorněno na obr. 1. Z návrhu by mělo být vidět, že byla vyvíjena snaha, aby programátor nepřistupoval přímo k třídě, která obstarává zachytávání zvuku, ale aby komunikoval, tzn. spouštěl a zastavoval nahrávání, přes připravený interface. K nastavování vlastností nahrávaného zvuku slouží statická třída Statics, která také obsahuje “instance” delegátů reprezentujících metody, jež mají být spouštěny před, během a po nahrávání. Rozdělení vrstev je na obr. 2.

3Wrapper je jakýsi logický obal, typicky se používá v případě, kdy je volaný kód napsaný v jiném programovacím jazyce. Takový obal potom například zajišťuje jednotnou interpretaci volaného kódu. Adam Stráník 85

Obrázek 1: Rozvržení objektů v projektu Recorder

1. vrstva 2. vrstva

3. vrstva

Obrázek 2: Znázornění vrstev v projektu Recorder

2.2.1. Třída Statics Třída, která zvuk zachytává, si z informací ve Statics vybere ty potřebné a zpracuje je podle vlastních potřeb. 2.2.2. Třída DirectRecorder Třída DirectRecorder představuje vlastní nahrávací objekt. V něm se plní buffer, jehož data jsou následně pomocí delegátů předávána metodě, která provádí další zpracování zvukových dat. Metoda plnění bufferu je důležitou částí kódu, protože jakmile bude tato rutina pomalá čí špatně implementovaná, nebude možné ji v dalších částech procesu zpracování dat jakýmkoliv způsobem vylepšit. V MDX je možné k datům v bufferu přistupovat, i když je buffer neustále plněn novými daty, protože v něm existuje tzv. write cursor, který ukazuje na pozici, kam je právě zapsán 86 Adam Stráník nový vzorek ze zvukové karty. Dále lze do tohoto bufferu umístit značky (zarážky), které vyvolají událost, jakmile se na jejich pozici ocitne zapisovací kurzor. Tento mechanizmus lze vhodně využít v případě, kdy je pro nahrávání použito vlákno, které se uspí a je probuzeno pouze v okamžiku zápisu na pozici označenou výše zmíněnou zarážkou. Potom se z bufferu přečte určitý úsek dat, který je možné dále zpracovávat - k tomu slouží delegáty SoundProcessOperations 8bits, případně SoundProcessOperations 16bits. Tento děj ilustruje obr. 3.

Obrázek 3: Rozdělení bufferu v DirectSound

Pokud je délka bufferu dostatečná, alespoň 2 bloky, lépe však více, lze buffer plnit cyk- licky. Je empiricky otestováno, že při daném způsobu implementace je vhodná délka bloku alespoň 64 ms. Kratší délka je možná, ovšem na pomalejších strojích může nastat situace, kdy se nějaký blok nezpracuje včas a následující blok bude přeskočen a tím pádem nezpra- cován. Je to způsobeno především tím, že pomalejší procesor nepřidělí procesu nahrávání dostatečnou prioritu.

3. Implementované metody DSP

V současné době jsou implementovány následující DSP algoritmy, které jsou počítány v reálném čase:

FFT, • spektrální výkonová hustota, • autokorelace, • LPC koeficienty, • energie, • ZCR. • Pro jednodušší použití je ve frameworku implementován SoundBuffer. Jedná se o kruhový buffer, ze kterého je možné jednoduše a efektivně vyčítat data na libovolné pozici v rámci tohoto bufferu, případně získat obsah bufferu ovážený některým implementovaných váho- vacích oken. Mějme signál x[n] a buffer délky N. Pak je možné v jakémkoliv čase v rámci bufferu získat vzorek x[n k], kde k < N. − Adam Stráník 87

3.1. FFT Není provedena vlastní implementace, pouze obálka nad funkcemi knihovny Exocor- tex.DSP. Tato obálka přizpůsobuje použití této knihovny vytvářenému frameworku. Byla testována i implementace v knihovně AForge.NET, ale tato knihovna neumí počítat FFT nad signály delšími než 215 vzorků, což může být v některých případech omezující. 3.2. Spektrální výkonová hustota Je použita Welchova metoda výpočtu spektrální výkonová hustoty, která průměruje L po sobě jdoucích krátkodobých výkonových spekter Si[k] délky M

L 1 1 − S [k] 2 Sˆ [k] = | i | . (1) x L M i=0 X 3.3. Autokorelace Autokorelační funkce je počítána jako inverzí Fourierova transformace spektrální výkonové hustoty signálu v daném bloku (podle Wiener - Chinčinovy věty).

S (ejΘ) = FFT R [k] . (2) x { x } Implementovaný vztah má potom tvar

IFFT FFT a[n] FFT a[n] ∗ Rx[n] = <{ { { } { } }}, (3) Rx[0] kde a[n] je zpracovávaný úsek signálu doplněný nulami na dvojnásobnou délku a Rx[0] je nultá hodnota autokorelační funkce (čili energie signálu), která zbavuje měřítko výsledné autokorelační funkce závislosti na energii. Okno signálu je zvětšeno na dvojnásobnou délku kvůli vlastnostem Fourierovy transfor- mace. Použitý způsob výpočtu má výpočetní složitost O(N log N), zatímco klasický způsob v časové oblasti N n 1 1 − − R [n] = x[k]x[k + n] (4) x N Xk=1 má výpočetní složitost O(N 2). 3.4. LPC koeficienty K výpočty LPC koeficientů je použit Levinson - Durbinův algoritmus. Tento algoritmus má výpočetní složitost O(N) složitost, kde N je řád odhadovaného AR modelu. Je nutné si ovšem uvědomit, že k výpočtu je nutné znát prvních N členů autokorelační funkce, která je, jak je zmíněno výše, počítána se složitostí O(N log N). Podrobnější popis algoritmu je např. v [9] nebo [10]. 3.5. Energie K výpočtu energie je použit standardní vztah

N 1 1 − E[n] = x[n k]2, (5) N − Xk=0 který má lineární výpočetní složitost O(N). 88 Adam Stráník

Při výpočtu v reálném čase může být využito klouzavého okna a aktualizace

2 2 En = En 1 x[n N 1] + x[n] , (6) − − − − kde En je hodnota energie v aktuálním okně délky N, En 1 je hodnota v předchozím okně − délky N, x[n N 1] je hodnota vzorku, ze kterého se okno právě odsunulo a x[n] je hodnota aktuálního− − vzorku. Vychází se z předpokladu, že před počátkem nahrávání jsou v okně nulové hodnoty a že E 1 = 0. Tento výpočet sice probíhá v konstantním čase, ale jednak je prostorově (paměťově)− více náročný a jednak je nutná aktualizace s každým novým vzorkem. 3.6. ZCR Počet průchodů nulou je dán vztahem

N 1 fs − ZCR[n] = Π x[n k]x[n k 1] < 0 , (7) 2N { − − − } Xk=0 kde fs je vzorkovací frekvence signálu, N je délka okna, ve kterém je funkce ZCR počítána, Π A je funkce, která vrací 1, pokud je argument A pravdivý, jinak vrací 0. Výsledná hodnota{ } je potom přímo v Hz. I v případě výpočtu ZCR je možné použít metodu aktualizace podobně jako při výpočtu energie a to pouze s tím rozdílem, že v bufferu je místo vrozků uložen výstup z funkce Π.

4. Závěry

V práci jsou popsány možnosti, jak lze zachytávat signál z mikrofonního vstupu zvukové karty v reálném čase v prostředí .NET. Jsou rozebrány různé nástroje, které je možné k tomuto účelu použít a je zhodnocena jejich použitelnost v praxi. Dále je zde popsána struktura dll knihovny, která za tímto účelem vznikla. Popsaná metoda je prakticky otestována na základních DSP algoritmech, které jsou rovněž imple- mentovány v prostředí .NET. Všechny zmíněné algoritmy je možné zároveň bez problému počítat a zobrazovat v reálném čase při fs = 44,1 kHz a kvantování 16 bitů na vzorek.

Reference

[1] Installing managed [online]. [2006] [cit 2008-11-11]. Dostupný z WWW: [2] Install Managed DirectX9 over standard DirectX9 installation [online]. [2006] [cit 2008-11-11]. Dostupný z WWW: [3] OpenAL .NET Framework [online]. [2007] [cit. 2009-02-08]. Dostupný z WWW: . [4] OpenAl.NET [online]. [2007] [cit. 2009-02-08]. Dostupný z WWW: . [5] GEROSA, Ricardo. PortAudioSharp [online]. 2006 [cit. 2009-02-06]. Dostupný z WWW: . Adam Stráník 89

[6] PortAudio [online]. [2001] [cit. 2009-02-09]. Dostupný z WWW: . [7] SlimDX [online]. [2008] [cit. 2009-02-08]. Dostupný z WWW:

[8] MONO [online]. 2009 [cit. 2009-02-05]. Dostupný z WWW: . [9] PSUTKA, Josef, et al. Mluvíme s počítačem česky. Praha: Academica, 2006. 752 s.

[10] SOVKA, Pavel, POLLÁK, Petr. Vybrané metody číslicového zpracování signálů. Praha: Vydavatelství ČVUT, 2003. 258 s. 90 Barbora Vokáčová

Stimulace zpracování řečových signál ů u d ětí s vývojovou dysfázií pomocí arteterapeutických technik a strategií

Barbora Voká čová

Univerzita Karlova v Praze, 1. léka řská fakulta [email protected]

Abstrakt: Cílem výzkumného projektu je potvrzení hypotézy, že arteterapeutické techniky a strategie zmír ňují nebo eliminují symptomy vývojové dysfázie. Výzkumný projekt je na za čátku, a proto tento rok budeme p ředevším vybírat arteterapeutické techniky a strategie, které jsou efektivní vzhledem k symptomatologii vývojové dysfázii. Zárove ň se nyní pracuje na vytvo ření výzkumných skupin dvou v ěkových kategorií, kdy dv ě skupiny budou klienti s výše uvedenou komunika ční obtíží a další dv ě intaktní skupiny. Výsledky terapeutického p ůsobení budou vzájemn ě porovnány a vyhodnoceny.

1. ÚVOD

Cílem výzkumného projektu je potvrzení hypotézy, že arteterapeutické techniky a strategie zmír ňují nebo eliminují symptomy vývojové dysfázie, p ředevším obtíže v oblasti zpracování řečových signál ů [9, 10]. Tato konkrétní vývojová porucha řeči je „ charakterizována specifickým řečovým vývojem, který je p ředevším aberantní“ [3]. Široká symptomatologie zasahuje osobnost celostn ě a zárove ň jedine čně, kdy u každého klienta se symtomatologie projevuje v r ůzných oblastech a r ůzné mí ře.

„…arteterapie je teoreticky zakotvené p ůsobení na člov ěka jako celek v jeho t ělesné, psychické a duševní realit ě, v jeho v ědomém i nev ědomém snažení, sociálních a ekologických vazbách, plánované ovliv ňování postoj ů a chování pomocí um ění a technik z um ění odvozených, s cílem lé čby či zmírn ění nemoci a integrace či obohacení osobnosti“ (Petzold, [4], [6]). Jedna z mnoha artetrapeutických definic pln ě vystihuje náš p ředpoklad, že vhodn ě zvolené arteterapeutické techniky a strategie p ůsobí nejen na konkrétní symptom, ale mají velký vliv na člov ěka celkov ě.

K výše uvedenému výzkumu nás vede jednak skute čnost, že neustále roste po čet klient ů s diagnózou vývojová dysfázie. Terapie je velmi náro čná a je otázkou, jestli terapeutické působení by nebylo vhodné rozší řit o prost ředky um ěleckých terapií, které p ůsobí na klienta celostn ě. Arteterapie je dalším možným nástrojem k rehabilitaci a celostnímu rozvoji osobnosti, kdy osobní prožitek a vlastní zkušenost výrazn ě determinují rozvoj kognitivních proces ů, a práv ě tato oblast je pro klienty s vývojovou dysfázií zásadní vzhledem k jejich řečovému vývoji.

2. VÝVOJOVÁ DYSFÁZIE

Vývojová dysfázie je centrální porucha komunika ční schopnosti. Jedná se o specificky narušený řečový vývoj s dvojí patofyziologií [3, 5, 8]: A) specifická centrální sluchová porucha Barbora Vokáčová 91

B) všeobecná nespecifická korová porucha. M ůže se projevovat neschopností nebo sníženou schopností verbáln ě komunikovat , i když podmínky pro vytvo ření této schopnosti jsou dobré: - nevyskytují se závažné psychiatrické, neurologické nálezy - inteligence je p řim ěř ená - nevyskytuje se závažná sluchová, zraková vada - sociální prost ředí je podn ětné

Symptomatologie u vývojové dysfázie se projevuje ve všech jazykových úrovních, kdy základní p říčinou je porucha centrálního sluchového zpracování řeči. Rozvoj aktivní slovní zásoby je pomalý, v řeči se objevují dysgramatismy. Obtíže se objevují v percepci, diskriminaci, syntéze a analýze, pam ěti (p ředevším krátkodobé fonologické), diferenciaci, produkci atd. Nesnáze se objevují i ve vývoji orofaciální motoriky. Tato porucha přesahuje rámec fatické poruchy . S deficity se setkáváme i v oblastech: - jemné a hrubé motoriky - grafomotoriky - prostorové a časové orientace - pozornosti - pam ěti - motivace - emocionality - zájmovosti - dysfatici jsou lehce unavitelní - často se vyskytuje nevyhran ěná lateralita

PŘÍČINY dysfázie: - funkcionální – vyplývají z nedostatk ů spole čenského prost ředí - organické – nevyzrálá CNS, LMD, poškození mozku v pre, peri nebo postnatálním období. Neurologický nález m ůže být i negativní. - kombinované

Dít ě si uv ědomuje své nedostatky a obvykle ztrácí zájem o dorozumívání mluvenou řečí. Řečový vývoj stagnuje a dít ě spoléhá více na neverbální zp ůsoby – gesta, ukazování apod. Objevuje se výrazná diskrepance mezi verbální a neverbální složkou. Obtíže jsou i v gramatické stavb ě řeči, bu ď jako r ůzný stupe ň dysgramatismu nebo v ětná patlavost. Většinou si d ěti vytvá řejí konstantní deformovanou realizaci slov, takže rodi če se nau čí takovým projev ům rozum ět. Stávají se tak p řekladateli pro ostatní.

3. ARTETERAPIE VS. VÝVOJOVÁ DYSFÁZIE

Koherentní arteterapeutické systémy odvozují svou odlišnost od pln ě využívaného procesu výtvarné tvorby: „ Arteterapeutická teorie vychází z teorie um ění a psychoterapeutických škol. Arteterapie je sou částí jasn ě definovaného lé čebného (psychoterapeutického) procesu. Je třeba odlišovat psychoterapii užívající artetechnik od arteterapie. Zatím co v psychoterapii jsou artetechniky za řazovány cílen ě a izolovan ě, zpravidla proto, aby byl získán materiál pro 92 Barbora Vokáčová zpracování ur čitého tématu, v arteterapii jde o využití plnohodnotného kanálu pro komunikaci a introspekci. Neverbální tvo řivá činnost zde slouží nejen pro otevírání, ale i pro zpracování témat.“ (Stiburek in Slavík, [7]).

„Arteterapie p ředstavuje lé čebný systém odvozený od teorie a aplika čních postup ů psychoterapie, který obsahuje jasn ě definované nástroje. P řičemž do terapeutického vztahu vstupuje výtvarný artefakt a proces výtvarné tvorby, které se z části nebo zcela stávají základním terapeutickým prost ředím. P řičemž tvo řivá činnost vede nejen k otevírání, ale i zpracování terapeutického obsahu, a vede k požadované zm ěně“. [4]

Tvo řivý proces p řináší rozvoj osobnosti celkov ě. Na základ ě vlastního prožitku a zážitku vznikají nové zkušenosti, tudíž bychom mohli říct, že tv ůrčí proces stimuluje kognitivní stránku jedince. Zárove ň je člov ěku posilována i emocionální, sociální a komunikak ční oblast. Z výše uvedeného jasn ě vyplývá p ředpoklad, že tv ůrčí proces je vzhledem k symptomatologii vývojové dysfázie velmi d ůležitý a ú činný. Na základ ě symptomatologie vývojové dysfázie nabývá na d ůležitosti trend multisenzoriality, kdy st ěžejním terapeutickým kamenem pro náš projekt je propojení audio – hapticko – vizuálního cít ění . Haptické vnímání neproudí jen skrze ruce, ale je nutný pohyb, tzn. motorika. Haptika je d ůležitá, jelikož v rukách je uloženo vše, dotyk sám se sebou i v ůč i okolí = n ěco se nás dotýká a my se něč eho dotýkáme, což vede k impulsu, a to nás vede a „ rozhýbe nás“ [11]. Z toho vyplývá hypotéza, že arteterapeutické techniky, které stojí na základ ě audio-hapticko- vizuálního spojení nás vedou k pohybu, tudíž jsou velmi vhodné pro stimulaci vývoje a rozvoje nejen intaktní populace, ale p ředevším pro celostní vývoj a sebenahlížení klient ů s vývojovou dysfázií, u kterých je toto „rozhýbání“ nesmírn ě d ůležité vzhledem k jejich vývoji.

PLÁNOVANÉ TECHNIKY jsou: ru ční malba – sluchové fonematické uv ědomování a diferenciace (vokály, m ěkčení, výšky tón ů, stejné/jiné atd.) práce s hlínou - sluchové fonematické uv ědomování a diferenciace (vokály, m ěkčení, výšky tón ů, stejné/jiné atd.) - Hlin ěné pole [11, 12] – speciální arteterapeutická technika, která vede k 1) možnost opory 2) je nám k dispozici 3) zprost ředkuje to, co jsme vytvo řili - zp ětná vazba

Ačkoliv plánované techniky podporují p ředevším stimulaci sluchového zpracování řečového signálu, rozvíjí všechny výše uvedené oblasti – tedy p ůsobí na osobnost celostn ě prost řednictví nového zážitku a zkušenosti díky audio – hapticko – vizuálnímu cít ění. S technikou práce na „Hlin ěném poli“ jsme se seznámili v N ěmecku. Hlavním p ředstavitelem této techniky je v N ěmecku arteterapeut Heinz Deuser [1, 2]. Technika je ur čena pro d ěti i dosp ělé, kte ří mají r ůzné psychologické obtíže. Díky seznámení s dv ěma žáky Heinze Deusera, vyškolenými arteterapeuty, nám byla dána možnost seznámit se s prací na Hlin ěném poli. Intervence t ěchto dvou artetrapeut ů je sm ěř ována p ředevším na klienty s ADHD syndromem. Jejich výsledky práce byly natolik inspirativní, že považuji za vhodné tuto techniku za řadit také do výše zmín ěného projektu. Jelikož klienti s vývojovou dysfázií mají velmi často obtíže s koncentrací pozornosti a motorikou, věříme v ú činnost Hlin ěného pole u této konkrétní vývojové poruchy.

Barbora Vokáčová 93

4. PLÁN VÝZKUMU

Z výše uvedeného vyplývá, že stojíme na samém za čátku. Základním p ředpokladem v nejbližší dob ě je vytvo ření výzkumných skupin. V plánu je vytvo řit minimáln ě čty ři skupiny, v ideálním p řípad ě maximáln ě šest skupin. Základní bude rozd ělení podle v ěku 1) 3-5 let, 2) 5-7 let.

Ke každému v ěkovému intervalu budou vytvo řeny v ideálním p řípad ě t ři skupiny: 1) klienti s vývojovou dysfázií – terapie „klasická“ 2) klienti s vývojovou dysfázií – terapie „arteterapeutická“ 3) kontrolní skupina.

Dále budeme vyhledávat a vybírat vhodné arteterapeutické techniky pro tento projekt. Za cíl si v prvním roce klademe i up řesn ění metod hodnocení a výběr statistických metod k objektivnímu hodnocení. Metodika i konkrétní techniky se budou v pr ůběhu projektu upravovat. B ěhem druhého a t řetího roku výzkumu budou probíhat výzkumná sledování, která se postupn ě zpracují a vyhodnotí. Výsledkem p ředkládaného projektu by v ideálním p řípad ě m ělo být potvrzení hypotézy, že vybrané arteterapeutické techniky a strategie zmír ňují nebo eliminují symptomy vývojové dysfázie. Arteterapeutické techniky a strategie v plné mí ře využívají princip zkušenosti, prožívání, hry, tvo řivosti. Činnostní pojetí a vlastní zážitek klienta posilují osobnost v mnoha stránkách. Vzhledem k danému projektu budeme vyhledávat, upravovat a zobec ňovat práv ě ty strategie a techniky, které p ředevším stimulují zpracování řečového signálu a kognitivní stránky osobnosti d ůležité pro komunika ční schopnosti a dovednosti (percepce, diferenciace, produkce atd.). Vzhledem k ojedin ělosti tématu v rámci České republiky je na míst ě spolupracovat i s odborníky ze zahrani čí, kdy první kontakt se poda řil na Psychiatrické klinice v Tübingenu (N ěmecko).

5. POD ĚKOVÁNÍ

Tento výzkum je podporován z grantu GA ČR 102/08/H008 “Analýza a modelování biomedicínských a řečových signál ů”.

94 Barbora Vokáčová

Seznam pramen ů a použité literatury

[1] Deuser, H. a kol. Der haptische Sinn. Hamburg: Verein für Gestaltbildung e. V., 2009. [2] Deuser, H. Im Greifen sich begreifen . Keutschach: Gerhild Tschachler-Nagy, 2007. [3] Dlouhá, O. Vývojové poruchy řeči. Praha: Publisher, 2003. [4] Hrouzek, P. Arteterapie ve speciální pedagogice. Ú činné faktory vývojové arteterapie - integrativní p řístup. Diserta ční práce, Masarykova Univerzita, Brno, 2006 [5] Mikulajová, M; Rafajdusová, I. Vývinová dysfázia. Bratislava: 1993. [6] Petzold, H., Orth, I. Die neuen Kreativitätstherapien, Handbuch der Kunsttherapie. Band I. Paderborn: Junfermannsche Verlagsbuchhandlung, 2001 [7] Slavík, J. Um ění zážitku, zážitek um ění. I. a II. díl. Praha: UK Pedagogická fakulta, 2001 a 2004. [8] Škodová, E., Jedli čka, I. Základy klinické logopedie. Praha: Portál, 2004. [9] www.artefiletika.cz [10] www.arteterapie.cz [11] www.tonfeld.de [12] www.tonfeld-ammerbuch.de

Petr Zetocha 95

Zp řístupn ění strukturované databáze d ětských promluv

Petr Zetocha

České vysoké u čení v Praze, Fakulta elektrotechnická [email protected]

Abstrakt: V přísp ěvku je popsán FRVŠ projekt č.2453/2008 s názvem Návrh a realizace strukturované databáze d ětských promluv. Projekt byl zam ěř en na vytvo ření databáze d ětské mluvené řeči pro tvorbu trénovacích a testovacích datových soubor ů. Výhodou databáze je snadná p řístupnost p řes webové rozhraní (pouze pro oprávn ěné uživatele) a rozmanitost výb ěru zvukových dat od jednotlivých hlásek až po celá slovní spojení. Databázi mohou využívat studenti, kte ří navšt ěvují p ředm ěty vyu čující zpracování číslicových a řečových signál ů. V sou časné dob ě databáze obsahuje promluvy od 103 d ětí ve v ěku 4 až 10 let. Jedná se p řevážn ě o zdravé d ěti a d ěti s vadou řeči. Cílem projektu bylo vytvo řit vhodné prost ředí pro správu databáze a pro práci s databází. Zp řístupn ění databáze dětských promluv snad bude studenty motivovat k v ětšímu zájmu o zpracování řečového signálu a jeho analýze. Celý projekt byl koncipován jako databázové prost ředí v MySQL na Linuxovém serveru s možností komunikace p řes webového klienta pomocí PHP skript ů..

1. Úvod

Projekt byl zam ěř en na vytvo ření databáze d ětské mluvené řeči. Na vytvo ření finální databáze a webového prost ředí se krom ě autora článku podíleli Pavel R ůži čka (PHP solution architect), Krystýna Tu čková (WEB designer), Marek Bárt ů (database architect). Nahráváním a zpracováním d ětských promluv se zabývala celá skupina LANNA. Celý projekt byl po formální i odborné stránce zaštít ěn doc. Ing. Janou Tu čkovou. Existence databáze dětské řeči je d ůležitá z d ůvodu rozvoje kvality moderních metod používaných p ři zpracování řečového signálu. Strukturovaná databáze d ětských promluv by m ěla sloužit student ům p ři výb ěru konkrétních dat pro tvorbu trénovacích a testovacích datových soubor ů n ěkterých algoritm ů číslicového zpracování signál ů, zejména řečových. Výhodou databáze je snadná p řístupnost přes webové rozhraní a rozmanitost výb ěru zvukových dat od jednotlivých hlásek až po celá slovní spojení. V sou časné dob ě tvo ří řečový korpus promluvy od 103 d ětí ve v ěku 4 až 10 let. Jedná se o zdravé d ěti a d ěti s vadou řeči, nahrávky byly po řízeny ve školkách a na prvním stupni základních škol. Snadná p řístupnost a r ůznorodost ve výb ěru dat z databáze je motivujícím faktorem pro práci student ů na cvi čeních nebo p ři řešení semestrálních a bakalá řských projekt ů, bakalá řských a diplomových prací. Podobná databáze v minulosti na ČVUT FEL neexistovala. Informace o existence podobné databáze d ětské řeči na ostatních technických vysokých školách nebyla dosud nalezena.

2. Postup řešení

K dispozici jsme m ěli více než 5,5 hodin záznam ů d ětské řeči. V první fázi projektu jsme pomocí programu pro úpravu zvuku (Cool Edit 2000, fakulta je vlastníkem licence) upravili všechny nahrávky do p ředem dané struktury. Nahrávka od každého mluv čího byla roz člen ěna na samostatn ě vyslovené promluvy, kterými jsou hlásky, slova až v ěty – celkem 11 promluv (viz tabulka 1). D ělení nahrávek na menší úseky bylo nutné z hlediska rychlejšího zpracování a p řehlednosti. Ve druhé fázi jsme ke každé promluv ě vytvo řili textový soubor (tzv. label 96 Petr Zetocha soubor) obsahující informace o pozicích jednotlivých foném ů v promluv ě. Textové soubory jsou významnou sou částí databáze, díky které je uživatel schopen vybírat konkrétní hlásky i z celých slov. V poslední fázi jsme uživatel ům zp řístupnili databázi d ětských promluv p řes rela ční databázi MySQL, která je umíst ěna na Linuxovém serveru katedry Teorie obvod ů pod názvem ajatubar.feld.cvut.cz. Pro správce databáze jsme vytvo řili webovou administraci MySQL databáze (viz obrázek 2). Webové prost ředí (viz obrázek 3), ze kterého je možné čerpat informace uložené v MySQL je stále rozši řováno o nové komponenty. Student si na webové stránce vytvo ří dotaz, na serveru dojde k výb ěru požadovaných dat a studentovi se na výstupní stránce zobrazí výsledné informace (viz obrázek 4). V referencích jsou uvedeny knihy, které byly využívány v poslední fázi projektu.

skupina promluva foneticky_prepis Samohlásky a a Souhlásky m m Slabiky prst prst Dvouslabi čná slova papír papi:r Tříslabi čná slova děde ček J\edet_Sek Čty řslabi čná slova motovidlo motovidlo Víceslabi čná slova mate řídouška mateQ\i:do_uSka Zdvojená slova pohádková víla poh\a:tkova: vi:la Nar ůstání řady slov pramen s živou a mrtvou vodou pramen s Zivo_u a mrtvo_u vodou Složená věta Když šla Červená Karkulka lesem k babi čce gdiS Sla t_Servena: karkulka g babit_Sce Složená věta potkala zlého vlka potkala zle:h\o vlka Sluchová difereniace je čí jet_Si: Sluchová difereniace ježí jeZi: Tabulka 1: Skupiny promluv, výb ěrové p říklady promluv a jejich fonetická transkripce

Sloupec Typ ID_dite int(11) Sloupec Typ alias varchar(10) ID_dite int(11) prijmeni varchar(20) ID_promluva int(11) jmeno varchar(20) ID_skupina int(11) narozeni date lpc varchar(250) pohlavi enum('M', 'Z') status enum('zdrave', 'nemocne', 'vada') vek int(11) Sloupec Typ poznamka text ID_dite int(11) ID_skupina int(11) Sloupec Typ ID_promluva int(11) ID_promluva int(11) ID_soubor int(11) skupina varchar(100) soubor varchar(120) ID_skupina int(11) label varchar(120) promluva varchar(50) nahrano date foneticky_prepis varchar(50) poznamka text poznamka text zkratka varchar(8)

Obrázek 1: Popis propojení hlavních tabulek v databázi Petr Zetocha 97

Obrázek 2: Ukázka webového prost ředí pro správu databáze

Obrázek 3: Ukázka přihlašovací webové stránky

98 Petr Zetocha

Obrázek 4: Ukázka webového rozhraní pro výb ěr dat

Obrázek 5: Ukázka výstupní stránky

3. Záv ěr

Navrhli jsme a vytvo řili strukturovanou databázi d ětských promluv. Tato databáze obsahuje promluvy 70 zdravých d ětí a 33 d ětí s vadou řeči (nevysloví /r/). D ěti jsou ve v ěku 4 až 10 let. Protože na každé dít ě p řipadá asi 11 typ ů promluv (viz tabulka 1 - skupiny promluv, výb ěrové Petr Zetocha 99 příklady promluv a jejich fonetická transkripce), výsledná databáze se skládá ze čty ř hlavních tabulek – tabulka informací o d ětech, tabulka informací o promluvách, tabulka informací o souborech a tabulka propojující uvedené tabulky (viz obrázek 1). Pro správu databáze byl použit MySQL software, který komunikuje s webovým prost ředím pomocí PHP skript ů. Každá jednotlivá promluva byla podrobn ě popsána až na úrove ň fonému (label soubor). Informace o fonémech a jejich pozicích ve zvukovém souboru jsou uloženy ve stejném adresá ři jako zvukový soubor. Vytvo řené webové prost ředí dovoluje administrátor ům spravovat MySQL databázi a umož ňuje student ům definovat vlastní množiny vstupních dat, vhodných pro jejich experimenty ( http://ajatubar.feld.cvut.cz/data/index.php ). Přenos požadovaných dat je v sou časnosti řešen generováním tabulky v novém webovém okn ě. Pro rychlejší p řenos dat se zobrazuje vždy jen 1000 řádk ů. Využitím webového okna jsme obešli nutnost vytvá řet unikátní do časné tabulky výsledk ů na stran ě databázového serveru. V budoucnosti budou také řešeny i jiné typy export ů výsledk ů.

4. Pod ěkování

Tento přísp ěvek byl vytvo řen za podpory grantu GA ČR 102/08/H008 „Analýza a modelování biomedicínských a řečových signálu”. Výsledky uvedené v přísp ěvku čerpají z projektu FRVŠ č.2453/2008 „Návrh a realizace strukturované databáze d ětských promluv“.

Reference

[1] Gilmore W. Jason: Velká kniha PHP a MySQL 5 - kompendium znalostí pro za čáte čníky i profesionály, Zoner Press, leden 2007, ISBN: 80-86815-53-6

[2] Luke Welling, Laura Thomson: PHP a MySQL - rozvoj webových aplikací, 3 vydání, SoftPress, 2005, ISBN: 80-86497-83-6

[3] Michael Kotlet: Mistrovství v MySQL 5 - Kompletní pr ůvodce webového vývojá ře, Computer Press, 2007, ISBN: 978-80-251-1502-2