Vysok´E Uˇcení Technick´E V Brnˇe Paralelizace Sledov

View metadata, citation and similar papers at core.ac.uk brought to you by CORE

provided by Digital library of Brno University of Technology

VYSOKEU´ CENˇ ´I TECHNICKE´ V BRNEˇ BRNO UNIVERSITY OF TECHNOLOGY

FAKULTA INFORMACNˇ ÍCH TECHNOLOGIÍ USTAV´ POCˇ ÍTACOVˇ E´ GRAFIKY A MULTIMEDI´ Í

FACULTY OF INFORMATION TECHNOLOGY DEPARTMENT OF COMPUTER GRAPHICS AND MULTIMEDIA

PARALELIZACE SLEDOVAN´ ´I PAPRSKU PARALLELIZATION OF RAY TRACING

DIPLOMOVA´ PRACE´ MASTER’S THESIS

AUTOR PRACE´ Bc. MARTIN CIˇ ZEKˇ AUTHOR

VEDOUC´I PRACE´ Ing. HEROUT ADAM, Ph.D. SUPERVISOR

BRNO 2009 Zad´an´ıpr´ace:

1. Prostudujte metody realistickeho´ zobrazovan´ ´ı, zejmena´ sledovan´ ´ı paprsku.

2. Prostudujte moznostiˇ paralelizace metody sledovan´ ´ı paprsku.

3. Navrhneteˇ komunikacnˇ ´ı protokoly a dalsˇ´ı nutne´ veciˇ pro paralelizaci sledovan´ ´ı paprsku s c´ılem realisticky zobrazovat v realn´ em´ case.ˇ

4. Implementujte paraleln´ı sledovan´ ´ı paprsku v realn´ em´ caseˇ v pocˇ´ıtacovˇ e´ s´ıti.

5. Vyhodnot’te vlastnosti implementovaneho´ reˇ senˇ ´ı a demonstrujte moznostiˇ pouzitˇ ´ı.

6. Zhodnot’te dosazenˇ e´ vysledky´ a navrhneteˇ moznostiˇ pokracovˇ an´ ´ı projektu; vytvorteˇ plakatek´ pro prezentovan´ ´ı projektu. Abstrakt Sledován´ıpaprsku je rozˇs´ıˇrenoumetodou realistickéhozobrazován´ıpoˇc´ıtaˇcových scén.Jej´ı hlavn´ınevýhodou je ˇcasovánároˇcnostna výpoˇcetobrázku,proto se ˇcastoparalelizuje. Tato prácese vˇenuje popisu sledován´ıpaprsku a paralelizaci jako takové.Vysvˇetluje zp˚usob, jakýmse dásledován´ıpaprsku paralelizovat, ale i rozbor problém˚u,kteréu tétoparale- lizace vznikaj´ı.Výsledkem je implementace aplikace, kteráparalelnˇena hodnˇepoˇc´ıtaˇc´ıch zobrazuje scénu pomoc´ızvolenéhosoftvérua porovnán´ıúspˇeˇsnostitétoparaleln´ıaplikace.

Kl´ıˇcováslova realistickézobrazován´ı,sledován´ıpaprsku, paralelizace, Message Passing Interface, MPI

Abstract Ray tracing is widely used technique for realistic rendering of computer scenes. Its major drawback is time needed to compute the image, therefore it’s usually parallelized. This thesis describes parallelization and ray tracing in general. It explains the possibility of how can be ray tracing parallelized as well as it deﬁnes the problems which may occur during the process. The result is parallel rendering application which uses selected ray tracing software and measurement of how successful this application is.

Keywords realistic rendering, ray tracing, parallelization, Message Passing Interface, MPI

Citace Martin Ciˇzek:Paralelizaceˇ sledován´ıpaprsku, diplomovápráce,Brno, FIT VUT v Brnˇe, 2009 Paralelizace sledován´ıpaprsku

Prohláˇsen´ı Prohlaˇsuji,ˇzejsem tuto diplomovou prácivypracoval samostatnˇepod veden´ımIng. Adama Herouta, Ph.D. a pouˇzil jsem pouze podklady vyjmenovány v sekci Literatura.

...... Martin Ciˇzekˇ 27. kvˇetna2009

Podˇekován´ı Rádbych podˇekoval svému vedouc´ımu Adamovi Heroutovi, kterýusmˇerˇnoval psan´ıtéto práce.

c Martin Ciˇzek,2009.ˇ Tato práce vznikla jako ˇskoln´ı d´ılo na Vysokémuˇcen´ı technickémv Brnˇe,Fakultˇein- formaˇcn´ıchtechnologi´ı.Práce je chránˇenaautorskýmzákonema jej´ıuˇzit´ıbez udˇelen´ıo- právnˇen´ıautorem je nezákonné,s výjimkouzákonem definovanýchpˇr´ıpad˚u. Obsah

1 Uvod´ 2 1.1 Ciel’ pr´ace...... 2 1.2 Rozvrhnutie kapitol...... 3

2 Metódyrealistickéhozobrazovania4 2.1 Rasterizácia...... 4 2.2 Sledovanie lúˇca...... 4 2.2.1 Primárny lúˇc...... 4 2.2.2 Sekundárny lúˇc...... 5 2.2.3 Tieˇnovýlúˇc...... 5 2.2.4 Lúˇclomu svetla...... 5 2.3 Vrhanie lúˇca...... 5 2.4 Radiozita...... 6 2.5 Zhrnutie...... 6

3 Paralelizácia7 3.1 Hardvér...... 8 3.1.1 Procesory...... 8 3.1.2 Grafickýprocesor...... 8 3.2 Softvér...... 9 3.2.1 MPI...... 9 3.2.2 PVM...... 11 3.2.3 GPU...... 12 3.2.4 Zhrnutie...... 12

4 Realizácia 13 4.1 YafaRay...... 13 4.2 Komunikaˇcnéprostredie...... 14 4.3 Paralelizáciasledovania lúˇca...... 15 4.3.1 Rozdelenie práce...... 15 4.3.2 Komunikácia...... 16

5 Implementácia 17 5.1 Rozdelenie práce...... 17 5.2 Zmeny na scéne...... 17 5.3 Komunikácia...... 18 5.3.1 Zobrazovanie...... 20 5.3.2 Uˇz´ıvatel’skývstup...... 20

1 5.3.3 Zobrazovanie viacerých scén...... 20 5.4 Zbieranie dát...... 21 5.5 Zhrnutie...... 21 5.5.1 Hlavnýproces...... 22 5.5.2 Vedl’ajˇs´ıproces...... 23

6 Testovanie a vyhodnotenie v´ysledkov 24 6.1 Porovnanie s in´ymirieˇseniami...... 29 6.1.1 Parallel Ray-Tracing in MPI...... 30 6.1.2 Parallel Ray Tracing...... 30 6.1.3 Hybrid Scheduling for Parallel Ray Tracing...... 31 6.1.4 YafaRay Distributed Rendering...... 32

7 Z´aver 33

Zoznam pouˇzit´ych skratiek 36

Zoznam pr´ıloh 37

A Testovacia sc´ena 38

B Ukáˇzkovéscény YafaRayu 39

C Obsah DVD 41

2 Kapitola 1

Uvod´

Problematika realistickéhozobrazovania rieˇsi moˇznostiˇconajvernejˇsiehozobrazenia urˇcitej scény pomocou poˇc´ıtaˇca.V súˇcasnostije realistickézobrazovanie neoddelitel’nou súˇcast’ou rôznych technologických odvetv´ı,napr´ıkladarchitektúry, kde potrebujeme vyobrazit’ novú budovu ˇconajvernejˇsie,strojárstva (napr. automobilovýpriemysel), medic´ıny, alebo fil- movéhoa hernéhopriemyslu. Uˇzz toho dôvodu, ˇzesa snaˇz´ımedosiahnut’ ˇconajvyˇsˇs´ıstupeˇn realizmu a vernosti zobrazenia, je zrejmé,ˇzetento proces je výpoˇctovo vel’mi nároˇcný. Jednou z metódpouˇz´ıvaných pre realistickézobrazovanie je sledovanie lúˇca.Existuje viacero spôsobov ako zobrazovanie urýchlit’. Jednýmz nich je navýˇseniehrubéhovýpoˇctového výkonu, ktorýmôˇzemez´ıskat’ pomocou paralelizácie. Dneˇsnéaplikáciesúbeˇzneinterpretovanéako sled inˇstrukci´ı,ktorésúspracovanések- venˇcne.Procesory vˇsakuˇzsvojimi frekvenciami neprekonávajúd’alˇsiehranice. Hlavnou mierkou výkonu sa stal poˇcetjadier, ktorýsa v aktuálnejdobe pohybuje okolo poˇctu ˇstyri. Vd’aka tomu je jedinou moˇznost’ou pre navýˇsenievýkonu paralelizácia,ktoránám pomáhavyuˇz´ıvat’ viacerévýpoˇctovéjednotky súˇcasne.Princ´ıpparalelizáciespoˇc´ıva v rozdelen´ıväˇcˇsejúlohy na mnoˇzstvo malých, ktoréje moˇznéspracovat’ súˇcasne.Pri rozdel’ovan´ı je potrebnézobrat’ do úvahy, ˇzejednotlivéprocesy budúpotrebovat’ pre svoj chod výsledky z iných procesov, a teda je potrebnévyrieˇsit’ urˇcitýdruh komunikácie,pomocou ktorej sa budúzasielat’ potrebnédáta. Je vˇseobecne známe,ˇzemetódazobrazovania pomocou sledovania lúˇcaje v porovnan´ı s ostatnýmispôsobmizobrazovania extrémnepomalá,avˇsakak sa námpodar´ıtento typ zobrazovania dostatoˇcneparalelizovat’ a z´ıskame dostatoˇcnývýpoˇctovývýkon, je moˇzné takto vykresl’ovat’ scénu v reálnomˇcase.Týmto sa zaoberátátodiplomovápráca.

1.1 Ciel’ pr´ace

Ulohou´ tejto práceje opis niektorých metódrealistickéhozobrazovania, primárnemetódu sledovania lúˇca. Dalˇs´ımˇ krokom je popis paralelizáciea navrhnutie spôsobu,ktorýmby bolo moˇznéparalelizovat’ sledovanie lúˇca.Po nájden´ı spôsobu,akýmbude tátometóda paralelizovaná,je nutnénavrhnút’ komunikaˇcnýprotokol popisujúcikomunikáciumedzi procesmi a d’alˇsieaspekty nutnépri paralelnom spracovan´ısledovania lúˇcav reálnomˇcase. Po navrhnut´ı,ako bude pracovat’ paralelizovanésledovanie lúˇca,mámza úlohu tento návrh implementovat’, vyhodnotit’ jeho vlastnosti, demonˇstrovat’ moˇznostivyuˇzitiaa zhodnotit’ dosiahnutévýsledky.

3 1.2 Rozvrhnutie kapitol

V úvodných kapitolách sa budem venovat’ popisu niektorých metódrealistickéhozobrazo- vania a defin´ıciiparalelizácie.Tieto dve kapitoly, ako aj poˇciatoˇcnéspracovanie zvoleného softvéru,boli vypracovanév rámci semestrálnehoprojektu. Po oboznámen´ısa s parale- lizácioua metódousledovania lúˇcaopisujem moˇznosti,ako tútometóduzobrazovania paralelizovat’, ako medzi sebou môˇzujednotlivéuzly komunikovat’ a ˇcoje potrebnédodrˇzat’ pri zobrazovan´ıscény v reálnomˇcase.V nasledujúcejkapitole sa venujem samotnej im- plementáciia ˇcinnostitohto zobrazovacieho systému. Prácad’alej pokraˇcujetestovan´ım a vyhodnoten´ımvýkonu tohto systému a porovnan´ıms neparalelizovanou verziou. V závere opisujem, ako sa mi podarilo splnit’ vˇsetkypoˇciatoˇcnépoˇziadavky, uplatnit’ moˇznévy- lepˇseniaa navrhnút’ d’alˇs´ıpostup pri rozˇsirovan´ıpráce.

4 Kapitola 2

Met´odyrealistick´ehozobrazovania

2.1 Rasteriz´acia

Rasterizáciaje najrozˇs´ırenejˇs´ımspôsobom zobrazovania poˇc´ıtaˇcovej grafiky. Obraz je vy- tvorenýpomocou viacerých vyrovnávajúcich pamät´ı1, ktorédefinujúvýslednýobraz, resp. pomáhajúpri jeho vytváran´ı.Je to jeden z najrozˇs´ırenejˇs´ıch a najrýchlejˇs´ıch spôsobov zobrazovania a preto ho môˇzemevidiet’ v drvivej väˇcˇsinepoˇc´ıtaˇcových hier. Objekty na scéne sú reprezentovanésiet’ovýmimodelmi zloˇzenýmiz trojuholn´ıkov. Zjednoduˇsene povedané,ras- terizáciafunguje na princ´ıpe transformácievrcholov trojuholn´ıkov v trojrozmernom priestore do dvojrozmernéhopriestoru. Tento spôsobzobrazovania nedokáˇzezobrazovat’ urˇcitéefekty a preto sa pouˇz´ıvajúrôzne spôsoby, ako tieto efekty napodobnit’. Napr´ıkladna simuláciuosvetlenia sa môˇzupouˇz´ıvat’ svetelnémapy2, na zobrazenie tieˇnov mapovanie tieˇnov3 a na zobrazenie odrazov od po- vrchov mapovanie okolia4. Tieto efekty vˇsak väˇcˇsinounepodávajúrealistickýdojem a je moˇznérozl´ıˇsit’ medzi realitou a obrázkom zobrazenýmpomocou rasterizácie.

2.2 Sledovanie l´uˇca

Jednou z najrozˇs´ırenejˇs´ıch metódzobrazovania realistickej grafiky je sledovanie lúˇca5. Vy- sokárealistickost’ tohto zobrazovania spoˇc´ıva v reverznej simuláciireálnejdráhy svetelných lúˇcov, kde pre kaˇzdýbod výslednéhoobrazu je vyslanýlúˇc,ktorýpo nárazena objekt z´ıska informáciuo farbe tohto objektu v mieste dopadu lúˇca,vlastnosti materiálu, polohe sve- telných zdrojov voˇcimiestu dopadu a d’alˇsieaspekty, ktoréovplyvˇnujúfarbu zobrazovaného bodu.

2.2.1 Primárny lúˇc Primárny lúˇcje prvotnýlúˇc,ktorýmápoˇciatokv zobrazovacom zariaden´ı(kamera) a pre- chádzacez poz´ıciukonkrétnehozobrazovanéhobodu na plátne.Pre tento lúˇcsa vypoˇc´ıtajú vˇsetkyprieseˇcn´ıkys objektmi na scénea vyberie sa ten, ktorýje najbliˇzˇsiek zobrazovaciemu zariadeniu. Zloˇzitost’ tejto operáciezáleˇz´ıod poˇctuprvkov v priestore a pouˇzitejmetódy

1angl. buffer, napr. z-buffer, stencil buffer 2angl. lightmap 3angl. shadow mapping 4angl. environment mapping 5angl. ray tracing

5 pre uloˇzeniecelej scény v pamäti.Po nájden´ımiesta dopadu lúˇcasa do scény vyˇslúd’alˇsie lúˇce,ktoréupresˇnujúfarebnézloˇzeniekonkrétnehozobrazovaného bodu.

2.2.2 Sekundárny lúˇc Pre z´ıskanie farebných informáci´ıo okolitých objektoch sa pouˇz´ıva sekundárny lúˇc(lúˇcod- razu), ktorýsimuluje správanie primárneholúˇca,avˇsakjeho funkciou je vrátit’ informácie tomu lúˇcu,ktorýho vyslal. Tento lúˇcpo dopade vyˇsled’alˇs´ısekundárny (resp. terciálny) lúˇc.Toto správanie sa rekurz´ıvneopakuje podl’a toho, akáh´lbka rekurzie je vyˇzadovanázob- razovac´ımsystémom. Speciálnymˇ pr´ıpadomsekundárnych lúˇcov súlúˇcezrkadlové6, ktoré slúˇziana zobrazenie zrkadlových odrazov.

2.2.3 Tieˇnovýlúˇc Po dopade primárneholúˇcana objekt sa z miesta dopadu vyˇslútieˇnovélúˇcedo vˇsetkých zdrojov svetla na scéne,aby sme zistili, ako je miesto dopadu ovplyvnenésvetlom v zobrazovanej scéne.Tu môˇzunastat’ dva pr´ıpady. V prvom pr´ıpadelúˇcnaraz´ına inýobjekt, potom je pôvodnémiesto dopadu zatienenévoˇcikonkrétnemu zdroju svetla. V druhom pr´ıpade, medzi miestom dopadu a svetelnýmzdrojom nie je ˇziadnaprekáˇzka, ˇciˇzemiesto je priamo osvetlenétýmto zdrojom svetla. Poˇcetvyslaných tieˇnových lúˇcov závis´ıod druhu pouˇzitého svetla. Ak je svetelnýzdroj reprezentovanýjedinýmbodom na scéne,potom je vyslanýiba jeden tieˇnovýlúˇca vznikajútzv. ostrétiene, kde je vidiet’ ostrýprechod medzi zatienenou a nezatienenou plochou. Pri svetle, ktoréje vyˇzarovanéz plochy, sa z bodu dopadu vyˇslúvi- acerétieˇnovélúˇce, ktoréobsiahnu celúplochu svetelnéhozdroja. Týmto spôsobom vznikajú tzv. mäkkétiene.

2.2.4 Lúˇclomu svetla V pr´ıpade,ˇzeobjekt, na ktorýnaraz´ı primárny lúˇc,máurˇcitýstupeˇnpriehl’adnosti, je potrebnévyslat’ lúˇclomu svetla7, ktorýprechádzatýmto objektom a rekurz´ıvne generuje d’alˇsielúˇce,ktorésimulujúprechod fotónov cez tento objekt. Najˇcastejˇsiesa tento typ lúˇcov vyuˇz´ıva na zobrazovanie sklenených objektov alebo tekut´ın,resp. oboch naraz. Výsledkom môˇzebyt’ efekt lomu svetla alebo kaustika.

2.3 Vrhanie l´uˇca

Metódavrhania lúˇca8 je vel’mi podobnámetódesledovania lúˇca, ale vrhámeiba primárny a tieˇnovýlúˇc.Vd’aka tomu je vrhanie lúˇcarýchlejˇsieneˇzsledovanie lúˇca,avˇsakpomocou tejto metódy nedokáˇzemevytvorit’ napr´ıkladrealistickétiene, odrazy, kaustiku alebo lom svetla. To sa vˇsakdánapravit’ pouˇzit´ıminých metód,ktorédokáˇzudo urˇcitéhostupˇna realisticky napodobnit’ tieto efekty.

6angl. reﬂection ray 7angl. refraction ray 8angl. ray casting

6 Obrázok2.1: Schémasledovania lúˇca[23]

2.4 Radiozita

Radiozita sa snaˇz´ıo fyzikálnu simuláciuˇs´ıreniasvetla v scéne.Základnýalgoritmus vyˇzaduje energeticky uzavretúscénu a neuvaˇzujeinterakciu svetelnej energie s prostred´ımv scéne.Po- stup zobrazovania scény sa del´ına dve ˇcasti.V prvej ˇcastije scénarozdelenána maléplôˇsky a následnesa algoritmus venuje prenosu energie (svetla) v scénemedzi týmitoplôˇskami, ˇc´ımsa docieli kompletnýpopis scény z hl’adiska osvetlenia. V druhej ˇcasti sa môˇzepouˇzit’ akýkol’vek zobrazovac´ıalgoritmus, ktorýrieˇsiproblémviditel’nosti a scénu zobraz´ı. Výhodou je, ˇzesa pri zmene kamery nemus´ıscénaprepoˇc´ıtavat’.[14] Pre zobrazovanie sa ˇcasto vyuˇz´ıva metódasledovania lúˇca.

2.5 Zhrnutie

Z charakteru fungovania metódysledovania lúˇcaje zrejmé,ˇzejej výstupbude, oproti ostatnýmspôsobom zobrazovania, najvernejˇsiezobrazovat’ realitu. Najväˇcˇsiavýhoda tejto metódyje zároveˇnaj jej nevýhodou, ked’ˇzerekurz´ıvnym sledovan´ımlúˇcov na scénemôˇzu vzniknút’ desiatky aˇzstovky miliónov lúˇcov, ktoréje potrebnéprepoˇc´ıtat’. Tento poˇcetzáleˇz´ı od poˇzadovanéhostupˇnakvality, rozl´ıˇseniavýslednéhoobrazu a pouˇzitých metódpre dosiahnutie urˇcitých efektov. Pre urýchlenie tohto výpoˇctusa vyuˇz´ıva paralelizácia,ktorou sa zaoberámv nasledujúcejkapitole.

7 Kapitola 3

Paraleliz´acia

Paralelizáciaje postup zaloˇzenýna rozdelen´ızloˇzitejúlohy na viaceréjednoduchéúlohy, ktorémôˇzubyt’ rieˇsenésúbeˇzne.Tie súnáslednerozvrhnutémedzi viacerévýpoˇctovéjed- notky za ciel’om urýchlit’ výpoˇcetcelkovej úlohy oproti sekvenˇcnému spracovaniu. Tieto úlohy môˇzubyt’ spracovávanésimultánne, nie vˇsaknezávisle,pretoˇzevo väˇcˇsinepr´ıpadov takto rozdelenéúlohy vyˇzadujúdátaz iných ˇcast´ıa preto je nutnávzájomnákomunikácia týchto jednotiek. Efektivita komunikácieje jednýmz prvkov, ktoréovplyvˇnujú,do akej miery vzrastie výkon paralelnej aplikácie. Z hl’adiska programátoraprináˇsaparalelizácianovédruhy problémov, ktorýmje nutné venovat’ pozornost’. Medzi tieto problémy patr´ınapr´ıkladblokovanie1, ktorénastáva v pr´ıpa- de, ˇzedva procesy na seba navzájomˇcakajú.V tomto pr´ıpadesúprocesy zaseknutéa nemôˇzu pokraˇcovat’ v d’alˇsomspracovávan´ı. Dalˇs´ımproblémombývaˇ starnutie, ktorénastáva v pr´ı- pade, ˇzejednému procesu môˇzebyt’ nekoneˇcnedlho odoprenýpr´ıstupk urˇcitému zdroju, ktorývyˇzadujepre pokraˇcovanie v ˇcinnosti. Cyklovanie, ako d’alˇs´ız problémov, je typ blo- kovania, kde s´ıce procesy navonok vykazujúznámkyˇcinnosti(nie súzablokované),avˇsak nedochádzak ˇziadnemu pokroku vo výpoˇctea procesy súvo vzájomnomcykle.[19] Je nutnost’ zabránit’ akejkol’vek pr´ıˇcine,ktoráby mohla spôsobit’ aspoˇnjeden zo spomenutých problémov. Medzi d’alˇsie problémy pri návrhu paralelnej aplikácieje nutnost’ vymysliet’ komu- nikaˇcnýprotokol, vd’aka ktorému budújednotlivéprocesy komunikovat’. Tento protokol by mal byt’ ˇconajefekt´ıvnejˇs´ı, aby procesy strávilikomunikáciouˇconajmenej ˇcasua veno- vali sa výpoˇctovýmúlohám.Programátormus´ıtaktieˇzeliminovat’ paralelnéspracovávanie kritických sekci´ı,ˇco je vlastne úsekkódu,ktorýmôˇzespracovávat’ v danom ˇcaseiba jeden proces. Taktieˇzje dôleˇzitéminimalizovat’ poˇcettýchto sekci´ı,ako aj skrátit’ d´lˇzkuich spracovania, aby neboli procesy blokovanéna pr´ıliˇsdlhúdobu. Dalˇs´ımproblémomjeˇ návrh rozdelenia celkovéhoproblému na menˇsieˇcasti,ktorémôˇzubyt’ vykonávanéparalelne. S efektivitou tohto rozdelenia rastie aj efektivita výkonu paralelnej aplikácie. Vyˇsˇsiespomenutákritickásekcia námpriamo ovplyvˇnujemoˇznúmieru paralelizácie výpoˇctovéhoproblému. Ak p oznaˇcujeˇcast’ programu, ktorámôˇzebyt’ paralelizovaná(1 − p oznaˇcujeˇcast’, ktorúnemôˇzemeparalelizovat’), a na výpoˇcetpouˇzijeme n procesorov, tak maximálnemoˇznézrýchlenie bude: 1 p (1 − p) + n 1angl. deadlock

8 Z toho vyplýva, ˇzeje nutnépozorne definovat’ ˇcasti,ktorénebudúspracovávanéparalelne, pretoˇzenámurˇcujúlimit, do akéhostupˇnaje moˇznédanúaplikáciuparalelizovat’. Znamená to, ˇzeparalelizáciasa hod´ıiba pre malýpoˇcetprocesov alebo pre aplikácie,ktorémajú vysokúhodnotu p. Toto predv´ıdanie maximálnehozrýchlenia paralelnej aplikáciesa nazýva Amdahlov zákon [3]. V nasledujúcich ˇcastiach si pop´ıˇseme problematiku paralelizáciez pohl’adu hardvéru, softvérua d’alˇs´ıch prvkov, ktorés paralelizáciousúvisia.

3.1 Hardv´er

Jedinýmipoˇziadavkami paralelizáciez hardvérovéhohl’adiska súnutnost’ distribuovat’ úlohy a následnekompletizovat’ výsledky. Znamenáto, ˇzevýpoˇctovéjednotky musia byt’ urˇcitým spôsobom prepojenémedzi sebou alebo spojenés nejakýmriadiacim ˇclenom,aby týmto poˇziadavkámvyhoveli. Toto vˇsak nesúhlas´ıs poˇziadavkami uˇz´ıvatel’ov, kde uˇzzohráva úlohu aj ˇcaspotrebnýna splnenie úlohy a cena. Tieto aspekty ovplyvˇnujúakýhardvérbude pouˇzitý. V dneˇsnejdobe, kde výrobcovia procesorov naráˇzajúna limity pri zvyˇsovan´ıpracovných frekvenci´ı, sa paralelizáciaspolu s viacjadrovými(viacprocesorovými)systémamistáva hlavnýmsmerom pre d’alˇsienavýˇsenievýkonu. Základnéhardvérovéprvky, ktoréslúˇzia ako výpoˇctovéjednotky, súv drvivej väˇcˇsine postavenétak aby dovol’ovali paralelizáciua t’aˇziliz nej.

3.1.1 Procesory V dneˇsnejdobe vid´ıme, ˇzehlavnývýkon procesora2 sa uˇznemeria iba pomocou jeho takto- vacej frekvencie, ale aj podl’a poˇctujadier, ktoréobsahuje. V súˇcasnostisa beˇzne v osobných poˇc´ıtaˇcoch pouˇz´ıvajúdvojjadrové,trojjadrové, alebo aˇzˇstvorjadrovéprocesory. S nástupom nových procesorov je vidiet’, ˇzetento trend bude postupovat’ d’alej a v bl´ızkej budúcnostisa stretneme s procesormi, ktorémajúdesiatky aˇzstovky jadier. Viacjadrovéprocesory nám dávajúmoˇznost’ spracovávat’ simultánnerovnakýpoˇcetprocesov resp. vlákien3 ako je poˇcet jadier. Snaha dosiahnut’ tento stav bola uˇzv minulosti, napr´ıklad pri pouˇzit´ı viacerých jednojadrových procesorov alebo pri pouˇzit´ıtechnológiehyper-threading, ktorásimulovala správanie dvojjadrovéhoprocesora nad obyˇcajnýmjednojadrovýmprocesorom, takˇzeaj jednojadrovýprocesor bol schopnýspracovávat’ dve vláknav rovnakom ˇcase.Procesory sú vd’aka svojej univerzálnostivhodnéna akýkol’vek druh výpoˇctov.

3.1.2 Grafickýprocesor Najvýkonnejˇsiasériovo vyrábanágrafickákarta súˇcasnosti(ATI 4870-X2) dosahuje hrubý výkon 2,4 TFLOPS za pouˇzitia dvoch grafických procesorov4 [1]. Tento výkon je mno- honásobnevyˇsˇs´ıoproti najvýkonnejˇsiemu procesoru, ktorýdosahuje pribliˇzne51,2 GFLOPS (Intel i7-965) [13]. Tento ohromnýrozdiel vo výkone grafickej karty je dosiahnutýmas´ıvnou paralelizáciou,kde tátokonkrétnakarta vyuˇz´ıva 1600 stream procesorov5. Stream procesory súzjednoduˇsenéprocesory schopnéaplikovat’ rovnakúsadu inˇstrukci´ına vel’kémnoˇzstvo

2CPU - Central Processing Unit 3angl. thread(s) 4GPU - Graphics Processing Unit 5800 v kaˇzdomgraﬁckom procesore

9 dát.Okrem výhody, ktorou je vysokárýchlost’ spracovávania dát,sútu aj znaˇcnénevýhody. Je to napr´ıkladnemoˇznost’ akejkol’vek priamej komunikáciemedzi výpoˇctovýmijednotkami, obmedzenáinˇstrukˇcnásada, limitovanápresnost’ pri operáciách s pohyblivou desatinnou ˇciarkou6 a vel’mi n´ızkyvýkon na jedno vlákno.Kvôlitýmto nevýhodámsa graficképroce- sory hodia iba na tie výpoˇctovéproblémy, ktorýmnevadia spomenuténevýhody.

Tieto prvky sa dajúd’alej zdruˇzovat’ do väˇcˇs´ıch celkov, ˇc´ımvzrastávýpoˇctovývýkon ako celku a úlohu teda môˇzemevyrieˇsit’ za kratˇs´ıˇcas.Tento princ´ıpsa vyuˇz´ıva napr´ıklad pri stavan´ısuper poˇc´ıtaˇcov, ktorésúzloˇzenéz desat’ tis´ıcov procesorov.

3.2 Softv´er

Z pohl’adu softvéruvyˇzadujeparalelizáciaurˇcitúschopnost’ komunikáciemedzi procesmi, ktoréspolu tvoria celok. Tása môˇzeuskutoˇcˇnovat’ rôznymi spôsobmi,ako napr´ıkladzápisom a ˇc´ıtan´ımzo zdiel’anej pamätealebo zasielan´ımsprávpo urˇcitomkomunikaˇcnomkanále, ktorýmmôˇzebyt’ napr´ıkladpriame prepojenie jadier v rámcijednéhoprocesora, nejakýelek- tronickýobvod medzi dvoma procesormi, alebo obyˇcajnésiet’ovéspojenie dvoch poˇc´ıtaˇcov. Uˇzz pohl’adu operaˇcnéhosystému sa námnaskytámoˇznost’ paralelizáciepomocou vlákien,ktoréspolu zdiel’ajúpamät’, alebo procesov, ktorési môˇzuzasielat’ signálya správy. Operaˇcnýsystémje vˇsaklimitovanýna jeden fyzickýpoˇc´ıtaˇc,takˇzenie je moˇznévytvo- rit’ mas´ıvneparalelnúaplikáciuiba pomocou nástrojov dostupných v tomto systéme.Je nutnépouˇzit’ externénástroje, ktoréumoˇzˇnujúurˇcitúformu manaˇzmentu procesov nad operaˇcnýmsystémoma taktieˇzich vzájomnúkomunikáciu. Existuje viacero druhov komunikaˇcných kanálov, a teda existuje viac spôsobov, ako môˇzu medzi sebou jednotlivéprocesy komunikovat’. Z tohto dôvodu existujúrôzne kniˇznice,ktoré zapuzdrujúviacerédruhy komunikácie,ˇciˇzepri programovan´ımámek dispoz´ıciipreddefi- novanéjednotnéfunkcie urˇcenéna komunikáciu,a zvolenákniˇznica sama vyberie najlepˇs´ı spôsobzaslania dát.

3.2.1 MPI MPI (Message Passing Interface) je ˇstandard definujúcisyntax a sémantiku rut´ınv kniˇznici, ktorésúpouˇzitel’népre ˇsirokúˇskáluuˇz´ıvatel’ov a umoˇzˇnujúefekt´ıvnu implementáciuna mnohých architektúrach. [7]

Ciel’ MPI:

• N´avrhprogramovacieho rozhrania pre aplik´acie.

• Poskytnutie efekt´ıvnejkomunikácie.Vyhnutie sa kop´ırovaniu z pamätedo pamäte, povolit’ prekrývanie sa výpoˇctua komunikáciea presunút’ vˇsetkumoˇznúkomunikáciu na koprocesor.

• Umoˇznit’ rôznym aplikáciámbeh v heterogénnomprostred´ı.

• Podpora jazykov C a Fortran 77.

6angl. ﬂoating point operations

10 • Poskytnutie spol’ahlivej komunikácie,takˇzesa uˇz´ıvatel’ nemus´ızaoberat’ chybami pri komunikácii.Tieto chyby súrieˇsenév komunikaˇcnomsubsystéme.

• Defin´ıciarozhrania s minimálnym rozdielom oproti zauˇz´ıvanýmpraktikáma poskytnutie rozˇs´ıren´ıpre väˇcˇsiuflexibilitu.

• Vytvorenie rozhrania, ktorémôˇzebyt’ bez problémov implementovanéna viacerých platformách, s minimálnym zásahomdo základusystému.

• Dosiahnutie sémantiky rozhrania, ktoráje nezávislána platforme.

• Návrhrozhrania, ktorédovol’uje bezpeˇcnévykonávanie kóduv paralelnom prostred´ı7.

Z´akladn´evlastnosti MPI:

• Priama komunikáciamedzi dvoma prvkami: Odosielanie správje základným komunikaˇcnýmmechanizmom v MPI. Pre komunikáciumedzi dvoma prvkami sa pouˇz´ıvajúfunkcie send“ a receive“, ktoréexistujúv blokujúcoma neblokujúcom ” ” preveden´ı.

• Kolekt´ıvna komunikácia: Na komunikáciu,ktorázah´rˇnaskupinu procesov, poskytuje MPI viacero funkci´ı,ako napr´ıklad:rozposlanie správvˇsetkýmúˇcastn´ıkom8; odoslanie dáturˇcitouskupinou procesov; rozposlanie dáturˇcitejskupine procesov; globálneredukˇcnéoperácie(napr. sum, min, max); synchronizaˇcnýnástroj bariéra atp.

• Skupiny procesov: Skupina je mnoˇzinaidentifikátorov procesov (a teda samotných procesov), nad ktorou je moˇznévykonávat’ urˇcitéoperáciev rámciMPI.

• Komunikaˇcnékontexty: Kontext je vlastnost’ správy, ktoránámdovol’uje rozdelit’ priestor pre komunikáciu.Kaˇzdáspráva, ktoráje odoslanáv urˇcitomkontexte, nemôˇze byt’ prijatáv kontexte rozdielnom.

• Topológiaprocesov: Topológiaje volitel’nýatribút,ktorýnámdovol’uje pohodlný mechanizmus pre pomenovávanie skupinu procesov.

• Rozhranie pre C a Fortran 77: MPI deﬁnuje rozhranie pomocou funkci´ıv jazykoch C a Fortran 77.

• Správua monitorovanie prostredia: MPI obsahuje viacerérutiny pre z´ıskavanie a nastavovanie rôznych parametrov súvisiacich s implementáciouMPI a prostred´ım, v ktorom púˇst’ame aplikácie.

• Profilovacie rozhranie: MPI definuje kaˇzdúfunkciu v profilovacej verzii, ktorása zapisuje s prefixom PMPI “ na rozdiel od klasického MPI “. Tieto funkcie zhromaˇz- ” ” d’ujúdátao behu aplikácie,ktoréumoˇzˇnujúnáslednéprofilovanie aplikácienap´ısanej pomocou MPI.

7angl. thread safety 8angl. broadcast

11 3.2.2 PVM PVM (Parallel Virtual Machine) je podobne ako MPI urˇcenéna paralelizácius vysokou ˇskálovatel’nost’ou9. Na rozdiel od MPI PVM je integrovanásada softvérových nástrojov a kniˇzn´ıc,ktoréemulujúflexibilný,heterogénny, výpoˇctovýsystémna sieti prepojených poˇc´ıtaˇcov rozdielnej architektúry, dovol’ujúcisúbeˇznéspracovávanie úloh.Hlavnéˇcrty PVM: [11]

• Uˇz´ıvatel’sky definovanézdruˇzeniehostitel’ských poˇc´ıtaˇcov: Výpoˇctovéúlohy aplikáciesúvykonávanéna mnoˇzinepoˇc´ıtaˇcov definovanej uˇz´ıvatel’om pri spusten´ı PVM aplikácie. Výhodou PVM je, ˇzetútomnoˇzinu je moˇznémenit’ pridávan´ımalebo odstraˇnovan´ımhostitel’ských poˇc´ıtaˇcov za behu aplikácie.

• Transparentnýpr´ıstupk hardvéru: Aplikáciamôˇzek hardvérupristupovat’ ako ku kolekcii virtuálnych výpoˇctových prvkov bez rôznych atribútov alebo selektovat’ dostupnýhardvérpodl’a jeho schopnost´ıa rozdel’ovat’ urˇcitévýpoˇctovéúlohy podl’a toho, pre ktorýhardvérsúnajvhodnejˇsie.

• Výpoˇcty zaloˇzenéna procesoch: Jednotka paralelizmu v PVM je úloha(zvyˇcajne proces), sekvenˇcnýsled operáci´ı,ktorýstrieda medzi komunikácioua výpoˇctom.PVM nevykonáva ˇziadnemapovanie typu proces-procesor, takˇzeviaceréúlohy môˇzubyt’ spustenéna jednom procesore.

• Explicitnýmodel komunikácie: V kolekcii procesov, kde kaˇzdývykonáva urˇcitú ˇcast’ úlohaplikácie,definovanúpomocou dátovej, funkcionálnejalebo hybridnej de- kompoz´ıcie,medzi sebou procesy spolupracujúexplicitne pomocou zasielania a prij´ı- mania správ.Vel’kost’ správyje limitovanáiba vel’kost’ou dostupnej pamäte.

• Podpora heterogénnehohardvéru: PVM podporuje heterogénnost’ v zmysle pou- ˇzitéhohardvéru,siete a aplikáci´ı.So zretel’om na komunikáciuje podporovanézasie- lanie správ,ktoréobsahujúviacero dátových typov, kýmjednotlivépoˇc´ıtaˇcemajú rozdielnu reprezentáciutýchto dát.

• Multiprocesorovápodpora: Vd’aka rozpoznávaniu architektúry a vyuˇzitiutejto znalosti dokáˇzePVM vyuˇzit’ nat´ıvnezasielanie správ,ktorév sebe zah´rˇnajúviacpro- cesorovésystémy.

PVM je zloˇzenéz dvoch ˇcast´ı.Prváˇcast’ je démon10 nazývaný pvmd3“, ktorýje rezi- ” dentne spustenýna vˇsetkých hostitel’ských poˇc´ıtaˇcoch, ktoréspolu tvoria virtuálny poˇc´ıtaˇc. Ak si uˇz´ıvatel’ vyˇziadaspustenie PVM aplikácie,tak mus´ınajprv vytvorit’ virtuálny poˇc´ıtaˇc pomocou PVM a aˇz následnemôˇze byt’ aplikáciaspustenáz niektorého hostitel’ského poˇc´ıtaˇca.Uˇz´ıvatelia môˇzunezávislena sebe vytvárat’ niekol’ko prekrývajúcich sa virtuálnych poˇc´ıtaˇcov a kaˇzdýuˇz´ıvatel’ môˇzespúˇst’at’ viacero aplikáci´ınaraz. Druháˇcast’ tohto systému je kniˇznicadefinujúcarozhranie PVM. Obsahuje funkˇcne úplnýsúbor primit´ıv,ktorésúnutnépre spoluprácumedzi úlohamiaplikácie,uˇz´ıvatel’ské rutiny pre komunikáciu,vytváranieprocesov, koordináciuúloha modifikáciuvirtuálneho poˇc´ıtaˇca.

9angl. scalability 10poˇc´ıtaˇcov´yprogram, ktor´ydlhodobo beˇz´ına pozad´ıbez interakcie s uˇz´ıvatel’om

12 3.2.3 GPU GPU (Global Processing Unit)[20] na rozdiel od MPI a PVM ide trochu inýmsmerom a snaˇz´ısa spr´ıstupnit’ výhody paralelnéhospracovávania pre masy, kde uˇz´ıvatel’ nemus´ımat’ vlastnýpr´ıstupk výpoˇctovýmjednotkám.GPU je zaloˇzenéna protokole Gnutella[15], ktorý dovol’uje poˇc´ıtaˇcomvytvárat’ virtuálnesiete nad TCP/IP11 a zdiel’at’ medzi sebou dáta. Tento protokol bol pre potreby GPU upravenýtak, aby dátaprenáˇsanémedzi prvkami siete obsahovali aj operácie,ktorésa nad týmitodátamimajúvykonat’. Tátosiet’ je vytvorená pomocou aplikácieGPU, kde kaˇzdýklient je zároveˇnserver, ˇco znamená,ˇzekaˇzdýprvok siete môˇzevyuˇz´ıvat’ poskytovanésluˇzby ostatnýmiprvkami, ako aj on sámmus´ıposkytovat’ sluˇzby ostatnýmprvkom siete. GPU obsahuje rozhranie pre rozˇs´ırenia, takˇzeprakticky akýkol’vek výpoˇctovýproblémmôˇzebyt’ paralelizovanýpodl’a potreby.

+ odpadánutnost’ vlastnit’ vel’kémnoˇzstvo hardvéru

+ dostupnost’ pre masy

− vysok´alatencia

− dostupnýhardvérje zdiel’aný

− dynamicky sa meniaci poˇcetv´ypoˇctov´ych jednotiek

Ulohámspracovávanýmpomocou´ GPU je moˇznénastavovat’ rôznu prioritu a teda klient nemus´ıbyt’ vôbec ruˇsenývýpoˇctom(môˇzemu nastavit’ najniˇzˇsiu prioritu).

3.2.4 Zhrnutie Existujúaj d’alˇsiesoftvérovémoˇznostiako paralelizovat’ aplikácie,napr´ıkladOpenMP[2] ˇci OpenCL (dokáˇzevyuˇz´ıvat’ aj graficképrocesory na matematickévýpoˇcty)[12], avˇsaktieto pracujúiba nad výpoˇctovýmmodelom so zdiel’anou pamät’ou, ˇconámnevyhovuje.

11komunikaˇcn´yprotokol

13 Kapitola 4

Realiz´acia

Metódasledovania lúˇcasa dápop´ısat’ ako urˇcitýsled výpoˇctov, kde výpoˇcetjednéholúˇca nasleduje výpoˇcetdruhého lúˇcaa tieto súmedzi sebou nezávislé.Práve tátonezávislost’ námdáva moˇznost’ vysokej paralelizácie a teda schopnost’ maximálnevyuˇzit’ výpoˇctovú silu, ktorúmámek dispoz´ıcii.Vznikánámtu vˇsakniekol’ko problémov, ktorémus´ımepri paralelizáciirieˇsit’. Najprv si vˇsakbolo nutnézvolit’ zobrazovac´ısoftvér,na ktorom aplikáciu postav´ıme.

4.1 YafaRay

Z vol’ne dostupných zobrazovac´ıch systémov som si pre svoju prácuvybral YafaRay[8], ktorýje uˇzniekol’ko rokov súˇcast’ou populárneho3D modelovacieho softvéruBlender[9] a aktuálne je v pr´ıprave modul[5] pre fungovanie v modelovacom programe trueSpace [4]. Dôvody, preˇcosom zvolil YafaRay:

• Programovac´ıjazyk: Jadro tohto softvéruje nap´ısanékompletne v C++, ˇcomi vyhovuje kvôlivol’be kniˇznice,pomocou ktorej budem tento zobrazovac´ısystémpa- ralelizovat’. • Akt´ıvny vývoj a komunita: YafaRay je stálev akt´ıvnomvývoji a jeho komunita sa zdruˇzujena internete. Mámteda moˇznost’ z´ıskavat’ informáciepriamo od vývojárov, ako aj poskytnút’ pomoc pri jeho vývoji. • Vlastnérozhranie: YafaRay vyuˇz´ıva vlastnýformátvstupných dát(zaloˇzenýna XML), ktorýdefinuje samotnúscénu, ako aj nastavenia zobrazovacieho systému. Tie- to vstupnédátaje jednoduchémodifikovat’ za úˇcelomoptimalizáciea nie je nutné pouˇz´ıvat’ aplikácietret´ıch strán. • Pokroˇcilost’: YafaRay umoˇzˇnujezobrazovat’ detailnéscény, ktorévyuˇz´ıvajúpokroˇcilé nastavenia osvetlenia, materiálov atp. Vd’aka tomu rastie zloˇzitost’ scény a dovol’uje mi testovat’ výslednúaplikáciuna vysokom poˇctepoˇc´ıtaˇcov bez toho, aby bola rýchlost’ zobrazovania limitovanákomunikáciou. • LGPL licencia: Tátolicencia mi umoˇzˇnujeakúkol’vek úpravu zdrojovéhokódupô- vodnéhosoftvéru.

Históriatohto projektu siaha do roku 2001, kedy Alejandro Conty Estévez zaˇcalpro- gramovat’ projekt YafRay (Yet Another Free Raytracer), ktorýbol v júli2002 vypustený

14 pre verejnost’. Na poˇziadavku komunity grafikov v programe Blender bol YafRay v au- guste 2004 pridanýdo Bleneru ako zásuvnýmodul. Návrhvˇsaknebol dostatoˇcneflexibilný a pridávanie d’alˇsejfunkcionality si vyˇzadovalo prepisovanie vel’kých ˇcast´ıkódu.Posledná verzia YafRay je 0.0.9 z leta 2006. YafaRay je výsledokprepisovania YafRayu od základu, zaˇcalosa na ˇnompracovat’ uˇzv decembri 2005. V októbri2008 bola vydanáverzia 0.1.0 zaloˇzenána rev´ızii280. YafaRay je momentálnevo verzii 0.1.0.301 (13. apr´ıl2009) a podporuje platformy Win- dows, Mac OS X a Linux. Na skompilovanie sa pouˇz´ıva automatizovanýsoftvérovýnástroj SCons [10] a medzi vyˇzadovanékniˇznicepatr´ıpthread1, libxml2, libjpeg3, libpng4, Ope- nEXR5 (volitel’né),freetype26, zlib7 a Qt8 (volitel’né). Hlavnévlastnosti YafaRayu:

• Osvetlenie: bodové,smerové,ploˇsné,sférické,slneˇcné,svetlo prostredia

• Materiály: pouˇzitieviacerých druhov materiáluna objekt, rozptýlenéa zrkadlovéod- razy, priesvitnost’, priehl’adnost’, podpora leskléhoa matnéhomateriálu,vyˇzarovanie materiálu

• Mapovanie: podpora viacer´ych text´urna shader9, UV mapovanie10, atp.

• Textúry: základnétypy obrazových textúr(tga, jpeg, png, exr, hdr), procedurálne textúry(oblaky, mramor, drevo, ˇsum,atp.)

• Pozadia: konˇstantné,generátorslneˇcnejoblohy so slneˇcnýmsvetlom a svetlom ob- lohy, textúrované,gradient

• Kamery: perspekt´ıvna,ortografická,architektonickáa uhlovákamera

• Ploˇsnéintegrátory: sledovanie dráhy lúˇca11, obojsmernésledovanie dráhy lúˇca12 path tracing, priame nasvetlenie s podporou kaustiky a pohlcovania svetla

• Antialiasing: adapt´ıvnevyhladzovanie hr´an13

• podpora rozˇs´ıren´ı

4.2 Komunikaˇcn´eprostredie

Jednou z op´ısaných moˇznost´ıpre mas´ıvnu paralelizáciuje kniˇznicaMPICH, ktoráimple- mentuje MPI (Message Passing Interface) pre jazyk C/C++ a poskytuje vysokývýkon

1implementáciaPOSIXových vlákien 2kniˇznicaurˇcenána spracovávanie XML súborov 3spracovávanie obrazového formátujpeg 4spracovávanie obrazového formátupng 5spracovávanie obrazového formátuopenexr 6kniˇznicapre zobrazovanie p´ısma 7kniˇznicaurˇcenána kompresiu dát 8defin´ıciagrafickéhouˇz´ıvatel’skéhorozhrania 9sada inˇstrukci´ıvykonávanágrafickýmprocesorom 10angl. UV mapping 11angl. path tracing 12angl. bidirectional path tracing 13angl. adaptive antialiasing

15 a ˇsirokúportabilitu na rôznych platformách. Podporuje viacero druhov komunikácieako unicast, multicast alebo broadcast, v blokujúcejalebo neblokujúcejforme. Blokovacie zasielanie dátznamená,ˇzeodosielatel’ ˇcaká,kým sa dátaz vyrovnávacej pamäteneodoˇslúpomocou komunikaˇcnéhokanáluprij´ımatel’ovi. Pri neblokujúcomodoslan´ı správyodosielatel’ vyˇslepr´ıkaz na odoslanie, ale neˇcakána samotnéodoslanie. Z tohto dôvodu je nutnédat’ pozor na to, aby dátav pamätineboli prep´ısanépredtým,neˇzsúnaozaj odoslané.Blokujúceprij´ımaniesprávzastav´ıproces a ˇcaká,kýmneprijme danúsprávu. Poˇcastohto ˇcakania nie je moˇznévykonávat’ ˇziadnu inúˇcinnost’. Neblokujúceprij´ımanie správyznamená,ˇzeproces správuoˇcakáva, ale neblokuje spracovávanie kódu,takˇzemôˇze vykonávat’ inúˇcinnost’. Pri oboch typoch neblokujúcejkomunikáciemôˇzemeotestovat’ ˇci komunikáciaprebehla do konca a podl’a toho rozhodnút’, ako bude proces pokraˇcovat’ d’alej. Oba druhy blokujúcejkomunikácievyuˇz´ıvajúpas´ıvneˇcakanie. MPICH po spusten´ıinicializuje dve premenné,z ktorých jedna drˇz´ıhodnotu poˇctuspus- tených procesov a druháidentifikaˇcnéˇc´ısloaktuálnehoprocesu. Takto je moˇznéjednoducho adresovat’ správyostatnýmprocesom alebo napr´ıkladrozdel’ovat’ prácumedzi procesmi bez nutnosti mat’ jeden centrálny proces, ktorýby tútoˇcinnost’ riadil. Pri pouˇzit´ıMPICH je nutnédefinovat’ tzv. machinefile“, ˇcoje súbor obsahujúcinázvypoˇc´ıtaˇcov, ktorébudú ” pouˇziténa výpoˇcet.Tátokniˇznicaje dostupnána vˇsetkých ˇskolských poˇc´ıtaˇcoch a teda v tomto ohl’ade nie je nutnéˇziadne zasahovanie do ich softvérovéhovybavenia.

4.3 Paraleliz´aciasledovania l´uˇca

4.3.1 Rozdelenie práce Pred samotnýmzobrazen´ımje nutnévýpoˇcetscény rozdelit’ na menˇsievýpoˇcty a distribuovat’ ich medzi výpoˇctovéjednotky. Toto rozdelenie sa dáovplyvnit’ viacerýmispôsobmi a teda mámeviac moˇznost´ıefekt´ıvnevyrieˇsit’ tento problém.

Rozdelenie podl’a poˇctuvýpoˇctových jednotiek Najjednoduchˇs´ımspôsobom, ako rozdelit’ scénu, je prakticky narezat’“ plátnona urˇcitý ” poˇcetˇcast´ı,ktorýsa rovnápoˇctudostupných procesorov a výslednýobraz poskladat’ z týchto ˇcast´ı.Tu námnastáva problémnevyuˇzitiavˇsetkých procesorov po celýˇcas,pretoˇzescéna nie je rovnako zloˇzitávo vˇsetkých svojich ˇcastiach a teda výpoˇcetjednej ˇcastimôˇzetrvat’ nepomerne dlhˇs´ıˇcas neˇzvýpoˇcetinej ˇcasti.Toto by mohlo spôsobit’ situáciu,kde jeden procesor poˇc´ıtasvoju ˇcast’ scény a pritom ostatnéprocesory súv stave neˇcinnostia celková efektivita systému klesá.

Rozdelenie podl’a zloˇzitostiscény N´ızka efektivita predoˇsléhospôsoburozdel’ovania prácesa dáeliminovat’ vytvoren´ımalgo- ritmu, ktorýanalyzuje scénu ako celok a potom ju rozdel´ına ˇcasti,ktorévyˇzadujúpribliˇzne rovnakýˇcasspracovania. Na efektivite tohto algoritmu potom záleˇz´ıcelýparalelizovaný systém.Vel’kou nevýhodou tejto analýzyje cena, pretoˇzedosiahnutie vysokej efektivity je podmienenéh´lbkovýmrozborom scény, ˇcoje taktieˇzvýpoˇctovo vel’mi nároˇcné.Poˇcastejto analýzyby boli vˇsetkyvýpoˇctovéjednotky v stave neˇcinnosti.

16 Model klient-server Dalˇsoumoˇznostˇ ’ou je pouˇzit’ model klient-server, kde jeden proces bude distribuovat’ prácu medzi viacerévedl’ajˇsie procesy, ak o ˇnupoˇziadajú.Tu námvznikajúdva limitujúcefaktory, podl’a ktorých sa mus´ımeriadit’. Ak sa rozhodneme rozdel’ovat’ prácuna vel’mi maléˇcasti, vznikne situácia,kde procesy budúmedzi sebou viac komunikovat’ neˇzpoˇc´ıtat’ obraz a to bude obmedzovat’ celkovúrýchlost’ zobrazovania. Ak budeme rozdel’ovat’ prácuna pr´ıliˇs vel’kéˇcasti,potom násbude obmedzovat’ práve vel’kost’ tejto ˇcasti,pretoˇzevˇzdymôˇzenastat’ situácia,kde námzostane vypoˇc´ıtat’ len jednu ˇcast’ obrazu, ktorábude dostatoˇcne zloˇzitána to, aby výkonnost’ celéhozobrazovacieho systému rap´ıdneklesla. Preto je potrebnézvolit’ primeranúvel’kost’ zobrazovanej ˇcasti, aby mohli procesy pracovat’ dostatoˇcneefekt´ıvne a výpoˇcetjednej ˇcastinebude kritický.Kaˇzdávýpoˇctovájednotka vˇsakbude poˇc´ıtat’ aˇz niekol’ko desiatok týchto segmentov, ˇcov koneˇcnomdôsledkuvytvárazbytoˇcnúkomunikáciu v poˇciatkuspracovania scény.

Model klient-server s ohl’adom na zn´ıˇzenúkomunikáciu Model klient-server je vhodnou vol’bou pre zabezpeˇceniestálejzát’aˇzevˇsetkých výpoˇctových jednotiek, je vˇsakdobrého modifikovat’ tak, aby sme minimalizovali komunikáciu.Ked’ˇze vieme, ˇzev poˇciatkudistribúcieprácemôˇzemepoˇc´ıtat’ s tým,ˇzekaˇzdájednotka vypoˇc´ıta aˇzniekol’ko desiatok menˇs´ıch výpoˇctov, tak môˇzemeprácu rozdel’ovat’ na vel’kéˇcastia aˇz postupne vel’kost’ týchto ˇcast´ızmenˇsovat’. Napr´ıkladcelúscénu rozdel´ıme na 2n ˇcast´ı,kde n ˇcast´ırozdistribuujeme medzi n výpoˇctových jednotiek a zvyˇsnéˇcast´ırozdel´ımeznova na d’alˇs´ıch 2n ˇcast´ı,ktorébudeme distribuovat’ aˇznejakýprocesor dokonˇc´ıpridelenúprácu a vyˇziadasi d’alˇsiu.Takto budeme rekurz´ıvnepokraˇcovat’, aˇzkýmnenaraz´ımena dopredu urˇcenýlimit vel’kosti bloku, pod ktorýuˇznebudeme scénu d’alej rozdel’ovat’. Táto metóda je pri výkonnostne rovnakých výpoˇctových jednotkách najvhodnejˇsia,hlavne z pohl’adu komunikácie.

4.3.2 Komunikácia Dalˇs´ıˇ problém,ktorýje nutnévyrieˇsit’ pri návrhu, je komunikácia.Medzi jednotlivými obrázkami animáciebudúzmeny na scénea tie bude potrebnédistribuovat’ medzi procesy tak, aby vedeli ako spracovat’ nasledujúciobrázok.

17 Kapitola 5

Implement´acia

5.1 Rozdelenie pr´ace

Model klient-server z kapitoly 4.3.1 je implementovanýv plnej miere. Vˇsetkyzúˇcastnené procesy majútzv. mapu obrázku,kde súvˇsetkybloky unikátneoˇc´ıslované.Týmto spôsobom z´ıskame rýchlejˇsiua jednoduchˇsiukomunikáciuza cenu o nieˇcovyˇsˇs´ıch pamät’ových nárokov, ked’ˇzena oznaˇceniebloku staˇc´ıodoslat’ jeho identifikaˇcnéˇc´ısloa nie vˇsetkyjeho súradnice. Ukáˇzkurozdelenia prácepri pouˇzit´ı4 procesov a obrázkuso ˇs´ırkou 800 obrazových bodov môˇzemevidiet’ na obrázku 5.1. Pri distribuovan´ıprácezaˇc´ınahlavnýproces od bloku ˇc´ıslo 0 a inkrementálnepokraˇcujeaˇzdo konca zoznamu, ˇcorovnomerne distribuuje zát’aˇz.Pri zvyˇsovan´ıpoˇctuprocesov sa takmer lineárnezvyˇsujepoˇcet blokov.

0 1 2 3 4 5 6 7 8 9 10 11 12 13

100 50 34 30

800 px

Obrázok5.1: Schémarozdelenia obrázkuna viacerébloky pri pouˇzit´ı4 procesov. Obrázok máˇs´ırku800 obrazových bodov.

5.2 Zmeny na sc´ene

Uˇz´ıvatel’ je v interakcii iba s hlavnýmprocesom, ktorýzobrazuje scénu na obrazovke a taktieˇzzbiera údaje o zmene kamery pomocou myˇsi a klávesnice. Hlavnýproces pri

18 poˇciatoˇcnomnaˇc´ıtan´ıscény zist´ınastavenie kamery (poz´ıciaa vektory urˇcujúcesmer a oto- ˇcenie)a z týchto údajov vypoˇc´ıtadva uhly, pomocou ktorých sa neskôrurˇcujehorizontálne a vertikálneotoˇceniekamery. Pri pohybe kamery pomocou klávesnice staˇc´ı jednoducho prepoˇc´ıtat’ jej poz´ıciu,ˇcosa deje pomocou priˇc´ıtaniaalebo odˇc´ıtaniavektoru od poz´ıcie. Ak vˇsakuˇz´ıvatel’ otáˇcakamerou, hlavnýproces zaznamenáva pohyb myˇsia premieta ho ako zmenu uhlov otoˇcenia.Následnesúpomocou týchto uhlov prepoˇc´ıtanévektory definujúce kameru, ktorémôˇzemeodoslat’ vedl’ajˇs´ımprocesom. Druhámoˇznost’ by bola posielat’ vedl’ajˇs´ımprocesom iba uhly a tie by si samotnévektory vypoˇc´ıtalisamé,to by vˇsakuberalo z výpoˇctovéhovýkonu vedl’ajˇs´ıch procesov a preto tieto vektory poˇc´ıtahlavnýproces. Z tohto dôvodu bolo nutnéaby hlavnýproces taktieˇznaˇc´ıtal scénu z XML súboru a týmz´ıskal informáciu,ako je definovanákamera.

5.3 Komunik´acia

Pri paralelnom spracovávan´ıvyˇzadujemevysokúrýchlost’ a preto mus´ıbyt’ komunikácia rieˇsenás minimálnouréˇziou.Poˇcasbehu aplikácienastávajútri situácie,kedy je potrebné, aby medzi sebou komunikovali dva prvky.

Odosielanie práce Hlavnýproces je v stave neustálehoprij´ımaniasprávyo dokonˇcen´ıurˇcitéhobloku. Po prijat´ısprávyo ˇc´ısleobrázkua bloku, ktorýje následneodoslanývedl’ajˇs´ımprocesom, zaháji hlavnýproces blokujúceˇcakanie na obrazovédáta.Je nutnépouˇzit’ blokujúceˇcakanie, aby bol vedl’ajˇs´ıproces obslúˇzenýˇconajrýchlejˇsiea mohol pokraˇcovat’ v spracovávan´ıd’alˇsieho bloku dáta taktieˇzaby neblokoval d’alˇsieprocesy, ktoréchcúodoslat’ dátahlavnému procesu. Po prijat´ı hotovéhobloku ho hlavnýproces spracuje a pokraˇcujev neblokujúcom ˇcakan´ına d’alˇsiesprávy. Vedl’ajˇs´ıproces pokraˇcujev spracovávan´ıd’alˇsiehobloku. Komu- nikáciuznázorˇnujediagram 5.2.

Server Klient

ku blo ácia tifik Iden

Príprava na príjem dát a Dát

Obrázok5.2: Diagram komunikáciepri odosielan´ıdátovéhobloku.

19 Vyˇziadaniepráce V obvyklom pr´ıpadeby postaˇcovalo, aby bola nováprácazaslanáaˇzpri prijat´ıhotovej práce,avˇsakmôˇzenastat’ pr´ıpad,kedy dva vedl’ajˇsie procesy odosielajúprácua jeden z nich by musel ˇcakat’, kýmten druhýdokonˇc´ıkomunikáciu, aby mohol byt’ obslúˇzený.Toto je neˇziaduciefekt blokujúcejkomunikácie,preto je poˇziadavka o novúprácusamostatnou ˇcast’ou komunikácie,ktoráprebieha eˇstepred odoslan´ımhotovéhobloku obrazových dát. Pred dokonˇcen´ımbloku práceodoˇslevedl’ajˇs´ıproces dotaz na novúprácua neblokujúco ˇcakána odpoved’, ktorúdostane eˇstepoˇcasspracovania aktuálneho bloku. Po dokonˇcen´ı a odoslan´ı bloku môˇzevedl’ajˇs´ı proces bez preruˇseniapracovat’ na bloku nasledujúcom. Diagram 5.3 zobrazuje poˇziadavku a odpoved’.

Server Klient

rácu vú p o no osť Žiad Zahájenie neblokujúceho čakania Id ent ifiká tor b loku

Obrázok5.3: Diagram komunikáciepri ˇziadan´ıo pracovnýblok.

Zmena scény Pri povolen´ıinterakcie medzi uˇz´ıvatel’om a scénou, je nutnétieto zmeny na scénepremi- etnut’ do vˇsetkých vedl’ajˇs´ıch procesov, ked’ˇzevˇsakchceme zabránit’ akejkol’vek zbytoˇcnej komunikácii,tieto zmeny súodosielanéiba ak nejakénastanú.Pred odoslan´ımprvéhopra- covnéhobloku z novéhoobrázkusa zistia zmeny oproti predchádzajúcemu. V pr´ıpade,ˇze nejakézmeny nastali, sútieto odoslanévˇsetkýmvedl’ajˇs´ımprocesom, ktoréich aplikujú pred zaˇciatkom nasledujúcehobloku. Z tohto vyplýva, ˇzeak uˇz´ıvatel’ pohne kamerou v ˇcase zobrazenia urˇcitéhosn´ımku(a prebieha výpoˇcetnasledujúceho),tieto dátao pohybe sa odoˇslúaˇzpri zaˇcat´ıvýpoˇctud’alˇsiehosn´ımku,takˇzevýsledokpohnutia kamery sa na obrazovke zobraz´ıaˇzdva sn´ımkyneskôrneˇzbol danýpohyb vykonaný.Ked’ˇzetátokomunikácia môˇzenastat’ kedykol’vek poˇcasbehu aplikácie,je nutnéaby sa vedl’ajˇsie procesy správali pri prij´ıman´ısprávyo kamere neblokujúco.Komunikáciaje zobrazenádiagramom 5.4. Ked’ˇzeMPI pracuje na piatej a vyˇsˇsejvrstve modelu OSI a na transportnej vrstve vyuˇz´ıva TCP, nie je potrebnéodosielat’ potvrdenie o prijat´ı správ(TCP protokol za- bezpeˇcuje,ˇzeodoslanáspráva bude doruˇcená).

20 Server Klient

D efi níci a no vej kam ery

Obr´azok5.4: Diagram komunik´aciepri zasielan´ınovej kamery.

5.3.1 Zobrazovanie Obrazovédátazozbieranéhlavnýmprocesom sa zobrazujúpomocou kniˇzniceSDL, ktorá slúˇzina základnéspracovávanie multimédi´ıa jednoduchúsprávuvstupno/výstupných zariaden´ı. SDL dovol’uje definovat’ ˇstruktúruvstupných dát,a teda je dostaˇcujúcevyuˇzit’ internúpamät’ YafaRayu ako zdroj dát,ktorésa majúzobrazit’ na obrazovke.

5.3.2 Uˇz´ıvatel’skývstup SDL definuje rôzneudalosti, ktorésúspúˇst’anépri zachyten´ıinterakcie medzi uˇz´ıvatel’om a poˇc´ıtaˇcompomocou rôznych vstupných zariaden´ı.V tomto pr´ıpadedetegujeme udalosti z myˇsia klávesnice, ktorésa odzrkadl’ujúako zmeny polohy kamery, resp. jej uhlu otoˇcenia. YafaRay mákameru definovanúpolohou v scénea dvoma vektormi, ktorédefinujúsmer kamery a jej otoˇcenie.Aby bolo moˇznémenit’ polohu kamery je postaˇcujúcepriˇc´ıtat’ alebo odˇc´ıtat’ vektor smeru zmeny polohy od pôvodnej poz´ıcie.Pri zmene uhlu otoˇceniaje to zloˇzitejˇsie,pretoˇzepohyb myˇsinie je moˇznéjednoducho premietnut’ do zmeny vektorov. Pri inicializáciiprogramu sa z defin´ıciekamery vypoˇc´ıtajúdva uhly definujúcejej smer v horizontálnoma vertikálnomsmere. Tieto uˇzje jednoduchéupravit’ podl’a vstupu z myˇsi, pretoˇzejej súradnicesútieˇzdanév horizontálnoma vertikálnomsmere. Po aplikovan´ı zmeny smerových uhlov vypoˇc´ıtamenovévektory, ktorýmisa riadi YafaRay. Nevýhodou je, ˇzenevieme, ˇciuˇz´ıvatel’ skôrzmen´ıpolohu a smer kamery, alebo pr´ıde správa od vedl’ajˇsiehoprocesu, preto mus´ımezabezpeˇcit’, aby bol hlavnýproces schopný spracovat’ akúkol’vek poˇziadavku. Najjednoduchˇsieby bolo pouˇzitieMPI obdoby funkcie select() (z jazyka C) s ˇcasovýmlimitom nastavenýmtak, aby bol napr´ıkladpohyb sn´ımaný 10-krátza sekundu. MPI vˇsakpodobnúfunkciu neimplementuje, jedinýmvýchodiskom teda ostáva pouˇzitieakt´ıvnehoˇcakania na správyod vedl’ajˇs´ıch procesov a sn´ımat’ pohyb po vyprˇsan´ıurˇcitéhoˇcasovéhointervalu.

5.3.3 Zobrazovanie viacerých scén SamotnýYafaRay je navrhnutýtak, aby zobrazil jednu scénu a ukonˇcilsvoj beh. Z pohl’adu rýchlosti námtýmvznikajúproblémy pri inicializáciia alokovan´ıpamätea nastavovania zobrazovacieho systému, pretoˇzekaˇzdáz týchto operáci´ıspomal’uje proces zobrazovania. Ked’ˇzeakékol’vek spomalenie je nepr´ıpustné,bolo nutnévˇsetkymiesta, kde sa vykonávala re- dundantnáˇcinnost’, nájst’ a modifikovat’ tak, aby sa pri kaˇzdomsn´ımkuvykonávali iba nutné

21 operáciepre inicializáciuscény a zobrazovacieho systému. Vˇsetkyvyrovnávacie pamäteboli zmenenéna statické,ich vel’kost’ bola nastavenána takú,aby mohol danýproces spracovat’ blok s najväˇcˇs´ımirozmermi, a ich alokáciaa uvol’ˇnovanie sa vykonáva iba pri spusten´ı, resp. na konci procesu. Nakoniec sa pri kaˇzdomnovom spracovávanom bloku inicializuje iba objekt, ktorýreprezentuje internúpamät’ pre zobrazovanédátaa novákamera, ak je dostupná.

5.4 Zbieranie d´at

Po skonˇcen´ızobrazovania scény sa YafaRay snaˇz´ıuloˇzit’ dátado súboru. Toto miesto bolo potrebnéprep´ısat’ tak, aby vedl’ajˇsieprocesy odoslali tieto dátahlavnému procesu, ktorý ich zobraz´ı.Obrazovédátasúuloˇzenév jednorozmernom poli, kde kaˇzdýzobrazovanýpixel pozostáva z troch bajtov, ktorédefinujútri farebnézloˇzky(ˇcervená,zelená,modrá).Vel’kost’ tohto pol’a je definovanározmermi práve spracovávanéhobloku. Po vypoˇc´ıtan´ıceléhobloku je toto pole spolu s identifikátoromodoslanéhlavnému procesu, ktorýho podl’a danéhoiden- tifikátoruuloˇz´ına patriˇcnémiesto v pamäti,ktorábude zobrazenápo dokonˇcen´ıvýpoˇctu celej scény.

5.5 Zhrnutie

Ako uˇzbolo spomenutév kapitole 4.1, YafaRay je naprogramovanýv jazyku C++, teda aj následnéúpravy boli vykonávanév C++ a C. Pre bezproblémovývývoj som zvolil operaˇcnýsystémGNU/Linux (CentOS), kde jedinou nutnou úpravou ˇskolských poˇc´ıtaˇcov bolo doinˇstalovanie nástroja SCons, ktorýslúˇzina automatizáciuprekladu zdrojových kódov do binárnejpodoby. Vˇsetky ostatnévyˇzadovanékniˇznice1 boli predinˇstalované. V nasledujúcich sekciách sa nachádza ilustrat´ıvny kódpre jednoduchúpredstavu sprá- vania sa implementovanej aplikácie.

1pthread, libxml, libjpeg, libpng, freetype2, zlib, SDL, mpich

22 5.5.1 Hlavn´yproces

int main () { // inicializácia, vstupné kontroly // nastavenie zobrazovacieho systému // výpoˇcet súradn´ıc jednotlivých blokov // inicializácia SDL // poˇciatoˇcná defin´ıcia kamery // zaˇciatok prij´ımania správ od ostatných procesov

while (1) { // kontrola stlaˇcenia kl´aves a pohybu myˇsi if ( udalostˇ ) { // zmena lok´alnej kamery }

// kontrola ukonˇcenia aplikácie if ( koniec ) { // prijatie dát od vˇsetkých procesov // odoslanie ukonˇcovacej sekvencie // ukonˇcenie aplikácie }

// kontrola prijatia hotového bloku dát if ( prijatˇ nové dáta) { // prijatie dát a ich uloˇzenie do zásobn´ıku

// kontrola ˇci sme prijali posledn´y blok sn´ımky if (posledn´y blok sn´ımky) { // zobrazenie sn´ımky na obrazovke } }

// kontrola prijatia poˇziadavky nových dát if ( odoslatˇ nové dáta) { // zaslanie nového bloku dát

// kontrola ˇci zaslaný blok bol posledným if (posledný blok sn´ımky) { // rozposlanie lokálnej kamery procesom } } } }

23 5.5.2 Vedl’ajˇs´ıproces

int main () { // inicializácia, vstupné kontroly // nastavenie zobrazovacieho systému // výpoˇcet súradn´ıc jednotlivých blokov // inicializácia zobrazovacieho systému // naˇc´ıtanie scény z XML súbora // zaˇciatok prij´ımania správ od hlavného procesu

while (1) { // vyˇziadanie pr´ace od hlavn´eho procesu

// kontrola prijatia ukonˇcovacej sekvencie if ( koniec ) { // ukonˇcenie spracovávania a koniec aplikácie } else { // kontrola prijatia novej kamery if (nová kamera) { // nastav novú kameru }

// reinicializuj scénu // zobraz danú scénu // odoˇsli vypoˇc´ıtanú scénu hlavnému procesu } } }

24 Kapitola 6

Testovanie a vyhodnotenie v´ysledkov

Testovanie prebiehalo na ˇskolských stolových poˇc´ıtaˇcoch, ktorésúprepojenévysokorý- chlostnýmethernetom (1Gb/s) [22], ˇcozaruˇcujedostatoˇcnúrýchlost’ a priepustnost’ pre testovanúaplikáciu.Poˇc´ıtaˇceboli vybavenédvojjadrovýmiprocesormi Intel Core 2 CPU E6600 @ 2.40GHz (19.20 GFLOPS [13]) so 4MiB cache a 1GiB RAM. Pri testovan´ıbola vy- pnutámoˇznost’ interakcie so scénou,aby testovanie rôznych konfiguráciinebolo ovplyvnené odliˇsnouzloˇzitost’ou scény, ale aby bola scéna pri kaˇzdom testovan´ıidentická. Zvolenábola jednoducháscénazloˇzenáz transparentnéhomodelu Suzanne“ (testovac´ı ” objekt Blenderu [6]) na kvádrovom podstavci a jednéhozdroja svetla (slneˇcnésvetlo). Jed- noduchost’ tejto scény bola zvolenáz dôvodu snahy zabezpeˇcit’ vyt’aˇzeniehlavnéhoprocesu, ktorýtakto mus´ıneustálevybavovat’ poˇziadavky vedl’ajˇs´ıch procesov, pretoˇzefrekvencia komunikácierastie tak, ako zloˇzitost’ scény klesá,ked’ˇzevýpoˇcty trvajúkratˇsiea týmsa interval komunikácieskracuje. Zvolenúscénu je moˇznévidiet’ v pr´ılohe A.1. Celáscénaje uloˇzenáv pamätipoˇc´ıtaˇcapoˇcasbehu aplikáciea tási vyˇziadaokolo 9MiB. Pri testovan´ıbola aplikácianastavenána zobrazenie 11 sn´ımok,kde sa kvôlirelevant- nosti dátzaˇcalipoˇc´ıtat’ ˇstatistickéúdaje aˇzpo prvej sn´ımke, aby sa na výkone neodzrkadlil ˇcaspotrebnýna vytvorenie zásobn´ıkov a inicializáciescény vo vedl’ajˇs´ıch procesoch. Po dokonˇcen´ızobrazovania sa vypoˇc´ıtalpriemernýˇcaspotrebnýna výpoˇcetjednej sn´ımky, pomocou ktoréhosom potom urˇcilzrýchlenie danéhonastavenia. Zobrazovanáscénamala rozl´ıˇsenie800x600 a vypnutévyhladzovanie hrán. Testovanie prebiehalo postupne s vyuˇzit´ımjednéhoprocesu, cez zdvojnásobovanie poˇctu procesov a prep´ınan´ımmedzi pouˇzit´ımjednéhoalebo dvoch vlákien.Ked’ˇzedostupnépo- ˇc´ıtaˇceboli vybavenédvojjadrovýmiprocesormi, rozhodol som sa porovnat’ aj výkon medzi pouˇzit´ımdvoch vlákienna proces a pouˇzit´ımjedného vlákna,ale s dvojnásobnýmpoˇctom procesov. Je nutnédodat’, ˇzemapovanie procesov na poˇc´ıtaˇceprebiehalo v pomere 1:1, a teda pri zdvojnásoben´ı poˇctuprocesov s pouˇzit´ım jednéhovláknamalo toto nastavenie k dispoz´ıciidvojnásobnýpoˇcetprocesorov, ˇciˇzedvojnásobnúkapacitu vyrovnávajúcej pamätedruhej úrovne, oproti nastaveniu s poloviˇcnýmpoˇctomprocesov a dvoma vláknami. Pri testovan´ısom bol obmedzenýnastaven´ımoperaˇcnéhosystému ˇskolských poˇc´ıtaˇcov, ktorýdovol’oval mat’ spustených naraz iba 128 procesov. Skript spúˇst’ajúci MPI aplikáciu vˇsakvytváratol’ko SSH1 pripojen´ı,kol’ko procesov je nastavených pre tútoaplikáciu.Ked’ˇze sa vˇsakvˇsetkytieto pripojenia vykonávali naraz, nie je moˇznévytvorit’ dostatok pripojen´ı

1zabezpeˇcen´ykomunikaˇcn´yprotokol (Secure Shell)

25 z dôvodu vyˇsˇsiespomenutéhoobmedzenia. Na druhústranu uˇzspúˇst’anie 64 procesov zna- menalo ˇcakanie niekol’ko sekúndna inicializáciuMPI a spustenie samotnej aplikácie.

Anal´yza v´ysledkov

Casˇ spracovávania Tabul’ka 6.1 zobrazuje priemernýˇcaspotrebnýna spracovanie jednej sn´ımky závislýna poˇcteprocesov a vlákien.Ako môˇzemevidiet’, výpoˇcettestovacej scény sa bl´ıˇzik jednej minúte,ale pri pridávan´ı spracujúcich procesov a vlákiensa toto ˇc´ıslo takmer lineárne zniˇzuje.

Casˇ spracovania [s] Poˇcetprocesov 1 vl´akno 2 vl´akna 1 46,149207 23,167489 2 23,090452 11,607080 4 11,538156 5,850429 8 5,766047 2,930448 16 2,874914 1,471821 32 1,440179 0,742165 64 0,718295 0,372003

Tabul’ka 6.1: Casˇ priemernéhospracovania jedného sn´ımkurôznym poˇctomprocesov.

Pomocou týchto dátsom následnevypoˇc´ıtalzrýchlenie a taktieˇzpercentuálnu efektivitu oproti ideálnemu ˇcasuspracovania pri danom poˇcteprocesov a vlákien.Tieto hodnoty sa nachádzajúv tabul’ke 6.2, kde zrýchlenie bolo vypoˇc´ıtanépomocou vzorca: ˇcasspracovania ˇcasspracovania jednýmprocesom s jednýmvláknom a na výpoˇcetpercentuálnejefektivity bol pouˇzitývzorec:

zr´ychlenie × 100 poˇcetprocesov × poˇcetvl´akien

Zrýchlenie V tabul’ke 6.2 môˇzemevidiet’, ˇzeefektivita sa vˇzdydrˇz´ıokolo 99-98%, ˇco je ukáˇzka toho, ˇzehlavnýproces bez problémov zvládaspracovávat’ a odpovedat’ na poˇziadavky vedl’ajˇs´ıch procesov a tie nie súbrzdenépri spracovávan´ısvojich výpoˇctových úloh.Môˇzemepredpo- kladat’, ˇzepri pouˇzit´ızloˇzitejˇsejscény by bola efektivita eˇstevyˇsˇsia,ked’ˇzepomer komu- nikáciek výpoˇctuby bol väˇcˇs´ıneˇzv pr´ıpadejednoduchej scény. Zauj´ımavéje zistenie, ˇze vˇsetkyvýpoˇcty vykonanépri urˇcitompoˇcteprocesov s jednýmvláknomsúo 1-2% rýchlejˇsie neˇzpouˇzitiedvoch vlákiena poloviˇcnéhopoˇctuprocesov. Dalˇsouzauj´ımavostˇ ’ou je, ˇzebez pouˇz´ıvania dvoch vlákiensa zrýchlenie nachádzanad oˇcakávanou hranicou zrýchlenia (poˇcet pouˇzitých procesov). Moˇzných vysvetlen´ıtýchto zisten´ıje hned’ niekol’ko:

26 1. S narastajúcimpoˇctompouˇzitých procesorov sa zväˇcˇsujeaj vel’kost’ vyrovnávajúcej pamätea týmpádomvzrastáaj rýchlost’ spracovávania. 2. Implementáciaviacvláknovéhospracovávania v YafaRay je chybnáa nastáva situácia, kde sa jednotlivévláknav urˇcitommomente blokujú. 3. Ked’ˇzenovévláknasa inicializujúpre kaˇzdýspracovávanýblok, réˇziana ich vytvorenie je dost’ vysokáa spôsobujespomalenie. 4. Pri dvojvláknovom spracovávan´ısa jedno vláknoz týchto vlákienmus´ıdelit’ o jadro s ostatnýmiprocesmi a neustáleprep´ınanie kontextu spomal’uje jeho výpoˇcet,na- rozdiel od jednovláknovéhospracovania, kde je toto vláknoplánovanéiba na jedno jadro a ostatnésystémovéprocesy na druhéjadro, ˇcomu tým pádomumoˇzˇnujeplnú rýchlost’ spracovania. 5. Pri meran´ısa vyskytla chyba spôsobenánapr´ıkladnestálymzat’aˇzen´ımsiet’e.

Zrýchlenie Poˇcetprocesov 1 vlákno 2 vlákna # % # % 1 1,000 100,00 1,992 99,60 2 1,999 99,95 3,976 99,40 4 4,000 100,00 7,888 98,60 8 8,004 100,05 15,748 98,43 16 16,052 100,33 31,355 97,98 32 32,044 100,14 62,182 97,16 64 64,248 100,39 124,056 96,92

Tabul’ka 6.2: Zrýchlenie spracovávania vzhl’adom na zvyˇsujúcisa poˇcetprocesov.

Tieto zistenia ma inˇspirovali k d’alˇsiemu testu, kde by sa procesy nemapovali na procesory v pomere 1:1, ale 2:1, ˇcoznamená,ˇzedva procesy by boli spustenéna jednom procesore. Toto nastavenie by malo potvrdit’ alebo vyvrátit’ aspoˇnjeden zo spomenutých dôvodov zrýchlenia.

Casˇ spracovávania so zmenou mapovania procesov V tabul’ke 6.3 sa nachádzaporovnanie ˇcasov spracovania pomocou rôznehopoˇctuprocesov vyuˇz´ıvajúcich iba jedno vláknona výpoˇcet s rozdielom mapovania procesov na procesory. Mapovanie 1:1 znamená,ˇzejeden proces je mapovanýna jeden procesor a tak sa v kaˇzdom procesore vyuˇz´ıva iba jedno jadro na spracovávanie. Pri pouˇzit´ımapovania 2:1 sa vyuˇz´ıvajú obe jadrána výpoˇceta teda poˇcetvyuˇzitých procesorov klesol o polovicu. Z nameraných hodnôtvid´ıme,ˇzerozdiely súminimálnea pohybujúsa iba v stotinách aˇztis´ıcinách sekundy. Vd’aka tomuto meraniu sa námpodarilo eliminovat’ dôvody ˇc.1a4. S výnimkou chyby merania námostali len moˇznosti, ktorésa týkajúvytvorenia vlákien, inicializácievnútorných ˇstruktúrv YafaRayi, ktorévláknavyuˇz´ıvajú,a spôsobuprácetýchto vlákien.Pre zistenie, ktorýz ostávajúcich dôvodov môˇzeza spomalenie, je nutnákontrola zdrojovéhokódua zistenie ako sa vláknavytvárajúa ako pracujú.

27 Casˇ spracovania [s] Poˇcetprocesov 1:1 2:1 4 2 23,090452 23,066219 0,024233 4 11,538156 11,535428 0,002728 8 5,766047 5,772635 -0,006588 16 2,874914 2,884196 -0,009282 32 1,440179 1,435194 0,004985 64 0,718295 0,739301 -0,021006

Tabul’ka 6.3: Rozdiel rýchlosti spracovávania s mapovan´ımjednéhoprocesu na jeden procesor (1:1) a dvoch procesov na jeden procesor (2:1).

Vplyv paralelnéhopr´ıstupuna výkon Tento test ukazuje rozdiel vo výkonnosti medzi originálnym YafaRayom a jeho paralelnou verziou. Testovacia scénabola zobrazená5-kráta na meranie jednotlivých ˇcasov bol pouˇzitý unixovýpr´ıkaz time“. Priemer jednotlivých ˇcasov, ako aj percentuálnespomalenie, sa ” nachádzav tabul’ke 6.4.

Casˇ spracovania [s] Spomalenie [%] YafaRay paraleln´yYafaRay 45,7808 47,2504 96,89

Tabul’ka 6.4: Rozdiel rýchlosti spracovávania medzi implementovanou aplikácioua neupra- venýmYafaRayom.

Výsledkyukazujúpribliˇznýrozdiel 1,5s, ˇcoje spôsobenépoˇciatoˇcnouinicializáciouMPI a niekol’konásobnoureinicializácioupotrebných ˇstruktúrpri zobrazovan´ıjednotlivých blokov v paralelnej verzii. Komunikáciamedzi procesmi v tomto pr´ıpade zaberala iba zlomok celkovéhoˇcasuspracovania.

Zmena spôsobuˇziadaniao prácu V tomto teste sa pokúsimporovnat’ rozdielne spôsoby vyˇziadaniapráce.V prvom pr´ıpadesi vedl’ajˇs´ıproces vyˇziadaprácupo dokonˇcen´ıa odoslan´ıdátovéhobloku, v druhom pr´ıpade si tútoprácuvyˇziadajeden krok2 pred dokonˇcen´ımbloku. Ked’ˇzedruhýspôsobby mal byt’ výkonnejˇs´ıpri ˇcastej komunikácii,boli pri tomto teste pouˇz´ıvanédve vlákna,ktoré zabezpeˇciarýchlejˇsiespracovanie obrazu. Nameranéhodnoty a rozdiely ˇcasov súv tabul’ke 6.5. Meranie ukazuje minimálny rozdiel medzi pouˇzitýmimetódami,ale ten sa vˇzdyprikláˇna na stranu druhej metódy. Rozdiel je vˇsakminimálny a z toho dôvodu neviem urˇcit’ ˇciide o skutoˇcnýpr´ınosdanéhopr´ıstupu alebo iba o chybu merania. Pri pouˇzit´ıviacerých procesov by sa pravdepodobne ukázalväˇcˇs´ırozdiel, ale kvôliobmedzeniu poˇctuspustených procesov nemámmoˇznost’ toto nastavenie otestovat’. 2jednotka spracovávania v YafaRayi

28 Casˇ spracovania [s] Poˇcetprocesov 1. met´oda 2. met´oda 4 1 23,266819 23,167489 0,09933 2 11,621041 11,607080 0,013961 4 5,8551925 5,850429 0,004763 8 2,9388262 2,930448 0,008378 16 1,487881 1,471821 0,01606 32 0,778693 0,742165 0,036528 64 0,374299 0,372003 0,002296

Tabul’ka 6.5: Casˇ priemernéhospracovania jednéhosn´ımkus rôznoumetódouvyˇziadania práce.

Grafickézobrazenie zrýchlenia Graf znázorˇnujetakmer lineárny rast rýchlosti výpoˇctupri zvyˇsovan´ıpoˇctuspracovávajúcich procesov a vlákien.

140

120 1 vlákno 2 vlákna 100

Zrýchlenie 60

0 0 10 20 30 40 50 60 70 Počet procesov

Graf 6.1: Zobrazenie zr´ychlenia v pomere so vzrastaj´ucimpoˇctomprocesov.

Odpojenie pracovnej jednotky

Tento test mal za úˇcelodhalit’ správanie zobrazovacieho systému v pr´ıpadeodpojenia jednotky poˇcasspracovávania. Test prebiehal za pouˇzitiaˇstyroch procesov s dvoma vláknami. Po spusten´ıaplikáciebol od siete odpojenýjeden poˇc´ıtaˇca následnepo piatich zobrazených

29 sn´ımkach znova pripojený.Záznamz behu aplikáciemôˇzemevidiet’ v zázname 6.2.

Starting Yaf-a-gRid. frame: 000, calc time [s]: 2.271019, time since last [s]: 16.198197 frame: 001, calc time [s]: 10.148216, time since last [s]: 0.096495 frame: 002, calc time [s]: 2.222181, time since last [s]: 15.445157 frame: 003, calc time [s]: 10.051718, time since last [s]: 0.094744 frame: 004, calc time [s]: 2.154703, time since last [s]: 15.445176 frame: 005, calc time [s]: 10.068287, time since last [s]: 0.119448 warning: received too old block: 4, from PID: 1, frame: 0! throwing away.. frame: 006, calc time [s]: 0.220894, time since last [s]: 13.544028 frame: 007, calc time [s]: 8.469486, time since last [s]: 0.399780 frame: 008, calc time [s]: 0.220894, time since last [s]: 5.652890 frame: 009, calc time [s]: 6.563714, time since last [s]: 5.923245 frame: 010, calc time [s]: 6.461315, time since last [s]: 5.821088

------working nodes: 4 threads: 2s picture size: 800x600 ------total frames: 10 total time: 62.542051s avg. time: 6.254205s avg. FPS: 0.159892

Záznam6.2: Záznampriebehu programu pri odpojen´ı pracovnej jednotky (poˇcasprvej sn´ımky)a opätovnom pripojen´ı(poˇcaspiatej sn´ımky).

Zo záznamu je vidiet’, ˇzeodpojenie prvku naruˇsilopoˇc´ıtanie ˇcasu,ˇcoje spôsobenéne- doruˇcen´ımvyˇzadovanéhobloku a následnýmnesplnen´ımurˇcitých podmienok nutných pre správnu funkcionalitu. Spracovávanie obrazu vˇsakpokraˇcujebez d’alˇs´ıch problémov s vý- nimkou prvej sn´ımky, kde chýbalblok, ktorýbol odoslanýna výpoˇcetodpojenému procesu. Po opätovnom zapojen´ıprocesu do výpoˇctuhlavnýproces prijal blok dátz prvej sn´ımky a zahodil ho, pretoˇzedátauˇzboli neaktuálne. Následnesa funkˇcnost’ aplikácievrátilado normálu. Priemernýˇcasspracovania sa len trochu navýˇsilod referenˇcnéhoˇcasu(5,850429) na- meranéhov minulom teste. Z toho vyplýva, ˇze odpojenie jednotky nemalo inývplyv, neˇz spomenutúchybu pri poˇc´ıtan´ıˇcasua maléspomalenie výkonu, ked’ˇzev urˇcitýˇcasbolo k dispoz´ıciimenej výpoˇctových jednotiek.

6.1 Porovnanie s in´ymirieˇseniami

Ked’ˇzeporovnávanie ˇcasovéhovýkonu s výkonom iných rieˇsen´ıje z dôvodu pouˇzitiaroz- dielneho softvérunemoˇzné,budem porovnávat’ iba ich percentuálnezrýchlenie pri navýˇsen´ı výpoˇctových jednotiek. Toto vyjadrenie výkonu udáva úspeˇsnost’ danej implementácie.

30 6.1.1 Parallel Ray-Tracing in MPI Skupina autorov vo svojej práci[16] opisuje ich aplikáciuparalelnéhosledovania lúˇca,ktorá pouˇz´ıva MPI, a výsledkydosiahnutétouto paralelizáciou.Ich pr´ıstupk rozdel’ovaniu práce je zaloˇzenýna priraden´ızoznamu obrazových bodov jednotlivýmprocesom, kde i-ty obra- zovýbod poˇc´ıta(i mod P )-ty procesor, takˇzekaˇzdýprocesor máprakticky pridelenúsiet’ bodov, ktoráby mala zabezpeˇcit’ ekvivalentnérozloˇzeniepráce.Vd’aka tomuto návrhu nie je nutnépouˇz´ıvat’ proces, ktorýby riadil ostatnéprocesy. Tie súsi vˇsetkyrovnéa vˇsetky vykonávajúvýpoˇcet.V tabul’ke 6.6 sa nachádzajúich nameranéhodnoty. Percentuálna efektivita zrýchlenia bola vypoˇc´ıtanápodl’a vzorca v kapitole6.

Poˇcetprocesov Casˇ spracovania [s] Zr´ychlenie [%] 1 498,5 100 2 249,7 99,82 4 124,8 99,85 8 62,4 99,83 16 31,3 99,47 32 15,7 99,08 64 7,8 99,55

Tabul’ka 6.6: Casyˇ spracov´avania obrazu v pomere so zvyˇsuj´ucimsa poˇctomprocesov v [16].

Z tabul’ky je vidiet’, ˇzezrýchlenie je, podobne ako u môjhorieˇsenia,takmer lineárnea vˇzdy sa drˇz´ı nad 99%. Dôvodom pre tieto výsledkyje nulovákomunikácia(okrem zbierania výsledkov) a teda procesy sa plne venujúzobrazovaniu scény.

6.1.2 Parallel Ray Tracing V správe [17] je op´ısanáparalelizáciaznámehosoftvéruPOV-Ray[21] s pouˇzit´ımvlákien a zdiel’anej pamäte.Pri paralelizáciipouˇzilirozhranie OpenMP, ktorépomocou rôznych direkt´ıvkompilátorua rut´ınpomáhavytvorit’ paralelnúaplikáciunad zdiel’anou pamät’ou v jazyku C/C++. Pomocou direkt´ıvsa dákompilátoruop´ısat’ konˇstrukcia urˇcitéhopr´ıkazu (napr. cyklus) a ten ho následnevykonáva paralelne. Pre rozloˇzenie zát’aˇzesi vybrali rieˇsenie,kde je obraz rozdelenýdo vodorovných blokov, ktorých vel’kost’ ja danápomo- cou ich vlastnéhoheuristickéhoalgoritmu. Tento algoritmus sa snaˇz´ıpredv´ıdat’ zloˇzitost’ objektov a podl’a toho rozdelit’ scénu na bloky s pribliˇznerovnakýmˇcasomspracovania. Poˇcetblokov je zhodnýs poˇctom pouˇzitých vlákien.Výsledkytejto prácesúv tabul’ke 6.7. Percentuálnaefektivita zrýchlenia bola vypoˇc´ıtanápodl’a vzorca v kapitole6. Z nameraných dátje moˇznévidiet’, ˇzerýchlost’ spracovávania rap´ıdneklesás poˇctom pouˇzitých vlákien.Táton´ızka efektivita sa dávysvetlit’ zlýmalgoritmom na rozdel’ovanie práce.Vytvorit’ heuristickúmetódu,ktoráby pred vykresl’ovan´ımobrazu vedela rozdelit’ tento obraz na úplnerovnakéˇcastia teda aj ich spracovanie by trvalo rovnako dlho, je vel’mi zloˇzitéa heuristika pomocou tejto metódyby pravdepodobne bola aj ˇcasovo nároˇcná, ˇcoby v koneˇcnomdôsledkunemuselo priniest’ pozit´ıvnevýsledky. Z tohto dôvodu súniektoré bloky zloˇzitejˇsiena výpoˇceta teda nastáva situácia,kde niektorévláknavykonávajúvýpoˇcet priradenéhobloku, kýmostatnéuˇzsvoj výpoˇcetdokonˇcili.Tento pr´ıkladdemonˇstrujenut- nost’ rovnomernéhorozdel’ovania zát’aˇze,pretoˇzeaj malérozdiely môˇzuviest’ k odchýlkam.

31 Poˇcet ˇsachovnica ryba vl´akien Casˇ [s] % Casˇ [s] % 1 191 100 62 100 2 99 96,46 34 91,18 3 65 97,95 24 86,11 4 49 97,45 18 86,11 5 43 88,84 16 77,50 6 38 83,77 14 73,81 7 32 85,27 11 80,52 8 29 82,33 12 64,58

Tabul’ka 6.7: Casyˇ spracovávania scény so ˇsachovnicou a scény s rybou v pomere so zvyˇsujúcimsa poˇctomvlákienv [17].

6.1.3 Hybrid Scheduling for Parallel Ray Tracing Erik Reinhard v [18] popisuje paralelnésledovanie lúˇca,ktoréimplementuje hybridnépláno- vanie. Toto plánovanie funguje na princ´ıpe rozdelenia scény na voxely, ktorésúnáslednepri- radenéurˇcitýmprocesom a tie naˇc´ıtajúiba tie objekty zo scény, ktorésa v týchto voxeloch nachádzajú.Týmto spôsobom sa snaˇz´ızn´ıˇzit’ pamät’ potrebnúna výpoˇcetscény jednotlivými uzlami. Proces následnevrhálúˇceiba v jemu priradených voxeloch. Ak vˇsak lúˇcopust´ı priestor priradenýprocesu, môˇzebyt’ transformovanýa predanýprocesu, ktorýspracováva susednýpriestor3. Po skonˇcen´ısledovania lúˇcasa farebnáhodnota vrátitomu procesu, ktorý lúˇcvytvoril. Tento pr´ıstupzvyˇsujekomunikáciu o posielanie lúˇcov, ale zniˇzujepamät’ové nárokyna výpoˇctovújednotku. Pre rýchle spracovávanie je priestor kaˇzdéhoprocesu roz- delenýa uloˇzenýdo BSP4 stromu. Druhou moˇznost’ou (namiesto transformáciea odoslania lúˇcainému procesu) je naˇc´ıtaniedanéhovoxelu do aktuálnehoprocesu a následnéspraco- vanie lúˇca5. Kombinovanie týchto dvoch metódsa nazýva hybridnéplánovanie. Vo svojej prácid’alej popisuje nevýhodu zvolenej implementáciepomocou PVM, pretoˇze tápred uˇz´ıvatel’om skrýva ˇstruktúrusiete a teda uˇz´ıvatel’ nevie, ˇcisúsusediace priestory aj fyzicky mapovanéna susednépoˇc´ıtaˇce,ked’ˇzepouˇzitásiet’ poˇc´ıtaˇcov je rovnako ako priestor rozdelenýdo dvojrozmernéhopol’a. V nasledovnom testovan´ısi vybral testovaciu scénu s názvom konferenˇcnámiestnost’“ ” s poˇctomsvetelných zdrojov 8 a 30. Pri plánovan´ıvyuˇz´ıval bud’ vyˇsˇsiespomenutýhybridný pr´ıstupalebo ˇcistoparalelný,kde sa automaticky vˇsetkylúˇcevychádzajúcez vlastného priestoru transformujúa odosielajúpr´ısluˇsnému procesu. Nameranévýsledkysa nachádzajú v tabul’ke 6.8. Percentuálnezrýchlenie bolo vypoˇc´ıtanépodl’a vzorca v kapitole6. Z výsledkov je poznat’ znaˇcnézrýchlenie do urˇcitéhopoˇctupouˇzitých procesov, avˇsakpri pouˇzit´ıviac ako 8 procesov zaˇc´ınajúˇcasyskracovat’ vel’mi pomaly a dokonca v niektorých pr´ıpadoch dokonca predlˇzujú.V oboch pr´ıpadoch súrozdiely sporadické. Tátoaplikáciepouˇz´ıva inýpr´ıstupplánovania, takˇzeporovnanie s moj´ımrieˇsen´ımnie je objekt´ıvne, ale je moˇznépozorovat’, ˇzesa pánovi Reinhardovi podarilo v niektorých

3angl. data parallel scheduling 4angl. binary space partitioning 5angl. demand driven scheduling

32 Hybridnéplánovanie Paralelnéplánovanie Poˇcetprocesov Casˇ [s] % Casˇ [s] % 8 svetelných zdrojov 2 226,7 100 675,0 100 4 137,0 82,74 430,7 78,36 8 91,5 61,94 262,8 64,21 16 88,5 32,02 272,2 31,00 24 82,4 22,93 274,3 20,51 32 89,3 15,87 193,0 21,86 30 svetelných zdrojov 2 368,9 100 1266,0 100 4 167,7 109,99 562,0 112,63 8 81,2 113,52 237,0 133,54 16 66,3 69,55 236,1 67,03 24 49,8 61,73 242,5 43,51 32 62,9 36,66 173,5 45,61

Tabul’ka 6.8: Casyˇ spracov´avania obrazu v pomere so zvyˇsuj´ucimsa poˇctomprocesov v [18].

pr´ıpadoch dosiahnut’ dvojnásobnézrýchlenie pri zdvojnásoben´ıpoˇctuvýpoˇctových jednotiek. V ostatných pr´ıpadoch neboli procesy vyt’aˇzenévýpoˇctomscény na maximum a väˇcˇsinu ˇcasustrávilitransformovan´ımlúˇcov a komunikáciou.Tátoprácavˇsakukazuje akýmsme- rom sa dáuberat’ pri spracovávan´ıscéns extrémnouzát’aˇzouna pamät’, akémetódyje moˇznépouˇzit’ pri tejto paralelizáci a akésúoˇcakávanévýsledky.

6.1.4 YafaRay Distributed Rendering Tento projekt je vel’mi zauj´ımavýz pohl’adu uˇz´ıvatel’ov YafaRayu, pretoˇzeim umoˇzˇnuje vyuˇz´ıvat’ výhody paralelnéhospracovávania za n´ızkucenu. Ako základvyuˇz´ıva GPU, pre ktorýje vytvorenýmodul a siet’ YafaRay, kde súpripojenéaktuálnedostupnépoˇc´ıtaˇce. Ak chceme vyuˇz´ıvat’ moˇznostiponúkanétýmto softvérom,je nutnésa akt´ıvnezapojit’ do tejto siete a spr´ıstupnit’ vlastnýpoˇc´ıtaˇcpre potreby ostatných uˇz´ıvatel’ov. Po pripojen´ıje moˇznéoznaˇcit’ XML súbor definujúciscénu a potrebne textúry, ktorétátoscéna vyuˇz´ıva. Následneuˇz´ıvatel’zadápoˇcet ˇcast´ı6 na ktorésa scénarozdel´ıdo mrieˇzky a zaˇcnesa ostatným poˇc´ıtaˇcomdostupnýmv sieti distribuovat’ aj s danou ˇcast’ou, ktorúmávypoˇc´ıtat’. Ako bezpeˇcnostnýprvok, ktorýmázabránit’ zahlcovaniu poˇc´ıtaˇcov, bola pridanákontrola d´lˇzky spracovávania pridelenej ˇcasti, kde kaˇzdámus´ıbyt’ vypoˇc´ıtanádo piatich minút,inak bude zahodená. Toto rieˇsenienie je moˇznépriamo porovnávat’ s mojou aplikáciouz dôvodu vysokej laten- cie Internetu a heterogénnejsiete poˇc´ıtaˇcov (kaˇzdýpoˇc´ıtaˇcje hardvérovo odliˇsný).Odkrýva vˇsakzauj´ımavúcestu, akýmsmerom dáuberat’ pri paralelizácii,ak existuje komunita l’ud´ı ochotnázdiel’at’ výpoˇctovývýkon.

6poˇcet4, 16, 64, 256 alebo 1024 deﬁnuje vel’kost’ mrieˇzky, podl’a ktorej sa bude sc´enadelit’

33 Kapitola 7

Z´aver

V tejto prácisúpop´ısanérôznespôsoby realistickéhozobrazovania, jednoduchýpopis ich fungovania a ich výhody a nevýhody. Nasleduje náhl’ad na paralelizáciu z hl’adiska hardvéru a softvérua popis kniˇzn´ıc,ktorémôˇzubyt’ pouˇz´ıvanépri paralelizácii.V d’alˇsejkapitole sú zhodnotenéurˇcitéspôsoby rozdel’ovania práce,ktorésúhlavnýmfaktorom rozhodujúcim o úspeˇsnostiparalelizácie.Podl’a výhod a nevýhod týchto spôsobov som sa nakoniec rozhodol pre pouˇzitie algoritmu spomenutéhov kapitole 4.3.1 (model klient-server s ohl’adom na zn´ıˇzenúkomunikáciu). V následnomvývoji aplikáciebol implementovanýzvolenýspôsobrozdel’ovania práce spolu s komunikáciou,pomocou ktorej sa procesy rozhodujú,ktorýblok prácebudúvy- konávat’, tak aby bol systémdobre ˇskálovatel’ný.Nasledovala analýzaspôsobuuloˇzeniain- formácieo kamere v pamätia výber najvhodnejˇsiehospôsobuna transformáciuzmien medzi jednotlivýmisn´ımkami zobrazovaných scén.Po tomto kroku som vytvoril komunikaˇcnýpro- tokol pre prenos týchto informáci´ıˇconajefekt´ıvnejˇs´ımspôsobom, ktorýmhlavnýproces rozdel’uje prácuostatnýmprocesom a informuje ich o zmenách poz´ıciekamery. Závereˇcnou ˇcast’ou bola implementáciazobrazovacieho systému u klienta a vytvorenie urˇcitej interakcie medzi uˇz´ıvatel’om a scénou.Celýsystémje schopnýpracovat’ v reálnomˇcase a zobrazovat’ scénu s prijatel’nýmpoˇctomobrázkov za sekundu s ohl’adom na zloˇzitost’ scény a poˇcet poˇc´ıtaˇcov, ktoréspracovávajúobraz. Testovanie aplikácieodhalilo, ˇzevýkon rastie takmer lineárneso zväˇcˇsujúcimsa poˇctom dostupných výpoˇctových jednotiek a teda zvolenýalgoritmus na rozdelenie práceje do- statoˇcneflexibilný.Aplikáciabola taktieˇzporovnanás obdobnýmirieˇseniami,ktorévyuˇz´ıvali rozdielny pr´ıstupk problémom,ktorébolo nutnérieˇsit’. PoˇcasanalýzyzdrojovéhokóduYafaRayu a programovania jeho paralelnej verzie som ohlásila opravil chybu v kódepracujúcehos vláknami.Toto upozornenie taktieˇzviedlo k odhaleniu d’alˇs´ıch chýb,ktoréspôsobovali únikypamäte1. Pri d’alˇsom vývoji aplikácie by bolo moˇzné vylepˇsit’ algoritmus rozdelenia prácea implementovat’ systémpodobný[16] a tento algoritmus následnezdokonalit’ tak, ˇzeak by hlavnýproces z nejakéhodôvodu neobdrˇzaldátovýblok, mohol by hodnotu týchto obrazových bodov jednoducho dopoˇc´ıtat’ pomocou farieb okolia. Toto rieˇsenieby mohlo viest’ aj k adapt´ıvnemu zobrazovaniu, kde by sme zadali poˇzadovanúrýchlost’ zobrazovania a aplikáciaby sama menila rozl´ıˇsenieobrazu podl’a toho, akáˇcast’ obrazu je spracovaná.

1angl. memory leak

34 Literat´ura

[1] ATI: ATI RadeonTM HD 4870 X2 Graphics. 2008, [Online; navˇst´ıven´e29. Novembra 2008]. URL http://game.amd.com/us-en/unlock_radeonhd4870x2.aspx

[2] OpenMP Architecture Review Board: The OpenMP API specification for parallel programming. 2009, [Online; navˇst´ıvené04. Mája2009]. URL http://openmp.org/

[3] Livermore Computing Center: MPI Parallelization Problems and Solutions. Jún2007, [Online; navˇst´ıvené15. Máj2009]. URL https://computing.llnl.gov/LCdocs/mpi/mpi.pdf

[4] Caligari Corporation: 3D Modeling Software - trueSpace. 2008, [Online; navˇst´ıven´e18. M´aja2009]. URL http://www.caligari.com/

[5] Edwards, J.: YafaRay for trueSpace Project. 2009, [Online; navˇst´ıven´e18. M´aja2009]. URL http://www.yafaray4ts.org/

[6] Eugene: History Of The Blender Logo And Suzanne. Júl2006, [Online; navˇst´ıvené11. Mája2009]. URL http://www.blendernation.com/2006/07/20/ history-of-the-blender-logo-and-suzanne/

[7] Message Passing Interface Forum: MPI: A Message-Passing Interface Standard. Jún 1995, [Online; navˇst´ıvené03. Mája 2009]. URL http://www.mpi-forum.org/docs/mpi-11-html/mpi-report.html

[8] Est´evez, A. C.: YafaRay - Yet Another Free Raytracer. 2009, [Online; navˇst´ıven´e28. Apr´ıla2009]. URL http://yafaray.org/

[9] Blender Foundation: blender.org. 2009, [Online; navˇst´ıven´e10. M´aja2009]. URL http://www.blender.org/

[10] The SCons Foundation: SCons: A software construction tool. 2009, [Online; navˇst´ıven´e28. Apr´ıla2009]. URL http://www.scons.org/

[11] Geist, A.; Beguelin, A.; Dongarra, J.; aj.: PVM: Parallel Virtual Machine. September 1994, [Online; navˇst´ıven´e03. M´aja 2009]. URL http://www.netlib.org/pvm3/book/pvm-book.html

35 [12] The Khronos Group: OpenCL - The open standard for parallel programming of heterogeneous systems. 2009, [Online; navˇst´ıven´e04. M´aja2009]. URL http://www.scons.org/

[13] Intel: Intel R microprocessor export compliance metrics. November 2008, [Online; navˇst´ıvené29. Novembra 2008]. URL http://www.intel.com/support/processors/sb/cs-023143.htm [14] Janouˇsek,J.: Realistickézobrazován´ıpomoc´ıradiozity. Technickázpráva, FIT VUT, Brno, Máj2007, [Online; navˇst´ıvené18. Mája2009]. URL http://www.fit.vutbr.cz/study/DP/DP.php.cs?id=4910 [15] LimeWire LLC: Gnutella Protocol Specification. 2008, [Online; navˇst´ıvené08. Mája2009]. URL http://gnet-specs.gnufu.net/ [16] Lu, V.; Matsumura, Y.; Weng, I-H. F.: Parallel Ray-Tracing in MPI. Máj2009, [Online; navˇst´ıvené17. Mája2009]. URL https://agora.cs.illinois.edu/download/attachments/21731399/cs420_ rt_finalreport.pdf?version=2 [17] Mobashir, T.; Mahesri, A.; Raje, H. S.: Parallel Ray Tracing. Február2004, [Online; navˇst´ıvené17. Mája2009]. URL http://users.crhc.illinois.edu/mahesri/classes/cs433finalreport.doc [18] Reinhard, E.: Hybrid Scheduling for Parallel Ray Tracing. Technickázpráva, Faculty of Technical Mathematics and Informatics, Delft University of Technology, Január 1996. URL http://www.cs.bris.ac.uk/Publications/Papers/1000155.pdf [19] Tai, K-C.: Definitions and Detection of Deadlock, Livelock, and Starvation in Concurrent Programs. August 1994, [Online; navˇst´ıvené19. Mája2009]. URL http://ieeexplore.ieee.org/search/srchabstract.jsp?arnumber= 4115758&isnumber=4115737&punumber=4115670&k2dockey=4115758@ieeecnfs [20] GPU Development Team: The GPU project. 2004, [Online; navˇst´ıvené08. Mája2009]. URL http://gpu.sourceforge.net/ [21] Persistence of Vision Raytracer Pty. Ltd.: POV-Ray. 2008, [Online; navˇst´ıvené17. Mája2009]. URL http://www.povray.org/ [22] Fakulta informaˇcn´ıch technologi´ıVUT: Poˇc´ıtaˇcovás´ıt’ areáluBoˇzetˇechova. Január 2009, [Online; navˇst´ıvené04. Mája 2009]. URL http://www.fit.vutbr.cz/CVT/network.html [23] Wikipedia: Ray tracing (graphics) — Wikipedia, The Free Encyclopedia. 2008, [Online; navˇst´ıvené30. Novembra 2008]. URL http://en.wikipedia.org/w/index.php?title=Ray_tracing_(graphics) &oldid=254103625

36 Zoznam pouˇzit´ych skratiek

BSP – Binary Space Partitioning

CPU – Central Processing Unit

FLOPS – FLoating point Operations Per Second

GPU – Global Processing Unit

GPU – Graphics Processing Unit

MPI – Message Passing Interface

OpenCL – Open Computing Language

OpenMP – Open Multi-Processing

PVM – Parallel Virtual Machine

SSH – Secure SHell

TCP/IP – Transmission Control Protocol over Internet Protocol

XML – eXtensible Markup Language

YafRay – Yet Another Free Raytracer

37 Zoznam pr´ıloh

A Testovacia sc´ena

B Ukáˇzkovéscény YafaRayu

C Obsah DVD

D DVD

38 Pr´ılohaA

Testovacia sc´ena

ObrázokA.1: Testovacia scénavytvorenápomocou programu Blender. Rozl´ıˇsenie:800x600, vypnutévyhladzovanie hrán.

39 Pr´ılohaB

Ukáˇzkovéscény YafaRayu

Obr´azokB.1: n´azov: Magic Bullet, autor: Enrico Cerica

40 Obr´azokB.2: autori: Gabich, Sebi, Pikrokola

Obr´azokB.3: autor: Gabich

41 Pr´ılohaC

Obsah DVD

• \doc

– \pictures – ukáˇzka zobrazovac´ıch schopnost´ıYafaRayu – \poster – prezentaˇcnýplagátdiplomovej práce – \thesis – diplomováprácavo formátePDF

• \src

– \latex –LATEXováverzia diplomovej práce – \logs – záznamy z meran´ı – \models – niekol’ko modelov vo formáteXML – \poster – zdrojovýkódprezentaˇcnéhoplagátu – \pictures – ukáˇzkydelenia prácepri rôznompoˇcteprocesov – \scripts – ukáˇzkovéskripty inˇstalácie a spúˇst’ania – \yaf-a-grid – zdrojovésúbory aplikácie