Masarykova univerzita Filosofická fakulta Ústav české literatury a knihovnictví

Bakalá řská diplomová práce

2012 Lucie Ko řistková

Masarykova univerzita Filosofická fakulta Ústav české literatury a knihovnictví Kabinet informa čních studií a knihovnictví

Informa ční studia a knihovnictví

Lucie Ko řistková Sémantický web a mikroformáty Bakalá řská diplomová práce

Vedoucí práce: PhDr. Martin Kr čál, DiS. 2012

Anotace: V této bakalá řské práci „ Sémantický web a mikroformáty“ se snažím popsat základní informace o sémantickém webu, jeho částech a vlastnostech, jeho využití v praxi, ale také i o mikroformátech, které se sémantickým webem velice blízko souvisí. Definuji, co to mikroformáty jsou, popisuji jejich jednotlivé druhy, ale také se snažím definovat jejich nevýhody. V poslední části textu v rámci praktické části uvádím dva zdrojové kódy jedné webové stránky - a to jeden zapsaný pomocí mikroformát ů a druhý v RDF. Pokouším se tyto dva kódy porovnat mezi sebou.

Abstract: In this thesis " and " I try to describe basic information about the Semantic Web, its parts and properties, its use in practice, but also microformats, semantic web which is very close related. Define what microformats are and describe their individual species, but also try to define their disadvantages. In the last section of text within a practical part describes the two source codes, one Web site - and this one written by microformats and the other in RDF. Trying to compare these two codes to each other.

Klí čová slova: Sémantický web, sémantika, vyhledávání, XML, RDF, OWL, mikroformát, hCalendar , hCard, rel-licence, rel-nofollow, rel-tag, Vote links, XFN, Xoxo, XMDP, Adr, Geo, hAtom, hAudio, hListing, hMedia, hNews, hProduct, hRecipe, hResume, hReview, rel-directory, rel-enclosure , rel-payment, robots exclusion, xFolk

Keywords: Semantic web, semantics, search, XML, RDF, OWL, , hCalendar , hCard, rel- licence, rel-nofollow, rel-tag, Vote links, XFN, Xoxo, XMDP, Adr, Geo, hAtom, hAudio, hListing, hMedia, hNews, hProduct, hRecipe, hResume, hReview, rel-directory, rel- enclosure , rel-payment, robots exclusion, xFolk

Prohlašuji, že jsem diplomovou práci vypracoval/a samostatn ě s využitím uvedených pramen ů a literatury.

……………………………………………..

Podpis autora práce

Pod ěkování

Zde bych cht ěla pod ěkovat vedoucímu práce PhDr. Martinu Kr čálovi DiS. za pomoc p ři psaní práce, dále pak Martinu Lindrovi, Markét ě Dobiášové a Ev ě Peterové za podporu a výpomoc s úpravou textu.

OBSAH:

Úvod ...... 1

1. Sémantický web ...... 2 1.1 Definice pojmu ...... 2 1.2 Historie vzniku sémantického webu ...... 3 1.3 Sou časný stav ...... 5 1.4 Význam sémantického webu ...... 6 1.5 Prvky sémantického webu ...... 7 1.5.1 Ontologie a slovníky ...... 8 1.5.2 Agenti ...... 8 1.5.3 Metadatová schémata a identifikátory ...... 8 1.5.3.1 XML ...... 8 1.5.3.2 RDF ...... 9 1.5.3.3 URI ...... 10 1.5.3.4 OWL ...... 10 1.5.3.5 SPARQL ...... 10 1.6 Problémy sémantického webu ...... 11 1.7 Sémantický web v praxi ...... 11 1.8 Vize vývoje sémantického webu...... 13

2 Mikroformáty ...... 14 2.1 Definice mikroformát ů ...... 14 2.2 Historie mikroformát ů ...... 15 2.3 Využití mikroformát ů ...... 16 2.4 Druhy mikroformát ů ...... 16 2.4.1 Standardy ...... 16 2.4.1.1 h-Calendar ...... 17 2.4.1.2 h-Card ...... 17 2.4.1.3 Rel-licence ...... 19 2.4.1.4 Rel-nofollow ...... 19 2.4.1.5 Rel-tag ...... 20 2.4.1.6 Vote links ...... 20 2.4.1.7 XFN ...... 21 2.4.1.8 XOXO ...... 23 2.4.1.9 XMDP ...... 23 2.4.2 Koncepty ...... 24 2.4.2.1 ADR ...... 24 2.4.2.2 GEO ...... 25 2.4.2.3 hAtom ...... 26 2.4.2.4 hAudio ...... 27 2.4.2.5 hListing ...... 29 2.4.2.6 hMedia ...... 30 2.4.2.7 hNews ...... 31 2.4.2.8 hProduct ...... 32 2.4.2.9 hRecipe ...... 33 2.4.2.10 hResume ...... 35 2.4.2.11 hReview ...... 36 2.4.2.12 rel-directory ...... 37 2.4.2.13 rel-enclosure ...... 38 2.4.2.14 rel-home ...... 38 2.4.2.15 rel-payment ...... 39 2.4.2.16 robots exclusion ...... 39 2.4.2.17 xFolk ...... 40 2.4.2.18 hCitation ...... 41 2.5 Výhody a nevýhody mikroformátů ...... 41 2.5.1 Výhody ...... 41 2.5.2 Nevýhody ...... 42

3 Praktická část ...... 43 3.1 Úvod k praktické části ...... 43 3.2 Porovnání uvedených zdrojových kód ů ...... 44 3.3 Vyhodnocení srovnání ...... 53

Záv ěr ...... 54

Seznam literatury ...... 55

Seznam obrázk ů ...... 58 Úvod

Vývoj informa čních technologií je v naší spole čnosti stejn ě tak d ůležitý jako vývoj v oblasti v ědy či zdravotnictví. Informace jsou pot řeba ve všech oblastech a pomáhají ve všech sférách naší spole čnosti. Získaly si svoji nezam ěnitelnou roli v sou časné, chaotické dob ě. My, jakožto p říjemci t ěchto informací, se musíme nau čit rozlišovat, které jsou pro nás důležité a které nikoli. Když má člov ěk n ějaký problém, shání informace, které by mu pomohly tento problém vy řešit. Zapne po číta č a vyhledává na internetu. To bývá první krok, protože je nejjednodušší. P řesycenost informací na internetu však vede často k tomu, že vyhledáva če poskytnou uživateli i takové materiály, které mu k ni čemu nejsou. A pro č? Odpov ěď je jednoduchá; sémantika na webu ješt ě není tak propracovaná, jak by mohla být. Sémantické vyhledávání je na základ ě srozumitelnosti textu, tzn., že tomu rozumí nejen člov ěk, ale i samotný vyhledávací stroj. Otázka sémantického vyhledávání se řešila již v minulých letech a v dnešní dob ě se diskutuje o tom, jak toho p řesn ě docílit. A proto se za čalo mluvit o sémantickém webu. Pro m ě osobn ě je tato oblast hodn ě důležitá, vidím v ní potenciál pro rozvoj celého vyhledávání informací na webu. V rámci této práce bych se cht ěla hloub ěji seznámit s tímto problémem, dozv ědět se n ěco o historii vzniku sémantického webu, jeho využitelnosti a vizi vývoje. Práci jsem si rozd ělila na t ři části. V té první se v ěnuji sémantickému webu. V druhé části se zam ěř ím na mikroformáty. Mikroformáty jsou části sémantického webu, které jsou podle mě velice d ůležité, a bez nich nevidím vývoj sémantického webu p říliš optimisticky. V třetí, poslední části této práce, uvádím dva zdrojové kódy jedné webové stránky. První zapsaný pomocí mikroformát ů a druhý v RDF. Pokusím se oba kódy porovnat, zjistit, jaké jsou mezi nimi hlavní rozdíly a jaké výhody či nevýhody. Nebudu p ředpokládat, že díky této práci se oblast vyhledávání výrazn ě posune dop ředu. Hlavním cílem pro m ě je seznámit vás s tímto tématem podrobn ěji. Zájemci, kte ří budou tuto práci číst, se poté mohou zamyslet nad tím, na jaké úrovni se dnes sémantické vyhledávání nachází a jestli má spolu s mikroformáty budoucnost.

1 1. Sémantický web

Sémantický web slouží k vyhledávání informací na základ ě sémantické analýzy. Sémantika je nauka o významu slov. Zjednodušen ě m ůžeme říci, že sémantický web pracuje s vyhledáváním, kdy slov ům, která jsou vyhledávána, rozumí nejen člov ěk, ale i stroj.

1.1 Definice pojmu Jedna z nejznám ějších definic je od tv ůrce sémantického webu a ředitele konsorcia W3C Tima Bernerse Leeho: „ Sémantický web je rozší řením sou časného webu, v němž informace mají p řid ělen dob ře definovaný význam lépe umož ňující po číta čů m a lidem spolupracovat. Sémantický web p ředstavuje reprezentaci dat na WWW. Je založen na technologii Resource Description Framework (RDF), která integruje širokou škálu aplikací využívajících syntaktický zápis v XML a identifikátory URI pro pojmenovávání.“1 P. Matulík a T. Pitner se ve svém článku 2 zmi ňují také o tom, jak by prakticky takový sémantický web mohl vypadat. Popisují sémantický web jako místo, kde inteligentní přístroje, tzv. agenti, pomáhají uživateli s řešením problém ů a každodenních starostí. Na základ ě t ěchto agent ů, kte ří jsou schopni logicky rozpoznat, o jaké informace se jedná, mohou být uživateli ušet řeny spousty práce. Podle mého názoru si to m ůžeme p ředstavit asi takto: Uživatel má zdravotní problém a pot řebuje jej akutn ě řešit. Zadá tedy parametry problému svému agentovi – nap ř. bolest b řicha. Agent vyhledá ur čitého specialistu, který se v dané blízkosti nachází, spáruje se s jeho agentem a v jeho diá ři domluví sch ůzku. Agent uživatele s problémy naplánuje trasu na místo vyšetření, požádá o pár dopl ňujících informací – nap ř. jakým silnicím se má vyhnout, aby nez ůstal stát v dopravní špi čce a nep řišel pozd ě. Daný p říklad by v praxi mohl fungovat, nap ř. vnášení informací do map ohledn ě dopravních situací se totiž již dnes b ěžn ě používá. Vilém Sklenák dále upozor ňuje na to, že „ sémantický web není n ějak nový web, ale jde o rozší ření konceptu a dopln ění dat toho stávajícího “3. Mohli bychom tedy říci, že se nejedná o nic nep ředvídatelného. Vilém Sklenák klade d ůraz na data v sémantickém webu. Je pot řeba si ale uv ědomit, že sémantický web je také založený na struktu ře – viz definice

1 P. Matulík, T. Pitner, Sémantický web a jeho technologie, 2004 2 P. Matulík, T. Pitner, Sémantický web a jeho technologie, 2004 3 Vilém Sklenák, Sémantický web, 2011

2 podle TDKIV 4, která říká, že sémantický web je „koncept webu založený na obsahu, který je vytvo řen a strukturován podle ur čitých pravidel a standard ů a umož ňuje tak efektivn ější a snadn ější vyhledávání informací. Realizace sémantického webu p ředpokládá implementaci standard ů pro sémantickou (RDF), strukturální (XML) a syntaktickou (URI) složku architektury webových dokument ů; výsledkem aplikace uvedených standard ů bude konzistentní logická struktura dat, která bude implicitn ě vyjad řovat význam zaznamenaných informací.“ 5 Anna Motejlková vysv ětluje pojem sémantického webu velice jednoduše: „Sémantický web umož ňuje stroj ům, aby rozum ěly sémantice (…) To je d ůležité p ředevším pro vyhledávací roboty nebo nap říklad pro hlasové čte čky. Je však d ůležité si uv ědomit, že sémantický web umožní stroj ům pochopit sémantické dokumenty a data, nikoli lidskou řeč a spisy.“6

1.2 Historie vzniku sémantického webu Zmi ňovaný článek od T. Bernerse Leeho v časopise Scientific American však nebyl úpln ě první informací o sémantickém webu. V několika bodech se o historii sémantického webu zmi ňuje Vilém Sklenák. Úpln ě první informace o sémantickém webu byla řečena na konferenci WWW v Brisbane v Austrálii roku 1998. Autorem není nikdo jiný než T. Berners Lee. O dva roky pozd ěji byl spušt ěn web http://semanticweb.org . Jedná se o komunitní web příznivc ů sémantického webu. Tyto stránky pracují s myšlenkami zakladatele sémantického webu, p ředávají si informace o vývoji a novinkách v této oblasti. Fungují na zp ůsobu wikipedie, kdy každý nadšenec m ůže informace voln ě p řidávat. Vytvá řejí r ůzné události z oblasti sémantického webu, zprost ředkují je, nebo jen o nich informují. Roku 2001 Tim Berners Lee napsal spolu s Jamesem Hendlerem článek The semantic web do časopisu Scientific Americian. Spolupracoval s nimi , informatik z Finska. „ Auto ři článku upozor ňují na problematiku stávajícího webu, jež obsahuje jen rychle nar ůstající množství dokument ů, které tém ěř postrádají informace, aby mohly být pochopitelné nejen člov ěkem, ale i stroji, a mohly tak být spravovány automaticky. Po číta če jsou dnes v pro n ě srozumiteln ě napsaném HTML či XHTML kódu schopné rozpoznat, která část kódu je hlavi čka či nadpis. Poznají též nap říklad, zda se jedná o odkaz na jinou

4 Česká terminologická databáze knihovnictví a informační v ědy 5 Michal Fojtík, Sémantický web, 2008 6 Anna Motejlková , Sémantický web, 2011

3 webovou stránku, ale již nepoznají, na co konkrétn ě daný odkaz odkazuje. Sémantický web by m ěl toto napravit.“7 Takto komentuje d ění Anna Motejlková ve svém článku Sémantický web. Téhož roku byla vytvo řena pracovní skupina Web Ontology Working Group, která m ěla za úkol pracovat na rozvoji jazyka OWL. Roku 2001 byla spušt ěna další webová stránka http://www.w3.org/2001/sw/ , na které jsou dnes uvedeny všechny pracovní skupiny, které kolem sémantického webu vznikají. Roku 2002 odstartovala International Semantic Web Conference, která se konala v Itálii, a to 9. až 12. června. Od té doby se koná pravideln ě v různých zemích sv ěta. Ú častníci konference hovo ří na jedno spole čné téma – sémantický web. Od roku 2002 byly ustanoveny další pracovní skupiny - Web Services Description Working Group a Web Services Architecture Working Group. Jejich cílem je rozvoj webových služeb v dané oblasti. Roku 2004 byly vytvo řeny první standardy pro popis sémantiky – OWL a RDF. Téhož roku byl spušt ěn první sémantický vyhledáva č SWoogle . Na rozdíl od jiných vyhledáva čů (nap ř. www.trueknowledge.com ) dnes stále ješt ě nefunguje tak, jak by m ěl. Pro názornou ukázku, jak moc se zvyšovala popularita sémantického webu, použiji statistiku vyhledávání slov „sémantický web“ a „semantic web“ na vyhledáva či Google.com:

Obrázek 1 – Statiky vyhledávání

7Anna Motejlková , Sémantický web, 2011

4 Jedním z možných d ůvod ů poklesu vyhledávání informací o sémantickém webu je ten, že tomuto tématu se v ěnuje jen malá skupinka lidí. Ve řejnost, pokud chce znát n ějaké novinky z této oblasti, vyhledává jen výstupy z výzkum ů či jejich práce.

1.3 Sou časný stav Ludvík Benda v článku časopisu Vesmír (2005) napsal, že veškeré základní předpoklady pro zavedení sémantického webu do praxe jsou spln ěny. V té dob ě se pracovalo p řevážn ě na tom, aby sémantický web mohl být použit v pr ůmyslu - nap ř. RDF bylo zasazeno do pr ůmyslu energetického. Od roku 2005 se sémantický web posunul o krok dál. Nejaktuáln ější informace o tom, v jaké fázi se sémantizace webu nachází, m ůžeme najít díky každoro ční celostátní konferenci o sémantickém webu - ISWC 8. První konference ISWC prob ěhla roku 2002 v Itálii a hlavní myšlenkou tohoto setkání byla otázka budování sémantického webu na XML. Této konferenci však p ředcházelo shledání nadšenc ů sémantického webu pod názvem Semantic Web Working Symposium , které se konalo o rok d říve v USA. Hlavním problémem byla otázka sémantického zna čkování. Poslední konference se konala 23. – 27. října 2011 v Německu. Na programu byla témata jako sémantický web a softwarové inženýrství, sociální web, interakce s uživatelem či použití sémantického webu v aplikacích. Letošní konference se bude konat 11. - 15. listopadu 2012 v Bostonu v USA. Po řadatelem této konference je Abraham Bernstein, profesor z univerzity v Curychu, který se zabývá p ředevším vztahem mezi člov ěkem a sémantickým webem. Pro rok 2012 byla zvolena témata jako správa dat a sémantického webu, databáze a technologie pro vytvá ření sémantického webu, dále pak vyhledávání, dotazy a analýzy údaj ů na sémantickém webu, hodnocení sémantických technologií, technologie sémantického webu pro e-Government 9, e-Environment 10 a e-Health 11 . Další konference je naplánovaná na rok 2013 a m ěla by se konat v Sydney. Když se podíváme na následující obrázek, který popisuje vývojové etapy webu od éry po číta čů až po web 4.0, zjistíme, že vize sémantického webu spadá do období webu 3.0.

8 ISWC je zkratka pro International Semantic Web Conference. 9 E-Government je p řem ěna ve řejné správy pomocí informa čních a komunika čních technologií. 10 E-Environment je p řem ěna oblasti životního prost ředí pomocí informa čních a komunika čních technologií. 11 E-Health je používání informa čních a komunika čních technologií v oblasti zdravotnictví.

5 Nyní tedy nastává doba, kdy by se sémantický web m ěl pln ě rozvíjet, m ěly by vzniknout sémantické databáze a m ělo by fungovat sémantické vyhledávání.

Obrázek 2 –Vývoj webu

Z tohoto grafu vyplývá, že vývoj sémantického webu je optimální. Mnoho odborných článk ů nás upozor ňuje na to, že na sémantickém webu část v ěcí nefunguje či zcela chybí. Je pot řeba si uv ědomit, že vývoj je vždy postupný, a tak chvíli potrvá, než se vize sémantického webu dostane do své finální podoby.

1.4 Význam sémantického webu Existuje n ěkolik d ůvod ů, pro č sémantický web vznikl. Prvním bodem je samoz řejm ě relevantnost vyhledávání informací. Sou časné vyhledáva če nerozumí tomu, co vyhledávají. Nejv ětší význam na tom mají HTML tagy „H1“ nebo „title“. Toho využívají marketingový odborníci a dávají do hlavi ček všechna možná klí čová slova, aby tak zvýšili pravd ěpodobnost vyhledání ur čitého článku. Klí čové slovo p řitom s daným článkem nemusí v ůbec souviset. Protože webových stránek existuje nepřeberné množství, relevantní odkaz k našemu tématu se m ůže nacházet nap ř. až na 6. stránce vyhledávání. Podle výzkum ů z oblastí SEO 12 je dokázáno, že uživatelé nej čast ěji sledují

12 SEO je optimalizace stránek p ři vyhledávání

6 pouze první stránku, takže pravd ěpodobnost, že se k uživateli dostanou ov ěř ené a relevantní informace, je velice malá. Dalším bodem je to, že vyhledáva č není schopný zjistit, o čem který dokument je. Vybírá z dokumentu jednotlivá klí čová slova, i když spolu t řeba nesouvisí. Pokud se chceme dostat k relevantn ějšímu materiálu, musíme v ědět, jak který vyhledáva č funguje a jak jednotlivá klí čová slova spojit, aby spolu více souvisela. Velký problém nastává, pokud chceme vyhledávat informace v archívech. Vyhledávací stroje se nedokáží tak rychle k informacím dostat, navíc archívy nejsou primárními místy, kde jsou klí čová slova vyhledávána. Pro uživatele je velice složité vymyslet „kvalitní“ klí čová slova, kterými by se vyhledávací stroj do takových materiál ů dostal. Dalším problémem je zneužívání často vyhledávaných výraz ů. Auto ři stránek v rámci marketingu p řidají na své stránky často vyhledávané výrazy, aby tak zvýšili návšt ěvnost svých stránek. Samoz řejm ě klí čová slova s obsahem stránek nemusí souviset a v ětšinou skute čně nesouvisí.

1.5 Prvky sémantického webu Původn ě se na utvá ření sémantického webu m ěly podílet dv ě technologie – a to XML a RDF. Postupem času však vznikly další prvky, které p ůvodní technologie rozši řují. Fungování sémantického webu m ůžeme rozd ělit do n ěkolika částí. Co vše je pot řeba ke správnému fungování vidíme na obrázku č 3.

Obrázek 3 – Vrstvy sémantického webu

7 1.5.1 Ontologie a slovníky Ontologie je snaha o vytvo ření ur čitého konceptu dat na webu. Matulík a Pitner se ve svém článku 13 zmi ňují o tom, že ontologie je vlastn ě možnost, jak prezentovat znalostí v nějaké form ě tak, aby tyto informace mohly být dále využity. Pro web je používána ontologie, která definuje t řídy, podt řídy, vztahy mezi jednotlivými slovy a také pravidla, díky kterým jsou jednotlivé vztahy definovány. Anna Motejlková o ontologii říká: „ Přiřadíme-li t řídám ur čité vlastnosti a zárove ň povolíme podt řídám tyto vlastnosti d ědit, m ůžeme mezi objekty vyjád řit obrovské množství vztah ů. Odvozovací pravidla pak poskytují další sílu v ontologii. I když po číta č nem ůže doopravdy rozum ět žádným poskytovaným informacím, dokáže s nimi dnes pracovat mnohem efektivn ěji, a to zp ůsoby, které jsou pro člov ěka užite čné a smysluplné.“ 14 Zajímav ě popsaná oblast ontologie a s tím související zna čkování textu je uvedeno v bakalá řské práci Mgr. Jakuba Talaše 15 . Slovníky umož ňují pomoc p ři propojení dat. P ředstavme si je v praxi jako místo, kde se znalosti organizují, nap ř. noviny, muzea, knihovny či sociální sít ě. Slovníky pomáhají ujas ňovat, co dané pojmy znamenají. Jak daný slovník vypadá, to záleží p řesn ě na dané aplikaci, pro kterou je použit. Velikost slovníku může být v rozsahu od n ěkolika slov až po několik tisíc pojm ů.

1.5.2 Agenti Agent je program, který shromáždí obsah webových stránek z několika zdroj ů, dané informace zpracuje a vym ění si je s jinými agenty. Síla a ú činnost agent ů by m ěla být v jejich množství; aby informace byly p řesn ější, d ůvěryhodn ější a jasn ější, musí agenti spolupracovat. Pro takovou spolupráci je ale d ůležité ošet řit p řístupy a vým ěnu informací pomocí certifikát ů. Zamezili bychom tak zneužívání informací a zajistili agent ům ur čitou důvěryhodnost.

1.5.3 Metadatová schémata a identifikátory

1.5.3.1 XML XML (Extensible Markup Language) je textový formát, který slouží ke strukturování dat na internetu. Byl vyvinut konsorciem W3C k přenosu, strukturování a ukládání informací. Je

13 P. Matulík, T. Pitner, Sémantický web a jeho technologie, 2004 14 Anna Motejlková , Sémantický web, 2011 15 Jakub Talaš, Sémantické zna čkování textu, 2008

8 nejvýznamn ějším ze všech programovacích jazyk ů, protože je velice rozší řený a nezávislý na platform ě. Podobá se standardu HTML, používá také tagy a atributy. Na rozdíl od HTML, kdy každý tag má jasn ě definováno, co znamená, u XML tomu tak není. Záleží na aplikaci, která data čte. Když se podíváme na n ějaký zápis v XML, zjistíme, že dokážeme přečíst a porozum ět, o co se jedná.

Obrázek 4 – Využití XML

1.5.3.2 RDF RDF ( Resource Description Framework) je standardizovaný model pro vým ěnu dat na internetu. Taktéž pochází od W3C . Je to technologický základ pro sémantický web. Jedná se o obecný rámec pro popis, použití a vým ěnu metadat 16 . Matulík a Pitner definují RDF jako model, který „umožní specifikovat trojice {zdroj, vlastnost, hodnota vlastnosti} s významem: "Daný zdroj má danou hodnotu dané vlastnosti ."17 Příkladem trojice by mohl být výrok – pes má špinavé tlapky. V RDF by to šlo vyjád řit asi takto: zdroj „pes“, vlastnost „ má tlapky“ a hodnota „špinavé“. Pokud by zápisy byly takto kódované, byly by jim po číta če schopny porozum ět a p řevést zápisy do podoby, která by nám byla srozumitelná. Původn ě bylo RDF vyvinuto k tomu, aby prezentovalo metadatové informace o webových zdrojích. M ělo popisovat informace jako autor, název, datum úpravy, ale můžeme ho využít pro uložení jakýchkoliv jiných dat.

16 jsou data o datech, příkladem je autor zdroje, název článku, datum zm ěny webu, copyright atd. 17 P. Matulík, T. Pitner, Sémantický web a jeho technologie, 2004

9 1.5.3.3 URI URI je možnost, jak identifikovat objekty z reálného sv ěta. Podle TDKIV 18 je URI „obecný soubor pojmenování a adres internetového zdroje skládající se z řet ězce znak ů, který odkazuje na zdroj dostupný na . Slouží jako jednoduchý a rozši řitelný prost ředek k jednozna čné identifikaci libovolného zdroje s libovolným obsahem (textový dokument, obrazy či grafika, zvukový záznam, animovaný obrázek, software atd.).“ Existují dva typy URI, a to URL (identifikuje místo uložení) a URN (identifikuje zdroj bez ohledu na to, kde je uložen). Výhodn ější je URN, protože lokace dokument ů se m ůže často měnit a mohlo by se tedy stát, že bychom už dokument na stejném míst ě nenašli.

1.5.3.4 OWL OWL () je zna čkovací jazyk, který vznikl díky pot řeb ě popisovat sémantiku t říd a vlastností. Vychází z RDF a je ur čen pro RDF. OWL má lepší možnosti pro vyjád ření sémantiky než XML a RDF. OWL má t ři podjazyky – OWL Lite , OWL DL a OWL Full. OWL Lite je ur čen pro uživatele, kte ří pot řebují p ředevším jednoduché t říd ění a jednoduché omezení. OWL DL je zam ěř en p ředevším na maximální možnost vyjád ření p ři zachování funk čnosti a komplexnosti. OWL Full byl navržen proto, aby byl jazyk OWL slu čitelný s RDF.

1.5.3.5 SPARQL SPARQL (Simple Protocol And RDF Query Language) je dotazovací jazyk. Je ur čen k tomu, aby nám z ontologie získal informace, které hledáme pomocí sofistikovaných dotaz ů. Je to standard konsorcia W3C. Tento jazyk je definován ze 3 částí – prefix, select a where . Prefix se používá k tomu, abychom rozt řídili jmenný prostor (soubor jmen a soubor podobn ě zn ějících jmen). Select se používá k definování, v jakém formátu budou informace zobrazeny. Where se používá k formulování dotazu.

18 Česká terminologická databáze knihovnictví a informačních v ěd

10 1.6 Problémy sémantického webu Otázka sémantického webu je otev řena již n ěkolik let. P řesto dodnes nejsou možnosti sémantického vyhledávání pln ě integrovány do každodenního života uživatele. D ůvod ů, pro č tomu tak není, je n ěkolik. Prvním je p řístup tv ůrc ů informací k popisu dokumentu. Málokterý tv ůrce dokumentu udává v textu údaje do oblasti „ author“ či „ Description “, a to i ve v ědeckých pracích. Snižuje se tím d ůvěryhodnost materiálu a možnost dalšího zpracování. S tím souvisí i otázka motivace. Pokud se auto ři nenau čí popisovat své materiály metadaty, pravd ěpodobn ě sémantický web nikdy nebude uveden do praxe. Existuje totiž obrovské množství webových stránek a šance, že by n ěkdo články upravil a p řidal k nim metadata, je mizivá. Dalším problémem jsou vyhledáva če. N ěkteré vyhledáva če totiž nejsou schopny takto uložené informace p řečíst. Fungují na jiných metodách zpracování a je otázka, zda n ěkdy úpln ě všechny p řejdou na sémantické vyhledávání. Další d ůvod již není technického rázu, ale je z oblasti marketingu. Spousta webových stránek časopis ů je placena díky reklam ě. Jelikož díky sémantickému vyhledávání by reklama typu PPC 19 moc nefungovala, t ěžko říci, jak by se financování stránek dále řešilo.

1.7 Sémantický web v praxi Dnes existuje velké množství aplikací, které používají sémantiku v praxi. Uvedeme si několik p říklad ů: A. sémantické vyhledáva če: • Wolfram Alfa Tento vyhledáva č hledá informace na základ ě sémantiky. Zadávání klí čových slov probíhá v angli čtin ě. Vyhledáva č nám p ředkládá informace obšírn ějším zp ůsobem, nap ř. p ři zadání dotazu „ President of Czech republic“ nám ukáže nejen jméno Václava Klause, ale také souhrn informací o n ěm – datum narození, fotku, od kdy je prezidentem a seznam předcházejících prezident ů. Zajímavá je také informace o zadávání matematických p říklad ů. Okamžit ě nám ukáže výsledek. Což dnes už vyhledáva č Google.com dokáže taky. • Google Squared Jedná se o vyhledáva č firmy Google, který vyhledaná data se řadí do tabulky. Po zadání klí čového slova nap ř. „czech presidents“ (klí čová slova musí být v angli čtin ě) nám vytvo ří seznam prezident ů ČR i s fotografiemi, datem narození a jmény manželek.

19 PPC je zkratka pro Pay peer click. Je to zp ůsob reklamy na webu, kdy se platí za po čet kliknutí.

11 • Powerset Vyhledáva č Powerset pat ří od roku 2008 firm ě Google. Tento vyhledáva č umí vyhledávat informace zadané v přirozeném jazyce. Dnes tento vyhledáva č funguje jako vyhledáva č Bing. Zadáme-li do n ěj otázku „ Kdo je prezident ČR?“ Nabídne nám to odpov ědi v podob ě odkaz ů, které obsahují i klí čová slova jako „kdo“ a „je“ práv ě v souvislosti s dalšími klí čovými slovy jako „prezident“ a „ ČR“. • True Knowledge Tento vyhledáva č nám odpoví slovem. Zadáme-li nap ř. „Jaký den v týdnu byl 30. prosinec 2008“ (v angli čtin ě), výsledkem je „úterý“ a odkaz na informace o výsledku z wikipedie. Vypadá to velice revolu čně, ale i tento vyhledáva č má omezené informace. Pokud se zeptáme na informaci, která v databázi není uložena, nabídne nám, abychom ji sami do znalostní banky vyhledava če za řadili. • Swoogle První sémantický vyhledáva č Swoogle není na takové úrovni, jakou by od n ěj člov ěk za dobu jeho existence mohl o čekávat. Nemá tém ěř žádný obsah, ve kterém by se dalo vyhledávat, proto jsou informace v ětšinou mimo klí čové slovo. • Sindice Sémantický vyhledáva č Sindice indexuje webové stránky díky RDF a mikroformát ům. Vznikl v roce 2008. Vyhledávání je rychlé, m ůžeme si stanovit rozsah vyhledávání pomocí dn ů a také formát ů. Nap ř. p ři vyhledávání slova „Tim Berners Lee“ nám Sindice našel cca 5800 dokument ů b ěhem p ůl sekundy.

B. projekty, které jsou založené na sémantice:

• ZnalSys Znalostní systémy jsou projektem pro podporu ve řejné správy v oblasti dopravní telematiky 20 . Cílem tohoto projektu bylo vytvo řit znalostní systém pro výzkum a vývoj v oblasti telekomunikace a informatiky, který by užíval práv ě sémantiku. Tento projekt má být využitelný nap ř. p ři zadávání ve řejných zakázek, zadávání resortního výzkumu, či porovnávání národních řešení s evropskými projekty. Projekt má být sekundárn ě využitelný i v doprav ě. • Nepomuk

20 Telematika je technologický obor, který vznikl spojením obor ů telekomunikace a informatiky

12 Projekt Nepomuk je sociální sémantický desktop, který má využívat sdílení informací lidmi, ší ření znalostí a sémantiky. Tento projekt vznikl za finanční spoluú časti Evropské unie a nachází se ve fázi vývoje. Má ale ur čité nevýhody – tento desktop velice zat ěžuje opera ční systém a nemá dostatek informací, které by mohli uživatelé využívat.

C. Známé webové aplikace, které sémantiku také využívají: • Yahoo • Drupal • Wordpress • Youtube • Twitter • Facebook • LinkedIn • Flickr • Slideshare

1.8 Vize vývoje sémantického webu Není v ůbec jednoduché říci, jak se oblast sémantického webu bude vyvíjet dále. Docent Vilém Sklenák vývoj sémantického webu vidí v oblasti tzv. . Popisuje ji jako formu publikování na webu, kdy mezi sebou nebudou propojeny jen články, ale i jednotlivá data. Definuje tento prostor jako web dat. Dále se snaží definovat vztah mezi sémantickým webem a webem dat. Definuje sémantický web jako cíl a linked data jako nástroj, kterým tohoto cíle m ůžeme dosáhnout. Michal Černý v článku 21 časopisu Ikaros p řisuzuje vývoj sémantického webu mikroformát ům. Co to jsou mikroformáty a pro č práv ě ony jsou i podle mého názoru důležitým a možná i hlavním prvkem rozvoje sémantického webu se pokusím nastínit v další části práce.

21 Michal Černý, Sémantický web – jak dál?, 2009

13 2 Mikroformáty

Mikroformáty jsou formou zápisu sémantiky p římo na webové stránky. Díky mikroformát ům m ůžeme velice snadno do textu zasadit informace jako událost, adresa, geografická lokace atd. a to všechno v podob ě, které rozumí nejen po číta č, ale i člov ěk. Mikroformáty se ozna čují symbolem µF.

2.1 Definice mikroformát ů Jednu z prvních definic, co to jsou mikroformáty, napsal Dan Cederholm v červnu 2005, kdy se spoušt ěla první a dodnes nejužite čnější stránka pojednávající o mikroformátech www.microformats.org . Napsal, že mikroformáty jsou „ souborem jednoduchých otev řených datových formát ů, které jsou postavené na stávajících a široce p řijatých standardech.“22 . Další definice, která se uvádí na již zmi ňovaných stránkách, je od Chrise Messina: „Mikroformáty jsou jednoduché kódy, které m ůžete použít k identifikaci konkrétních typ ů dat, jako jsou lidé nebo události, ve vašich webových stránkách.“23 Drew McLellan říká, že „Mikroformáty jsou zp ůsob p řipojení dalšího významu informací zve řejn ěných na webové stránce. Toto zvláštní sémantické obohacení pracuje spolu s informacemi, které byly již předloženy, a mohou být použity ve prosp ěch lidí a po číta čů . To se v ětšinou provádí pomocí přidávání speciálních předdefinovaných jmen atributu class stávajícího XHTML zna čení.“24 Cílem vývoje mikroformát ů je zlepšit strukturu blog ů či webových stránek a lépe prezentovat informace. Na tomto vývoji pracují jednotlivci, ale i celé organizace. Díky mikroformát ům tv ůrci webových stránek nemusí vymýšlet, jak identifikovat informace, které na sv ůj web píší. Další informace o tom, co vlastn ě mikroformáty jsou, k čemu a jak je využít, se m ůžeme dozv ědět v knížce Microformats: Empowering Your Markup for Web 2.0 , kterou napsal roku 2007 John Allsopp.

22 „Microformats are a set of simple, open data formats built upon existing and widely adopted standards.“ What are microformats, Microformats, 2005 23 „Microformats are simple codes that you can use to identify specific kinds of data, like people or events, in your webpages.“ What are microformats, Microformats, 2005 24 „ Microformats are a way of attaching extra meaning to the information published on a web page. This extra semantic richness works alongside the information already presented, and can be used for the benefit of people and computers. This is mostly done through adding special pre-defined names to the class attribute of existing XHTML markup.“ What are microformats, Microformats, 2005

14 2.2 Historie mikroformát ů Jelikož se b ěhem práce na sémantickém webu nep ředpokládalo, že by náhle p řišla n ějaká zm ěna, která by vývoj sémantického webu posunula neo čekávan ě n ěkam kup ředu, p říchod mikroformát ů bylo pro vizi sémantického webu n ěco jako tichá revoluce. Webové stránky se ze za čátku tvo řily p řevážn ě díky XHTML. Pak se objevil vývojá ř Exploreru Tantek Celik a éra vývoje mikroformát ů mohla za čít. Tantek Celik byl zástupcem Microsoftu a pracoval v několika pracovních skupinách W3C. V lét ě roku 2004 se kritika W3C dostala na vrchol a W3C opustil krom ě jiných významných osobností z této oblasti i Tantek Celik. Cht ěl prosadit u této spole čnosti formát XFN, který umož ňuje reprezentovat vztahy. Na vývoji tohoto mikroformátu se podílel také podnikatel z oblasti sociálních medií Matt Mullenweg a americký webdesignér Eric Meyer. Mikroformáty se dostaly z hlediska vývoje tak daleko, kam se jiná z konkuren čních sémantických technologií nedostala. Nejspíše nebude ani poslední technologií, ale práv ě kv ůli rozpracovanosti mikroformát ů osobn ě považuji tuto technologii za jednu z nejužite čnějších pro rozvoj sémantického webu. Měly však jednu menší nevýhodu – chyb ěla jim podpora velkých firem. Ale i to se brzy zm ěnilo. Ze za čátku byly podporovány od WordPress 25 , pozd ěji od Mozily, pak od Yahoo a Google. Roku 2008 je za čal podporovat Microsoft. Microsoft umožnil podporu mikroformát ů v prohlíže či Internet Explorer a vydal podporu mikroformát ů pro JavaScript. Dalším fanouškem mikroformát ů se postupem času stal LinkedIn a Amazon. Mezi české stránky, které používají mikroformáty, pat ří i ZlateStrany.cz. Využívají je také aplikace jako Drupal, Facebook či Flicker. Google je používá ve svých aplikacích jako je Google Chrome, , Google Maps či Gmail. Zajímavou informací z této oblasti je skute čnost, jak často je slovo „microformats“ vyhledáváno od roku 2004 až do dnešní doby na vyhledáva či Google.com. Viz obrázek č. 5:

25 WordPress je redak ční systém na vytvá ření webových stránek

15

Obrázek 5 - Statistika vyhledávání slova „microformats“

Skute čnost, že toto klí čové slovo se za čalo vyhledávat v první čtvrtin ě roku 2005, odpovídá tomu, kdy mikroformáty vznikly. V roce 2007 dosáhlo vyhledávání svého vrcholu a od té doby klesá. D ůvody pozice k řivky na tomto grafu budou podobné jako u obrázku č.1. Jedny z posledních událostí, které se kolem mikroformát ů d ějí, jsou r ůzné meetingy. Pravideln ě se konají v San Franciscu, kde se schází komunita vzniklá kolem mikroformát ů v čele s Tantekem Celikem. V říjnu 2011 se konala Web Expo v New Yorku na téma HTML5.

2.3 Využití mikroformát ů Mikroformáty jsou jedním z nástroj ů uvedení sémantického webu do praxe. Existuje velké množství mikroformát ů a jejich využití bude popsáno p římo u popisu každého z nich.

2.4 Druhy mikroformát ů Mikroformáty m ůžeme rozd ělit do dvou základních skupin. První z nich jsou mikroformáty, které jsou standardizované. Druhou skupinu mikroformát ů tvo ří koncepty.

2.4.1 Standardy Standardizované mikroformáty jsou takové, které jsou odzkoušené a funk ční. Testované jsou vydavateli i spot řebiteli, v ideálním p řípad ě mají testovací protokoly, kde jsou udávány výsledky testování spolu s problémy, které se b ěhem testování vyskytly. Mikroformáty, které pat ří do kategorie standard ů, jsou:

16 2.4.1.1 h-Calendar H-calendar je mikroformát, který ozna čuje takový typ událostí, které uživatelé mají v kalendá ři, a to i s krátkým shrnutím, data a času, místa, podrobného popisu a opakováním události. Existuje i h-Calendar Creator, díky kterému si m ůžeme velice jednoduše vytvo řit událost a pak jen zkopírovat HTML kód do našich webových stránek. Více informací o tomto mikroformátu nalezneme na http://microformats.org/wiki/hcalendar .

Příkladem by mohla být pozvánka na váno ční ve čírek soukromé firmy:

Váno ční ve čírek firmy ZES Brno, a.s. on 2012-12-21 v hotelu Holiday Inn in Brno, Česká republika .

Hlavní vlastností v tomto p řípad ě je „vevent“ Podvlastností je n ěkolik: • Sumarry - používá se ke krátkému shrnutí události. V kalendá ři se to zobrazí jako titulek a jméno akce. • Dstart – ozna čuje se tak za čátek akce, a to je formátu Rok-měsíc-den. Pokud bychom cht ěli zadat i čas, muselo by to být ve formátu Rok-měsíc- DenTHodina:minuta:sekunda. Nap ř. span class ="dtstart">2005-06-20T9:00:00 – za čátek je v 9 hodin. Písmenko T odd ěluje datum od času. • Dtend – definuje konec akce. • Location - udává místo akce. Příkladem použití v praxi by mohly být události na Facebooku, kalendá ř od Gmailu atd.

2.4.1.2 h-Card Tento mikroformát je ur čen pro uložení detailních kontakt ů na místa, lidi, spole čnosti či organizace. Používají ho mimo jiné i „chytré telefony“ – jsou v nich v tomto formátu uloženy kontakty v telefonním seznamu. Další specifikace najdeme na http://microformats.org/wiki/hcard .

Zde je p říklad pro popis osoby:

17

Lucie Ko řistková

A zde pro popis organizace:

< class = „url fn org" href = "http://zes.cz "> ZES Brno, a.s.

Možností, jak p řesn ě popsat osobu či místo aj. jsou r ůzné. První zkratka je n (fn) , která je povinná. Díky této zkratce m ůžeme definovat: • given name – jméno autora • additional name – druhé jméno autora • family name - přijmení • honorifix – prefix – titul p řed jménem • honorifix - sufix - titul za jménem Daná osoba m ůže mít krom ě k řestního jména a p říjmení n ěkolik t ěchto podvlastností.

Pokud bychom cht ěli k vizitce p řidat i fotografii, použijeme zkratku :

Lucie Ko řistková

Dalšími volitelnými vlastnostmi jsou: • bday – den narození • url - definuje popis webové adresy • adr - popisuje adresu • email • geo - existuje i jako samostatný koncept mikroformátu • org - organizace • tel Pro snazší využití komunita na stránkách www.microformats.org navrhnula aplikaci vCard Creator, která po zadání kontaktních údaj ů vytvo ří zápis v HTML za vás.

18 Příkladem by mohl být pokus o vytvo ření fiktivní adresy:

Lucie Kořistková
Poříčí 45
Brno, 63900 Česká republika
123456789

2.4.1.3 Rel-licence Tento mikroformát slouží k tomu, aby se více specifikovala autorská práva. Použitím dáme najevo, že informace m ůžeme využít, aniž bychom porušovali n ějaká práva. Když p řidáme rel=“licence“ k hypertextovému odkazu, dokazujeme tím, že licence pro daný odkaz je aktuální. A to licence pod Creative Commons 26 . Více informací najdeme na http://microformats.org/wiki/rel-license .

Příklad použiji z originálních stránek o mikroformátech – www.microformats.org:

cc o 2,0

Zde je tedy dokázáno, že tato stránka je licencovaná pod licencí Creative Commons Attribution 2.0. Může se samoz řejm ě stát, že t ěch licencí bude více. Dalším p říkladem použití m ůže být licence Apache 2.

2.4.1.4 Rel-nofollow Rel-nofollow je mikroformát, který definuje spíše chování než vztah. Pokud se hodnota nofollow dá všem odkaz ům, které nepat ří do konverzace mezi dv ěma stranami, pak se spousta spam ů nedostane do informa čního ob ěhu.

26 Creative Commons je druh licence, kdy n ěkterá práva na užívání díla jsou nabídnuta pro vyžívání ve řejností .

19 V roce 2005 p řišel s tímto doporu čením Google, aby mohli být zablokováni spame ři v diskuzi. Od roku 2008 s tímto mikroformátem pracují vyhledáva če jako Yahoo, Live, Morfea či Seznam. Tato vlastnost se dá aplikovat na jakékoliv stránky, takže je pot řeba se ob čas rozmyslet, jak často ji budeme používat. Podrobn ěji popis specifikací nalezneme na http://microformats.org/wiki/rel-nofollow .

Příkladem je zde ozna čení stránek seznamky Be2 za potencionální spam:

Be2

2.4.1.5 Rel-tag Mikroformát Rel-tag slouží k tomu, aby se lépe identifikoval odkaz pomocí klí čového slova nebo p ředm ětu na aktuální stránce. Díky tomu je viditelnost relevantních odkaz ů daleko vyšší. Není to ur čeno pro popis libovolné webové adresy. Použití by mohlo být nap ř. p ři tagování stránek na Delicious.com. Rel-tag se m ůže používat spolu s ostatními mikroformáty, nap ř. s hCard či hCalendar, aj. Nem ěl by se však používat v tzv. tag cloud 27 . Více informací najdeme na http://microformats.org/wiki/rel-tag .

Příkladem by mohlo být vyhledávání klí čového slova „tech“ na technorati.com použitý ze stránek microformats.org. Zde se odkazuje na ur čitou stránku nebo část textu, který je otegovaný jako „tech“. Poslední část textu, v tomto p řípad ě slovo „tech“ je text odkazu, který na danou stránku p řesune.

2.4.1.6 Vote links Tento mikroformát slouží k tomu, aby se dalo volit mezi 3 hodnotami – jsem pro, jsem proti a zdržuji se hlasování. Definujeme s ním vztah mezi zdrojovou a cílovou stránkou. Používá atribut rev, který je opakem rel atributu, a ten má 3 hodnoty:

27 Tag cloud je „mrak“ klí čových slov. V ětšinou dle velikosti textu klí čového slova m ůžeme poznat, jak často je toto klí čové slovo vyhledáváno.

20 • vote-for – kdy vyjad řujeme souhlas s podporou cílového odkazu • vote-aganist – kdy vyjad řujeme nesouhlas s podporou cílového odkazu • vote-abstain – kdy se zdržujeme rozhodnutí. Širší popis vlastností tohoto mikroformátu najdeme na http://microformats.org/wiki/vote- links .

Příkladem je odkaz na stránky Baracka Obamy, od kterých m ůžeme o čekávat souhlas:

Mnoho lidí v ěř í, že Barack Obama představuje v americké politice osobnost, která by mohla leccos zm ěnit.

Příklad opaku:

Cht ěla bych podpo řit Baracka Obamu , ale nejsem si úpln ě jistá správností mého rozhodnutí.

V případ ě použití „vote aganist“ je lepší použít mikroformát „rel-nofollow“, který dané odkazy „zakáže“ rovnou. Fungujícím p říkladem m ůže být stránka Like or Hate ( http://likeorhate.com// ), kde si uživatelé mohou založit sv ůj ú čet a mohou sledovat, co z oblasti kultury je populární a co ne.

2.4.1.7 XFN XFN je mikroformát, který definuje vztahy mezi lidmi pomocí hypertextových odkaz ů. Používá atribut Rel, ale záleží na tom, jaké vztahy p řesn ěji chceme definovat. Používá se především v sociálních sítích. Užití má i v definování vazeb nap ř. mezi knihovnami a místními ú řady. XFN má tedy n ěkolik hodnot z různých oblastí – přátelství, práce, vztahy z oblasti bydlení, vztahy v rodin ě a z oblasti romantiky: • Me – používáme ho jen tehdy, chceme-li poukázat na n ějakou webovou stránku, která je také naše. V jiných p řípadech se moc nepoužívá, t ěžko budeme kamarádi „sami se sebou“. • Contac t – je definování osoby, se kterou sdílíme jen základní informace.

21 • Aquaintace – je definování hlubšího vztahu, je to člov ěk, se kterým se známe více, českým ekvivalentem je slovo známý. • Friend – je definování vyložen ě p řátelského vztahu. • Met – definuje fyzické setkání dvou osob. • Co-worker – je hodnota, která definuje spolupracovníka. • Collegaue – kolega, n ěkdo, kdo s námi sdílí stejné hodnoty a pracuje na stejných projektech, stejném oboru či d ělá stejnou činnost. • Co-resident – definuje člov ěka z geografické oblasti. Tento člov ěk bydlí na stejné adrese jako my. • Neighbor – taktéž definuje geografickou lokace p řátel. Týká se to však širší oblasti než stejná adresa. • Child – definuje naše dít ě. • Parent – definuje naše rodi če. • Sibling – definuje sourozenecké vztahy. • Spouse – popisuje manželský vztah. • Kin – definuje jakéhokoli dalšího p říbuzného. • Date – popisuje vztah dvou lidí, kte ří spolu chodí. • Crush – je vztah mezi námi a n ěkým, kdo nás p řitahuje, a čkoliv s ním nic nemáme. • Sweetheart – popisuje vztah mezi dv ěma lidmi, kte ří si jsou emocionáln ě oddání. • Muse – popisuje vztah k někomu, kdo nás inspiruje. Více informací o tomto mikroformátu najdeme na webovém rozcestníku http://microformats.org/wiki/XFN .

Příkladem by mohl být výstup z XFN Creatoru, který pro zjednodušení vytvo řila komunita Microformats.org:

Markéta Dobiášová

Z tohoto popisu bychom pochopili, že Markéta Dobiášová, která vlastní výše uvedenou webovou stránku, je moje p řítelkyn ě, kolegyn ě ze školy, se kterou jsem se setkala, a bydlí nedaleko m ě.

22 Dané hodnoty nemají žádné po řadí, mohou se uvád ět tak, jak uznáme za vhodné. Zajímavé je i řešení zp ětné vazby; pokud my ozna číme n ěkoho za p řítele a on nás za známého, není v tom ze sémantického pohledu žádný problém. XFN používá n ěkolik nástroj ů z oblasti blogování – WordPress či AutoXFN. Existuje i projekt s názvem XFN Graph, který vizualizuje a propojuje XFN odkazy a dává nám tím možnost se seznámit s novými lidmi, kte ří nap ř. sdílí stejné zájmy jako my. XFN používá spousty sociálních sítí, nap ř. LindedIn, Flicker, Twitter atd.

2.4.1.8 XOXO Xoxo je zkratka pro Extensible Open XHTML Outlines, je to mikroformát pro víceúrov ňové osnovy a jejich formáty s využitím XHTML. Díky tomu je možné popsat strukturu obsahu, která se dá zpracovávat XML nástroji. Použít ho m ůžeme nap ř. u mapy stránek či seznam ů – číslovaných či ne číslovaných. Více informací najdeme na http://microformats.org/wiki/xoxo .

Příkladem by mohl být zápis mapy stránek ve formátu XOXO:

2.4.1.9 XMDP XMDP je zkratka pro XHTML Meta Data Profiles, tedy formát pro popis HTML metadat pro jednotlivé mikroformáty. Má n ěkolik zásad – měl by být jednoduchý, co nejmenší a m ěl by se dát op ětovn ě použít.

Příkladem m ůže být použití mikroformátu VoteLinks, jehož stránka je http://microformats.org/profile/vote-links. Pokud bychom ho cht ěli implementovat do jiných webových stránek, musíme p řidat atribut „profile“ do části „head“:

23

Je pot řeba si ale uv ědomit, že stránky mohou obsahovat více mikroformát ů najednou. Docílíme toho tak, že atributu profile přiřadíme n ěkolik hodnot, které od sebe odd ělíme mezerou. Tedy v případ ě použití mikroformátu hCard a hCalendar by profil vypadat takto:

http:// microformats.org/profile/hCalendar

Další informace o tomto mikroformátu m ůžeme získat na webovém rozcestníku http://microformats.org/wiki/XMDP .

2.4.2 Koncepty Koncepty jsou nov ější mikroformáty, pro n ěž specifikace ješt ě nebyla dokon čena. Není zaru čena stabilita těchto mikroformát ů a neustále se na jejich vývoji pracuje. Proto existuje kolem nich n ěkolik problém ů – nap ř. nedostatek uživatelských nástroj ů či nedostatek informací o jednotlivých vlastnostech a podvlastnostech. V sou časné dob ě je k dispozici 17. V tomto seznamu jich bude 18, protože jsem našla mikroformát pro citace a p řišel mi natolik zajímavý, že ho chci zmínit, a čkoliv mezi oficiální seznam koncept ů nepat ří.

2.4.2.1 ADR ADR je jednoduchý mikroformát, který slouží k ozna čkování informací o adrese. Hodí se pro použití HTML, XHTML, Atom atd. Adr vychází z mikroformátu hCard, je to p římo jeho vlastností. Adr má n ěkolik podvlastností: • post-office-box – poštovní schránka • extended-address – číslo popisné • street-address - ulice • locality - město • region - kraj

24 • postal-code – poštovní sm ěrovací číslo • country-name – název zem ě

Příkladem by mohla být tato adresa:

Po říčí 35 Brno , Jihomoravský , 63900 Česká republika

Pokud však uživatel chce uve řejnit i jméno místa, musí využít mikroformát hCard. Více informací o tomto mikroformátu najdeme na http://microformats.org/wiki/adr .

2.4.2.2 GEO Geo je koncept mikroformátu, díky kterému se definuje zem ěpisná ší řka a délka, op ět je to vlastnost z mikroformátu hCard. Geo má k dispozici dvě podvlastnosti, a to: • longitude – zem ěpisná délka • latitude – zem ěpisná ší řka Použití konceptu geo m ůže být p ři geocachingu, lokaci na mapách atd. Vyhledáva č Seznam přidal do svých map tento mikroformát již p řed n ěkolika lety. Tento vyhledava č p ři nalezení mikroformátu geo ve struktu ře n ějaké webové stránky p řidá k výsledku informaci „Zobrazit na map ě“. Existují t ři p říklady, jak m ůžeme geo tag zapsat: 1. Základní:

34.418387, -152.137535

2. Rozší řený:

25 N 37° 24.491 -152.137535">W 122° 08.313

3. Zkrácený:

Popis lokace

Jedinou nevýhodou je, že čísla musí být uvedena v desetinách stup ňů . Obšírn ější informace o použití a vlastnostech tohoto mikroformátu najdeme na http://microformats.org/wiki/geo .

2.4.2.3 hAtom Tento koncept mikroformátu byl vytvo řen proto, aby se daly identifikovat sémantické informace v blozích či zpravodajských článcích. Vychází z formátu Atom. P ůvodn ě m ěl sloužit k tomu, aby obsah mohl být p řeveden do RSS 28 . Struktura tohoto mikroformátu je dána n ěkolika vlastnostmi: • Hentry – základní vlastnost, která obsahuje n ěkolik podvlastností. • Entry-title – definuje titulek p řísp ěvku. • Entry-content – definuje zn ění položky; m ůže být použito n ěkolikrát a je volitelná. • Entry-summary – definuje shrnutí; m ůže být použito n ěkolikrát a je volitelná. • Updated – ur čuje datum poslední aktualizace p řísp ěvku; je to povinná vlastnost. • Author – definuje informace o autorovi a to ve formátu hCard, také povinná vlastnost. • Published – definuje dobu publikování, podobná vlastnost je Updated. Taktéž volitelná vlastnost. • Bookmark – definování záložek, je to volitelná vlastnost. • Tags – štítkování, nepovinná vlastnost. Definují se tak klí čová slova.

Zajímavý p říklad použití s využitím dalších mikroformát ů uvádí Martin Drlík ve své bakalá řské práci: 29

28 RSS je nástroj na stahování novinek z webového obsahu. 29 DRLÍK Martin, Mikroformáty pro sémantický web, 2011, str. 85

26 < !-- vyu žijeme d říve probíraný mikroformát XOXO --> < ol class =" xoxo "> < li class =" hentry "> < h3 class =" entry - title "> hAtom < div class = " updated published "> < span class = "value - title " title = " 2011 -03 -11 "> 11. 3. 2011 < strong > Vložil : < span class = " author vcard "> < span class = " fn "> Martin Drlík

Složený mikroformát hAtom přebírá využitelné vlastnosti formátu Atom , které jsou pot řebné p ři sémantickém zna čení článk ů.

...

Nap ř. Twitter používá hAtom pro aktualizaci stavu a poznámek. Další zajímavé informace o tomto mikroformátu m ůžeme najít na http://microformats.org/wiki/hatom .

2.4.2.4 hAudio Konceptuální mikroformát hAudio je jednoduchý, otevřený formát, který slouží ke vkládání zvukových nahrávek. Díky n ěmu m ůžeme ke skladb ě p řidat informace o interpretu, vydavateli, datu vydání či jiné. Schéma tohoto mikroformátu je následující:

27 • Fn /album – je povinná vlastnost. Fn použijeme, pokud chceme ozna čit název jedné skladby. Pokud je skladeb více, použijeme album. • Haudio – základní vlastnost, ke které pat ří další vlastnosti a podvlastnosti. • Contributor – nepovinná položka, definuje se tak osoba či organizace, která pomáhá při vytvá ření skladby. Definujeme pomocí formátu hCard. • Duration – nepovinná položka, ozna čuje se doba trvání skladby. • Item – díky této vlastnosti se ozna čuje stopa nebo písni čka v albu. • Position – udává pozici písni čky, nap ř. jak jdou písni čky za sebou. • Category – definuje se styl nahrávky – žánr. • Published – definuje se datum vydání. • Photo – můžeme k písni čce p řidat fotku - pomocí tagu . • Description – definuje popis skladby. • Sample – nepovinná položka, definuje možnost ukázky nahrávky. • Enclosure – umož ňuje vyzna čit odkaz, kde si m ůžeme nahrávku stáhnout. • Payment – definuje zp ůsob a možnosti zaplacení nahrávky. • Price – definuje částku, která je pot řeba za skladbu zaplatit. Obšírn ěji popsané vlastnosti tohoto mikroformátu m ůžeme najít na http://microformats.org/wiki/haudio .

Příkladem by mohlo být zpracování písni čky Malá mo řská víla od Anety Langerové:

Malá mo řská víla , pop od Aneta Langerová ,

28 2.4.2.5 hListing Tento konceptuální mikroformát slouží k tomu, abychom mohli zobrazovat otev řen ě seznamy nap ř. reklam či inzercí. Umož ňuje efektivn ě sdílet či vyhledávat informace tak, aby to bylo prosp ěšné jak pro prodávající, tak pro nakupující. Tento koncept navazuje na praktiky používané na eBay či jiných inzertních serverech. Tento formát má následující vlastnosti: • HListing – základní vlastnost, která obsahuje další vlastnosti a podvlastnosti. • Listing action – definuje typ zve řejn ěné informace. M ůžeme k tomu využít hodnoty jako je sell (prodej), rent (pronájem), trade (obchod), meet (setkání), offer (nabídka), wanted (hledá se), event (událost), service (služba). • Lister – udává informace o člov ěku, který daný seznam vytvo řil (ve formátu hCard), nutná informace. • Dtlisted – datum, pop ř. čas, od kdy platí vypsaný seznam; nepovinné. • Dtexpired – datum, do kdy platí vypsaný seznam; nepovinné. • Price – cena nabídky, udávaná v čísle. • Item – zna čí položku, o co se vlastn ě jedná. Pokud popisujeme osobu nebo firmu, použijeme hCard (s vlastnostmi geo, adr, url, photo, fn), nutná položka. • Summary – shrnující informace, nepovinná položka. • Description – povinná položka, definuje popis seznamu. • Tag – nepovinná položka; uvádí klí čová slova nebo fráze. • Permalink – nepovinné, vyzna číme tím trvalý odkaz, který poskytuje daný seznam. Více informací najdeme na http://microformats.org/wiki/hlisting .

Příkladem by mohla být nabídka pronájmu bytu:

Byt k pronájmu (16.3.12). Byt o velikosti 60m2, 2+1, zrekonstruovaný na adrese: Po říčí 35a, Brno, Česká republika, 639 00. K dispozici do 16. 6. 12 za 10 000,- měsí čně. Prosím, kontaktuje Martina Lindra na 723 223 334

29

Byt k pronájmu ( 16.03.12 )

Byt o velikosti 60m2, 2+1, zrekonstruovaný na adrese:

Po říčí 35a Brno 63900 Česká rebublika
K dispozici do 16.06 2012 za Korun 10 000,- /měs.

Prosím, kontaktujte Martina Lindra na 723 223 334

2.4.2.6 hMedia Tento jednoduchý mikroformát slouží k publikování médií. Je to jediný formát, díky kterému m ůžeme publikovat obraz, video i zvuk jednoduše a minimalisticky. Tento koncept má n ěkolik vlastností: • Hmedia – je základní vlastnost, díky které definujeme zbylé vlastnosti a podvlastnosti. Tento prvek je povinný. • Fn – definuje název celého souboru, také je povinný. • Contributor – osoba či organizace, která se podílí na vzniku souboru. Nemusí se jednat jen o jednu osobu či organizaci, informace jsou udány pomocí hCard. • Photo – díky této vlastnosti definujeme obrázek, který pat ří k danému souboru. Definujeme ho pomocí tagu . • Player – definuje obsah soboru, tj. video. Použít ho v daném formátu m ůžeme jen jednou. V ětšinou se k němu stahuje prvek . • Enclosure – díky tomuto m ůžeme definovat URL na stažení souboru.

30

Příkladem m ůže být popis videa využitý ze stránek www.microformats.org 30 :

Introduction to the Open Media Web

Další informace o tomto mikroformátu m ůžeme najít na http://microformats.org/wiki/hmedia .

2.4.2.7 hNews HNews je mikroformát, díky kterému m ůžeme p řidat sémantiku do textu ve zpravodajství. Jeho p ředch ůdce je hAtom, kterého hNews rozši řuje. Tento formát se skládá z několika částí: • HNews, hentry – nutná vlastnost, která definuje další podvlastnosti. • Source-org – taktéž nutná vlastnost, definuje informace o zdrojích (odkud článek pochází) pomocí hCard. • Dateline – nepovinné pole, ozna čuje místo, kde byl článek napsán. M ůžeme použít formát hCard. • Geo – taktéž nepovinná část mikroformátu, definuje geografickou lokaci, kam článek pat ří. Více ho definujeme podle samostatného mikroformátu geo. • Item – licence – doporu čené pole, p řidává článku licenci v rámci zpravodajského textu. • Principles – odkazuje na stránky ohledn ě princip ů a etiky, které jsou používány p ři psaní článk ů. Detailn ější popis vlastností najdeme na http://microformats.org/wiki/hnews .

30 MCEVOY Martin, hMedia, 2009

31 Příkladem by mohl být popis novinek na stránkách od Martina Drlíka, který uvádí ve své práci 31 :

Výsledky výzkumu Mikroformáty
3. dubna 2011
Martin Drlík
< div class = "source - org vcard "> Zdroj : mikroformaty.drlikm.cz

: Výzkum ohledn ě mikroformátů byl vyhodnocen.

2.4.2.8 hProduct HProduct je návrh mikroformátu, který umožní efektivn ěji popsat produkty na trhu. Díky tomuto prvku m ůžeme informace o výrobku uvést sémanticky a bude tak v ětší šance, že se daný výrobek na trhu prodá. Tento koncept má n ěkolik prvk ů: • HProduct – je základní název t řídy, který má další vlastnosti.

31 DRLÍK Martin, Mikroformáty pro sémantický web, 2011, str. 109

32 • Fn – popis produktu; povinná vlastnost. • Brand – (zna čka) nepovinná informace; používá se mikroformát hCard. • Category – definuje kategorii produktu, m ůže být uvedeno n ěkolik kategorií. • Price – definuje cenu. • Description – daná vlastnost musí být uvedená, definuje popis výrobku. • Photo – umož ňuje vložit fotografii. • Url – definuje stránku, která se vztahuje k danému výrobku. • Review – zajistí informace o zkoumání či názorech na daný výrobek. • Listing – definuje se seznam výrobk ů. • Identifier – nepovinná informace o identifikaci výrobku; obsahuje název t řídy „ type “ a těch m ůže být n ěkolik: model, isbn, issn, ean, vin atd. Jedná se už o p řesné specifikace daného výrobku.

Příklad je uveden ze stránek www.microformats.com a definuje popis tiskárny HP: hproduct Dostupnost = skladem fn = HP Officejet 6000 Wireless Printer identifier type = SKU value = C9295A # B1H price = 119,99 dolar ů review hReview-agregát Položka fn = HP Officejet 6000 Wireless Printer hodnocení pr ůměr (normalizovaná na 5,0 m ěř ítku) = 3,5 pr ůměr = 3,4 count = 69

Další zajímavé informace o tomto mikroformátu m ůžeme najít na http://microformats.org/wiki/hproduct .

2.4.2.9 hRecipe Tento mikroformát umož ňuje definovat informace o receptech a jídlech tak, aby v textu bylo poznat, co jsou p řísady, doba va ření atd. Obsahuje následující prvky: • HPecipe – základní vlastnost, která musí být uvedena.

33 • Fn – požadovaná vlastnost, která definuje název receptu. • Ingredient – definuje p řísady pokrmu, muže jich být definováno více. • Yield – definuje, pro kolik lidí je recept ur čen. • Instructions – definuje postup va ření pokrmu. • Duration – definuje dobu trvání p řípravy pokrmu. • Photo – definuje možnost vložení fotografie. Tato vlastnost není povinná. • Summary – definuje krátký souhrn informací o receptu. • Author – popisuje autora receptu, není to povinná vlastnost. Informace mohou být vkládány pomocí formátu hCard. • Published – definuje datum zve řejn ění receptu. • Nutrition – definuje informace o výživových hodnotách. • Tag – umož ňuje p řidat klí čová slova.

Příkladem by mohl být recept na míchaná vají čka:

Míchaná vají čka

Míchaná vají čka jsou jednoduchá.
Tento recept je jen p říklad, jde o techniku zápisu pomocí mikrofomrátu!

Contributed by Markéta Dobiášová a Rychlé va ření .

Published 18. Oct 2009

Přísady pokrmu:

  • 4 kusy vají ček.
  • 1 lži čka soli.
  • 1 lžíce oleje.
  • Můžete p řidat: pep ř či jiné ko ření na dochucení

    34

Postup va ření:

  • Nejprve dejte olej na pánev a rozeh řejte ji.
  • Poté rozbíjte vají čka, smíchejte dohromady, osolte a dochu ťte ko řením.
  • Nakonec nalijte na pánev a míchejte, dokud nebudou hotová.

Další informace

Vysta čí pro 1 osobu .

Doba p řípravy je 10 min

Add

Míchaná vají čka mají asi 100 Joule Energy ,

Podrobn ěji popsané informace o vlastnostech a použití tohoto mikroformátu m ůžeme najít na http://microformats.org/wiki/hrecipe .

2.4.2.10 hResume HResume je mikroformát, který se používá p ři psaní životopis ů. M ůžeme pak v nich odlišovat kontaktní informace, vzd ělání aj. Tento mikroformát se d ělí na n ěkolik polí: • HResume – je základní vlastnost, která se vztahuje na další vlastnosti. • Summary – shrnutí, nepovinná informace. • Contact info – kontaktní informace, požadovaná vlastnost, musí být ve formátu vCard • Experinence – definují se tak zkušenosti, tj. název spole čnosti, kde pracuji, pozice či adresa spole čnosti. • Education – popisuje vzd ělání, umož ňuje uvést název školy, t řídy, adresu školy atd.

35 • Skills – popisuje dovednosti, které žadatel ovládá. • Affilations – popisuje se p říslušnost k organizaci. • Publications – definuje publikace, používá se prvek „cite“. Více informací najdeme na http://microformats.org/wiki/hresume .

Příklady k danému mikroformátu: Shrnutí:

Mám praxi v prodejn ě čaj ů a kávy. Pracovala jsem tam 5 let, vyznám se v různých druzích kávy a čaje.

Vzd ělání

  1. < class = "url fn org" href = "http://www.muni.cz/" > Masarykova univerzita

    Kontakt:

    Markéta Semeráková Úst řední 123

    2.4.2.11 hReview Tento koncept mikroformátu slouží k zabudování recenze o n ějakém objektu (výrobku, míst ě, akce, podniku, služby atd.) do webových stránek tak, aby byl sémanticky čiteln ější. Tento koncept má dané schéma: • HReview – základní vlastnost, která definuje další podvlastnosti: • Summary – definuje krátké shrnutí informací. • Type – umož ňuje rozt řídit informace do r ůzných polí – zda jde o místo, osobu, podnikání či výrobek atd.

    36 • Item – informační položka, která je d ůležitá. Definuje se pomocí vCard, pokud jde o osobu či organizaci a hCalendar, pokud se jedná o akci. • Reviewer – definuje osobu, která recenzi napsala. • Dtreviewed – definuje datum a čas napsání recenze. • Rating – umož ňuje popis samotného hodnocení a to ve form ě čísla od 1,0 do 5,0. • Description – definuje popis samotné recenze. • Tag – definuje klí čová slova. • Permalink – umož ňuje popsat webovou adresu, která vede k dané recenzi. • License – definuje licenci recenze; ve formátu rel-license. Další zajímavé informace m ůžeme najít na http://microformats.org/wiki/hreview .

    Příkladem by mohla být recenze filmu:

    Monique , 18.března , 2010
    < lang = "zh" class = "url fn" href = "www.exmaple.com" > Ying Xiong ( HERO )
    Hodnocení: 4 z 5

    Tento film byl úžasný.

    2.4.2.12 rel-directory Tento koncept m ůžeme použít ve chvíli, kdy chceme díky hypertextovému odkazu poukázat na adresá ř, který obsahuje položky na stránce. P říkladem by mohl být výpis uživatel ů a jejich webových adres či seznam bloger ů. Více informací najdeme na http://microformats.org/wiki/rel-directory .

    Příklad použití je jednoduchý. Zde je seznam produkt ů na webovém obchod ě, které jsou v akci. Odkaz sm ěř uje na jejich výpis.

    37 Ak ční nabídka

    2.4.2.13 rel-enclosure Mikroformát rel-enclosure použijeme tehdy, pokud chceme do odkazu dát informaci, že daný dokument je možný stáhnout - ať už jako celý soubor anebo ho chceme uložit do vyrovnávací pam ěti.

    Praktický p říklad užití toho mikroformátu by mohl být tento:

    Sklenák Vilém

    Tento p říklad definuje, že na této stránce je k dispozici dokument od Viléma Sklenáka, který je možné si stáhnout. Více informací najdeme na http://microformats.org/wiki/rel-enclosure .

    2.4.2.14 rel-home Tento koncept mikroformátu slouží k tomu, abychom definovali domovskou stránku hypertextového odkazu. M ůžeme ho použít dv ěma zp ůsoby. Pomocí klasického atributu a nebo jako sou část . Další p říklady použití najdeme na http://microformats.org/wiki/rel-home .

    Uve ďme si oba dva p říklady, které poukazují na domovskou stránku, kterou jsme si stanovili vyhledáva č Seznam:

    ... ...

    38 Nebo

    ... ...

    2.4.2.15 rel-payment Pomocí konceptu rel-payment m ůžeme do stránek implementovat informaci, že daný odkaz sm ěř uje na ur čitý mechanismus platby. Tento mikroformát by m ěl najít uplatn ění u RSS čte ček. Více informací o tomto mikroformátu najdeme na http://microformats.org/wiki/rel-payment .

    Níže uvedený p říklad je možností, jak tento koncept použít v praxi:

    Podpo řte tento web

    Zjednodušen ě je zde definováno, že jde o odkaz, který umož ňuje n ěco finan čně podpo řit. Text odkazu by krom ě výše uvedeného mohl být jiný, nap ř. „Kupte si knihu zde“ atd. Záleží na tom, co chceme zaplatit či podpo řit.

    2.4.2.16 robots exclusion Díky tomuto mikroformátu m ůžeme docílit toho, že n ěkteré informace na webové stránce nebudou indexovány p ři vyhledávání. Více zajímavostí najdeme na http://microformats.org/wiki/robots-exclusion .

    Příkladem by mohlo být:

    Pokud Vám náš poradce dostate čně neodpoví na Váši otázku, kontaktujte mne v ojedin ělých p řípadech na emailové adrese [email protected] .

    39 Pomocí atributu „ robots – noindex“ dáme najevo, že si nep řejeme, aby naše emailová adresa byla indexována vyhledávacími roboty.

    2.4.2.17 xFolk S mikroformátem xFolk m ůžeme sémanticky ozna čkovat záložky. Díky takovému ozna čení mohou být záložky lépe zpracovány a využité k tzv. sociálnímu záložkování 32 , na jehož principu funguje nap ř. stránka Delicious.com. Jeho povinnou vlastností je „tagetlink “ – tu p řipisujeme na odkaz, který chceme ozna čkovat. Dále m ůžeme využití volitelných vlastností – „Description “ – která umož ňuje popis dané záložky a „ tag “ – která definuje klí čová slova (tagy). Další informace najdeme na http://microformats.org/wiki/xfolk .

    Příklad použití nalezneme na oficiálních stránkách o mikroformátech 33 :