Vize sémantického webu

Stávající lidstvo, nacházející se v době informačního věku, si nejspíš ani neuvědomuje, že uplynulo již deset let od okamžiku, co se autor stávajícího webu – Tim Barners-Lee poprvé podělil o svojí ideji sémantického webu, která se snaží dnešní neuspořádanou množinu webových stránek proměnit, do propojeného systému zdrojů, neboli Linked Data. Cílem by bylo nejenom poskytovat dokumenty, které budou čitelné pro člověka, ale také data ve strojově snadno zpracovatelném formátu, obohaceném o příslušné vztahy mezi těmito daty.

Sběr a práce s daty dnes

Na světě ještě pořád existuje tolik informací, která nejsou volně dostupná ke zpracování a volnému využití komukoli, kdo by měl nápad, nebo potřebu dát tyto data dohromady a vyřešil tak určitý problém.

"We must keep an open interface platform.
The important thing is that the standards are royalty-free."
- Tim Barners-Lee

Prvním problémem je, že málokterá data jsou veřejně dostupná. Další překážkou je fakt, že pokud chceme propojit více datových zdrojů, tak mohou být ve formátu, který dokáže číst a zpracovat člověk, ale počítač již ne. Pokud jsou data poskytována i ve strojově zpracovatelném formátu, většinou je to realizováno pomocí aplikačních rozhraní (API), takže sice jsou přenášena v unifikovaném formátu (XML), ale data nenesou žádnou sémantickou informaci. Systém, který data zpracovává, musí dostat rovněž popis rozhraní, aby věděl na jaké adrese a s jakými parametry může o data žádat.
Určité snahy o obohacení dat sémantickou informací tu již jsou - mikroformáty, mikrodata, RDF, RDFa a nebo HTML5 s novými sémantickými tagy. Pro více informací o konkrétní implementaci je vhodné vyhledat právě tyto klíčová slova.

Projekty sběru a publikace dat dnes

Projekty, které se zabývají sběrem a publikace dat, můžeme rozdělit na otevřené a uzavřené. Uzavřené projekty nejsou pro nás zajímavé, protože jejich výstupy nemůžeme nijak legálně využít a tak se jimi nebudu ani zabývat. Na okraj akorát zmíním, že sběr dat probíhá i v případech, kdy si to běžný člověk ani neuvědomuje. Například mýtné brány, platební karty, věrnostní programy. Obrovské množství dat, nad nimiž lze provádět např. prediktivní analýzu, jak se o to již snaží policisté v New Yorku, nebo americká pojišťovna na svých klientech.

Otevřené projekty

O tom, jaká je síla dat, když jsou správně použita, svědčí například projekt Ushahidi, který dokázal využít možnosti crowdsourcingu ke sběru důležitých dat např. při zemětřesení v Japonsku a poskytnout je lidem přímo v terénu. Možnost zjistit informaci o tom, za které veřejné zakázky se utrácí kolik peněz a jaká firma dostala zakázku přidělenou? Ideální bič na korupci, který je již částečně realitou. Zveřejnění dat o četnosti jmen a příjmení v České republice, ačkoli jsou poskytována pouze ve formátu CSV, je možostí jak nad nimi postavit uživatelsky přívětivý výstup. Nakonec bych rád zmínil projekt OpenStreetMap, svobodná editovatelná mapa, kde každý může přidat svojí část.

Vize sémantického webu

Moje idea sémantického webu je prostředí, které poskytuje lidstvu vysokou informační hodnotu a technologie tak mohou pracovat pro lidskou potřebu. Dokonalé propojení všech soukromých i veřejných datových zdrojů by tak poskytovalo „osobního asistenta“ každému, kdo by o tyto služby měl zájem.

Pokud bych měl ideu postavit na technologiích, které jsou dnes k dispozici, oním softwarovým agentem by měl být buď webový prohlížeč, který by nám pomáhal zadávat složité sémantické dotazy, komunikovat s jednotlivými zdroji anebo přímo nějaký program, ať již na stolním, nebo mobilním zařízení, který by dokázal zpracovat naše požadavky. Některé případy užití, které demonstrují využití sémantiky dat:

#1 - Školní rozvrh

Z pozice studenta, který zároveň pracuje, by mi velice pomohlo, kdyby se na začátku semestru můj školní rozvrh automaticky přenesl do osobního rozvrhu a já si tak lépe mohl plánovat svůj čas. Zároveň by se do kalendáře přenesli důležité termíny odevzdávání semestrálních prací, které by se načetly ze školního systému. Do tohoto systému by sice úkoly musel zadávat učitel sám, což je ale pořád méně pracné, než když to musí dělat každý student individuálně.

#2 - Pracovní schůzky

Další část mého „osobního agenta“ by zajišťovala správu mých pracovních zakázek. Ještě před domluvením schůzky s klientem bych si o něm zjistil nejaktuálnější informace včetně výpisu z rejstříku trestů. Těsně před schůzkou bych si na svém mobilním zařízení přečetl poznámky na schůzku, které bych měl automaticky přiřazeny k události v mém osobním kalendáři. Při cestě na schůzku by automobil zjistil nejvhodnější trasu na místo schůzky, které by zjistil z mého kalendáře.

Při schůzce s klientem bychom si elektronicky vyměnili unikátní identifikátor, který by reprezentoval každého z nás jako osobu, nebo firmu. Z těchto údajů by se mi v adresáři vytvořil nový kontakt a zároveň by se v systému pro správu zakázek vytvořila nová zakázka pro daného klienta. K této zakázce bych přiřadil zápisky pořízené během schůzky. Po skončení zakázky by se všechna data zarchivovala a na osobní webové stránky by se publikovala nová reference v sémantickém formátu tak, aby budoucí klient mohl tuto informaci snadno získat. Stejně snadno by se pak řešila fakturace, která by se automaticky provedla třeba na konci měsíce, vše plně automaticky s využitím volně dostupných dat, jako např. fakturační informace klienta z obchodního rejstříku.

Každý rok ke konci měsíce března by se mi automaticky vypracovalo daňové přiznání a v bance by se mi upravila výše trvalého příkazu k úhradě pro sociální a zdravotní pojištění vypočtena z výše příjmů za minulý rok.

#3 - Veřejné průzkumy

Vzhledem k tomu, že již nyní nejsou uživatelé na internetu pouhými konzumenty obsahu, ale i producenti, sémantické propojení informací by nám dalo velice silné nástroje pro získávání veřejných průzkumů. Odpadla by úplně nutnost dělat ankety a různé průzkumy. Již nemusíme chodit za lidmi pro jejich názor, ale můžeme si názor získat samostatně.

Výhody a nevýhody

Jak každá technologie, tak i sémantický web má určité výhody, nevýhody a věci na které si dávat pozor.

Výhodou poskytování dat veřejně je především možnost kýmkoli tyto data zpracovat. Každý tak může data vzít, propojit je s jinými daty a vytvořit tak službu, nebo určitý výstup, který bude něco vizualizovat, nebo na něco upozorňovat. Například propojení dat o počasí a vizualizace na mapě. Tato propojení může vést rovněž k automatizaci a usnadnění některých rutinních úkolů.

Nevýhodou je, že data bude potřeba distribuovat pomocí strojově čitelných formátů. Vznikne tak požadavek, aby se výstup určitého webového zdroje (například webové stránky) generoval dvojím způsobem. Jednou pro člověka v HTML a jednou pro počítač například v RDF. O složitosti implementace také napovídá fakt, že se dnes využívá možnosti vkládání sémantické informace především těmi nejjednoduššími cestami – mikroformáty apod.

Největší důraz se musí dbát na zajištění ochrany soukromých údajů. Bude se muset vyřešit bezpečnostní politika, tak aby žádající strana dostala pouze ty informace na které má nárok. Stejně jako se nyní provádí ověření žadatele u aplikačních rozhraní většiny služeb. Další otázkou je, zdali je na to člověk vůbec připraven a kolik toho o sobě bude chtít dát vědět. Jak se zachováme, pokud přijdeme do obchodu a budeme osloveni našim jménem a bude nám doporučeno zboží na základě minulého nákupu. Informace o nás, jako například fotografie, podle které nás počítač u vchodu rozpozná, by se získala z veřejně dostupného zdroje – například nějaké sociální sítě, kde již dnes většina uživatelů o sobě poskytuje někdy až příliš mnoho informací.

Rozšíření sémantických technlogií

Pokud je již technologie vytvořená, nebo se vytváří, musí jít její vývoj ruku v ruce s marketingem. Pokud máme vytvořenou velice kvalitní technologii, ale není patřičně propagována, nemá šanci na úspěch. Ať již jsou to články na oborových serverech, nebo propagace na konferencích.

V neposlední řadě musí pro technologii také existovat kvalitní nástroje a zázemí. Nástroje, které co nejvíce pomůžou s implementací, laděním chyb. Dále třeba generátory kódu, validátory atd.

Nejdůležitější věci u každé technologie je ukázat lidem její výhody, že je jednoduché jí použít a co všechno jim to přinese. Zároveň je potřeba, aby lidé, kteří technologii vytváří, byli zodpovědní a nezapomínali na dodržování soukromí a zamysleli se nad otázkami etiky. U sémantického webu je to ještě běh na dlouhou trať, ale již nyní je vidět, že vývoj webu takto směřuje a hlavními propagátory budou patrně veliké technologické firmy jako je Google a Facebook, které začnou poskytovat nástroje pro využití prvků sémantického webu.

Vojta Svoboda Blog

www.vojtasvoboda.cz

Vize sémantického webu

Sběr a práce s daty dnes

Projekty sběru a publikace dat dnes

Otevřené projekty

Vize sémantického webu

#1 - Školní rozvrh

#2 - Pracovní schůzky

#3 - Veřejné průzkumy

Výhody a nevýhody

Rozšíření sémantických technlogií