Taylor & Francis Online

Autor:

Tomáš Matějka

-

29.12.2021

0

Úvod

Taylor & Francis Online je informační služba, poskytovaná společností (skupinou) Taylor & Francis Group, která sama patří pod společnost Informa UK Limited.

„Throughout Informa, in every market and Informa business, we share the same purpose: to champion the specialist, connecting people with knowledge to help them learn more, know more and do more.“ (Informa PLC, 2021 a, část Purpose & Principles).

Informa je mezinárodní zpravodajská, informační, událostní, vědecká a výzkumná skupina pocházející z Velké Británie. Jejími cíli je (obdobně jako u podobných informačních služeb) šíření znalostí a materiálů, zviditelňování specialistů, snižovaní znalostních bariér a mnoho dalších (Informa PLC, 2021 b). Těchto cílů dosahuje mnoha způsoby a jedním z nich je skupina Taylor & Francis a její služba Taylor & Francis Online.

Samotná společnost Taylor & Francis vznikla již v roce 1852 (ale některé kořeny sahají až do 1798). Od svého vzniku se stále snaží naplňovat svou misi „publikovat co nejkvalitnější akademický výzkum“ (autorský překlad). V roce 2004 se společnost sloučila s firmou Informa, pod kterou funguje do dnes.

O knihovně

Taylor & Francis Online je webová knihovna, umožňující návštěvníkům vyhledávat studie, články, výzkumná data, reporty či jinou literaturu z různých oblastí a témat, autorům sdílet své výtvory, nechat je podstoupit „peer review“ a následně je na webu publikovat a dalším lidem, jako např. editorům a knihovníkům, poskytuje funkce pro usnadnění jejich práce či pro získávání a zajišťování kvalitních dat a literatury (Informa PLC, 2021 c).

Knihovna dnes obsahuje přes 4 680 000 článků ve stovkách různých kategoriích a poskytuje k nim mnoho funkcí a služeb, které budou rozebrány v následujících kapitolách.

Možnosti vyhledávání

Je možné vyhledávání v několika formách. První z nich je obyčejné vyhledávání zadáním několika klíčových slov (tzv. quick search). Druhé, důležitější, je advanced search, ve kterém může uživatel specifikovat parametry, jako např rok vydání, téma, abstrakt atd. za použití logických operátorů. Dalším způsobem vyhledávání je vyhledávání dle tématu, kde uživatel vybere z nabídky témat a výsledky může dále filtrovat a posledním způsobem jsou vyhledávání dle časopisu (journal), či různé žebříčky. Každý způsob je sám rozebrán v podkapitole.

Quick search

Quick search je nejzákladnější a nejjednodušší způsob vyhledávání. Jak jsme zvyklí i v jiných vyhledávačích, stačí zadat hledané slovo a vyhledávač vrátí všechny články, které obsahují dané slovo v názvu, poli autora, abstraktu, obsahu atd. Výstřižek výsledků vrácených na vstup „covid“ jsou na Obrázek 2. Dané výsledky je možné dále ještě filtrovat, a to pomocí nabídek na liště, kde je možné vybrat například výsledky mladší jak rok, výsledky, ke kterým mám přístup nebo pouze články určité kategorie či vydavatele. Je zde i možné specifikovat, kde by se daná hledaná slova měla nacházet (kdekoliv, nadpis, autor, keywords atd.).

Výsledky je možné si exportovat do excel dokumentu, nebo si stáhnout full-text PDF soubory všech výsledků přímo z menu (pro tyto funkce je ale nutný uživatelský účet).

Advanced search

Advanced search je, jak název napovídá, vyhledávání za pomoci pokročilých parametrů. Je možné zadat několik slov pro vyhledávání v různých částech dokumentu (např. zadat jméno autora a hledaného díla), určit, z jakého období chceme výsledky, případně je i možné použít hledání z citace.

Všechna textová pole zároveň poskytují možnost užití boolean operátorů AND, OR a NOT, díky kterým je možné přesněji určit hledané dokumenty. AND slouží k vyhledání dokumentů obsahující obě zadaná slova. Např. v případě hledání Adam AND Eva se vyhledávač pokusí najít dokument obsahující obě jména. V případě použití OR vyhledá dokumenty s oběma, nebo i jen jedním z nich. V případě použití operátoru NOT (např. Adam NOT Eva) vyhledá všechny dokumenty obsahující první hledané slovo (Adam) a zároveň neobsahující slovo druhé (Eva).

Dle tématu

Tento výběr/způsob vyhledávání funguje tak, že uživatel si z dostupných 30 hlavních témat (či kategorií. Viz Obrázek 4) vybere jedno z nich. Vyhledávač zobrazí všechny dokumenty daného tématu a uživatel si následně může výsledky dále vyfiltrovat, stejně jako v případě Quick search. Ačkoli vyhledávač operuje se stovkami témat, na hlavní stránce se ukáže pouze dříve zmíněných 30, pro detailnější zobrazení musí uživatel otevřít postranní „subject“ menu (viz Obrázek 5 (číslo vedle názvu kategorie znázorňuje počet dokumentů v dané kategorii)). Kategorie mají hierarchickou strukturu.

Ostatní

Dalšími způsoby vyhledávání, kterým zde ale nebude dopřáno tolik prostoru, jako předchozím, jelikož nejsou tak důležité, je vyhledávání dle časopisu (autorský překlad, originálně „journal“) a trending vyhledávání.

Obě vyhledávání jsou poměrně jednoduché. V případě časopisů může uživatel výsledky hledat za pomoci filtru na počáteční písmeno nebo filtru na kategorii. V případě druhém, tj. trending/žebříček nejpopulárnějších uživatel nemůže výsledky filtrovat nijak, jelikož z podstaty myšlenky se mu zobrazí několik nejsledovanějších/nejstahovanějších dokumentů z databáze společnosti.

Struktura výsledků vyhledávání

Klasický výsledek

Na obrázku nad tímto odstavcem (Obrázek 6) je zobrazen jeden z trending dokumentů v době psaní této práce. Jak je možné vidět, všechny relevantní informace, jako autor, název, datum vydání, umístění, odkaz na stažení PDF (některé dokumenty poskytují i formát pro e-čtečky EPUB), licence a mnoho ostatních jsou umístěny na jedné stránce. Co již na obrázku není vidět, je celý text článku, umístěný pod abstraktem. Přínosné je, že na pravé straně stránky jsou zobrazeny podobné dokumenty, které mohou některým lidem pomoci k lepšímu pochopení oblasti nebo poskytnout alternativu k dokumentu, na který právě nahlíží. Pro lidi se zrakovým postižením je také vestavěn speciální předčítač dokumentu.

Zajímavá je také záložka „Metrics“. Zde je možné zjistit, kolikrát byl dokument na této stránce zobrazen a kolikrát byl citován (s rozborem kde a kolikrát, sledují se např. „konkurenční“ knihovny Web of Science nebo Scopus). Zároveň se zde nachází „Altmetric“, tj. výsledky stejnojmenné společnosti o tomto dokumentu. Je zde možné sledovat, kolikrát a kde byl tento článek zmíněn (sledována média, blogy, sociální sítě (primárně Twitter a Reddit), wikipedie atd.). Stejně tak poskytuje mapu s rozložením těchto zmínek a pořadí na žebříčku mezi podobnými dokumenty (viz Obrázek 7, levá strana žebříček a počty zmínění dokumentu, pravá strana mapa rozložení „Tweetů“ o dokumentu).

Časopis

V případě vyhledávání časopisů, výsledek vypadá následovně (viz Obrázek 8).

Rozložení výsledku na stránce je velmi podobné minulému zobrazení dokumentu. Je možné zde nalézt název, obsah, vydavatele, jednotlivá vydání, články v jednotlivých vydáních (na které se je možné prokliknout), metriky časopisu a jeho článků, cíle časopisu a další.

Zároveň je možné vyhledávat články v rámci vybraného časopisu, filtrovat a řadit je. Dále je možné přihlásit se k odebírání novinek, stahovat články ve formátu PDF, nebo si nechat zobrazit nejcitovanější či nejzobrazovanější článek z časopisu.

Dodatečné služby

Možnosti odebírání novinek

Taylor & Francis umožňují uživatelům se přihlásit k odběru novinek/updatů o jednotlivých časopisech, či celé platformě. V případě odběru novinek o časopisech je možné využít RSS formát nebo email zprávy. V případě platformy pouze emaily. Společnost nepodporuje žádné jiné služby nebo API, které by umožnily externě získávat nebo manipulovat s daty.

RSS

Jedná se o klasický přenos dat přes RSS formát. Ukázka přenosu RSS dat (ohledně dříve zmíněného časopisu) je umístěna pod tímto odstavcem. K odběru novinek přes RSS se uživatel nemusí nijak registrovat, postačí mu pouze lokace, ze které bude schopný data získávat (možné ji získat kliknutím na příslušné tlačítko (viz Obrázek 8, modré tlačítko RSS nahoře uprostřed))

<item rdf:about="https://www.tandfonline.com/doi/full/10.1080/19416520.2016.1161977?af=R"> <title>Paradox and Contradiction in Organizations: Introducing Two Articles on Paradox and Contradiction in Organizations</title> <link>https://www.tandfonline.com/doi/full/10.1080/19416520.2016.1161977?af=R</link> <content:encoded><a href="/toc/rama20/10/1">Volume 10, Issue 1</a>, June 2016, Page 1-3<br/>. <br/></content:encoded> <description>Volume 10, Issue 1, June 2016, Page 1-3<br/>. <br/></description> <dc:title>Paradox and Contradiction in Organizations: Introducing Two Articles on Paradox and Contradiction in Organizations</dc:title> <dc:identifier>10.1080/19416520.2016.1161977</dc:identifier> <dc:source>The Academy of Management Annals</dc:source> <dc:date>2016-04-13T02:35:35Z</dc:date> <dc:rights>© 2016 Academy of Management</dc:rights> <dc:creator>Forrest Briscoe</dc:creator> <prism:publicationName>Paradox and Contradiction in Organizations: Introducing Two Articles on Paradox and Contradiction in Organizations</prism:publicationName> <prism:volume>10</prism:volume> <prism:number>1</prism:number> <prism:startingPage>1</prism:startingPage> <prism:endingPage>3</prism:endingPage> <prism:coverDate>2016-01-01T08:00:00Z</prism:coverDate> <prism:coverDisplayDate>2016-01-01T08:00:00Z</prism:coverDisplayDate> <prism:doi>10.1080/19416520.2016.1161977</prism:doi> <prism:url>https://www.tandfonline.com/doi/full/10.1080/19416520.2016.1161977?af=R</prism:url> <prism:copyright>© 2016 Academy of Management</prism:copyright> </item>

(ukázka pouze části dat)

Email

Pomocí emailových zpráv se může nechat uživatel nechat upozorňovat na změny, nové položky atd. co se na stránkách dějí. Je možné se registrovat pro odběr celkových novinek, kde jsou obsažena i marketingová sdělení, nebo pouze pro odběr novinek jednoho časopisu. Oba tyto odběry vyžadují registraci uživatele.

Covid

Společnost Taylor & Francis se snaží bojovat proti dezinformacím a informovat o reálném dění pomocí specializované Covid-19 kategorie, na kterou je možné se dostat přímo z hlavní stránky webu.

Všechny takto poskytované články mají „free access“ licenci a jsou tedy dostupné komukoliv, kdo by si chtěl o dané problematice něco přečíst.

Přímo dle stránek společnosti slouží tato iniciativa i k podpoře a propagování vědců a doktorů, kteří se touto problematikou zabývají (Informa PLC, 2021 d). Zároveň pak také poskytují odkazy na jiné důležité weby, časopisy, články nebo opatření, která se zabývají podobnou tématikou. Databáze Taylor & Francis takto dnes obsahuje přes 4 900 různých článků a dokumentů.

Licence

Pro uživatele existují reálně 3 typy licencí, se kterými se na stránkách Taylor & Francis může setkat. A to je popořadě: Free Access, Open Access a Closed Access.

S dokumenty Free Access může uživatel nakládat, jak chce. Má okamžitý přístup k obsahu i všem ostatním datům dokumentu. Může si jej stáhnout, citovat, přečíst na stránce atd. Bohužel společnost Taylor & Francis nespecifikují, jaké vlastnosti jimi definovaný Free Access nabízí, ale můžeme se domnívat, že zde nejspíše nejsou žádné limitace.

Druhou licencí je Open Access. Dokumenty s touto licencí mohou být také kýmkoliv čteny, citovány atd. Mají velmi podobné vlastnosti jako Free Access dokumenty, ale jsou vázány podmínkami Creative Commons (možné najít zde (Creative Commons, 2021)), nebo jinými podmínkami (vždy specifikováno u dokumentu).

No Access je poslední typ licence, u kterého si musí uživatel vyžádat či zakoupit přístup. Jedná se o nejstriktnější podmínku ze zmíněných tří (Informa PLC, 2021 e).

(na Obrázek 9 jsou znázorněny 3 dokumenty, vrchní je licence Open Access (oranžový zámek), druhý Closed Access (prázdno) a třetí Free Access (zelený checkmark)).

Závěr

Veřejná knihovna Taylor & Francis Online je užitečná pomůcka pro vědecké, výzkumné, školní či informační účely. Obsahuje tisíce různých dokumentů z mnoha kategorií, které může uživatel volně použít, stavět na nich nebo jen číst.

Zároveň poskytuje zdarma informace o viru Covid-19 a snaží se bojovat proti dezinformacím distribucí článků a promotováním výzkumníků, doktorů a angažovaných osob z této oblasti. V práci byly rozebrány poskytované funkce knihovny, spolu s možnostmi vyhledávání. Byly představeny boolean operátory a filtry pokročilého hledání i unikátní způsoby hledání, jako například hledání dle časopisu. Dále byly představeny metriky, které společnost poskytuje a možnosti odebírání novinek.

Zdroje

CREATIVE COMMONS, 2021. Creative Commons — Attribution 4.0 International — CC BY 4.0 [online] [vid. 2021-11-08]. Dostupné z: https://creativecommons.org/licenses/by/4.0/

INFORMA PLC, 2021a. About Taylor & Francis. Taylor & Francis [online] [vid. 2021-11-07]. Dostupné z: https://taylorandfrancis.com/about/

INFORMA PLC, 2021b. About Us [online] [vid. 2021-11-07]. Dostupné z: https://www.informa.com/about-us/

INFORMA PLC, 2021c. COVID-19: Novel Coronavirus Content Free to Access. Taylor & Francis [online] [vid. 2021-11-08]. Dostupné z: https://taylorandfrancis.com/coronavirus/

INFORMA PLC, 2021d. Purpose & Principles [online] [vid. 2021-11-07]. Dostupné z: https://www.informa.com/about-us/purpose-principles/

INFORMA PLC, 2021e. Taylor & Francis Open Access | Taylor & Francis Online [online] [vid. 2021-11-08]. Dostupné z: https://www.tandfonline.com/openaccess

Seznam Obrázků

Obrázek 1: Logo Skupiny Taylor & Francis– https://taylorandfrancis.com/about/our-brands/

Obrázek 2: Příklad quick search– https://www.tandfonline.com/action/doSearch?AllField=covid

Obrázek 3: Advanced Search– https://www.tandfonline.com/search/advanced

Obrázek 4: Vyhledávání dle tématu– https://www.tandfonline.com/

Obrázek 5: Podkategorie– https://www.tandfonline.com/topic/allsubjects/pi?target=topic&ConceptID=4274

Obrázek 6: Příklad zobrazení výsledku vyhledávání– https://www.tandfonline.com/doi/full/10.1080/09644016.2021.1947636

Obrázek 7: Altmetric– https://www.tandfonline.com/doi/full/10.1080/09644016.2021.1947636#metrics-content

Obrázek 8: Výsledek hledání časopisu– https://www.tandfonline.com/toc/rama20/current

Obrázek 9: Access types– https://www.tandfonline.com/doi/full/10.1080/09644016.2021.1947636

Similarweb: znáte informační chování návštěvníků stránek?

Autor:

Michaela Červinková

-

28.12.2021

0

Úvod

A i když v dnešní době není tak důležité sledovat jakou má kdo návštěvnost a důležitá je hlavně kvalitativní analýza dat na konkurenčních sítích a stránkách. Některé platformy na internetu umožňují webové stránky srovnávat z různých hledisek a nabízet tak nejen kvantitativní informace o počtu návštěvníků a míře prokliku, ale také jaká nejčastější slova návštěvníci těchto stránek hledají, v jaké kategorii nebo z jakých stránek se dostávají.

Informační zdroj Similarweb

Similarweb je společnost zabývající se poskytováním služeb jako jsou analýzy webových stránek nebo mobilních aplikací, aby pomáhala podnikům různých velikostí s informacemi o jejich zákaznících nebo konkurenci. Základem je datová analýza. Tato platforma v neplacené verzi poskytuje přehled o digitálním provozu webových stránek nebo aplikací a aktualizuje se jednou měsíčně.

Similarweb: znáte informační chování návštěvníků stránek? — Obr. 1 Úvodní stránka similarweb [zdroj: vlastní zpracování]

Jejich mise je poskytovat nejdůvěryhodnější, nejobsáhlejší a nejdetailnější pohled na digitální svět tak aby pomohli jejich zákazníkům překonat konkurenci a stát se jedničkou na trhu. Protože věří, že díky znalostem a jiným pohledům na data mohou pak firmy dělat lepší rozhodnutí a uspět tak v digitálním světě (Similarweb © 2021a).

Tato společnost vznikla v roce 2007 v Izraeli, nyní má kanceláře po celém světě (Lunden 2020).

Pro analýzu provozu jsou hlavně důležitá data, která společnost sbírá se statisticky reprezentativních datových sad, které jsou rozmanité napříč zeměmi, zařízeními, uživateli a hlavně odvětvími. Sběr dat probíhá pomocí následujících čtyř hlavních zdrojů.

Přímé měření primárními analytickými aplikacemi

Jsou to data, která jsou poskytovaná uživateli vlastnícími webové stránky a aplikace, ti si zvolí, že budou sdílet data z primárních analytických aplikací jako je například Google Analytics. Takto jsou poskytována jejich vlastní data i data jejich partnerů. Uživatelé díky tomu, že udělí souhlas s poskytováním těchto dat získají přehled porovnání digitálního provozu s dalšími webovými stránkami a aplikacemi, mohou tak svůj byznys vidět v mnohem širším kontextu a zejména týkajícím se trhu na kterém figurují. Zejména společnosti, které zpeněžují provoz na svých webových stránkách si často volí zveřejnění údajů o provozu ne jich webu, protože tím budou více atraktivní pro své zákazníky (Similarweb © 2021c).

Anonymní data ze zařízení

Po tomto zdroji dat následují anonymní údaje o digitálním provozu shromažďované z produktů Similarweb, které jsou nainstalované na zařízeních uživatelů těchto produktů a získávají tak anonymní data o chování těchto zařízení. U takto shromažďovaných dat je dán důraz na získávání údajů napříč různorodým publikem.

Veřejně dostupná

Dalším zdrojem jsou data, která jsou veřejně dostupná, Similarweb je algoritmicky zachycuje a indexuje. Pro upřesnění odhadů se do prediktivních modelů používají i údaje ze sčítání lidu.

Spolupráce

Posledním zdrojem jsou předem analyzovaná data získaná z různých spoluprací se společnostmi zabývajícími se CI a sběrem digitálních informací po celém internetu. Většina těchto společností sdílí analyzovaná data například pro zprávy, firmy nebo technologie. Partneři poskytující internetové připojení nebo poptávkové platformy jsou také součástí tohoto zdroje dat.

Po sběru dat probíhá datová syntéza pomocí procesů k vyčištění, porovnávání, syntézy, splynutí a zpracování za účelem modelování dat. Shromážděná data jsou normalizovaná ze všech datových zdrojů do jednoho pohledu, čímž může similarweb porovnávat weby a aplikace mezi sebou. Čištění dat a formátování vstupů dat je první krok. Data se odprošťují od různých osobních informací tak aby byly anonymizované. Dalším krokem je konsolidace dat, kde probíhá spojení velikého množství datových vstupů, aby mohlo být využité pokročilé prediktivní modelování. Posledním krokem syntézy dat je klasifikace datových vstupů kvůli kategorizaci a další syntézu.

Z hlediska datového modelování se na normalizovaná data používá pokročilá kalibrace strojového učení a prediktivní modely. Tyto techniky jsou využívány za účelem poskytování pravdivých a konzistentních pohledů na digitální data v čase. Učící modely strojového učení jsou používány pro snížení zkreslení a hluku dat.

Vyhledávání webů a aplikací

Jak již bylo zmíněno v úvodu similarweb umožňuje zobrazovat informace o provozu a chování lidí na různých webových stránkách. Tato funkcionalita je volně dostupná a není třeba si vytvářet účet k získání přístupu k těmto údajům. Avšak to má jistá omezení jako že je to pouze základní přehled informací bez možnosti hlubšího poznání a nabízí jen limitovaný pohled do historie. Pro hlubší analýzy, přístup k více datům nebo možnosti využití API společnost similarweb nabízí různé placené produkty, kterými jsou produkt Research Intelligence, zaměřený na porovnávání společností a výkonu v rámci průmyslu a nabízí hlavně analýzy průmyslu, společností, aplikací, segmentů a zákazníků. Dalším produktem, který byl vybudován k optimalizaci získávání většího provozu na stránkách uživatelů se nazývá Digital Marketing Intelligence a je zaměřený hlavně na nástroje pro klíčová slova, reklamy a média. Dalšími produkty jsou Sales Intelligence, Investor Intelligence a Shopper intelligence. Těmito placenými produkty similarweb se v této práci nezabývám a následuje bližší přiblížení základní funkcionality.

Na úvodní stránce similarwebu je možné vyhledávat webové aplikace nebo stránky jen podle názvu nebo jeho části.

Dále jde vyhledávat pomocí žebříčků webů nebo aplikací. Z hlediska webových stránek se jedná o seznam 100 nejlepších stránek i když ve volně dostupné verzi se ukazuje jen 50 z nich. Jak můžeme vidět na obrázku níže (Obr. 3) webové stránky lze vyhledávat podle kategorie do které jsou zařazené a podle země. Výsledek hledání ukazuje změnu v řebříčku, jaká je průměrná doba strávená na stránkách, kolik průměrně stránek návštěvník prokliká a jaké je procento návštěvníků, kteří stránku ihned opustí.

V tomto přehledu získáme možnost vidět kdo je vydavatelem aplikace, jaké má hodnocení z hlediska použití, které je vypočítáno na základě instalací za poslední měsíc a aktivních uživatelů a jeho změnu a stejně tak hodnocení, které dostává od obchodu, v kterém je k dispozici ke stažení a také změnu. Řadit aplikace můžeme buď podle hodnocení použití nebo hodnocení obchodu.

Oproti webovým stránkám u aplikací můžeme sledovat i trendy. Platí zde stejné možnosti vyhledávání jako u žebříčku. Ale v tomto pohledu můžeme vidět, které aplikace jsou právě v kurzu, které se nově dostali do nejlepších 100 aplikací, kterým hodnocení klesá a vypadli ze 100 nejlepších.

Ukázky výsledku hledání

Při vyhledání webové stránky na platformě similarweb se uživateli zobrazí následující přehled. Pro účely této práce jsem zvolila webovou stránku univerzity www.vse.cz. Jak můžeme vidět z obrázku níže (Obr. 6) jsou k dispozici data ze září 2021. V horní části stránky se můžeme dozvědět globální pořadí v porovnání s ostatními webovými stránkami po celém světě, další údaj udává pořadí v České republice. Třetí údaj je trochu diskutabilní, jelikož se jedná o pořadí z hlediska kategorie v rámci země, podle údaje na obrázku se zdá, že web Vysoké školy ekonomické v Praze je 4. nejnavštěvovanějším z hlediska vysokoškolských webových stránek, ale po bližším zkoumání jsem zjistila, že je jen zařazen do jiné kategorie než, v které jsou webové stránky ČVUT nebo Karlovy univerzity. Takže je třeba tento údaj brát s rezervou a polohy z hlediska řebříčku nejlepších zkoumat v jiném pohledu zobrazení.

Pěkný rozdíl ve výsledcích růstu nebo poklesu digitální provozu lze pozorovat v plošném grafu, kde je znatelný růst návštěvnosti v období zkouškového a jeho postupný pokles v letních měsících a růst s novým semestrem. Napravo jsou viditelné stejné údaje, které jsme si již mohli zobrazit v řebříčku nejlepších stránek.

Dalšími analýzami, které jsou k dispozici z hlediska provozu, a hlavně jeho zdrojů je mapa ukazující z jaké země se návštěvníci webové stránky připojují. Z hlediska VŠE není překvapením, že se více než 90 % návštěvníků je z České republiky. Hned pod grafem s mapou jsou vidět různé typy zdrojů pro zobrazení webových stránek v jejich desktopové verzi.

Dalším dostupným údajem je přehled stránek, které odkazují na www.vse.cz nebo naopak stránky, které návštěvníci navštíví odkazem z webové stránky.

Z hlediska nejčastěji vyhledávaných výrazů, které vedou k najité této webové stránky pomáhá následující přehled dělící se na výrazy neplacené, volně vyhledávané návštěvníky stránek a placená klíčová slova.

Předposledním přehledem je ukazatel sociálních médií, z kterých se lidé dostanou na stránky VŠE.

Dalším možným pohledem je ukazatel z kde umístěných reklam proudí nejvíce návštěvníků, jelikož ale VŠE reklamy nepoužívá na obrázku níže je zobrazen přehled pro internetový obchod www.alza.cz.

Posledním možná nejzajímavějším přehledem je pohled na zájmy návštěvníků. Jsou zde zobrazené kategorie, o které se také zajímají, stránky, které často navštěvují a témata, která se jich týkají.

Dále platforma similarweb také poskytuje přehled stránek, které jsou podobné nebo mají podobnou pozici v řebříčku. A mobilní aplikace, které se stránkou souvisí.

Podobné informace v menším měřítku lze zobrazovat pomocí nainstalovaného rozšíření do prohlížeče, jak je ukázáno na obrázku níže.

Similarweb také nabízí porovnání více webových stránek spolu navzájem. Ve volně dostupné verzi lze porovnávat jen dvě stránky najednou. Zkoušela jsem porovnat VŠE s ČZU a obě vysoké školy s celkem podobnými statistikami.

Závěr

Ačkoliv se z hlediska platformy similarweb jedná o velmi propracovaný projekt, společnost ve volně dostupném neplaceném základu nabízí opravdu jen omezené množství údajů a dat, které bez koupení lepší licence jdou využít pro sledování konkurence minimálně. Myslím si, že na trhu platforem měřící digitální provoz na jiných stránkách existují další zajímavé alternativy, které umožňují mnohem hlubší pohledy na data jako jetřeba SpyFu nebo SE Ranking.

Zdroje

LUNDEN, Ingrid, 2020. SimilarWeb raises $120M for its AI-based market intelligence platform for sites and apps. TechCrunch [online]. [vid. 2021-12-06]. Dostupné z: https://social.techcrunch.com/2020/10/27/similarweb-raises-120m-for-its-ai-based-market-intelligence-platform-for-sites-and-apps/

SIMILARWEB, © 2021c. Similarweb Data Methodology. Similarweb Knowledge Center [online] [vid. 2021-10-17]. Dostupné z: https://support.similarweb.com/hc/en-us/articles/360001631538-Similarweb-Data-Methodology

Seznam Obrázků

Obr. 1 Úvodní stránka similarweb [zdroj: vlastní zpracování]

Obr. 2 Základní vyhledávání [zdroj: vlastní zpracování]

Obr. 3 Nejlepší webové stránky [zdroj: vlastní zpracování]

Obr. 4 Řebříček nejlepších aplikací [zdroj: vlastní zpracování]

Obr. 5 Trendy aplikací [zdroj: vlastní zpracování]

Obr. 6 Výsledky vyhledávání – přehled provozu [zdroj:vlastní zpracování]

Obr. 7 Výsledky vyhledávání – zdroje provozu [zdroj: vlastní zpracování]

Obr. 8 Výsledky vyhledávání – přesměrování [zdroj: vlastní zpracování]

Obr. 9 Výsledky vyhledávání – vyhledávané termíny [zdroj: vlastní zpracování]

Obr. 10 Výsledky vyhledávání – sociální sítě [zdroj: vlastní zpracování]

Obr. 11 Výsledky vyhledávání – zájmy publika [zdroj: vlastní zpracování]

Obr. 12 Ukázka similarweb rozšíření v prohlížeči [zdroj: vlastní zpracování]

Obr. 13 Ukázka porovnání webových stránek [zdroj: vlastní zpracování]

sigma explorer. Stopařův průvodce po katastrofách

Autor:

Jakub

-

27.12.2021

0

sigma explorer (sigma-explorer.com) je velice užitečným datovým nástrojem vytvořeným a spravovaným světově největší zajišťovnou Swiss Re. Hlavními výhodami je volná přístupnost, jednoduchost ovládání. možnosti exportu výstupů v nejčastěji užívaných formátech a přehlednost obsažených informací.

Již půl století vydává Swiss Re institute pro odbornou veřejnost články, publikace, data sety, pořádá konference, skrze něž prezentuje výsledky analýz a výzkumu v oblastech statistiky, modelování rizika pro podporu rozhodování risk managementu nejen vlastních klientů. Všechny články i publikace jsou dohledatelné na webových stránkách Swiss Re institutu swissre.com/institute/
Procházet všechny jednotlivé publikace a články je samozřejmě zdlouhavé a nepohodlné. Proto Swiss Re vytvořilo nástroj sigma explorer, který výstupní data zobrazuje v jednom integrovaném grafickém rozhraní s mnoha interaktivními možnostmi.[1]

sigma explorer. Stopařův průvodce po katastrofách — Obrázek 1 Homepage sigma-explorer.com

Po pravé straně homepage se nachází výběr hlavních tematických skupin časových řad, které sigma explorer nabízí. Tyto skupiny jsou: 1. Catastrophes, 2. World Insurance premiuns, 3. Macroeconomic resilience index, 4. Insurance resilience index and protection gap

Vzhledem k široké variaci možných výstupů budu prezentovat od některých skupiny možné grafické datové výstupy odpovídající na jednoduchou otázku, na níž v rámci každé kategorie budu hledat odpověď.

Otázka: Je pravdivé tvrzení, že změna klimatu dochází k častějším přírodním katastrofám?

Odpověď nalezneme v kategorii řad Catastrophes. Nejvhodnější zobrazení bude Line Chart, Data Set – Number of events a Peril type – Natural Catstrophes:

Výstup bude vypadat takto:

Vzestupný trend počtu přírodních je na časové řadě od roku 1970 zřetelně vidět. Nástroj nabízí možnost exportu grafu ve formátech .png, .jpg, .pdf

Otázka: Jaká zemětřesení byla za posledních 30 let v Asii nejsmrtelnější?

Pro porovnání jednotlivých katastrof je sigma explorer nejlepším nástrojem, který je bezplatně a neomezeně přístupný. Nabízí možnosti vizualizace na mapu světa, výběr příčiny katastrofy, lze zvolit region a srovnávací měřítko, jak je vidět na obrázku níže:

Samotný výstup je na obrázku níže, kde velikost zabarveného kruhů odpovídá počtu obětí. Pokud bychom ve výběru možností zvolili jiný Data set, velikost kruhů by odpovídala Data setu a v případě volby zobrazení více Perils najednou budou kruhy odlišeny i barevně.

Jak je vidět na obrázku, tak v počtu obětí byla nejničivější zemětřesení v Indonésii a střední Číně. Pokud klikneme na kruh vybrané katastrofy, zobrazí se výstup poskytující stručný popis události a základní statistiky. Pro srovnání uvádím hned dva pod sebou:

Otázka: Jaký je rozdíl v penetraci životního pojištění na vyspělých a rozvojových trzích

Penetrací pojištění můžeme rozumět jako relativním výdajům na pojistnou ochranu k HDP dané země. Je třeba upozornit, že nelze bez dalšího vyvozovat závěry o úrovni ochrany pojištěných v dané zemi, protože každá země má jinak nastavený daňový systém, kde mnohde jsou rezervotvorná životní různými formami podporována, sociální systém a jinou demografii. Výstup pak můžeme zvolit na světové mapě takto:

Samotný výstup je níže, kdy můžeme měnit posuvníkem v horní části rok, za který chceme data zobrazit:

Každá země je barevně rozlišena podle intervalu výše procentních výdajů na HDP své ekonomiky. Můžeme také vidět, že některé méně vyspělé trhy nejsou zastoupeny vůbec, protože Swiss Re nemá dostatečná nebo žádná data.

Po rozkliknutí vybrané země se nám zobrazí výstup shrnující základní relevantní statistiky pojistného trhu, kde můžeme zvolit mezi zobrazením pro jeden rok nebo časovou řadou. Po najetí kurzoru myši na bod na křivce zobrazené v grafu se zobrazí konkrétní výše hodnoty pro daný rok.

Dalšími kategoriemi jsou Macroeconomic resilience index a Insurance resilience index and protection gap, které jsou srozumitelné jen pro odbornou veřejnost se znalostí metodologie a kontextu. Rozhodl jsem se proto je zde neuvádět.

Zdroj:

Sigma-explorer [online]. Zurich: Swiss RE [cit. 2021-12-06]. Dostupné z: https://www.sigma-explorer.com/

[1] Kompletní metodologie dat je dostupná na https://www.sigma-explorer.com/documentation/Methodology_sigma-explorer.com.pdf

Manuscriptorium: prohledávejte digitalizované kulturní dědictví

Autor:

cerl16

-

26.12.2021

0

Manuscriptorium (http://www.manuscriptorium.com/cs) se dá nejlépe charakterizovat jako bibliografická, potažmo plnotextová databáze, ve které je možno se pohybovat a vyhledávat s volným přístupem.

Manuscriptorium je duální (česká a anglická) digitální knihovna a badatelské prostředí. [2] Jedná se o digitální knihovnu, která poskytuje digitální verze dokumentů, která jsou součástí kulturního dědictví. V této databázi je obsaženo přes pět milionů obrazů, stovky tisíc popisných záznamů a více než sto dvacet tisíc digitálních kopií dokumentů. Databáze je koncipována jako digitální knihovna rukopisů, starých tisků, map a mnoho dalších vzácných dokumentů. [1]

Smyslem Manuscriptoria ovšem není pouhé shromažďování digitálních dokumentů, ale také jejich zařazení do kontextu dané doby. [3]

Manuscriptorium si klade za cíl poskytnout přístup ke „všem existujícím historickým zdrojům“ a zpřístupnit veškerý možný obsah prostřednictvím „jednotného rozhraní“. Za tímto hlavním účelem uložiště v současné době shromažďuje obsah od více než 100 partnerů z více než 20 zemí světa. [2]

Uživatelé

Nejběžnějšími uživateli databáze jsou především badatelé kulturních a historických institucí, studenti, učitelé a také samozřejmě nadšenci do různých tisků určité doby, jelikož obsahuje zejména rukopisy, prvotisky, staré tisky (do roku 1800), mapy, listiny a další dokumenty kulturního dědictví. [1]

Historie a vývoj

Databáze byla spuštěna poprvé v roce 2003 jako součást programu Memoriae Mundi Series Bohemica (MMSB) a navázala na projekt organizace UNESCO s názvem „Memory of the World“, ve kterém působila Národní knihovna České republiky již o roku 1992. Ta je také koordinátorem celého projektu a na tvorbě celé databáze se podílí primárně s českou společností AIP Beroun, která je u nás jedním z největších expertů na postupy digitalizace. [3]

Na vývoji některých nástrojů se v rámci evropských projektů podíleli zahraniční instituce, jako je třeba Oxfordská „University Computing Services“, která pracovala především na ENRICH schématu, jakožto vnitřním a výměnném formátu Manuscriptoria. Dále „Supercomputing and Networking Center“ z Poznaně, kteří pomohli s Gaiji Bank a v neposlední řadě také „Centro per la comunicazione e l’integrazione dei media“ z Florencie v případě spolupráce na druhé verzi uživatelského prostředí. [4]

Databáze

Cílem Manuscriptoria je poskytnutí jednotného rozhraní pro vyhledávání ve více digitálních knihovnách nejen v ČR, kde jsou agregovány data asi z 55 institucí, ale díky účasti na projektu Europeana je jí umožněna spolupráce s řadou dalších institucí ze zahraničí. Její číslo je momentálně přes šedesát. Mezi největší zahraniční přispěvatele se podle počtu sdílených dokumentů řadí Španělsko Rusko, Polsko, Itálie, Litva, Island, Rumunsko, nebo například Švýcarsko. [3]

Data vznikají také za spolupráce se společností Google v rámci projektu digitalizace tisků převážně sedmnáctého a osmnáctého století.

Zajímavostí může být fakt, že databáze momentálně shromažďuje přes 85 % digitalizovaných historických dokumentů ze všech evropských národních knihoven. [5]

Typy dokumentů

Dokumenty mohou být zobrazeny kromě full textové podoby také jako faksimilie, což jsou velice přesné napodobeniny originálu, většinou starých tisků nebo rukopisů. Kopie bývá často od původního dokumentu velmi těžko rozpoznatelná. Dalším typem je konvolut, který není nic jiného, než několik tisků svázaných pohromadě a knihovnicky jednotně zpracovávaných.

Nástroje

Manuscriptorium nabízí hned několik nástrojů. Některé z nich jsou ovšem vázané na to, že budete mít v systému založen svůj osobní profil.

Moje knihovna

Jako první z funkcí bych zmínil možnost sestavit si svůj vlastní virtuální dokument. Přihlášení uživatelé mohou ukládat vyhledaný obsah do oblíbených položek.

Děje se tak v sekci „Moje knihovna“, kde si z oblíbených položek (ať už celých dokumentů, či jen samostatných stránek) můžeme vytvořit kolekci záznamů, které se sdruží do pojmenovaných tematických kolekcí. Z těch si pak můžete složit svůj vlastní virtuální dokument, kde budete mít obrazy z více předloh.

Moje knihovna, zdroj: http://www.manuscriptorium.com/cs

Jazyk

Celé Manuscriptorium je možno procházet buď v českém, nebo anglickém jazyce, což je velice přínosné i pro uživatelé, kteří cizí jazyk plně neovládají.

Česká verze, zdroj: http://www.manuscriptorium.com/cs

Anglická verze, zdroj: http://www.manuscriptorium.com/en

Vyhledávání

Uživatelské prostředí pro vyhledávání poskytuje vše, co je potřeba. Je možno vyhledávat například podle určitého výrazu, který je možno hledat ať už kdekoliv, nebo v konkrétním titulu, autorovi, signatuře, textu a mnoho dalších možnostech, které by vás mohli napadnout.

Uživatelé mohou zúžit počáteční dotazy na konkrétní pole pomocí funkce „zpřesnit“. Touto funkcí lze vyhledávat v aktuálním vyhledávání či obsah odebrat z aktuálních výsledků.

Dalším vyhledávacím nástrojem je poté pokročilé vyhledávání, které bude nejspíše to nejdůležitější. Zde si můžete nekombinovat výrazy v různých částech dokumentů. Operátory, které lze využít při vyhledávání jsou a, nebo, bez těmito operátory lze vyloučit či zúžit hledaný obsah podle požadavků. Po nalezení výsledků je pak možno je ještě dále filtrovat podle plných textů, faksimilí[1], či konvolutů[2].

[1] přesná napodobenina originálu, od kopie těžko rozlišitelná

[2] několik spisů svázaných pohromadě

Pokročilé vyhledávání, zdroj: http://www.manuscriptorium.com/cs

Texty

Jelikož většina dokumentů pochází ze středověku, tak jsou texty často doplněny poznámkami, opraveny chyby a doplněna interpunkce, aby byly dokumenty i dnešnímu čtenáři srozumitelné.

Doplňkové nástroje

VISK 6

Slouží k poskytnutí generátoru ID čísla podle místa uložení dokumentu. Také funguje jako validátor chyb.

M-Tool 2.0

Zprostředkovává generaci digitálního XML dokumentu z originálu. [3]

Gaiji bank

Umožňuje vkládání a vyhledávání nestandardních znamének a písmen užívaných v dané době. [3]

Pro partnery

TEI P5 ENRICH schéma

Jedná se o formát XML pro strukturu dat, kterými partneři projektu ENRICH přispívají do databáze Manuscriptoria, ať už přímo nebo prostřednictvím transformačního procesu. [6] Schéma definované tímto dokumentem se vztahuje na tři rozdílné aspekty digitalizovaného rukopisu:

metadata popisující originální rukopisný zdroj
metadata popisující digitalizované obrazy originálního rukopisného zdroje
transkribce textu obsaženého v originálním rukopisném zdroji [6]

OAI-PMH vytěžování

Jednoduchý nízkoprahový mechanismus pro snadnou interoperabilitu mezi repozitáři s protokolem používaným pro sklízení metadat. [7]

Uživatel

Po velice jednoduché registraci je umožněno uživateli veškeré vyhledávání v publikovaném obsahu, ukládání a vytváření virtuálních dokumentů. Pouze pro autentizované uživatele, tedy především ty ze spolupracujících organizací, je umožněno přes editor vkládat nová díla.

Informace o díle

V této části se podíváme na to, jaké konkrétní informace nám Manuscriptorium poskytne o daném díle. Zde jsme náhodně vybrali dílo s názvem „Atlantis Austriaci“ (Moll, 1748-1775), která se nabízí v plnotextové podobě.

Ze všeho nejdřív se objevíme na záložce „souhrn“, která nám poskytne ty nejrelevantnější informace, jako je název, autor, rok vytvoření, kde se kniha nachází, v jakém je jazyce, také daná licence k dílu atd.

Náhled karty "Souhrn", zdroj: http://www.manuscriptorium.com/cs

Druhou záložkou je „Detail“, kde nalezneme veškeré další a podrobnější informace, jako je například i samotný obsah díla, popis papíru, či látky vazby, historie, vznik a mnoho dalšího.

Detail obsahuje informace o uložení, záhlaví, obsah, fyzický popis a historii a veškeré dostupné informace o původu. U mnoha digitalizovaných zdrojů se jedná o velmi užitečný obsah, který poskytuje podrobné bibliografické informace a odkazy na faksimilní obrázky.

Náhled karty "Detail", zdroj: http://www.manuscriptorium.com/cs

Třetí záložkou jsou faksimile, kde už najdeme jednotlivé stránky daného díla. Zde si uživatelé mohou kliknout na miniaturu pro zobrazení obrázku/díla v plné velikosti.

Náhled karty "Faksimilie", zdroj: http://www.manuscriptorium.com/cs

Poslední už je XML, kde nenajdeme nic jiného než celý kód k dílu.

Náhled karty "XML“, zdroj: http://www.manuscriptorium.com/cs

Příklady využití

Manuscriptorium je digitální knihovna, která zabezpečuje, získává, zpracovává a zpřístupňuje digitální informace v tomto případě důležité historické rukopisy a staré spisy, mapy a jiné vzácné dokumenty, které jsou důležité pro zachování kulturního dědictví.

Projekt se zaměřuje dále i na zařízení do kontextu jejich vzniku a doby ze které pochází.

Využít informační zdroj manuscriptorium je hlavně pro badatele, kde mohou zdroje získávat a dále sdílet s ostatními. Dále je zdroj vhodný i pro mnoho vysokoškolských studentů, kteří se oborově zaměřují na historii, archivnictví, knihovnictví a další.

Závěr

Manuscriptorium toho nabízí spoustu pro každého návštěvníka. Ať už jím je student, učitel, badatel, nebo jen nadšenec, každý si jistě najde přesně to, pro co si zde přišel. Funkcí pro vyhledávání, či další práci s díly je dostatek a celková přehlednost databáze je určitě nadprůměrná. Celkově si myslím, že pro vyhledávání určitých dokumentů se zde určitě budu vracet.

Veškeré uvedené obrázky byli vytvořené výstřižky z http://www.manuscriptorium.com.

Zdroje

[1] Manuscriptorium | Europeana Pro. Empowering digital change for the cultural heritage sector | Europeana Pro [online]. Dostupné z: https://pro.europeana.eu/organisation/manuscriptorium

[2] WHARTON, R., 2016. Manuscriptorium. Digital Philology, Spring, vol. 5, no. 1, pp. 4-I,II,III,IV ProQuest Central. ISSN 21629544.

[3] Manuscriptorium v Evropě (Tomáš Psohlavec) | Ikaros. Ikaros | elektronický časopis o informační společnosti [online]. Copyright © 1997 [cit. 21.12.2020]. Dostupné z: https://ikaros.cz/manuscriptorium-v-evrope-tomas-psohlavec

[4] Manuscriptorium: Open Catalogue of Historical Collections and Digital Library of manuscripts and rare old printed books | Europeana Pro. Empowering digital change for the cultural heritage sector | Europeana Pro [online]. Dostupné z: https://pro.europeana.eu/data/manuscriptorium-open-catalogue-of-historical-collections-and-digital-library-of-manuscripts-and-rare-old-printed-books

[5] Czech National Library digitizes its collections with Google | Prague Post. Prague Post | World’s Breaking News [online]. Dostupné z: https://www.praguepost.com/czech-news/41342-czech-national-library-digitizes-its-collections-with-google

[6] TEI P5 ENRICH schéma | Manuscriptorium. Manuscriptorium | [online]. Dostupné z: http://www.manuscriptorium.com/cs/tei-p5-enrich-schema-cs

[7] HANOUSEK, Tomáš. OAI-PMH pro začátečníky. Praha, 2007. Příloha č. 4 k výzkumné zprávě projektu VE20072009004. Dostupné z: https://www.nacr.cz/wp-content/uploads/2019/05/moznosti_06.pdf

International Monetary Fund (imf.org) – přehled o finanční a ekonomické kondici světa na jednom místě

Autor:

Andrea Poláková

-

25.12.2021

0

Úvod

Dnešní svět se neustále mění a s ním i ekonomická a finanční situace jednotlivých států. Veřejné i soukromé organizace potřebují ke svému správnému rozhodování řadu ekonomických dat o stavu ekonomiky v jednotlivých zemích, vývoji důležitých finančních ukazatelů a predikci jejich budoucího vývoje. Tyto a další kvalitní podložené informace mohou získat na stránce Mezinárodního měnového fondu (International Monetary Fund) imf.org.

Mezinárodní měnový fond

Mezinárodní měnový fond (International Monetary Fund, IMF) je organizace založena v roce 1944 původně 44 členskými státy na Brettonwoodské konferenci v New Hampshire, USA a její hlavní kancelář se momentálně nachází ve Washingtonu, D.C. Organizace vznikla v reakci na následky velké hospodářské krize, jejíž následky svět tvrdě pocítil ve 30.letech 20.století. Momentálně je členy 190 zemí světa a mezi zaměstnanci jsou lidé 150 národností.

Primárním cílem IMF bylo a je zajistit stabilitu mezinárodního měnového systému – systému mezinárodních směnných kurzů a mezinárodních plateb. Druhou významnou činností organizace je monitorování politik členských zemí a vývoj jejich ekonomické a finanční situace. Organizace také poskytuje poradenství s cílem snížit riziko různých ekonomických a finančních krizí a zvýšit životní úroveň v členských zemích a prosazuje politiky určené k podpoře ekonomické stability.Mezinárodní měnový fond zároveň poskytuje státům školení a technickou podporu pro rozvoj jednotlivých částí finančního systému (regulace bankovních systémů, řízení státních výdajů, ekonomická statistika apod.). V čele IMF stojí Rada guvernérů skládající se z jednoho guvernéra a jeho zástupce za každou členskou zemi.Vedle webové stránky jako hlavního informačního zdroje, se kterým budeme pracovat zde, je nutné také zmínit aktivitu IMF na sociálních sítích a dalších informačních platformách, kde můžeme získat aktuální a zajímavé informace přímo od organizace.

IMF dále se svými uživateli komunikuje prostřednictví sociálních sítí:

Twitter
Instagram
Facebook
LinkedIn
Youtube
Flickr

Členění webu-základní orientace v datovém zdroji

Web IMF může být užitečným informačním kanálem jak pro profesionály, tak i pro studenty. Kromě angličtiny jako hlavního informačního jazyka je k dispozici ještě 6 dalších jazykových mutacích, a to arabština, čínština, francouzština, japonština, ruština a španělština. Stránka nabízí celou řadu typů informací o své činnosti a ekonomické situaci svých členů. V úvodním panelu máme k dispozici následující záložky:

O nás (About)
Výzkum (Research)
- Zde nalezneme publikace a reporty zpracované na různá ekonomická témata
Státy (Countries)
- Reporty a publikace tříděné dle jednotlivých států nebo regionálních kanceláří IMF
Rozvoj kapacit (Capacity development)
Zprávy (News)
- Mediální sekce s veřejnou částí i s heslem chráněnou částí pro novináře
Videa (Videos)
Data (Data)
Publikace (Publications)
- Třídění dle typu zdroje
Covid-19
- Speciální sekce založena pro snadnější sledování dění v jednotlivých státech v souvislosti s onemocněním

International Monetary Fund (imf.org) - přehled o finanční a ekonomické kondici světa na jednom místě — Obrázek 1 Titulní strana webu IMF s hlavním panelem; zdroj: imf.org

Vyhledávání na imf.org

Pokud víme, jaké informace hledáme na webu a nechceme postupně procházet jednotlivé sekce, využijeme vyhledávací pole v pravé horní části úvodního panelu (viz obrázek 1) a spustíme vyhledávání. Vyhledávací pole webu imf.org umožňuje filtrovat dotaz dle dalších kritérií až v následujícím kroku po spuštění vyhledávání. Na obrázku 2 vidíme výsledek dotazu do vyhledávacího pole po zadání výrazu HDP (GDP).

Specifikace dotazu

Po spuštění vyhledávání nás web přesměruje na stránku, kde můžeme s prvotním výsledkem dále pracovat. V prostřední části okna máme k dispozici články, statistické soubory a další výsledky, které klíčové slovo/a obsahují. Výsledky můžeme řadit podle:

Relevance (Relevancy)
Od nejstarších (Oldest)
Od nejnovějších (Newest)

Filtrace dotazu

Výsledky vyhledávání můžeme dále třídit podle:

Typu obsahu (Content Type)
- Zde specifikujeme, zda hledáme publikaci, novinky, události, dokumenty regionálních kanceláří organizace, národní dokumenty, data, multimédia, kurzy a factsheets (list informací)
Téma (Topic)
- Zde vybíráme mezi vnějším sektorem, průřezovými problémy, finančním a peněžním sektorem, reálným sektorem, fiskálním sektorem a ekonomickou teorií a metodami

Obě skupiny se při rozkliknutí hlavních kategorií rozpadají na podkategorie a dotaz tak lze dále poměrně detailně specifikovat.

Předmět publikace (Publication Subject)
Autora (Author)
Data vložení (Date)
- Poslední 3 měsíce, 6 měsíců, rok, 3 roky a 5 let
Země, které se výsledek týká (Country)

V pravé části obrazovky (obrázek 2) pak máme k dispozici odkaz na analýzu, pokud je k dispozici, a odkaz na publikaci, která se tematicky týká vyhledávaného dotazu GDP. Zároveň u vybraných dotazů nabízí IMF vysvětlení, co vlastně daný pojem znamená, a to pomocí výukových materiálů, na které odkazuje. Tím je téma zpřístupněno i uživatelům, kteří nedisponují znalostmi ekonomie a financí.

Zaměřeno na data

Web IMF nabízí skutečně nepřeberné množství informací, jednou z nejvíce využívaných a také nejvíce užitečných sekcí je samostatná část webu zaměřená na data. Tato sekce nabízí několik možností:

IMF Finance (IMF Financies)
Další zdroje dat (Additional Data Sources)
Databáze světových ekonomických výhledů (World Economic Outlook Databases)
Databáze (Database)
IMF datová eknihovna (IMF eLibrary-Data)
Mezinárodní finanční statistika (International Financial Statistics)
G20 Data Gaps Initiative
Měnové složení oficiálních devizových rezerv (Currency Composition of Official Foreign Exchange Reserves)
Průzkum finančního přístupu (Financial Access Survey)

Lze si zobrazit a stahovat předpřipravené datové sety nebo si sami vytvářet datové sestavy. Jako první se podíváme na interaktivní panely. Největší množství dat získáme přímo kolonky “Data” na úvodním panelu webu.

Data

IMF zveřejňuje celou řadu dat na samostatném panelu. V úvodu této části webu máme k dispozici populární odkazy na nejoblíbenější reporty. Pokud nevíme, v jaké sekci webu můžeme náš dotaz hledat, můžeme využít průvodce IMF daty (A Guide to IMF Data).

Záložka data je rozdělena:

Globální data (Global Data)
IMF finanční data (IMF Financial Data)
Údaje o směnném kurzu (Exchange Rates)

Po přesunutí na sekci “Global Data” se můžeme přesunout na data podle tématu přes kliknutí na název panelu a tlačítko více (more). Pak již pracujeme s příslušným tematickým panelem. Po výběru vybraného tematického panelu se zobrazí možnost pracovat se skupinou ukazatelů.

Obvykle máme k dispozici velmi podobnou strukturu informací v horním panelu:

Informace o skupině ukazatelů, se kterými se v dané sekci setkáme (IFS Home)
Tabulky dat (Data Tables)
Dotaz (Query)
- Panel umožňující vytvářet vlastní dotaz přes kombinaci ukazatelů a výběr typu vizualizace nebo zápisu dat
Archiv starších datových setů (Archive)
Grafy (Graphs)
- U některých panelů je rovnou k dispozici soustava typických dotazů v grafické podobě, např. u skupiny ukazatelů v části s názvem Platební bilance
Dokumenty (Documents)
- U některých panelů je uživateli k dispozici sekce klíčových dokumentů, ze kterých jsou data nebo metodika jejich zpracování čerpány

Práce s daty IMF v rámci tematického panelu

Datové tabulky (Data Tables)

Po otevření této záložky získáme data rozdělená do skupin, u příkladu sekce “International Financial Statistics” podle zemí anebo podle indikátorů. Po otevření např. záložky GDP (HDP) získáme následující výstup.

Datový set nám v této podobě dává hned několik možností:

Určit si podobu dat z hlediska času (roční či čtvrtletní data)
Omezit délku časové řady, které se tabulka týká
Rozložit souhrnný ukazatel na jednotlivé složky
- V případě GDP tak můžeme v tabulce zobrazit např. pouze spotřební výdaje domácností za jednotlivé státy a ostatní vynechat

Tabulka má také vlastní vyhledávací pole, kde můžeme dále specifikovat, co hledáme.

Vyhledávání v tabulce lze omezit na konkrétní stát, hledat můžeme hodnotu nebo text a vyhledávat můžeme skrz řádky nebo sloupce. Můžeme také stanovit požadavek, aby hledaný výraz odpovídal celé buňce nebo se shodoval s hledaným výrazem. Vyhledávací pole ale bohužel neobsahuje možnost využít operátory jako AND nebo OR.

Celkový výsledek pak lze exportovat z webové adresy v podobě souborů s koncovkami .xlsx, .xls, .pdf, .rtf, .pptx, .html, .emf anebo můžeme soubor rovnou vytisknout.

Query (Dotaz)

K sestavení odpovědi můžeme využít také interaktivní pole pro zadávání dotazů. Po rozkliknutí záložky “Query” v horním panelu (viz obrázek 7) je zobrazen interaktivní panel (viz obrázek 10). V bočním panelu Datový pohled (Data view) můžeme jako uživatelé přesouvat jednotlivé položky podle toho, jaký typ výstupu potřebujeme. Na výběr máme z 3 možností:

Čas (Time)
Země (Countries)
Indikátory (Indicators)

Všechny tyto proměnné a dimenze můžeme z dotazu libovolně vyřadit či naopak.

Čas (Time)

S časem můžeme pracovat několika způsoby. K dispozici máme:

list s jednotlivými roky s rozpadem na čtvrtletí a měsíce, u vybraných ukazatelů pak také na pololetí, týdny a dny, kdy můžeme vybírat jen určitá období-tedy např. 2019Q1 a 2020Q3. Usnadnit vyhledávání si můžeme také přes vyhledávací pole, kde zadáme příslušný rok.
vzorec
- zde můžeme opět pracovat s frekvencí zobrazení dat
- zároveň můžeme nastavovat interval přes sloupce od (from) a do (to) kdy v řádku pod nimi vidíme nastavený rozsah (viz obrázek 11)

časové řady (Timeline)

Země (Countries)

Můžeme si vybrat 1 a více zemí, za které chceme znát výsledky indikátorů.

Indikátory (Indicators)

Můžeme si vybrat jeden či více indikátorů, jejichž hodnoty chceme zobrazit. Pokud země hodnoty daného indikátoru nevykazuje, výsledek za stát se nám nezobrazí.

Záložka pohled (View)

Zásadní položkou v záložce pohled (view) je podoba, v jaké se nám data zobrazí. Na výběr máme z následujících možností:

tabulka (table)
sloupcový graf (column)
skládaný sloupcový graf (stacked column)
pruhový graf (bar)
pruhový skládaný graf (stacked bar)
spojnicový graf (line)
křivka (spline)
mapa (map)
koláčový graf (pie)
stromová mapa (treemap)
hodnocení (rating)
pole (area)
radar (radar)
bublina (bubble)
rozptyl (scatter)

Ne na každý typ ukazatele se ale hodí všechny pohledy. Dále ponecháme pozadí (background) v přednastavené podobě nebo jej změníme na jinou barvu. Můžeme skrýt či nechat zobrazen název legendy (legend) a vybrat barevnou škálu (Colors).

Pokročilý uživatel může pracovat se záložkou Pokročilé (Advanced). Jedná se nicméně o funkci, kterou pro běžnou práci s daty nepotřebujeme a nastavuje se manuálně. Hotový výsledek si můžeme exportovat (kolonka export) ve formátech souborů .xlsx, .pdf, .pptx a .png. Zároveň můžeme poskytnout jinému uživateli přímý odkaz (Direct link-pod kolonkou “share”), aby si náš výsledek prohlédl na webové stránce. Pokud bychom si chtěli výsledek uložit přímo na webu, musíme mít vytvořený uživatelský profil.

Podíváme se na příklad odpovědi na dotaz, jak vypadají hodnoty za ukazatel Platební bilance, běžný účet, zboží a služby, kredit, BPM6, v amerických dolarech (Balance of Payments, Current Account, Good and Services, Credit, BPM 6, US Dollar) za rok 2017 a 3 státy. Výsledek požadujeme v podobě pruhového grafu.

Zajímavý je formát mapy, který si zobrazíme na druhém příkladu, jak lze nalézt velké množství přehledně setříděných dat.

Datová e-knihovna IMF a zobrazení dat v mapě světa

Mimo záložku “Data”, se kterou už jsme pracovali, můžeme využít také elektronickou knihovnu dat. Do ní se dostaneme přes hlavní panel na úvodní stránce, kdy kurzorem najedeme na záložku “Data” a rozklikneme položku “IMF eLibrary-Data”. Na úvodním panelu pak v prostředním sloupci vybereme “Platební bilance a mezinárodní investiční pozice (Balance of Paymens and International Investment Position)”.

Opět se dostaneme do interaktivního panelu “Query”. V horní liště si zvolíme pohled na data v podobě mapy (map). Opět si navolíme země, kterých se má ukazatel týkat a příslušný ukazatel, tentokrát se nám změní lišta “Data view” a tentokrát vidíme odlišné kolonky:

Státy (Countries)
Barva (Color)
Listovat podle (Page by)

Vedle samostatné kolonky “Countries” musíme přesunout položku “Indicator” do kolonky “Color”, abychom viděli jednotlivé státy světa probarvené na mapě dle hodnot, kterých ukazatel za danou zemi dosáhl. Do části “Page by” přetáhneme položku “Time” s navoleným obdobím, kterého se mapa bude týkat. Výsledek vidíme na obrázku 14.

Na mapě v dolní části obrázku vidíme časovou osu. Po kliknutí na příslušné období se mapa přebarví podle dosažených hodnot ukazatelů za dané období. Po najetí kurzorem na příslušnou část barevné osy vidí uživatel, jakých hodnot stát dané barvy dosáhl. Zároveň po kliknutí na daný stát a Ukázat nápovědu (Show hint) zobrazíme a připneme na mapě název státu a časové období.

Předpřipravená data

Web IMF rovněž poskytuje řadu již hotových sestav dat, které si pouze zobrazíme a rychle tak najdeme to, co potřebujeme. Podívejme se na příklady, kde sestavy najdeme a jak je lze využít – Data Mapper, World Economic Outlook a předpřipravené grafy.

IMF Data Mapper

Prvním příkladem je „Data Mapper”, tedy záložka, kterou najdeme v horní části webu IMF Data. V horním panelu můžeme připravená data vybírat ze dvou položek: datových setů (datasets) a databáze světových ekonomických výhledů (World Economic Outlook Databases). Jako první je zobrazen náhled na část Data Mapper.

Mapa funguje zároveň jako animace. Kliknutím na šipku v levém dolním rohu pod mapou spustíme animaci, kdy se nám zobrazují jednotlivé roky a zároveň se mění barva států podle změny hodnot ukazatele. Vysvětlivky pro hodnoty se nachází v horní části mapy. Přímo na mapu je pak navázaný lineární graf a spodní část panelu obsahuje seznam ukazatelů, které můžeme dále sledovat.

World Economic Outlook Databases (Databáze světových ekonomických výhledů)

Do této části se dostaneme přes záložku “Data” z úvodního panelu a otevřením příslušné části záložky. Po jejím otevření se dostaneme k rozdělení dat podle zemí, skupin států a možnosti stahovat datové sety. Pokud pracujeme s předpřipravenými soustavami výsledků na webu, vybereme jednu z prvních 2 možností.

Postupně pouze vybereme všechny státy nebo případně odznačíme ty, které nechceme zahrnout, vybereme ukazatel a nastavení časového rozsahu a můžeme přes přípravu reportu

(prepare report) vytvořit report na webu a následně si jej i stáhnout. Vše je intuitivní a snadné.

Panel Pokročilé na konci před vytvořením reportu nemusí běžný uživatel řešit.

Grafy a tabulky

Na webu můžeme využít řadu již hotových grafů a tabulek, které lze následně stahovat.

Již vytvořené grafy si můžeme prohlédnout v e-knihovně a po výběru datasetu klikneme na kolonku Grafy (Charts), a pak už jen vybereme graf, který chceme zobrazit.

Závěr

Webové stránky Mezinárodního měnového fondu imf.org nabízí velké množství dat, se kterými lze pracovat. Z pohledu dat lze zobrazovat data zpracovaná do různé grafické nebo textové podoby, případně vytvářet úplně nové datové sestavy. Můžeme také stahovat a číst oficiální organizací vydané publikace a dokumenty nebo samostatné zdroje dat a dále s nimi pracovat v jiných programech mimo web. Ke stejným typům dat se dostaneme hned několika cestami. Pokud nemáme znalosti z oblasti ekonomie a financí a nerozumíme některým pojmům, web nabízí velké množství vzdělávacích materiálů, ze kterých můžeme čerpat.

Zdroje

[1]International Monetary Fund. imf.org[online]. Dostupné z:https://www.imf.org/en/Home

Shodan.io – najnebezpečnejší internetový vyhľadávač

Autor:

samuel_a

-

22.12.2021

0

Shodan je vyhľadávač zariadení pripojených na internet. Na rozdiel od tradičných vyhľadávačov ako napríklad Google alebo Bing neindexuje webové stránky, ale IP adresy- respektíve zariadenia pripojené do siete internet z dostupných IP adries. Shodan zbiera údaje o všetkých zariadeniach, ktoré sú pripojené do internetu. Ak je zariadenie priamo pripojené do siete (teda nie je chránené systémom ako napríklad Firewall), Shodan si od zariadenia „vyžiada“ dostupné informácie, ktoré mu zariadenie poskytne.

V čom sa Shodan líši od Googlu?

Základným rozdielom je princíp, ako vyhľadávače indexujú výsledky. Shodan prechádza celý internet, Google prechádza len povrchovú časť internetu na ktorej sú dostupné webové stránky- World Wide Web. Avšak ten obsahuje len malú časť zariadení, ktoré sú skutočne pripojené k internetu. Shodan má za cieľ poskytnúť celkový obraz internetu.

Ďalším rozdielom je, že na to aby ste mohli používať Shodan potrebujete znalosť vyhľadávacích dotazov s ktorými operuje. Napríklad nestačí do vyhľadávača vložiť dotaz „jadrové elektrárne v Česku“ a očakávať výsledky. Shodan bol navrhnutý pre vývojárov a špecialistov ktorí potrebujú k svojej práci maximum dostupných informácii a na to aby ste ich vedeli interpretovať potrebujete znalosti vyhľadávacích dotazov.

Možnosti zariadení, ktoré dokáže Shodan vyhľadať sú neobmedzené- od malých domácich počítačov až po automyčky alebo jadrové elektrárne. V nasledujúcich kapitolách je predstavená štruktúra vyhľadávania (vyhľadávacie dotazy), proces indexácie zariadení a príklady využitia. [1]

Proces indexácie

Na to, aby sme pochopili ako funguje vyhľadávanie v nástroji Shodan si musíme najprv objasniť, ako Shodan zbiera dáta o dostupných zariadeniach.

Banner

Zariadenia (napríklad servery, počítače, akýkoľvek hardware) sú pripojené do siete a poskytujú výkon pre služby, ktoré na nich fungujú. Shodan zbiera informácie práve o týchto službách. Každá služba prezentuje niečo ako svoju vizitku alebo banner. Tá obsahuje rôzne parametre, ktoré sa líšia u každej služby. Shodan prechádza celý internet a zbiera údaje, ktoré sú obsiahnuté v tejto vizitke. Ukážka nižšie obsahuje vizitku alebo banner webovej služby:

HTTP/1.1 200 OK
Server: nginx/1.1.19
Date: Sat, 03 Oct 2015 06:09:24 GMT
Content-Type: text/html; charset=utf-8
Content-Length: 6466
Connection: keep-alive

Z informácii ktoré nám webová služba poskytla môžeme zistiť, že na zariadení funguje nginx software vo verzii 1.1.19. Nižšie je ukážka banneru priemyselného riadiaceho systému Siemens S7:

Copyright: Original Siemens Equipment
PLC name: S7_Turbine
Module type: CPU 313C
Unknown (129): Boot Loader           A
Module: 6ES7 313-5BG04-0AB0  v.0.3
Basic Firmware: v.3.3.8
Module name: CPU 313C
Serial number of module: S Q-D9U083642013
Plant identification: 
Basic Hardware: 6ES7 313-5BG04-0AB0  v.0.3

Z ukážky je jasné, že systém poskytol úplne iný banner obsahujúci oveľa viac informácii ako napríklad firmware, sériové číslo a rôzne ďalšie detaily o službe. Z dôvodu rôznych bannerov a parametrov ktoré môžu obsahovať je nutné vedieť, akú službu chceme v Shodane vyhľadávať ešte predtým ako s vyhľadávaním začneme. [2]

Štruktúra zdroja

Keď už vieme, ako Shodan indexuje dostupné služby, môžeme sa detailnejšie pozrieť na štruktúru dotazov a výsledkov, ktoré dokážeme vyhľadať.

Vyhľadávacie dotazy

Vyhľadávacie dotazy majú špecifický formát ktorý musí byť zachovaný, inak vyhľadávač nezobrazí správne výsledky. Dotazy majú nasledujúci formát: filter:hodnota V položke filter zadávame atribút vizitky, ktorý chceme vyhľadať. Hodnota reprezentuje konkrétnu položku, ktorú chceme vyhľadať.

Príklad jednoduchého vyhľadávacieho dotazu je napríklad vyhľadávanie podľa krajiny: country:CZ. Filter krajiny vyžaduje názov krajiny vo formáte dvoch veľkých písmen. V našom prípade CZ- Česko. Po zadaní tohto dotazu Shodan vypíše všetky výsledky nachádzajúce sa na území Česka.

Ukážku špecifického vyhľadávacieho dotazu je možné ilustrovať na príklade webovej služby v predošlej kapitole. Ak by sme chceli hľadať webové služby nginx vo verzii 1.1.19, do vyhľadávača Shodan by sme napísali dotaz Server: "nginx/1.1.19". Ak hodnota, ktorú sa snažíte vyhľadať obsahuje medzery alebo chcete vyhľadať konkrétnu kombináciu, musíte použiť úvodzovky ako v ukážke.

Vyhľadávacie dotazy je možné ľubovoľne kombinovať aby ste zúžili počet výsledkov, ako napríklad Server: "nginx/1.1.19" country:CZ

Ak neviete čo hľadáte, prípadne chcete Shodan len vyskúšať, môžete prezerať populárne vyhľadávacie dotazy na adrese https://www.shodan.io/explore

Značky

Značky (Tags) sú vytvorené užívateľmi Shodanu a pomáhajú v jednoduchšej orientácii vo vyhľadávači. Obrázok nižšie zobrazuje populárne značky, ktoré pomáhajú identifikovať vyhľadávacie dotazy.

Shodan.io - najnebezpečnejší internetový vyhľadávač — Obrázok 1: Populárne tagy na webe Shodan.io *[zdroj obrázku: https://www.shodan.io/explore]*

Na ďalšom obrázku môžeme vidieť výsledok vyhľadávania dotazu "IN-TANK INVENTORY", ktorý by mal hľadať čerpacie stanice. Prvý výsledok na adrese 46.38.231.56 z Nemecka obsahuje tag honeypot, druhý výsledok z USA obsahuje tag ics.

Príklady využitia

Informácie získane zo Shodanu môžu byť aplikované v mnohých legitímnych odvetviach. Vyhľadávač za posledné roky získal mnoho pozornosti aj z dôvodov, že je často spájaný s hackermi, ktorý ho využívajú za účelom identifikácie obetí a zraniteľných systémov- od malých firiem až po nemocnice, elektrárne alebo rôznych vládnych systémov.

Zabezpečenie siete: vyhľadajte si svoju IP adresu a uistite sa, že vaše zariadenia nie sú verejne prístupné z internetu [1]
Prieskum trhu: marketingoví pracovníci môžu získať prehľad, aké modely zariadení používajú ľudia po celom svete [1]
Kyberbezpečnosť / penetračné testy: špecialisti na IT bezpečnosť používajú tento nástroj za účelom testovania bezpečnosti organizácii [1]
IoT: väčšina IoT zariadení je priamo pripojená do internetu, čo znamená že si môžete na Shodane vyhľadať modely chladničiek, svetiel, zámkov a rôznych prvkov chytrej domácnosti [1]
Sledovať ransomware: Shodan umožňuje vyhľadávať niektoré verzie vírusov typu ransomware, čím pomáha špecialistom na IT bezpečnosť identifikovať rozsah útoku [1]

Záver

Shodan je mocný vyhľadávací nástroj ktorý môže v nesprávnych rukách spôsobiť veľké škody. Jeho funkcie avšak nevyužívajú žiadne ilegálne praktiky, zhromažďuje len údaje ktoré sú verejne prístupné a upozorňuje na nedostatočné zabezpečenie kritickej infraštruktúry.

Zdroje

[1] „What is Shodan? – Shodan Help Center”. https://help.shodan.io/the-basics/what-is-shodan (viděno pro. 07, 2021).

[2] „Search Query Fundamentals – Shodan Help Center”. https://help.shodan.io/the-basics/search-query-fundamentals (viděno pro. 07, 2021).

Zoznam obrázkov

Obrázok 1: Populárne tagy na webe Shodan.io [zdroj obrázku: https://www.shodan.io/explore]
Obrázok 2: Výsledky vyhľadávania dotazu v Shodane [zdroj obrázku: https://www.shodan.io/search?query=%22IN-TANK+INVENTORY%22]

Tableau Public. Jeden ze základních nástrojů pro vizualizaci

Autor:

solansky

-

21.12.2021

0

Úvod

V dnešní době jsou data velmi klíčová a jejich objem každým dnem neustále roste. Růst objemu dat není lineární, nýbrž exponenciální. Z tohoto důvodu vzniká stále více a více reportingových nástrojů, které dokážou rychle a přehledně vizualizovat data, aby jim každý porozuměl. Tuto oblast by šlo pojmenovat jako Self-Service Business Intelligence neboli SSBI. Jedná se o odnoš Business Intelligence, která je cíleně zaměřena pouze na uživatele, kteří nemají dlouhou zkušenost v rámci programovacích či skriptovacích jazyků, ale i přesto potřebují dennodenně zacházet s daty a vyvozovat z nich závěry. S těmito nástroji se tedy snižuje potřeba rozsáhlých IT oddělení, aby vytvářeli reporty pro manažery, ale manažeři jsou si schopni tyto reporty založit sami. Mezi nejznámější nástroje patří SAP Analytics Cloud, Power BI a nebo právě Tableau Public [2].

Tableau Public

Tableau Software je společnost, která byla založena v roce 2003 a v roce 2019 byla prodána společnosti Salesforce za astronomických 15,7 miliard dolarů [1]. Už tato částka podtrhuje úspěch Tableau a po akvizici společností Salesforce, která stojí za nejúspěšnějšími CRM nástroji se dá očekávat ještě větší upevnění na trhu. Společnost Tableau Software již začala rozšiřovat své produktové portfolio, které momentálně tvoří Tableau Desktop, Tableau Server, Tableau Online, Tableau Public, Tableau Prep Builder a Vizable.

Předmětem tohoto článku bude zejména volně dostupný software Tableau Public, který slouží jako základní nástroj pro vizualizaci dat a následnou publikaci. Nutno podotknout, že tato verze je značně omezena a není určena pro komerční použití, na rozdíl od Tableau Desktop, které obsahuje pokročilé funkcionality. Publikace vytvořených reportů v Tableau Public je možná pouze jako veřejná, což znamená, že vytvořený report bude zpřístupněn všem uživatelům Tableau Public.

Práce s daty

Pro nahráni dat slouží záložka Data Source. Data je možné náhrát v různých formátech, např. JSON, .txt, Access databáze, .xlsx, PDF a jiné. Kromě možnosti nahrání dat, umožňuje Tableau také nahlédnutí a úpravu dat. Mezi nejčastější změny patří funkce JOIN, PIVOT či UNPIVOT tabulek nebo změnění či filtrování sloupců.

Samotná JOIN funkce je implementována v rámci Tableau velmi intuitivně, jelikož se jedná o jednu z nejčastějších funkcí co se týče prací s daty. V Tableau je tato funkce implementována v takzvaných vztazích, což je pouze vylepšená verze funkce JOIN, jelikož vztahy se dokážou přizpůsobovat momentální vizualizaci jakou člověk zvolí. Tudíž to není jako u funkce JOIN zvoleno napevno, jestli se vezmou data pouze podle průniku či doplňku, nýbrž je tato vlastnost adaptabilní.

Tableau Public. Jeden ze základních nástrojů pro vizualizaci — Obrázek 1: Ukázka vztahů

Data jdou dále upravit pomocí SQL příkazů, které jsou již určeny pro pokročilejší uživatele, nicméně umožňují dělat nad daty rozsáhlé selekce či grouping nebo právě funkci PIVOT či UNPIVOT, která jednotlivé sloupce převede na řádky nebo opačně. Příklad využití této funkce je možný vidět na Obrázku 2.

Tvorba grafů

Pro vytváření grafů slouží zejména záložka Worksheet.

Pro práci s daty se data rozdělují do dvou skupin: metriky a dimenze. Dimenze značí nějaký popis dat či charakter (barva, datum, typ, atd.) a metriky jsou zejména číselné hodnoty (počet, zisk, počet obyvatel, ..). Dimenze Tableau označuje buď písmeny Abc nebo jinými symboly, které označují datový typ dimenze. Křížkem se poté označují metriky a v závislosti na typu proměnné se může jednat o spojitou (zelené barva) nebo diskrétní (modrá barva) proměnnou. Tableau automaticky po nahrání datasetu projede celý dataset a vhodně nastav proměnné jestli jsou metriky či dimenze. Uživatel má poté možnost toto rozdělení libovolně změnit, ovšem lze říci, že ve většině případů je algoritmus spolehlivý a typy určí správně.

Tableau je velmi interaktivní nástroj a jako takové funguje zejména na principu drag&drop nebo klikání. Uživatel si vybírá jednotlivé metriky či dimenze a ty následně přesune buď do pole Columns či Rows. Tableau již poté vhodně zvolí příslušnou vizualizaci a více méně vše je již uděláno automaticky. Uživatel má poté možnost danou vizualizaci měnit na základě atributů tzv. Marks, které jsou barva, či velikost (např. sloupců). Tento atribut může být i změněn dynamicky, což znamená, že jiná metrika či dimenze je zvolena jako škála pro atribut. Příklad možností atributů vizualizace je uveden na Obrázku 4.

Význam těchto atributů lze popsat následovně:

atribut Color přizpůsobí barvy grafu (např. měsíc který je ziskový bude vyznačen zelenou barvu a měsíc kdy byla ztráta bude zbarven do červena)
atribut Size ovlivní velikost a nebo šířku zobrazení záznamů v grafu (např. lidnatější stát bude mít větší sloupec než stát s menší populací)
atribut Detail umožňuje vybrat level detailu grafu. Tento atribut je velmi užitečný pro vytvořeních tzv. Reference lines
atribut Tooltip umožnní zobrazení dodatečných informací při pohybu kurzoru nad grafem (v rámci Tooltipu je možné zobrazit i vizualizace)
atribut Label přidá ke grafu popisky

K vizualizacím je možné přidat i filtry nebo různé legendy či popisky. Je na to určen sloupec napravo, který má fixní výšku. Tento sloupec je zobrazován jak pro Worksheets tak i pro Dashboardy.

Dashboardy

Dashboardy slouží zejména pro spojení jednotlivých vizualizací z worksheetů. Dashboardy jsou nejčastějším místem pro prezentování vizualizací, protože prezentovat pouze jeden graf pomocí worksheetů je neprektické. Dále po publikaci umožňují dashboardy funkci Lock, která zabrání jakémukoliv uživateli s právy pouze na prohlížení, aby mohl finální dashboard editovat a tedy nějak rozhodit. Dashboardy jdou také libovolně stylisticky upravit a případně je možné udělat i interaktivní a propojené dashboardy, kdy po kliknutí na hodnotu na dashboardu je uživatel automaticky přesměrován na jiný dashboard. Příklad hotového dashboardu lze vidět na Obrázku 6.

Ukládání a publikování

Všechny vizualizace vytvořené v Tableau Public je možné uložit na veřejný server. Odtud se poté výsledné vizualizace mohou sdílet na jakékoliv další stránky. Jak již ovšem název Public napovídá, všechny vizualizace jsou dostupné veřejně pro každého a tudíž si je může každý registrovaný uživatel zobrazit. V závislosti na nastavení lze vizualizaci chránit proti editingu či filtraci.

Závěr

Tableau je opravdu skvělý názor a jeho největší výhodou je jednoduchost ovládání. Nástroj je přímo určen pro lidi co nemají jakékoliv znalosti v oblasti programování a tudíž je naprosto ideální pro lidi, kteří se spíše více orientují v businessu. Základní free verze Tableau Public je spíše určena pro edukativní a privátní účely, jakýkoliv podnik by si poté měl zakoupit licenci pro Tableau Desktop, která stojí přibližně 1500 Kč za měsíc.

Zdroje

[1] Tableau Software, LLC, a Salesforce Company [online]. 2021 [cit. 2021-12-08]. Dostupné z: https://public.tableau.com/s/

[2] GeekWire, Nat Levy [online]. 2021 [cit. 2021-12-08]. Dostupné z: https://www.geekwire.com/2019/salesforce-completes-15-7b-acquisition-tableau-software-creating-new-enterprise-tech-force/

Národní uložiště šedé literatury (NUŠL)

Autor:

Oleksandra Plotnikova

-

20.12.2021

0

1. Úvodní představení

Národní uložiště šedé literatury (NUŠL) je digitální repozitář cílem kterého je shromažďovat, uchovávat a zveřejňovat informace, které se řadí pod pojem šedé literatury. (1)

Co je šedá literatura? Šedou literaturou (někdy také nepublikovaná nebo polopublikovaná literatura) jsou označované informace, které neprošly klasickým vydavatelským procesem nebo jsou sdílené institucemi primární činnosti kterých není vydavatelství. Tyto informace jsou produkované vládními, akademickými, průmyslovými institucemi atd. (2)

NUŠL je služba Národní technické knihovny, která nabízí svým uživatelům bezplatný přistup k šedé literatuře. Informace jsou získané díky spolupráce z různými producenty šedé literatury. Momentálně vyhledávací rozhráni NUŠL nabízí přibližně 620 000 dokumentu, jejichž původci jsou různé výzkumné instituce, statní a soukromé vysoké školy, muzea, galerie, neziskové organizace atd. Přínosem této spolupráce pro producenty je dlouhodobá archivace dokumentů, zviditelnění těchto institucí a jejích výstupů v rámci České republiky i zahraničí a také usnadnění povinného zveřejnění informaci pro tyto instituce. (1, 2)

Národní uložiště šedé literatury (NUŠL) — Obr.1 Logo NUŠL. Zdroj: (9)

2. Rešeršní možnosti / Struktura zdroje / Typologie dokumentů

NUŠL se skládá z dvou částí: centrální vyhledávací rozhraní (http://www.nusl.cz/) a digitální repozitář (https://invenio.nusl.cz/). Cely NUŠL systém a jeho komponenty jsou přehledně zobrazené na Obr. 2. (4)

2.1. Digitální repozitář

Digitální repozitář je volně přístupný, přičemž je provozován pomoci softwaru Invenio. Tento software je možné volně instalovat, používat, upravovat a uložené informace následně šířit mezi spolupracujícími organizacemi. V rámci nastaveni Invenio pro potřeby repozitáře NUŠL proběhly různé úpravy včetně nastaveni sbírek a šablon. Kromě toho byla provedena grafická úprava rozhraní, které je dostupné v českém a anglickém jazyce. (4)

Na hlavní stránce (viz Obr. 3) je vidět, že dokumenty jsou dělené podle sbírek a zaměření. Sbírky jsou rozdělené do následujících kategorií: Vysokoškolské kvalifikační práce, Zprávy, Autorské práce, Firemní literatura, Konferenční materiály, Analytické a metodické materiály, Propagační a vzdělávací materiály. Sbírky jsou následně rozdělené do subkategorií. Například sbírka Vysokoškolské kvalifikační práce je rozdělená do následujících kategorii: Bakalářské práce, Diplomové práce, Disertační práce, Habilitační práce, Rigorózní práce.

Zaměření v digitálním repozitáři jsou vymezené do následujících kategorií: školství, kultura, věda a výzkum, statni zprava a ostatní. Každé z těchto zaměření, podobně jako i u sbírek, je rozděleno do subkategorií, například zaměření Kultura obsahuje následující subkategorií: Galerie, Institut umění – Divadelní ústav, Knihovny, Muzea, Národní filmový archiv, Národní památkový ústav, Národní ústav lidové kultury.

2.1.1. Jednoduché vyhledávání

Na hlavni stránce digitálního depozitáře je přednastavené jednoduché vyhledávání. Zaškrtávací pole v sekci „Hledat jen ve sbírce:“ (viz Obr. 3) umožňují omezit vyhledávání jen v požadovaných sbírkách. Po zadaní jednoduchého dotazu zobrazí se výsledky hledáni, které jsou zároveň roztříděné podle sbírek (viz Obr. 4). Výsledky hledáni je možné seřadit podle datumu zveřejněni, autora, čísla záznamu nebo podle podobnosti slov. Pro každou sbírku je také možné nastavit požadovány počet výsledků. Uživatel může také zobrazit výsledky v jednom seznamu, tj. výsledky nebudou tříděné podle sbírek. Kromě toho uživatel může vybrat výstupní formát výsledků a to citace, HTML brief, HTML brief + PSH, HTML + citesummary, MARC, Refman RIS. (5)

Vyhledávání se také dá provádět hned v požadované sbírce nebo zaměření. Na hlavni stránce při výběru konkrétní sbírky nebo zaměření systém nabídne dostupné subkategorie. Po výběru požadované subkategorii zobrazí se dokumenty, které patří do vybrané subkategorii. Následně je možné do vyhledávacího pole zadat libovolný dotaz.

2.1.2. Pokročilé vyhledávání

Pokročilé vyhledávání nabízí pohodlné nástroje pro dotazovaní v digitálním depozitáři. Rozbalovací seznam (viz Obr. 5) umožňuje zadat řetězec slov, který bude vyhodnocený repozitářem jako přesná fráze nebo regulární výraz. Navíc pomoci moznosti „jedno ze slov“ nebo „část výrazu“ v rozbalovacím seznamu systém použije operátor OR pro zadaný řetězec slov. Při rozšířeném vyhledávání je také možné upřesnit v jakém přesně poli musí být vyhledán řetězec slov. Dostupná pole pro vyhledáváni jsou název, autoři, klíčová slova, datum zveřejněni, instituce, typ dokumentu, název konference, ISBN/ISSN, číslo projektu, plny text, číslo záznamu. Kromě toho repozitář umožňuje použití operátorů AND, OR a NOT. Nakonec záznamy se da filtrovat podle datumu zveřejněni.

Výsledky hledáni se dá seřazovat stejně jako i v jednoduchém vyhledávání. Jednoduché vyhledávání se v zásadě neliší od pokročilého, pokud bude použita speciální syntaxe, která bude vysvětlena v oddílu 2.1.3 Syntax, operátory.

2.1.3. Syntax, operátory

Vyhledávání fráze

Pro vyhledávání konkrétní fráze je možné použít uvozovky. Existuji dva režimy vyhledáváni frázi:

Dvojité uvozovky (“…”) – vyhledávají přesnou frázi. Při použití dvojitých uvozovek zobrazí se pouze výsledky, které se shodují se zadaným řetězcem.
Jednoduché uvozovky (‘…’) – vyhledává dílčí fráze. Tento režim připomíná vyhledáváni fráze v Google vyhledávače. Na rozdíl od dvojitých uvozovek tento režim zohledňuje text, který se nachází za nebo před zadaným kritériem v jednoduchých uvozovkách. (5)

Booleovské operátory

Při vyhledáváni v repozitáři NUŠL je možné použit operátory AND, OR a NOT. Použiti operátoru v dotazech je názorně zobrazené v Tab. 1. (5)

AND	referenční +model	nalezne všechny záznamy, které obsahuji oba slova
	referenční model	totéž
	referenční AND model	totéž
OR	referenční \|model	nalezne všechny záznamy, které obsahuji alespoň jedno slovo
	referenční OR model	totéž
NOT	referenční -model	nalezne všechny záznamy, které obsahuji slovo „referenční“, ale neobsahuji „model“
	referenční NOT model	totéž

^{Tab. 1 Booleovské operátory. Zdroj: vlastní zpracování, (5)}

Kulaté závorky

Vyhledávač také podporuje použití kulatých závorek, které pomáhají sloučit booleovské výrazy do skupin. Je možné použít libovolný počet závorek, uznávají se i vnořené závorky. (5)

Speciální znaky a interpunkce

Vyhledávač v repozitáři také podporuje vyhledaní dotazů se speciálními znaky, například, „C++“ nebo „sin2 2θ13 = 0.084±0.005“. Na druhou stranu vyhledávač nerozlišuje velká a mala písmena. (5)

Mezinárodní znaky

Vyhledavač také rozpoznává Unicode UTF-8 znaky, což umožňuje vytváření dotazů v různých jazycích. (5)

Hledání se zástupným znakem *

Vyhledávač podporuje použití zástupného znaku hvězdička (*). Například, při zadáni model*, hvězdička doplní libovolný počet znaků a nalezne záznamy, které kupříkladu obsahují slova modelovat, modelovaní atd. Hvězdičku se da doplnit i uprostřed slova. (5)

Strukturované metadatové vyhledávání

Vyhledávač také podporuje vyhledáváni v rámci různých bibliografických poli, například author:Puškin, title:model, abstract:model, keywords:model. (5)

2.2. Centrální rozhraní

Centrální rozhraní představuje indexační a vyhledávací systém nad digitálním repozitářem NUŠL a dalšími spolupracujícími repozitáři. Takový přístup je zajištěn open source systémem Elasticsearch. (4)

Vyhledávání v centrálním rozhraní NUŠL probíhá podle navigace umístěné nalevo (viz Obr. 6). Dokumenty je možné vyhledávat podle 5 hlavních kategorií: typ dokumentu, osoby, klíčová slova, jazyk a plný text.

Kategorie Typ dokumentu je strukturovaná do dvou úrovní. Například, složka Analytické a metodické materiály, která se nachází v první úrovně se dál děli na analýzy, metodiky a studie, což představuje druhou úroveň děleni. Další složky nacházející se v první úrovní jsou: Autorské práce, Firemní literatura, Konferenční materiály, Ostatní, Propagační materiály, Vysokoškolské práce a Zprávy. (6)

Kategorie Osoby obsahuje názvy instituce, například Český statistický úřad, Univerzita Karlova nebo jména lidi, které mohou být jak autory dokumentů, tak i například vedoucí vysokoškolských práci. Defaultně jsou vždy zobrazené 4 položky a po stisknuti tlačítka „zobrazit vice“ zobrazí se celkově 20 položek. (6)

Kategorie Klíčova slova obsahuje fráze a terminy v českém a anglickém jazyce. Stejně jako i u kategorii Osoby ve výchozím nastavení zobrazují se 4 terminy a po rozkliknuti se zobrazí dalších 16 terminů.

V kategorii Jazyk se nachází až 8 jazyků na výběr: čeština, angličtina, slovenština, němčina, francouzština, ruština, španělština a polština.

Poslední kategorie Plný text nabízí výběr mezi dokumenty podle dostupnosti plného text.

Kromě popsaných kategorii, v centrálním rozhraní je také dostupné vyhledávání ve sbírkách, které byly zmíněné výše v podkapitole

2.2.1 Digitální repozitář.

Mimoto každá stránka obsahuje časovou osu (viz Obr. 7), které pomáhá omezit výsledky vyhledávaní podle roku. Časová osa také ukazuje počet dostupných dokumentů.

Centrální rozhraní také obsahuje pole pro jednoduché vyhledávaní. Dotaz na vyhledáváni je možné provést postupným problikáváním přes kategorii a sbírky, a následně zadáváním klíčových slov do vyhledávacího pole. Špatnou zvolenou kategorii se da smazat odkliknutím v sekci „Použita omezeni“. Bohužel vyhledávácí pole neumožňuje použití žádných booleovských operátorů nebo jiné syntaxi, která byla popsaná v oddílu 2.1.3. Syntax, operátory. (6)

Výsledky vyhledáváni obsahuji krátkou část textu, seznam autorů a rok vydání dokumentu. Navedením na ikonku s písmenem i (viz Obr. 7) se zobrazí podrobné informace o dokumentu. Informace, které mohou být nalezené v popisu dokumentu jsou typ dokumentu, ISBN/ISSN, rok, jazyk, abstrakt, klíčová slova, práva, instituce, link na externí umístěni souboru a na umístěni v digitálním repozitáři NUŠL.

2.3. Typologie dokumentů

NUŠL používá vlastní typologii šedé literatury. Názvy typu dokumentů odpovídají názvům sbírek o kterých už bylo zmíněno výše. Přehledně všechny typy dokumentu jsou zobrazené na Obr. 8. (3)

3. Závěr

Národní uložiště šedé literatury (NUŠL) (7, 8) má obrovský přínos pro vědeckou a výzkumnou činnost, jelikož umožňuje publikovaní, archivovaní a síření výstupy různých producentů informaci. Šedá literatura obsahuje velké množství cenných údajů, které jsou nezbytné pro vědecké a výzkumné účely. Do těchto cenných údajů se řadí zprávy vládních a akademických orgánů, výroční zprávy firem, autorské monografie a sborníky, konferenční materiály atd.

Jedním z přínosu šedé literatury je urychlené zveřejnění materiálů než u klasických publikovaných dílů. Často také výsledky výzkumů jsou popsané podrobněji ve vědeckých zprávách a sbornících než v odborných časopisech. Nakonec některé materiály nemusí být nikdy opublikované, proto jsou takové uložiště šedé literatury velice důležité.

Uložiště šedé literatury má velký přinos nejen pro uživatele, ale i pro producenty, kteří se rozhodli spolupracovat a sdílet své dokumenty. Díky NUŠL jejích autorské díly budou sdílené veřejností a nebudou se obtěžovat byrokratickým omezením. Zveřejněné výsledky výzkumu mohou kromě toho pomoct i vládním organum, které financují tyto výzkumy, vybudovat důvěru s veřejnosti.

Kromě samotného zajištění publikace a archivace dokumentů, NUŠL také podporuje diskuse o šedé literatuře provedením každoročních konferencí.

Použité zdroje:

NUŠL, 2016. Hlavní strana – Národní úložiště šedé literatury (NUŠL). NUŠL [online]. 29 leden 2016. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.techlib.cz/
NUŠL, 2016. Definice šedé literatury. NUŠL | Národní úložiště šedé literatury [online]. 29 leden 2016. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.techlib.cz/cs/seda-literatura/definice-sede-literatury
NUŠL, 2016. Typologie dokumentů NUŠL. NUŠL | Národní úložiště šedé literatury [online]. 29 leden 2016. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.techlib.cz/cs/nusl/typologie-dokumentu-nusl
NUŠL, 2016. Technické řešení NUŠL. NUŠL [online]. 29 leden 2016. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.techlib.cz/cs/nusl/technicke-reseni
NUŠL, nedatováno. Průvodce vyhledáváním – Digitální repozitář. NUŠL | Digitální repozitář [online]. [Viděno 7 prosinec 2021]. Získáno z: https://invenio.nusl.cz/help/search-guide
PEJŠOVÁ, Petra, 2010. Národní úložiště šedé literatury (NUŠL). Čtenář – Měsíčník pro knihovny [online]. květen 2010. [Viděno 7 prosinec 2021]. Získáno z: https://www.svkkl.cz/en/ctenar/clanek/2033
NUŠL, nedatováno. Národní úložiště šedé literatury. NUŠL | Národní úložiště šedé literatury [online]. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.cz/
NUŠL, nedatováno. Národní úložiště šedé literatury – Digitální repozitář. NUŠL | Digitální repozitář [online]. [Viděno 7 prosinec 2021]. Získáno z: http://invenio.nusl.cz/
Kontakty, 2016. NUŠL – Národní úložiště šedé literatury [online]. [Viděno 7 prosinec 2021]. Získáno z: https://nusl.techlib.cz/cs/kontakty

WolframAlpha: answer engine a znalostní báze s triliony dat

Autor:

pouv02

-

19.12.2021

0

Úvod

WolframAlpha je dotazovací služba vytvořena a provozována společností Wolfram Research,
kterou založil a vlastní Stephen Wolfram. Wolfram Alpha by se dal také označit jako answer
engine či computational knowledge engine. Jeho vznik se datuje do roku 2009, kdy byl poprvé
spuštěn. Samotný projekt Wolfram Alpha je založen na Wolframovo dřívějším projektu s
názvem Mathematica. Wolfram Mathematica je proprietární softwarová aplikace, která slouží k
matematickému modelování. V současnosti je také provozována společností Wolfram Research.
Každý měsíc navštíví Wolfram Alpha přes 19 milionů uživatelů [1]. Wolfram Alpha existuje ve
2 verzích, první je free verze a druhá je placená PRO verze. PRO verze je dostupná v několika
variantách, včetně verze pro studenty, která je výrazně zlevněná [2].

Popis Wolfram Alpha

Samotný projekt Wolfram Alpha měl jako myšlenku Stephen Wolfram přes 30 let, až díky
technologickému pokroku a této vizi mohl být Wolfram Alpha v roce 2009 spuštěn [3]. Wolfram
Alpha se skládá ze 2 základních stavebních kamenů. Těmito 2 kameny jsou programovací
jazyk Wolfram a přístup neboli paradigma nazývající se NKS (A New Kind of Science) [3].
Wolfram jazyk byl vyvíjen pro softwarovou aplikaci Wolfram Mathematica, z níž se posunul
dále a byl použit pro samotný Wolfram Aplha. Jazyk Wolfram zastává ve Wolram Alpha 3
základní funkce [3]:

• poskytuje strukturu ve které je celá báze znalostí reprezentována a veškeré příkazy jsou
implementovány,
• poskytuje výpočetní základ díky kterému je možné implementovat různé algoritmy a
metody,
• poskytuje silné technické zázemí.

Jazyk Wolfram je více než 35 let starý a stále se vyvíjí [3]. Momentálně se nachází ve verzi
12.3. Každou verzí dochází k přidání několika funkcí. Další klíčovou částí Wolfram Alpha je
NKS. Díky algoritmům a myšlenkám, které vycházejí z NKS je možné je využívat pro Wolfram
Alpha. NKS je paradigma, které je vyvinuto Wolframovo společností Wolfram Research [3].
NKS není přímo součástí Wolfram Alpha jako Wolfram jazyk, ale Wolfram Alpha staví na
výzkumu a vývoji, který vyšel ze NKS.

Obrázek 1.1: Princip Wolfram Alpha [1]

Wolfram Alpha je kromě webové aplikace také dostupný na několika zařízeních jako mobilní
aplikace (iOS, Android, Windows Phone). Ta je ovšem placená a stojí 80 korun, ovšem nejedná
se o měsíční ani roční předplatné, jakmile aplikaci zakoupíte zůstane vám navždy. Mezi další
mobilní aplikace patří různé doprovodné aplikace pro vzdělávání. Lze také využít rozšíření do
prohlížečů (Firefox, Chromium), které umožní rychle a pohodlně vyhledávat dotazy.
Wolfram Alpha nabízí také řešení pro soukromé firmy. Firmy tak mohou Wolfram Alpha
využít ve svých aplikacích a dokonce je možné nasadit Wolfram Alpha do firemního intranetu
jako přímou kopii. Wolfram Alpha se dá také využít k analýze a modelování rozsáhlých dat.
Placená verze zvaná Wolfram Alpha PRO umožňuje navíc oproti Basic verzi několik věcí [2]:

•zobrazení krok po kroku při výpočtů,
•kalkulačky pro osobní finance, výživu atd.,
•dvojnásobný čas na výpočet,
•2MB limit pro nahrávání souborů a jejich analýzu,
•customizace výstupů a možnost stahovat výsledky.

Kromě Pro verze je také k dispozici Pro Premium verze. Ta má navíc expresní podporu od
Wolfram Alpha expertů a rozšířené limity pro výpočetní čas a velikost souborů [2]. Cena
těchto dvou verzí se liší o skoro polovinu. PRO verze stojí 6,99 USD a Pro Premium 12 USD.
Nejpopulárnější je verze Pro [2]. Cena pro studenty a ostatní se snižuje v případě zakoupení
ročního či semestrálního předplatného. Mobilní aplikace stojí 2,99 USD, její výhoda je v tom,
že ji máte navždy.

Obrázek 1.2: Logo Wolfram Alpha [1]

K úpravě uživatelských preferencí (jednotky, lokace, čas, velikost textu) lze využít vytvoření
Wolfram účtu, pomocí kterého jde tyto preference měnit a také k uchovávání nahraných a
stažených dat.

Funkce Wolfram Alpha

Wolfram Alpha nabízí mnoho rozličných funkcí ze spousty oblastí lidského poznání. Pod
dominantním logem se nachází část pro zadávání dotazů. Dotazy můžeme zadávat bud pomocí
přirozeného jazyka, nebo lze využít matematický zápis pro vložení speciálních znaků (například
pro výpočet integrálů, derivací atd.). Také lze využít nahrání souboru s daty, které posléze
Wolfram Alpha zanalyzuje. Jako poslední možnost se zde nachází i vygenerování náhodného
dotazu. Pod polem pro zadávání dotazů se ještě nachází možnost „Extended Keyboard“, ta
nám umožňuje vložit speciální znaky jako písmena řecké abecedy.

Pod dotazovacím polem se nacházejí jednotlivé oblasti, které Wolfram Alpha umí zpracovávat.
Mezi tyto oblasti patří [1]:
•Matematika,
•Věda & Technologie,
•Společnost & Kultura,
•Každodenní život.

WolframAlpha: answer engine a znalostní báze s triliony dat — Obrázek 2.1: Wolfram Alpha [1]

Jednotlivé oblasti jsou dále členěny do subkategorií jak je vidět na obrázku. Pro zadání dotazu
ho stačí napsat do příslušného pole a stisknout enter. Podle složitosti dotazu poté proběhne
výpočet, ale většinou je to během několika sekund. Kromě řešení námi zadaných problémů dokáže Wolfram Alpha problémy také generovat. Funkce jež se tímto zabývá se nazývá Wolfram Problem Generator [4]. Slouží primárně pro generování matematických příkladů, od
primitivních až po komplexní.

Kromě generování problémů umí Wolfram Alpha také poskytnout příklady pro jednotlivé
kategorie a subkategorie.

U matematických příkazů můžeme vidět konkrétní postupy a jednotlivé kroky, které bychom
jako uživatelé měli při výpočtu udělat. Pomůže nám to tak v pochopení dané problematiky.
Bohužel se tato funkce nachází pouze ve verzi PRO a ve mobilních aplikacích, které jsou taky
placené.

Pro pokročilé uživatele a vývojáře je také k dispozici API, která je do 2000 dotazů měsíčně
zdarma [5]. K dispozici je několik přednastavených API jako Summary Boxes API, Spoken
Results API a mnoho dalších. Kromě přednastavených API je možno také využít Full Results
API, která pokrývá vše jako klasický Wolfram Alpha. Odpověď Full Results API je standardně
v JSON či XML a můžeme ji využít v našich aplikacích.

Vyhledávání ve Wolfram Alpha

Při vyhledávání využíváme přirozený jazyk pomocí kterého zadáváme dotazy do vyhledávacího
pole. Následující příklad ilustruje odpověď při zadání Goodfellas. Odpověď, kterou nám
Wolfram Alpha poskytne je strukturována do několika bloků. Hned první je blok Input
interpretation. Ten představuje pochopení a interpretaci dotazu samotným Wolframem. Tento
blok je první a zobrazí se u každého dotazu. Poté je blok se základními informacemi. U většiny
netechnických dotazů je také uveden graf počtu návštěv na Wikipedii v čase. U některých
bloků lze také přímo zobrazit zdroje ze kterých Wolfram Alpha čerpal. Kromě toho lze ještě
celé bloky informací zobrazit jako plain text pro snadné kopírování. V PRO verzi je možno
navíc data stahovat a vizuálně upravovat [2]. Odkaz na dotaz.

Wolfram Alpha dokáže zobrazovat obrázky, mapy, grafy. S Wolfram Alpha se můžeme rychle
dostat k několika zajímavým výsledkům. Například porovnávání jídla a jeho nutričních a
dalších informací s dotazem whopper vs baconator vs big mac (obrázek 3.2). Odkaz na dotaz.

Wolfram Alpha dokáže porovnat jednotlivé dotazy, například jednotlivé dotazy srovná do
tabulek a jsou tak přehledně zobrazeny (obrázek 3.3). Odkaz na dotaz.

Mezi další ukázky patří například převedení libovolného textového stringu na Morseův kód
(obrázek 3.4). Odkaz na dotaz.

Analýza jmen a jejich použití v populaci a další statistiky (obrázek 3.5). Odkaz na dotaz.

Jak už bylo zmíněno kromě zadávání přirozeného jazyka lze zadávat i matematické formule. K
vložení těchto formulí je k dispozici speciální položka Math Input. Po kliknutí nám předvyplnění
náš dotaz s danou formulí a my potřebujeme doplnit jenom čísla či proměnné (obrázek 3.6).
Odkaz na dotaz.

Předpověď počasí přímo v mobilní aplikaci na Androidu.

Zdroje Wolfram Alpha
Wolfram Alpha při svých výpočtech čerpá z nejrůznějších zdrojů. Mezi ty se řadí databáze,
encyklopedie, knihy, novinové články, velkým zdrojem jsou také americké státní organizace
[1]. Přesný výčet všech zdrojů není ani k dispozici, protože se konstantě mění, například data
o počasí či finanční ukazatele. Většina zdrojů se řadí k tzv. primárním zdrojům. U každého
dotazu je možné zobrazit odkud WA čerpal. Tato položka se nachází až na samotném konci
dotazu a jmenuje se Sources (obrázek 4.1). Mezi zajímavé zdroje patří například Americká
letecká agentura, Best Buy, CIA Worl Factbook, Dow Jones.

Závěr

V tomto reportu o zdroji byl popsán vyhledávač Wolfram Alpha. Byla popsána jeho historie,
funkce, vyhledávání a zdroje. Wolfram Alpha se stále rozvíjí a přináší nové funkce v každé
nové verzi

Použitá literatura
1. WOLFRAM ALPHA LLC. Wolfram|Alpha: Making the world’s knowledge computable
[online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https://www.wolframalpha.com (cit.
na s. 3–6, 14).
2. WOLFRAM ALPHA LLC. Pricing Plans [online]. 2021-02-19 [cit. 2021-12-03]. Dostupné
z: https://www.wolframalpha.com/pro/pricing (cit. na s. 3–5, 8).
3. WOLFRAM ALPHA LLC. About Wolfram|Alpha [online]. 2021-02-19 [cit. 2021-12-03].
Dostupné z: https://www.wolframalpha.com/about (cit. na s. 4).
4. WOLFRAM ALPHA LLC. Wolfram Problem Generator: Unlimited AI-generated Practice
Problems [online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https://www.wolframalpha.
com/problem-generator (cit. na s. 6, 7).
5. WOLFRAM ALPHA LLC. Wolfram|Alpha APIs: Computational Knowledge Integration
[online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https://products.wolframalpha.
com/api (cit. na s. 7).
6. WOLFRAM ALPHA LLC. Goodfellas – Wolfram|Alpha [online]. 2021-02-19 [cit. 2021-
12-03]. Dostupné z: https://www.wolframalpha.com/input/?i=Goodfellas (cit. na
s. 8).
7. WOLFRAM ALPHA LLC. whopper vs baconator vs big mac – Wolfram|Alpha [online].
2021-02-19 [cit. 2021-12-03]. Dostupné z: https://www.wolframalpha.com/input/?i=
whopper+vs+baconator+vs+big+mac (cit. na s. 9).
8. WOLFRAM ALPHA LLC. Boeing 747, Boeing 767, Airbus A320 – Wolfram|Alpha
[online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https://www.wolframalpha.com/
input/?i=Boeing+747%2C+Boeing+767%2C+Airbus+A320 (cit. na s. 10).
9. WOLFRAM ALPHA LLC. morse code “Vysoká škola ekonomická” – Wolfram|Alpha
[online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https://www.wolframalpha.com/
input/?i=morse+code+%22Vysok%C3%A1+%C5%A1kola+ekonomick%C3%A1%22 (cit. na
s. 10).
10. WOLFRAM ALPHA LLC. karen name, james name, donald name, jennifer name
– Wolfram|Alpha [online]. 2021-02-19 [cit. 2021-12-03]. Dostupné z: https : / / www .
wolframalpha.com/input/?i=karen+name%2C+james+name%2C+donald+name%2C+
jennifer+name (cit. na s. 11).
11. WOLFRAM ALPHA LLC. 2,3,4,1,3,5,2,7,8 – Wolfram|Alpha [online]. 2021-02-19 [cit.
2021-12-03]. Dostupné z: https://www.wolframalpha.com/input/?i2d=true&i=%7B%
7B2%2C3%2C4%7D%2C%7B1%2C3%2C5%7D%2C%7B2%2C7%2C8%7D%7D (cit. na s. 12).
12. WOLFRAM ALPHA LLC. Wolfram|Alpha App for Android [online]. 2021-02-19 [cit.
2021-12-03]. Dostupné z: https://products.wolframalpha.com/android (cit. na
s. 13).

Kaggle: případová studie s vizualizací prostřednictvím Google Data Studio

Autor:

Martin Cháb

-

18.12.2021

0

photo of girl laying left hand on white digital robot

Úvodní představení Kaggle

Kaggle není pouze knihovna datasetů, ale jedná se o komunitu odborníku z prostředí data science a machine learning. Kaggle umožňuje uživatelům především publikovat a vyhledávat kvalitní data sety. Dále nabízí i samotné vzdělání ve zmiňovaných oblastech, a dokonce i webovou platformu pro data science. Na platformě lze spolupracovat s dalšími odborníky a účastnit se různých datových soutěží.

Kaggle byl založen roku 2010, kdy poskytoval soutěže v machine lerning. Roku 2017 Kaggle odkoupila společnost Google. Nepatrným důkazem, že je Kaggle dceřinou společností Google může být i následující příklad. Po zadání klíčového slova „ev“ do vyhledávače datasetů od Googlu se dataset z platformy Kaggle nabídne jako první. (GOOGLE DATASET SEARCH, 2021) Ke konci roku 2021 firma eviduje přes 8,3 milionů unikátních uživatelů. (TUNGUZ, 2021)

Případová studie

Kaggle si nejlépe přiblížíme, pokud si ukážeme reálný use case. Naším zadáním tak bude získání dat z oblasti elektrických automobilů, kde budeme chtít získat obecný přehled o elektrických automobilech na trhu a následně si je vizuálně přiblížit, aby data byla lépe čitelná.

Způsob vyhledávání

Oblast vyhledávání datasetů na portále Kaggle je velmi intuitivní a neobsahuje příliš filtračních možností.

Vyhledávání data setu může být provedeno dvěma způsoby.

Prvním je výběr stránky Datasets v menu, které se nachází na levé části stránky.
Zadáním klíčových slov rovnou do horního vyhledávače.

Kaggle: případová studie s vizualizací prostřednictvím Google Data Studio — Obrázek 1 Vyhledávání na Kaggle (zdroj: autor)

Zadání dotazu přes stránku Datasets

A. Na stránce Datasets se pak nachází vyhledávač, do kterého zadáme klíčová slova.

B. Dále se výběr může lépe specifikovat. Pro náš účel postačí, když přidáme tag Automobiles and Vehicles, omezíme velikost datasetu a vybereme typ souboru CSV.

C. Vyfiltrováním nám zůstaly 3 data sety

D. Nabízí se i styl řazení výsledků. Na výběr je 5 možností: hottest, most votes, new, updated, usability.

E. V tomto případě máme výběr jednoduchý. Za předpokladu, že by se v dané oblasti vyskytovalo více datasetů, tak nám výběr usnadní název a rating komunity. V případně, že bychom stále nevěděli, jaký data set je pro naše užití vhodný, pomůže nám popis datového setu po kliknutí na něj. Hned na prvním výsledku vidíme dobré hodnocení od komunity. Použitelnost (ang Usability) nabývá vysoké hodnoty 10. To znamená, že má data set dobrou dokumentaci a je k dispozici přehled. Dále vidíme číslo 60, které značí počet lajků od komunity.

F. Po rozkliknutí prvního data setu získáme základní přehled.

G. Po rozkliknutí popisu získáme obecný popis a otázky, které nám dataset pomůže zodpovědět.

H. Pokud se nám popis líbí můžeme přejít k jeho stažení ve formátu csv. Další možností je kliknutí na tlačítko „New notebook“, které nás přesměruje na cloud-based pracovní plochu, kde můžeme provádět analýzy daného data setu například pomocí jazyku Python. Tato možnost ale nemusí být u všech datových sad. Pro naše potřeby postačí stažení do formátu CSV.

Přímé zadání dotazu do vyhledávače na hlavní stránce

Tento způsob vyhledávání se liší pouze ve vzhledu filtrování data setů. Pro uživatele může působit přehledněji a výhodou je například automatické nabízení tagů, které v předchozím zobrazení chybí a uživatel si musí na tagy přijít sám pouze za pomoci našeptávače. Naopak nevýhodou toho zobrazení je možnost seřazení datových sad. V tomto zobrazení je možné seřazení pouze podle relevantnosti nebo data publikování. Namísto prvního zobrazení, kde bylo na výběr až 5 možností. Po rozkliknutí následuje zobrazení již popsané od bodu F z předchozí kapitoly.

Zpracování souboru získaného z Kaggle

Stažený soubor, jak napověděl popis, obsahuje dva soubory. Soubor s sufixem „_Norm“ obsahuje datové údaje i s jednotkami dat (např.: km/h, Wh/km). Pro následnou vizualizaci dat je proto lepší již očištěný soubor se sufixem „_Clean“, který obsahuje pouze data bez jednotek.

Vizualizace lze provést různými vizualizačními nástroji jako je Tableu, Power BI apod. Jelikož Kaggle spadá pod společnost Google, vizualizaci uvedeme na jejich řešení v prostředí Google Data Studio, které nabízí tvorbu dashboardů zdarma.

Práce s Google Data Studiem je intuitivní a podobá se jiným vizualizačním programům. Hlavním postupem je import dat a následné sestavení grafů. Nástroj má přednastavené konektory až k 476 různým zdrojům dat a Kaggle je jedním z nich. Proto by bylo možné vynechat krok stažení CSV z databáze Kaggle a namísto toho napojit zdroj dat s aplikací napřímo. Data Studio napodobuje prezentování, které je známo z programu Power Point, kde si dají jednotlivé grafy sestavit do takzvaných slidů.

Interpretace dat

Následná část se věnuje pouhé interpretaci dat, ke které pomohl Kaggle z hlediska zdroje dat a poté Google Data Studio pro vizualizaci dat.

Zdroje

GEOFF839. EVs – One Electric Vehicle Dataset – Smaller [online]. Kaggle, 2020 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/geoffnel/evs-one-electric-vehicle-dataset

GOOGLE DATASET SEARCH, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://datasetsearch.research.google.com/

GOOGLE DATA STUDIO, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://datastudio.google.com/

KAGGLE, [online]. 2021 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/

TUNGUZ, Bojan. Unique Kaggle Users [online]. Kaggle, 2021 [cit. 2021-12-02]. Dostupné z: https://www.kaggle.com/tunguz/unique-kaggle-users

Použité obrázky

Obrázek 1 Vyhledávání na Kaggle (zdroj: autor)

Obrázek 2 Zadání dotazu přes stránku Datasets (zdroj: autor)

Obrázek 3 Filtrování dotazu (zdroj: autor)

Obrázek 4 Výsledek dotazu (zdroj: autor)

Obrázek 5 Možnost řazení (zdroj: autor)

Obrázek 6 Vybrání data setu (zdroj: autor)

Obrázek 7 Základní přehled data setu (zdroj: autor)

Obrázek 8 Popis data setu (zdroj: autor)

Obrázek 9 Výsledek přímého zadání do vyhledávače na hlavní stránce (zdroj: autor)

Obrázek 10 Základní představení datasetu (zdroj: autor)

Obrázek 11 Elektrické automobily dle typu náhonu kol (zdroj: autor)

Obrázek 12 Elektrické automobily dle typu karosérie (zdroj: autor)

Obrázek 13 Velikost automobilů (zdroj: autor)

Obrázek 14 Zrychlení (zdroj: autor)

Obrázek 15 Cena elektroautomobilů (zdroj: autor)

Obrázek 16 Dojezd (zdroj: autor)