Domů Blog Stránka 3

Twitonomy – Nástroj pro analýzu uživatelského chování na Twitteru

0

Úvod

V dnešní době, kdy je nemalé procento světové populace zapojeno do sociálních sítí, vzniká potřeba subjektů (ať již komerčních, věřejných nebo soukromých) vyhodnocovat svoje i cizí chování a interakce na těchto platformách. Ať již k porozumění chování uživatelů a cílové skupiny, nebo k analýze výsledků vlastní práce, analytické nástroje nábízí přesně tuto funkcionalitu, která výše zmiňuji. Pomocí přístupu k API jednotlivých sítí jsou schopny získávat požadované informace a nabízí je k další analýze.

Jednou z výše zmiňovaných sociálních sítí je Twitter a jednou z výše zmiňovaných analytických služeb je Twitonomy. Protože mám k této síti největší vztah, rozhodl jsem se funkcionality a prostředí tohoto nástroje přiblížit odborné, ale i laické obci, kterou by téma analytiky sociálních sítí mohlo zaujmout. V následujících řádcích se dočtete krátkou reportaci systému, cenovou politiku a jednotlivé případy použití pro dané přehledy, dashboardy a reporty, grafy a ukazatele.

K čemu je Twitonomy?

Twitonomy je nástroj, který vám pomůže naučit se vzorům chování uživatelů, jak přemýšlí, co se jim líbí nebo na co nejvíce reagují. To vše za pomocí analýzy hloubkového učení dat. Twitonomy poskytuje statistickou analýzu uživatelského profilu, jeho followers, analýzu kampaní, výkon #hashtags atd. Pomáhá identifikovat vlivné osoby a klíčová místa pro růst marketingu. Vyniká dobrými možnostmi analýzy, díky nimž si jednodušezjistíte, které z vašich tweetů byly nejvíce retweetovány, které měly největší dosah, míru prokliku či konverzní poměr. Umožňuje analyzovat váš a další uživatelské účty a průběžně je sledovat. Vedle toho pomůže porozumět datům z vašeho profilu / hashtagu / kampaně a analyzovat jej pomocí skvělých formátů vizualizací, grafů atd., přičemž umožňuje stáhnout všechny tyto údaje pro externí analýzu dat. Poskytuje data v reálném čase, rychlé sledování klíčových slov a poskytuje aktualizovanou odpověď a výsledek.

Pricing

Zřízení účtu a základní fungování je zdarma. V neplacené verzi jsou však velice omezené možnosti. S premium verzí uživatel získává právě ty zajímave funkcionality, které dělají Twitonomy tak atraktivní.

Obr.1 Pricing Twitonomy. Zdroj: Autor

 

Mezi tyto funkcionality patří:

  • Stahování tweetů od uživatelů, seznámů či z vyhledávání do tabulek Excel nebo dokumentů PDF pro zálohování, sdílení, tisk nebo další analýzy a akce
  • Upřesnění sledovaného období a nastavení vlastních rozsahů dat pro analýzu tweetů.
  • Stahování tweetů a oblíbených položek od všech uživatelů do Excelu a PDF.
  • Ukládání Tweet Analytics pro snadné sdílení dokumentů Excel a PDF.
  • Více informací o zmínkách (mentions): Nejzajímavější uživatelé, nejaktivnější dny / hodiny, nejlepší hashtagy, nejvíce retweetované a oblíbené zmínky.
  • Rychlé vytváření přehledů, vlastní rozsahy dat a analýza zmínek.
  • Záloha dat a sdílení analytických dat.
  • Analýza vyhledávání na jakákoli klíčová slova, #hashtags nebo @users (včetně exportu dat)
  • Větší vhled do struktury dat o tom, jak byl tweet retweetován
  • Sledování real-time dat a denních statistik účtu a jakýchkoliv dimenzí náhledu na data z twitteru.
  • Zálohování lidí, které sledujete a které sledují Vás.

 

Uživatelské rozhraní

Samotné prostředí Twitonomy je jednoduché a příjemné. Uživatelské rozhraní je vcelku jasné a intuitivní. Hned po příchodu se dostaneme na hlavní dashboard, kde můžeme vidět defaultně nastavený přehled „Your Timeline“ opisující to, co vidíte jako uživatel Twitteru.

Obr. 2 Přehled „Your Timeline“. Zdroj: Autor

Na hlavní dashboard je možné si připnout přehledy pro sledování uživatelů, které chceme analyzovat a dále s nimi pracovat. Přehled se zobrazuje jako náhled uživatelský profil včetně veškerých tweetů a retweetů.

Obr. 3 Přehled sledování účtu Andreje Babiše. Zdroj: Autor

Dále se naskýtá možnost přidat si přehled sledování určité fráze vyhledávání. Seřazené v čase se nám zobrazují Tweety, které s touto frází souvisí.

Obr. 4 Přehled sledování vyhledávání „COVID19“. Zdroj: Autor

Všechny přehledy se dají otevřít přímo v rozhraní Twitteru, nebo v placené verzi exportovat v podobě excelové tabulky či PDF souboru. U každého tweetu v přehledu můžeme vidět počet reakcí, retweetů a zařízení, ze kterého byl tweet zveřejněn.

V dalším dashboardu, který se Váže k vlastníkovu profilu, můžeme sledovat osobní statistiky našeho působení na Twitteru. Pokud by nás např. zajímala informace o tom, v jaký den a jakou hodinu nejvíce tweetujeme, lze si pomocí jednoduchých grafů udělat jasný obrázek o naší aktivitě.

Obr. 5 Graf uživatelské aktivity. Zdroj: Autor

Mimo to můžeme na stejnou otázkou odpovědět pomocí jednoduchého přehledu průměrných metrik, které nám mapují veškeré pusobení v rozmezí od vstoupení na Twitter až do dnes. V placené verzi můžeme výběr dat personalizovat.

Obr. 6 Přehled klíčových metrik uživatelské aktivity. Zdroj: Autor

V dalších přehledech můžeme analyzovat např. zmínky Vašeho profilu jinými profily. V rámci vizualizace dat můžeme pracovat s několika dimenzemi náhledu na data. Pro nejzajímavější využití byly vybrány dimenze:

  • geografická lokace zmínek,
  • uživatelé, kteří Vás zmiňují,
    • nejaktivnější z nich
    • nejvlivnější z nich
  • retweetovaní zmínek
  • hashtagy ve zmínkách

Stejným způsobem můžeme analyzovat retweety a průsečíky s jinými metrikami, jako oblíbenost tweetu nebo interakce, a to v různých dimenzích.

Vedle analytických dat ohledně našeho působení, můžeme sledovat a analyzovat chování jíných uživatelů. Tato zajímavá funkcionalita je však placená a v rámci práce k ní nebyl udělen přístup.

Závěr

Analýza uživatelů sociálních sítí je důležitá, a proto existuje Twitonomy. Zprostředkovává vhledy do uživatelského chování a naskýtá možnosti analytických podkladů pro hloubkové analýzy textu, chování, nebo celkové nálady ve společnosti. Využitelnost je možná v polích marketingu, PR, datové analýzy a datového inženýrství. V rámci těchto polí se může sledovat radikalizace a tvorba tzv. „králičích nor“, nebo polarizace společnosti a rozbíjení etických otázek. V komerčním světě potom např. v analýze segmentu cílové skupiny zákazníků na Twitteru, či v marketingovém rozšíření povědomí o značce a tvorbě komunity kolem ní na základě datové analýzy.

Z práce vyplývá, že možností, které Twitonomy naskýtá, je opravdu hodně. Bohužel je plno zajímavých funkcionalit placených a nebylo možno je více přiblížit. Pokud vezmeme neplacenou verzi, která byla přiblížena, můžeme i tu považovat za příjemnou cestu, jak získat celistvá data nad svým působením na Twitteru a jak analyzovat interakce, sledovat time management, nebo pozorovat jiné metriky, které nás zrovna napadnou.

Seznam Obrázků

Obr.1 Pricing Twitonomy. Zdroj: Autor

Obr. 2 Přehled „Your Timeline“. Zdroj: Autor

Obr. 3 Přehled sledování účtu Andreje Babiše. Zdroj: Autor

Obr. 4 Přehled sledování vyhledávání „COVID19“. Zdroj: Autor

Obr. 5 Graf uživatelské aktivity. Zdroj: Autor

Obr. 6 Přehled klíčových metrik uživatelské aktivity. Zdroj: Autor

Zdroje

Twitonomy. 2021. Diginomy Pty Ltd. [online]. [cit. 11.02.2021]. Dostupné z: https://www.twitonomy.com/

 

Webový prohlížeč Brave: důraz na soukromí a rychlost

0

1       Úvod

Brave je webový prohlížeč, který v prosinci roku 2020 měl méně než 1% celkového tržního podílu (resp. jeho tržní podíl je tak malý, že se uvádí ve vícero statistikách jako „others“) [1], a dal by se tedy označit za alternativní aplikaci využívanou k prohlížení internetu. První stabilní verze 1.0 byla vydána teprve v listopadu 2019 [2], se většinou klíčových funkcionalit pro Windows, iOS, macOS a Linux.

Hlavním aspektem a taky důvodem, proč Brave používat, je jeho důraz na soukromí – prohlížeč má již v sobě zabudovaný algoritmus na blokování reklam (fungující analogicky jako tzv. „ad-blocker“), blokování webových trackerů, integraci s anonymním prohlížečem Tor a také integraci s alternativními webovými vyhledávači, jako je např. DuckDuckGo, Qwant nebo Ecosia.

V této práci se pokusím detailněji rozebrat nejen výhody, ale také nevýhody Brave, způsob jeho využití a doporučení pro čtenáře. Nebudu zde rozebírat základní vlastnosti, které by měl mít každý kvalitní webový prohlížeč, ale spíše se zaměřím na rozdíly a klíčové výhody Brave oproti ostatním.

2       Soukromí

Jak bylo zmíněno výše, hlavní výhodou Brave je jeho anonymita, tedy např. absence sdílení cookies, trackerů, fingerprintingu a dalších běžně využívaných mechanismů masovými prohlížeči jako je Chrome, Edge nebo Mozilla – většinou za účelem identifikace uživatele a následné cílené reklamy. Brave má tzv. štíty („Brave shields“), jejichž účel je právě zamezení sledování aktivity uživatele na internetu. Vzhledem k tomu, že Brave blokuje spoustu běžných funkcionalit webových stránek, umožňuje mj. načítat stránky rychleji – dle tvrzení vývojářů načítá Brave webové stránky 3 až 6 krát rychleji než konkurenční Chrome [2].

Obrázek 1: Ukázka Brave Shields (vlastní tvorba)

Obrázek 1: Ukázka Brave Shields (vlastní tvorba, nastavení prohlížeče)

Když se podíváme např. na známém českém portálu Novinky.cz na seznam blokovaných trackerů a reklam, zjistíme, že Brave blokuje 6 položek. Ty lze také libovolně měnit – můžeme například povolit cookies napříč stránkami, zajistit bezpečnější připojení pomocí HTTPS a jiné. Lze však tuto funkcionalitu i vypnout, a to například v případě, že chceme podpořit autora webových stránek, či z nějakého důvodu kvůli blokování stránka nefunguje.

Výhodou oproti použití různých přídavků např. do Chrome (adblock, Ghostery, atp.) je integrace těchto nástrojů do jednoho – tedy přímo do prohlížeče. Uživatel si navíc může nastavit Brave Shields pro jednotlivé webové stránky, upravit globální defaultní nastavení atp.

3       Systém odměn

Kromě blokování cílených i necílených reklam má Brave svou vlastní funkcionalitu tzv. „etických reklam“, tedy takových, které nejsou cílené přímo na konkrétní uživatele. Podobně jako vyhledávač DuckDuckGo[3] je obchodní model založen právě na tomto principu – každý uživatel má možnost si vypnout zobrazování reklam kompletně, avšak pokud si je zapne, dostává za každé zobrazení reklamy tzv. BAT (Basic Attention Token), kryptoměnu, kterou si pak může převést do své peněženky [4]. Lze specifikovat i frekvenci vyskytování reklam, a tyto reklamy se zobrazují velmi decentně pomocí malého informačního okna v pravém dolním rohu, a neblokují tak UI prohlížeče.

BAT si pak lze převést i na měnu USD, avšak odměny jsou velmi malé (pro srovnání po roce používání Brave mám našetřeno 5.750 BAT, tedy zhruba 2 USD). Proto má Brave funkci, pomocí které lze podporovat oblíbené stránky či konkrétní tvůrce obsahu právě BAT. Na obrázku 2 lze vidět i nastavení pravidelných příspěvků, zde konkrétně například vyhledávači DuckDuckGo. Stránka musí sice mít nastavenou podporu pro přijímání BAT, ale vzhledem k uživatelské bázi je čím dál více podporovaných entit. Dnes je podporovaných více než 240 tisíc stránek a tvůrců, mezi které patří například Wikipedia[4].

Obrázek 2: Ukázka pravidelné podpory. Zdroj: https://support.brave.com/hc/en-us/articles/360018123651-How-do-I-use-Brave-Rewards-

Obrázek 2: Ukázka pravidelné podpory. Zdroj: https://support.brave.com/hc/en-us/articles/360018123651-How-do-I-use-Brave-Rewards-

4       Webové vyhledávače

Bylo by samozřejmě pošetilé, kdyby Brave přes všechnu snahu udržet anonymitu používal Google jako vyhledávač. Lze to samozřejmě nastavit, a je nutno zmínit, že občas je vhodnější použít Google, ale standardně lze volit z vícero alternativních vyhledávačů. Mezi ně patří například dnes už poměrně užívaný a vícekrát zmíněný DuckDuckGo, který má dnes nezanedbatelný podíl na trhu, a to 0.6 %[5]. Jako další lze využít např. francouzský Qwant[6], případně mnou využívaný vyhledávač Ecosia[7], který funguje na backendu vyhledávače Bing, a který věnuje značnou část zisku z necílených reklam (opět podobný model jako Brave, DDG) organizacím sázejícím stromy v deštných pralesích v Asii, Africe a Jižní Americe.

Brave navíc umožňuje si nastavit zkratky pro použití konkrétních vyhledávačů. Pokud z nějakého důvodu uživatel potřebuje použít například Google, stačí, když do adresového řádku pro URL zadá „:g“ a může vyhledávat přímo přes Google. Analogicky to funguje s ostatními prohlížeči, a v některých případech si lze nastavit automatické vyhledávání přímo na konkrétní, podporované stránce (např. „:a“ pro vyhledávání na Amazonu, „:d“ pro DuckDuckGo atd.).  

5       Přídavky (add-ons)

Vzhledem k tomu, že Brave je založený na open-source projektu Chromium od společnosti Google[8], podporuje všechny přídavky, které jsou dostupné pro Chrome – prohlížeč, který dnes využívá téměř 60% uživatelů internetu. Nespornou výhodou je tedy to, že si lze nainstalovat běžně používané přídavky, které umožňují například přiblížení obrázků pomocí myši (HoverZoom), překládání myší označených slov (ImTranslator), asistenty při nákupu (hledání levnějších cen) ale také další asistenty, které například sumarizují podmínky použití (Terms of Service: Didn’t Read).

Ač je Brave vybavený solidními nástroji proti trackingu, které podporují soukromí, tato možnost víceméně uživateli umožňuje si Brave vyladit dle svých možností a potřeb.

6       Kritika Brave

Kritika prohlížeče samozřejmě existuje již od jeho první beta verze od roku 2015, avšak vzhledem ke kontinuálnímu zlepšování jeho funkcí je užitečnější se zabývat spíše kritikami aktuální verze 1.0 (rok 2019).

Internetový portál CNet.com vydal recenzi Brave[9], ve které shrnul jak výše zmíněná pozitiva, tak negativa. Mezi to hlavní patří jeho stále relativně malá báze uživatelů, čítající kolem 15-20 milionů aktivních uživatelů. To by samo o sobě nemuselo vadit, potíž je nicméně v tom, že systém reklam vyžaduje velký počet potenciálních konzumentů těchto reklam. Už jen z používání Brave je patrné, že moc inzerentů si reklamní prostor nekupuje, neboť i při nejvyšším nastavení frekvence reklam kvůli maximalizaci zisku BAT se nezobrazuje tento maximální počet – reklamy se navíc často opakují a je zřejmé, že jsou mířené na specifickou cílovou skupinu uživatelů tohoto prohlížeče (např. reklamy na VPN služby, kryptoměny atp.).

Jako hlavní kontroverzi lze označit přidávání tzv. referral odkazů při použití kryptoměnových tradingových portálů (např. Binance), kde Brave vydělával přes tyto odkazy peníze na úkor nic netušících uživatelů. CEO Brave, Brendan Eich, se za tuto skutečnost na Twitteru omluvil[10] a potvrdil, že k tomu opravdu docházelo. Nechávají se slyšet, že ačkoliv se Brave snaží být vůči uživatelům transparentní a nevydělávat na tom, že sbírají jejich data, pořád potřebují udržitelný obchodní model, který bude generovat obrat.

7       Závěr

Z hlediska vyhledávání informací, získávání poznatků ze zdrojů na internetu a k běžnému surfování je jednoznačně plnohodnotný v porovnání s konkurencí. Je samozřejmě otázkou, nakolik je potenciální uživatel investován do ochrany svého soukromí, avšak lze říci, že skutečnost sledování naší aktivity na internetu je problémem celospolečenským – pokud tedy není v zájmu jedince si chránit své vlastní soukromí, může být v jeho zájmu pasivně bojovat proti hromadnému zneužívání těchto taktik (např. při volbách). Tak či tak je nesporně jednodušší si svá data chránit, protože Brave to dělá za uživatele, a tak ho lze určitě doporučit méně zkušeným uživatelům. Stejně tak je vhodný pro ty, kteří vyžadují po svém prohlížeči pokročilou funkcionalitu (některé ani tato práce nezmiňuje, jako např. IFPS integraci), případně kteří chtějí podpořit podobný projekt.

Jediný problém, který občas nastává, je nefunkčnost webových stránek v Brave, které v Chrome normálně fungují (a to i po vypnutí Brave Shields). Jedná se o skutečné minimum adres, z nichž valná většina je stará, neudržovaná a neoptimalizovaná, avšak stejně vyžaduje mít Chrome alespoň nainstalovaný a v záloze. Ač Brave používá Chromium a je tedy optimalizovaný na všechny stránky, které optimalizují primárně pro Chrome, pořád nezobrazuje 100 % všech URL.

Když shrnu výhody a nevýhody prohlížeče, nevidím důvod ho nepoužívat. Velmi malé procento nezobrazitelných adres (v řádech setin procent) je vykoupeno funkcemi jako je Brave Shields, integrace s prohlížečem Tor, integrace s alternativními vyhledávači, možnost využívat přídavky do Chrome a v neposlední řadě systém odměn BAT.

8       Použité zdroje

[1] Browser Market Share Worldwide Statcounter [online]. [cit. 2021-01-31]. Dostupné z: https://gs.statcounter.com/browser-market-share

[2] Brave Launches Next-Generation Browser that Puts Users in Charge of Their Internet Experience with Unmatched Privacy and Rewards [online]. [cit. 2021-01-31]. Dostupné z: https://brave.com/brave-launches-next-generation-browser/

[3] DuckDuckGo [online]. [cit. 2021-01-31]. Dostupné z: https://duckduckgo.com/

[4] Rewards [online]. [cit. 2021-01-31]. Dostupné z: https://support.brave.com/hc/en-us/categories/360001053052-Rewards

[5] Wikipedia is now a Brave Verified Publisher, Ready to Receive BAT Donations from Brave Users. Brave [online]. [cit. 2021-01-31]. Dostupné z: https://brave.com/wikipedia-verified-publisher/

[6] Search Engine Market Share Worldwide. Statcounter [online]. [cit. 2021-01-31]. Dostupné z: https://gs.statcounter.com/search-engine-market-share

[7] Qwant, the European search engine that respects your privacy. Qwant [online]. [cit. 2021-01-31]. Dostupné z: https://about.qwant.com/

[8] Ecosia: About. Ecosia [online]. [cit. 2021-01-31]. Dostupné z: https://ecosia.zendesk.com/hc/en-us/categories/200735011-About-Ecosia

[9] Brave 1.0 browser review: Browse faster and safer while ticking off advertisers. CNet [online]. [cit. 2021-01-31]. Dostupné z: https://www.cnet.com/news/brave-1-0-browser-review-browse-faster-and-safer-while-ticking-off-advertisers/

[10] https://www.theverge.com/2020/6/8/21283769/brave-browser-affiliate-links-crypto-privacy-ceo-apology

Twitter Advanced Search: Jak efektivně hledat na Twitteru

0

Twitter je mikroblogovací lpatforma zaměřená na sdílení krátkých převážně textových příspěvků s maximálním počtem 280 znaků. Do příspěvků, tzv. tweetů, lze také přidat multimédia – fotografie, videa, živé přenosy či gify.  Mimo to, Twitter podporuje i zveřejňování fotografií, videí, gifů, či živých video přenosů. Twitter se stal důležitým rychlým zdrojem informací, který podobně jako další jiné sociální sítě demokraztioval mediální prostor, který byl tradičně okupován mediálními domy. Běžní lidé, osobnosti, politici či instituce dostali šanci vyjadřovat přímo do mediálního prostoru.

Je již zřejmé, že na Twitteru vzniká enormní množství tweetu, ve kterém by se uživatel mohl těžko orientovat. Twitter proto umožňuje uživatelům sledovat uživatelem vybrané účty a dále doporučuje obsah pomocí algoritmu. Pro lepší orientaci v informačním šumu na Twitteru a vyhledávání specifických informací je proto důležité ovládat metody pokročilého vyhledávání, které si ukážeme v tomto článku.

Co je Twitter Advanced Search?

Twitter Advanced Search je funkce pokročilého vyhledávání tweetů na sociální síti Twitter. Uživatelům umožňuje použít pokročilé metody k vyhledávání tweetů, což je nezbytné vzhledem k velkému množství zveřejněných příspěvků každý den. Přestože je funkce k dispozici každému uživateli, mnoho uživatelů tuto funkci nezná či nevyužívá. Nepochybně jedním z důvodů je poměrně skrytý přístup k této funkci. Pokročilé vyhledávání též zabere více času než jednoduchý vyhledávací dotaz. Proto si v následující sekci ukážeme, jak provést pokročilý vyhledávací dotaz a jak pokročilé vyhledávání provádět rychleji.

Jak na pokročilé hledání

Twitter (2021a) ve svém návodu na pokročilé vyhledávání uvádí, že uživatel musí nejprve provést jednoduchý vyhledávací dotaz (minimálně jedno slovo). Spuštění vyhledávání přesměruje uživatele na stránku s výsledky hledání. Na této stránce je důležité věnovat pozornost pravé části obrazovky, ve které je nabídka „Filtry hledání“. V dolní části nabídky je tlačítko „Pokročilé hledání“, které zobrazí dialogové okno.

Obrázek 1: Kde najít pokročilé hledání na úvodní stránce vyhledávání na Twitteru. [Zdroj: Twitter.com/search]

V tomto okně konečně můžeme formulovat pokročilý dotaz. Alternativou je zadání adresy https://twitter.com/search-advanced do prohlížeče, které uživatele přenese rovnou na dialogové okno pokročilého vyhledávání.

Obrázek 2: Dialogové okno pokročilého vyhledávání. [Zdroj: Twitter.com/search-advanced]

Dialogové okno nabízí poměrné rozsáhle možnosti vyhledávání. Obsahuje celkem 18 polí, které jsou rozřazeny do 5 skupin: slova, účty, filtry, zapojení, data. V následující části projdeme všechny pole a jejich možnosti pro hledání a uvedeme je na příkladu vyhledávání dnes všudypřítomného tématu koronaviru.

Slova

Umožňuje zpřesnění vyhledávání obsahu tweetů. Tato skupina čítá celkem 6 polí:

  • Všechna tato slova: Vyhledá všechna slova, kdekoliv v textu tweetu. V tomto režimu se automaticky nacházíme, pokud provádíme jednoduché vyhledávání slov. Například můžeme hledat tweety, které obsahují slova „koronavirus očkování“ v libovolném pořadí.
  • Přesně tato fráze: Vyhledá přesnou frázi v textu. Například můžeme hledat tweety, které obsahují slovní spojení „FFP2 respirátor“.
  • Alespoň jedno z těchto slov: Vyhledá tweety alespoň s jedním z uvedených slov. Pro téma koronaviru se vžili různé pojmy a můžeme tedy hledat slova: „koronavirus covid covid-19“.
  • Žádné z těchto slov: Vyřadí z výsledků všechny tweety, které obsahují uvedená slova.
  • Tyto hashtagy: Umožňuje vyhledávání dle specifického hashtagu (např. #covid). Tuto funkcionalitu znají uživatelé i z jiných sociálních sítí.
  • Jazyk: Vyhledávání se zúží pouze na výsledky v daném jazyce. Twitter podporuje vyhledávání ve více než 40 světových jazycích včetně češtiny. Tato funkce může přijít vhod v situacích, kdy je hledané téma celosvětové. V našem případě hledáme tweety o koronaviru pouze v českém jazyce.

Účty

Umožňuje zpřesnit hledání na zvolené účty/uživatele pomocí 3 možností. K tomuto vyhledávání potřebujeme znát přesné jméno účtu.

  • Od těchto účtů: Vyhledá tweety od hledaného účtu. Pro téma koronaviru může být relevantní účet ChytráKaranténa.
  • Těmto účtům: Vyhledá odpovědi na tweety uvedenému účtu.
  • Zmiňující tyto účty: Vyhledá tweety, které zmiňují hledaný účet v textu tweetu.

Filtry

Pokročilé vyhledávání nabízí 2 filtry výsledků z nichž oba obsahují dvě další možnosti filtru.

  • Odpovědi: Dává možnost uživateli vyfiltrovat odpovědi i původní tweety, nebo pouze odpovědi.
  • Odkazy: Uživatel může zahrnout či vyřadit tweety s odkazem na webovou stránku (URL) z výsledků. Dále lze vyfiltrovat tweety pouze s URL odkazem.

Zapojení

Umožňuje uživateli filtrovat výsledky podle dosahu.

  • Minimální počet odpovědí: Uživatel definuje minimální počet odpovědí na tweet.
  • Minimální počet lajků: Uživatel definuje minimální počet lajků na tweetu.
  • Minimální počet retweetů: Uživatel definuje minimální počet retweetů (sdílení).

Data

Zpřesnění výsledků na dané období.

  • Od: Zvolí nejstarší datum, kdy byl tweet zveřejněn. Například od 31.12.2020.
  • Do: Zvolí nejnovější datum, kdy byl tweet zveřejněn. Například do 1.1.2021.

Další vyhledávací funkce

Mimo samotné dialogové okno nalezneme další „nepokročilé“ filtry hledání. Na právě straně obrazovky můžeme filtroval podle lidí (účtů) a polohy. U lidí lze zvolit všechny uživatele nebo pouze uživatele, které sledujeme. Filtr polohy nám umožňuje hledat všechny tweety nebo tweety v našem okolí. Twitter však ve své dokumentaci nedefinuje přesný rozsah pojmu naše okolí.

V horní prostřední části obrazovky můžeme výsledky dále měnit na vyhledávání lidí(účtů), fotek, videí, nebo zobrazovat popularní či nejnovější tweety. Poslední možnost hledání je po pravé straně hlavního vyhledávacího pole.  Po kliknutí tří teček můžeme zvolit „nastavení vyhledávání“, kde je možnost skrýt choulostivý obsah a odebrat z výsledků blokované nebo skryté účty. Uživatel si může vyhledávací dotaz také uložit a vrátit se k němu znovu.

Za zmínku stojí i trendující témata. Na vyhledávací obrazovce po pravé straně Twitter zobrazuje trendující témata ve formě hashtagů. Uživatel tak snadno může zjistit, jaká témata se právě diskutují na Twitteru. Trendy lze personalizovat a omezit pouze na naše okolí. Obě možností se zobrazí po kliknutí na tlačítko se třemi tečkami. Pod tímto oknem jsou i doporučení na účty, které sledovat.

Obrázek 3: Další vyhledávací funkce. [Zdroj: Twitter.com/search]

Jak vyhledávat rychleji pomocí operátorů?

Pro uživatele, kteří pravidelně provádí pokročilé vyhledávací dotazy je užitečné využít operátory. Ty umožňují uživateli zadat pokročilý vyhledávací dotaz rovnou do vyhledávacího pole, bez nutnosti otevírat dialogové okno pokročilého vyhledávání. Umožňují tak provádět vyhledávající dotazy rychleji. Zároveň operátory mohou využít vývojáři při práci s Twitter API. Twitter sice operátory v uživatelském rozhrání Twitteru ani v uživatelském help centru neuvádí, nicméně lze je najít v dokumentaci API pro vyvojáře (Twitter, 2021b). Operátory dokonce nabízejí možnosti filtrování, které standartní uživatelské rozhrání dialogového okna nenabízí. Kompletní dokumentace je k dispozici na https://developer.twitter.com/en/docs/twitter-api/v1/rules-and-filtering/search-operators. V následující tabulce jsou uvedené nejpoužívanější operátory:

Typ vyhledávání

Vyhledá…

Operátor

Slova

Všechna tato slova

koronavirus nemocnice

Přesně tato fráze

„FFP2 respirátory“

Alespoň jedno z těchto slov

koronavirus OR covid

Žádné z těchto slov

-nemocnice

Tyto hashtagy

#koronavirus #covid

Jazyk

lang:cz

Účty

Od těchto účtů

from:ChytraKarantena

Těmto účtům

to:ZdravkoOnline

Zmiňující tyto účty

@ZdravkoOnline

Filtry

Žádně odpovědí

-filter:replies

Pouze odpovědi

filter:replies

Pouze retweety

filter:retweets

Žádné URL linky

-filter:links

Pouze obrázky

filter:images

Pouze obrázky a videa

filter:media

Pouze URL linky

filter:links

Pouze specifická URL doména (např. WHO)

url:who

Zapojení

Minimální počet odpovědí

min_replies:10

Minimální počet lajků

min_faves:20

Minimální počet retweetů

min_retweets5

Data

Od

since:2020-12-31

Do

until:2021-01-31

Příklady vyhledávacích dotazů

Nyní již víme jak na Twitteru efektivně vyhledávat a můžeme provést pokročilý vyhledávací dotaz. Pojďme si jej tedy vyzkoušet. Zajímá nás téma očkování proti koronaviru, přičemž chceme vidět pouze tweety s nejvyšším dosahem od začátku února. Samozřejmě chceme výsledky pouze v češtině. Zadáme následující vyhledávací dotaz:

(očkování OR vakcína) (koronavir OR koronavirus OR covid) min_retweets:20 lang:cs since:2021-02-01

Zobrazil se omezený počet tweetů s vysokým dosahem o tématu očkování proti koronaviru.

Obrázek 4: Výsledek dotazu „(očkování OR vakcína) (koronavir OR koronavirus OR covid) min_retweets:20 lang:cs since:2021-02-01 „[Zdroj: Twitter.com]

Pokud nás zajímají tweety pouze od relevantních státních institucí, můžeme použít následující vyhledávací dotaz:

(očkování OR vakcína) OR (koronavir OR koronavirus OR covid) (from:strakovka OR from:zdravkoonline OR from:chytrakarantena) lang:cs since:2021-02-01

V tomto případě se zobrazí tweety o očkování proti koronavirus od účtů Vlády ČR, Ministerstva zdravotnictví a Chytré karantény. Zahrnuté jsou pouze tweety od začátku února v češtině.

Obrázek 5: Výsledek dotazu „(očkování OR vakcína) OR (koronavir OR koronavirus OR covid) (from:strakovka OR from:zdravkoonline OR from:chytrakarantena) lang:cs since:2021-02-01“. [Zdroj: Twitter.com]

Závěr

Twitter je sociální sítí disponující nesčetným počtem příspěvků. V tomto článku jsme si vysvětlili, jak efektivněji navigovat v informačním šumu této sociální sítě. K tomu je k dispozici poměrně skrytá funkce Twitter Advanced Search umožňující uživateli vyhledávat tweety podle klíčových slov, hashtagů, účtů a více. Pro pokročilé uživatele jsme si ukázali i tvoření vyhledávacích dotazů pomocí operátorů. Gratuluji, nyní jste vybaveni nezbytnými nástroji pro efektivní hledání informací na Twitteru!

 

Zdroje

Twitter. 2021a. How to use advanced search. Twitter [online]. [cit. 6.2.2021]. Dostupné z: https://help.twitter.com/en/using-twitter/twitter-advanced-search

Twitter. 2021b. Rules and filtering: Standard v1.1. Twitter Developer [online]. [cit. 6.2.2021]. Dostupné z: https://developer.twitter.com/en/docs/twitter-api/v1/rules-and-filtering/search-operators

Google Dataset Search usnadňuje vyhledávání datasetů

0

Úvod

Tento report je vytvořen pro seznámení čtenáře s vyhledávačem Google Dataset Search vytvořený společností Google. V práci jsou představeny základní vlastnosti vyhledávače, možnosti ovládání, syntaxe a další užitečné funkce, které vyhledávač poskytuje.

Úvodem je dobré si uvědomit, co vlastně jsou data a k čemu lidem slouží. Podle Černého (2017) data popisují určitou část reálného světa, ať už ve formě textu, hodnoty, obrazu nebo zvuku a jsou zaznamenávána tak, aby je bylo možné zpracovat digitálně formou analýzy, výpočtu nebo rozboru. Lachmann (2015) popisuje data jako surovinu, při jejímž zpracování je možné získat určitou informaci. Informace vznikne, pokud se datům přidá určitý smysl nebo význam. Pokud pak člověk dokáže získanou informaci využít, jedná se o znalost.

V dnešním světě se data vyskytují všude kolem nás ať už jako soukromé data firem využívané pro zlepšení efektivity obchodu či evidenci zaměstnanců nebo jako veřejně dostupné data z kterých jsou lidé informováni například o tom, jaká bude předpověď počasí, kolik procent populace volí jejich favorizovanou politickou stranu nebo jaké je hodnocení produktu, o který mají zájem. Pro vyhledávání veřejně dostupných dat je k dispozici mnoho nástrojů, které využívají různých způsobů, jak data filtrovat z obrovského množství obsahu, který se na internetu vyskytuje. Pomocí filtrací je možné vyhledávat například různé druhy obsahu (článek, disertační práce, literatura, vědecký výzkum), typy souborů nebo jména institucí, které zdroj vytvořili. Lze nalézt také velké množství datasetů, což jsou jedna nebo více kolekcí dat, které spolu souvisí. Většinou jsou ve formě tabulek, kde každý sloupec značí určitý atribut a každý řádek odpovídá jedné položce v kolekci dat. Datasety jsou většinou využívané vědci nebo datovými žurnalisty k nalezení potřebných informací.  Vyhledávací nástroj Google Dataset Search se zaměřuje právě na vyhledávání datasetů.

 

Google Dataset Search

V roce 2018 vydala společnost Google nový vyhledávací nástroj Google Dataset Search, který uživatelům umožňuje vyhledávat datasety napříč webovým uložištěm. Na rozdíl od původního vyhledávače společnosti Google, který je zaměřen především na vyhledávání pro běžné uživatele na komerčních webech je Google Dataset Search určen především pro vědce a datové žurnalisty a připojuje se tak k již zavedenému nástroji Google Scholar, který je využíván pro akademické účely a reporty.

Pomocí nástroje je možno nalézt a publikovat datasety, na kterých pak může pracovat více lidí a sdílet svoje nápady a zkušenosti podobně jako na platformě Kaggle jak poznamenal Taylor (2018).  Pokud má instituce zájem o to, aby bylo možné jejich publikovaný dataset vyhledat pomocí nástroje Google Dataset Search, musí ke zdroji zahrnout metadata popisující jejich dataset, včetně autora, datum publikace a dalších informací.

Vědecká pracovnice Natasha Noy ze společnosti Google AI, která spolupracovala na vytvoření nástroje Google Dataset Search poskytla rozhovor zpravodajskému webu The Verge (2020) kde říká, že cílem nástroje je sjednotit desítky tisíc různých datových uložišť a zároveň jejich zdroj udržet tam kde byl danou institucí zveřejněn. Dále v rozhovoru vysvětluje, že momentálně jsou datasety extrémně fragmentované a různé instituce mají své preferované uložiště datasetů. Kvůli tomu je pak problém nalézt zdroje, které nejsou dostupné na jejich preferovaných uložištích. Dataset Search nabízí v tomto problému řešení, kdy je možné všechny tyto uložiště prohledávat pomocí jednotného vyhledávače.

 

Využití metadat pro vyhledávání datasetů

Jak bylo zmíněno, pro to aby byl dataset dohledatelný pomocí Google Dataset Search, je potřeba připravit metadata pomocí kterých bude nástroj tyto datasety vyhledávat. Kompletní definice všech možností využití metadat je dostupná na webu schema.org/Dataset. Jeden z konkrétních příkladů zdrojového kódu obsahující metadata pro dataset je vidět například na Google Search Central (2021). V souboru je použit JSON-LD za využití syntaxe z schema.org. 

  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>

Zdrojový kód 1 Vzorová ukázka kódu metadat pro dataset s využitím metody JSON-LD a syntaxe z schema.org [zdroj: Google Search Central - Dataset help (2021)]

Některé vybrané užitečné funkce jsou popsané na webu Google Search Central (2021) a jejich příklady jsou uvedeny.

  • description – krátký popis datasetu v textové podobě.
  • text musí mít mezi 50 a 5000 znaky a je zapsán v dvojitých uvozovkách
  • name – jméno popisující název datasetu
  • creator – autor datasetu
  • používají se atributy type, name pro rozdělení mezi organizacemi a osobnostmi
  • citation – identifikuje akademické práce, které by měli být citovány při využití datasetu
  • keywords – klíčová slova zahrnutá pro dataset
  • license – licence pod kterou je dataset distribuován
  • alternateName – zkratky a aliasy pouužité pro dataset
  • url – odkaz na stránku popisující dataset
  • hasPart or isPartOf – využívá se, pokud je dataset součástí nějakého většího celku
  • version – číslo označující verzi datasetu

Uživatelské rozhraní

Při vyhledání datasetů se uživateli zobrazí okno prezentující všechny shodné výsledky s jeho požadavky. Všechny části uživatelského rozhraní jsou vidět na ilustračním obrázku a níže je uveden jejich popis. Uživatel může prohledávat všechny datasety z nabídky, navštívit webovou stránku, na které je dostupný jejich zdroj, filtrovat výběr nebo ukládat datasety mezi svoje oblíbené prostřednictvím svého google účtu.

  1. Přehled informací o právě zvoleném datasetu
  2. Seznam datasetů nalezených pro podmínky zadané ve vyhledávači
  3. Vyhledávač pro specifikaci hledaných datasetů
  4. Filtr rozlišující poslední aktualizaci datasetů
  5. Filtr pro typ souboru dostupného ke stažení
  6. Rozlišení na datasety povolené pro komerční a neobchodní využití
  7. Filtr kategorií datasetů (humanitní vědy, společenské vědy, zemědělství, přírodní vědy, strojírenství…)
  8. Rozlišení na datasety zdarma přístupné a placené
  9. Odkaz na centrum podpory
  10. Nahlášení chyb v systému
  11. Zobrazení uložených datasetů pro přihlášený google účet
  12. Možnost uložení, zobrazení citace a sdílení datasetu

Závěr

Už dnes lze předpokládat, že Google Dataset Search bude v budoucnu důležitý vyhledávací nástroj. Uživatelům dává možnost prohledávat více datových zdrojů pomocí jednoho nástroje a díky tomu se samozřejmě zvyšuje šance na nalezení potřebných dat a zároveň se urychluje proces vyhledávání. Efektivita a popularita Google Dataset Search bude růst s tím, jak bude růst množství datasetů, které mají metadata připravené tak, aby je nástroj dokázal rozpoznat. Tento nástroj je prozatím poměrně nový a uživatelů, kteří ho aktivně využívají, není mnoho, nicméně pro vědce a datové specialisty může být velmi užitečný a ulehčit práci s vyhledáváním datových zdrojů.

Zdroje

GOOGLE DATASET SEARCH, [online]. 2021 [cit. 2021-02-07]. Dostupné z: https://datasetsearch.research.google.com/

GOOGLE SEARCH CENTRAL, [online]. 2021 [cit. 2021-02-07]. Dostupné z: https://developers.google.com/search/docs/data-types/dataset

ČERNÝ, J., Data, informace a cesta ke znalostem. [online]. 2017 [cit. 2021-02-08]. Dostupné z: https://www.informacnigramotnost.cz/data-informace-znalosti/

LACHMANN, G., Otevřená data – cenná surovina pro váš business. [online]. 2015 [cit. 2021-02-08]. Dostupné z: https://www.softec.cz/softecon/presentations/otevrena-data-cenna-surovina-pro-vas-business/

TAYLOR, K., Data, A New Seach Engine – Google Dataset Search. [online]. 2018 [cit. 2021-02-09]. Dostupné z: https://www.hitechnectar.com/blogs/intro-new-google-dataset-search-engine/

THE VERGE, Google’s search engine for scientists upgraded for better data scouring. [online]. 2020 [cit. 2021-02-09]. Dostupné z: https://www.theverge.com/2020/1/23/21078310/google-dataset-search-beta-over-filters-improved-open-source

Seznam obrázků

Obrázek 1 Hlavní strana Google Dataset Search

Obrázek 4 Uživatelské rozhraní Google Data Search

Seznam příloh

Zdrojový kód 1 Vzorová ukázka kódu metadat pro dataset s využitím metody JSON-LD a syntaxe z schema.org

NerdyData.com: tento zdroj není pro každého

0
https://pixabay.com/images/id-3078609/

Úvod

Dle [1] můžeme „nerda“ definovat jako člověka, který se silně věnuje určitému tématu, hlavně počítačům, a ví o tomto tématu spoustu věcí.

Přestože u většiny zdrojů dat můžeme již z jejich názvu odhadnout, čeho se týkají, myslím si, že NerdyData v tomto ohledu vystupují z řady, a i přesto si myslím, že je to dobrý název, protože typ dat, které poskytuje jsou nejvíce využitelná právě „nerdy“.

NerdyData [2] se osobně popisují jako „search engine for source code“ tedy vyhledavač zdrojového kódu. V poslední řadě by se ještě hodilo dodat, že se jedná o zdrojový kód webových stránek.

Data

Tato služba slouží k hledání technologií – ať už uživatelem definovaných kusů kódu či již konkrétních technologií, pro které NerdyData nabízejí již napsané dotazy, v jimi zaindexovaných webových stránkách. Nerdy data aktuálně uvádějí, že se jedná o více než 350 milionů stránek [2], s tím, že osobně jsem zkoušel vyhledávání i pro české domény jako seznam.cz či společnost cleverlance.cz, kde NerdyData znala obě stránky.

Výsledkem dotazů uživatel získá seznam webových stránek, které dotazu odpovídají, a poměrně velké množství atributů k jednotlivým stránkám. Mimo základní údaje jako je URL adresa, pak například vrací Alexa popularity rating[1], odhad rozpočtu utraceného za technologie, seznam nalezených emailových adres a v poslední řadě seznam odkazů na sociální sítě LinkedIn, Twitter, Facebook a Instagram. [2]

Obrázek 1 – seznam sloupců, zdroj [2]

Rešeršní možnosti

Společnost NerdyData nabízí několik způsobů pro přístup k jejich informacím:

  • Vyhledávání na jejich webu
  • Přístup přes API

Druhou zmíněnou možnost využívají další nástroje, které NerdyData nabízejí, což jsou přídavný modul do prohlížeče a doplněk do Slacku, které jsou zdarma, či placená služba sloužící pro cílení reklam v platformě LinkedIn.

Vyhledávání přes web

                NerdyData se snaží ulehčit uživateli vyhledávání a nabízí 3 různé pole pro zadání vyhledávaných parametrů, kde každé pole používá jeden logický operátor AND, OR nebo negaci viz Obrázek 2 – vyhledávací pole.

                Tento design by ve výsledku mohl omezovat složitost uživatelských dotazů, aneb pokud by uživatel chtěl používat složené dotazy ve stylu:

(‚Stripe‘ AND ‚Shopify‘) OR (‚Stripe‘ AND ‚Google Universal Analytics‘)

tak by toho zde nebyl schopen. Avšak nechám otevřenou otázkou, jestli je toto vzhledem k povaze poskytovaných dat zásadní chyba designu či pouze menší nedostatek.

Obrázek 2 – vyhledávací pole, zdroj [2]

Předdefinované dotazy pro hledání

Jak jsem již zmínil v kapitole Data, je možné použít předem definované dotazy pro různé webové technologie, které jsou rozděleny do 6 skupin viz Obrázek 3 – Druhy technologií, zdroj [3]

  1. Advertising
  2. Analytycs
  3. E-commerce
  4. Website Building
  5. Marketing
  6. Sales and Support

Na první pohled by se mohlo zdát, že se tyto kategorie poměrně překrývají, ale po pročtení podkategorií si myslím, že je tato kategorizace bezproblémová. Dohromady zde aktuálně najdeme necelých 700 technologií připravených pro hledání. [3]

Obrázek 3 – Druhy technologií, zdroj [3]

Další zvláštností, na kterou jsem zde narazil, je omezení velikosti jednoho hledaného termu na 35 znaků, které mi jejich support potvrdil, avšak nevysvětlil.

Přístup přes API

Přídavný modul do prohlížeče

                Osobně jsem otestoval jejich přídavný modul, který by měl na aktuálně načtené stránce vyhodnotit, jestli používá nějaké známé technologie jako je Stripe či Shopify, a na jejich základě odhadovat kolik zhruba stojí provoz dané webové stránky.

                Poté, co mi u několika pseudo náhodných českých stránek doplněk nenahlásil žádné technologie, jsem vybral několik technologií, které NerdyData na svém webu sledují, např. Google Adwords, a otevřel 5 různých odkazů webů, které mají technologii obsahovat. Následně jsem na každé stránce spustil doplněk. Testy jsem prováděl jak přes Mozilla Firefox tak Google Chrome.

U žádné z testovaných stránek mi ovšem tento doplněk nenahlásil žádné známé technologie a to i přestože jsem přistupoval ke stránkám přes odkazy přímo z webu NerdyData na stránky, které by měly obsahovat jim známé technologie. Tedy tento doplněk shledávám nefunkčním.

Dostupné licence

Bezplatné využití

                Nerdy data nabízí neplacený omezený přístup k používání své služby, který uživateli dovoluje provádět neomezený počet dotazů, u kterých uvidí počet výsledků a několik příkladů výsledků. Tento přístup dává poměrně dostačující možnosti pro nějaký statistický výzkum.

Placené služby

                Základem placených služeb, které NerdyData nabízí, jsou reporty. Rozdílem oproti neplacené verzi pak je kompletní seznam webových stránek, které odpovídají dotazu, a dále je součástí této služby měsíční monitoring sledující změny výsledků tohoto dotazu – tedy webové stránky, které buď hledanou technologii implementovaly či naopak ji přestaly používat.

                Placené služby jsou poskytovány ve 3 hlavních balíčcích, kde první za 75 dolarů umožňuje tvorbu jednoho reportu a jeho měsíční sledování, druhý balíček za 295 dolarů měsíčně nabízí neomezený počet reportů pro jednoho přihlášeného uživatele a poslední balíček za 495 dolarů pak rozšiřuje možnosti posledního zmíněného balíčku pro 6 uživatelů.

            Custom crawl

Speciálním případem placené služby, kterou nově NerdyData nabízejí, pak je Custom crawl, který prochází mnohem větší dataset s více než 3 miliardami záznamů, avšak s rozdílem, že nerenderuje Javascript a tedy je omezen pouze na HTML a HTTP hlavičky. U této služby pak není specifikována cena. [4]

Obrázek 4 – cena, zdroj [5]

Možnosti využití této služby

                Samotná NerdyData uvádějí 3 možné způsoby využití jejich služeb, na nichž stavějí svůj business, která tedy uvedu i s mým vysvětlením.

Supply of leads

                Dle [6] můžeme „lead“ chápat jako osobu, která by měla zájem o produkt či službu, kterou nabízíme. NerdyData pak využití jejich služby vidí jako možnost pro poskytovatele nějakých technoogií najít webové stránky, které používají nějaké již existující (konkurenční) řešení, aby jim mohli nabídnout (své) „lepší“ řešení.

Account-Based Marketing (ABM)

                Dalším příkladem je ABM, který dle [7] můžeme chápat jako marketingovou strategii, jež se soustředí na konkrétní leads a používá peronalizovanou kampaň.

                Toto použití však souvisí se zmíněnou dodatečnou službou cílení reklam v síti LinkedIn, nikoliv se samotným vyhledávačem.

Inspect Any Prospect’s Tech Stack and Budget

                Toto využití chápu jako zkoumání používaných technologií potenciálním zákazníkem a odhad jeho rozpočtu na technologie.

Statistický výzkum

Dalším využití schopností NerdyData by mohlo být provádění statistického výzkumu o technologiích používaných na webových stránkách či o používanosti technologií dohromady – ve spojení s nějakou jinou technologií.

Ve zkratce prodejce technologie může mít přehled o počtu implementací své technologie, avšak nebude pravděpodobně vědět kolik procent uživatelů zároveň s ní využívá i nějakou další technologii, což může být hodnotná informace například pro zkvalitnění nabízených služeb či například navázání nějakého strategického partnerství.

Závěr

                V prvé řadě bych řekl, že jsem se nikdy nesetkal s projektem podobným NerdyData, avšak po krátkém hledání podobné projekty existují, např https://publicwww.com/.

                Jak jsem již zmínil na začátku, NerdyData podle mě mohou sloužit jako zdroj informací velmi specifickému okruhu uživatelů či spíše dokonce se specifickými use cases a průměrný uživatel podle mě nebude mít způsob jak NerdyData využít.

                Co se týče use cases zmíněných samotnými NerdyData přijde mi, že se velmi překrývají a k tomu navíc používají různé výrazy, které dle mého chápání označují v zásadě to stejné, tedy bych uvítal podrobnější popis zmíněných use cases.

                Dále si myslím, že by NerdyData mohly být lépe zdokumentované, množství informací dostupné na jejich webu je poněkud omezené. Nejen z hlediska technického jako například řešení indexace či crawlingu webu, které by mohly být považovány za obchodní tajemství, ale i jiné jako například omezení délky jednotlivých hledaných termů na 35 znaků, na které jsem přišel testováním, když mi NerdyData pouze hlásala, že toto nelze hledat.

                Podtrženo, sečteno, přestože se považuji za člověka poměrně znalého v technologiích, tak si nemyslím, že bych v brzké době našel nějaké využití pro NerdyData. Dále NerdyData nepovažuji za zdroj dat, o kterém by lidé jen tak měli vědět, že existuje. Pokud někdo bude potřebovat „search engine for source code“ a bude toto hledat, tak najde.

Reference

[1] Cambridge dictionary. Nerd. [Online] [Citace: 6. 2. 2021.] https://dictionary.cambridge.org/dictionary/english/nerd.

[2] NerdyData. Support. [Online] [Citace: 6. 2. 2021.] https://www.nerdydata.com/support.

[3] NerdyData. Technologies. [Online] [Citace: 8. 2. 2021.] https://www.nerdydata.com/technologies.

[4] NerdyData. Custom crawls. [Online] [Citace: 6. 2. 2021.] https://www.nerdydata.com/custom.

[5]NerdyData. Pricing. [Online] [Citace: 6. 2. 2021.] https://www.nerdydata.com/pricing.

[6] LeadSquared. What is a Business Lead and Why are They Important? [Online] [Citace: 8. 2. 2021.] https://www.leadsquared.com/what-is-a-business-lead/.

[7] Optimizely. Account Based Marketing. [Online] [Citace: 8. 2. 2021.] https://www.optimizely.com/optimization-glossary/account-based-marketing/.

All you can read – zprávy z celého světa

0

Dnešní svět je plný nových informací a je velmi těžké mít přehled o všech zásadních událostech, které se tu dějí. Díky elektronickým zdrojům je mnohem rychlejší dané informace získat, avšak portálů, které informace poskytují, je bohužel nepřeberné množství a mnoho z nich je neobjektivních.

All you can read je největší celosvětovou databází těchto zdrojů. Webový portál existuje od roku 2001 a počet odkazovaných stránek překračuje hodnotu 25 000 a je zde zahrnuto přes 200 zemí. Hlavně je však soustřeďován na anglicky mluvící země, zvláště pak Spojené státy americké.

Kategorie produktů

Internetový portál allyoucanread.com se touto problematikou zabývá a shromažďuje odkazy na tyto produkty:

  • Zpravodajské servery
  • Magazíny
  • Online kurzy

Hlavním tématem, kterým se All you can read zaobírá jsou online novinové stránky. Tato kategorie je společná pro každou zemi, která je zahrnuta v databázi.

Lze zde najít magazíny pokrývající 33 různých témat od světa technologií a vědy, přes sociální témata a víru, po cestování a maminky s dětmi. Tato sekce je dostupná pouze v anglickém jazyce.

Poslední kategorií je sekce online kurzů, která je zatím také poskytována pouze v anglickém jazyce. Hlavních témat je stejný počet jako u magazínu, tedy 33. Motivy však nejsou stejné! Můžeme si zde vybrat například z oborů jako jsou personální růst, business nebo životní prostředí. Kurzy mohou být jak zadarmo, tak i placené. Toto kritérium se většinou odvíjí od možnosti získání certifikátu či nikoli, kde je certifikát podmíněn finanční částkou.

Vyhledávání v All you can read

Prostředí stránky je velmi jednoduché a intuitivní. Nelze zde použít žádné pokročilé vyhledávací funkce. Jediné, co nám stránka povolí je pouze „klikat“ na ikony. Jako první možnost můžeme využít horní lišty, kde máme na výběr z pěti kategorií. Pokud si vybereme sekci, která je na obrázku 1. označena červeným obdélníkem, tak nás stránka přesměruje pouze na sekce, které můžeme najít i na hlavní „home“ stránce a to:

  • Přesměrování na hlavní stránku
  • Kategorie magazínů
  • Seznam internetových poskytovatelů zpravodajství

Poslední možností na liště je „Online Courses“ tlačítko.

Obrázek 1. Úvodní stránka portálu Allyoucanread.com. Zdroj: autorský screenshot

Další způsoby vyhledávání jsou na hlavní stránce, kde se dělí podle nabízených produktů. První možností je vyhledávání světových novin podle země. Státy jsou seřazeny v abecedním pořadí. Námi hledanou zemi můžeme vyhledat pomocí myši, nebo ji napsat a seznam nám ji sám zobrazí. Stát však musí být napsaný v anglickém jazyce.

Obrázek 2. Vyhledávání podle států. Zdroj: All you can read

Pokud chceme hledat informace na určitém kontinentu a nevíme jaké všechny státy se na daném území vyskytují, je zde možnost využití hledání právě podle kontinentů. Po rozkliknutí se nám ukáže seznam zemí v abecedním pořadí.

Obrázek 3. Vyhledávání podle kontinentů. Zdroj: All you can read

Po výběru země (v našem případě České republiky), se nám automaticky objeví seznam nejčtenějších novin v Česku, které jsou dostupné online a zadarmo. Zajímavostí je, že zde vidíme 18 různých poskytovatelů informací, což je méně než u většiny evropských zemí.

Vyhledávání v online novinových zdrojích

Obrázek 4. Seznam zpravodajských portálů v České republice. Zdroj: All you can read

Dále můžeme v detailu námi vybrané zemi hledat internetové stránky na další témata, které nás mohou zajímat. Pro Českou republiku je na výběr ze 26 kategorií, zastupující všechna odvětví od vědy, přes sport, až po počasí. Kategorie jsou opět v abecedním pořadí. Po rozkliknutí se nám objeví detail se seznamem webových stránek seřazených podle oblíbenosti.  Velmi užitečnou považuji kategorii „Job“, která odkazuje na 24 různých pracovních portálů v ČR.

Obrázek 5. Kategorie témat v České republice. Zdroj: All you can read

Poslední možností na detailu vybraného státu jsou odkazy na sousední země. Kliknutím na danou sousední zemi se nám opět objeví stránka s nejčtenějšími on-line novinami, kategorie vyhledávání dle zájmu a sousední země.

Obrázek 6. Sousedící země s Českou republikou. Zdroj: All you can read

 

Vyhledávání v magazínech

Další možností vyhledávání je sekce magazínů. Vyhledávání je obdobné jako u příkladu s novinami. Zde máme v abecedním pořadí seznam kategorií, ze kterých si můžeme vybrat. Celý proces je opět velmi snadný. Stačí si vybrat téma, které nás zajímá a kliknout na danou ikonu.

Obrázek 7. Seznam kategorií magazínů. Zdroj: All you can read

Můžeme například vybrat kategorii „Science & Technology“. Po rozkliknutí se nám ukáží další dvě možnosti vyhledávání. První jsou podkategorie v oblasti „Science & Technology“, kterých je deset. Druhou možností je pak vybraných nejlepších deset magazínů, které jsou průřezem všech deseti podkategorií.

Obrázek 8. Seznam podkategorií Science & Technology magazínů. Zdroj: All you can read

Jak již bylo zmíněno, tak portál All you can read se hlavně soustřeďuje na americký trh. Magazíny jsou toho bohužel hlavním příkladem. Téměř u všech odkazů se objevuje hláška „We are unable to process orders to your area.“ Tedy, že není možný přístup na dané stránky z České republiky. Druhou nevýhodou je fakt, že magazíny, které jsou i u nás dostupné jsou placené. Databáze nám tak může sloužit především pro inspiraci.

Vyhledávání v online kurzech

Poslední kategorií jsou vzdělávací kurzy, které jsou poskytovány online způsobem. Vyhledávání je obdobné jako u novin či magazínů, tedy klikací formou. Nabídka kurzů je opravdu ohromná, stejně tak jako podkategorií pod každým tématem. Bohužel zde není žádné vyhledávací pole nebo filtr, kam bychom zadali údaje jako například obor, poskytovatele, obtížnost kurzu apod. Po výběru hlavního tématu kurzu se nám otevře podsekce možných kurzů.

Obrázek 9. Seznam online kurzů. Zdroj: All you can read

Pro ukázku je vybrán obor „Data Science“. Jak můžeme vidět, portál nám nabídl 12 různých podoborů týkajících se toho tématu. Zde je opět potřeba kliknout na námi chtěný.

Obrázek 10. Témata v rámci Data Science online kurzů. Zdroj: All you can read

Následně se nám opět zobrazí nabídka možných kurzů, seřazených od nejlépe hodnocených. Další zajímavou funkcí je lišta s obtížností daného kurzu. Online kurzů na datovou analytiku je vcelku neuvěřitelných 192.

Obrázek 11. Seznam Data Science online kurzů. Zdroj: All you can read

Srovnání výsledků

Pro srovnání, zda se jsou odkazy na internetové zpravodajství relevantní a správné, jsem použil digitalnewsreport.org, která se zabývá porovnáním a trendem informačních zdrojů v jednotlivých zemích již od roku 2012. Digital News Report je výzkumná organizace Reuters institute v kolaboraci s oborem žurnalistiky na Oxfordské univerzitě, ale také s dalšími akademickými partnery. (Digital News Report, 2020)

Na obrázku níže můžeme vidět, že portál All you can read vůbec nezahrnul zdroje seznam.cz a Česká televize online. Naopak zahrnul parlamentnilisty.cz, které Digital News Report do své analýzy zařadil jako nedůvěryhodné.

Obrázek 12. Srovnání výsledků. Zdroj: Digital News Report

Závěr

Stránka je velmi užitečná pro každodenní rychlý přehled o dění ve světě. Bohužel však neznamená, že nejpopulárnější noviny musí být nejobjektivnější, což portál All you can read nezohledňuje. Mezi nejčtenější noviny zařadil i pochybná media stejně tak jako sportovní stránku sport.cz, která se zabývá pouze zpravodajstvím v oblasti sportu. Velikou výhodou je nepřeberné množství kategorií. Je to skvělý nástroj k poznání nejen novinových zdrojů, ale i kultury a pracovních příležitostí v dané zemi. Úloha magazínů je pro české uživatele zatím bohužel zbytečná. Může opět sloužit pro inspiraci, avšak reálné využití je minimální. Další skvělou funkcí je nabídka online kurzů. Odkazů na ně je téměř nekonečno, což je velmi inspirující pro další vzdělávání v různých oborech.

Bohužel systém vyhledávání je možná až zbytečně jednoduchý, tedy pouhé klikání na ikony. Pokud si uživatel chce najít stránku v České republice, která se zajímá o vědu, musí se proklikat přes zprávy v ČR, najít obor „Science“ a následně až přejít na danou stránku. Pokud by si přál přejít na stejný obor například v Mexiku, musí se uživatel vrátit na hlavní stránku a projít stejnými kroky, akorát pro Mexiko.

Zdroje

AllYouCanRead. 2021. The Homepage for News Addicts. AllYouCanRead – The Homepage for News Addicts [online]. [cit. 09.02.2021]. Dostupné z: https://www.allyoucanread.com/

Digital News Report. 2020. Czech Republic – Reuters Institute Digital News Report. Reuters Institute Digital News Report [online]. [cit. 09.02.2021]. Dostupné z: https://www.digitalnewsreport.org/survey/2020/czech-republic-2020/

 

Quandl.com, jednoduchý prístup k finančným a alternatívnym dátam

0

Úvod

Žijeme v dobe, keď najhodnotnejšou komoditou na svete sú dáta. A práve v dnešnej informatickej spoločnosti, keď sa dáta produkujú neuveriteľne rýchlim tempom, je kľúčovou otázkou pre každý podnik, ktorý sa snaží byť konkurencie schopný na konkrétnych trhoch, či má prístup ku kvalitným, relevantným a dobre predspracovaným dátam a či sú schopný z nich extrahovať podstatné informácie užitočné pre ich biznis. 

Preto je zásadné mať poznanie o tom, kde je možné sa dostať práve k takýmto dátam, nakoľko verejne prístupných dát je obrovské množstvo, ale kvalitných a využiteľných je len malé percento z nich. V takejto situácii je potrebné siahnuť po spoľahlivých a overených poskytovateľoch dát.

Čo je Quandl.com

Quandl je verejne dostupný informační zdroj, ktorý poskytuje svojím užívateľom veľké množstvo finančných, ekonomických a alternatívnych dát. Tieto dáta sú generované spoľahlivými partnermi portálu Quandl, avšak tento portál dáva príležitosť aj novým firmám prispievať dátami, ktoré budú dostupné z tohto informačného zdroja. Podľa oficiálneho popisu tohto portálu, je cieľom Quandlu inšpirovať zákazníkov k novým objavom a začleniť ich do obchodných stratégií na základe dát nimi poskytovanými.[1]

História

Tento informační zdroj vznikol v roku 2013, keď pri svojom vzniku poskytoval prístup k viac ako miliónu dostupných dátových množín. Postupne na Quandli pribúdal počet poskytovateľov dát až do bodu, keď momentálne je cez tento informačný zdroj dostupných vyše 25 miliónov dátových množín pričom denne sa ich z tohto portálu stiahne viac ako 10 miliónov. Aktuálne je tento portál využívaný 400 000 užívateľmi. [1]

Vyhľadávanie dátových množín a možnosti filtrovania

Spôsob ako je možné sa dopracovať k žiadaným dátam v portály Quandl, je pomocou prehľadávania databáze dátových množín pomocou zadania slovného spojenia, ktoré chceme aby sa nachádzalo buď priamo v názve, v konkrétnom stĺpci dátovej množiny alebo v jednej zo špecifikácií konkrétnych dátových množín.

Obrázok 1: Základná stránka na prehľadávanie dát v zdroji Quandl. [zdroj: autor]

Vyhľadávač prejde cez všetky tieto parametre a následne vráti všetky dátové množiny, kde sa hľadaný výraz spomína aspoň v jednej zo spomínaných kategórií. Následne je možné výstupy ešte bližšie špecifikovať pomocou filtrov dostupných v užívateľskom rozhraní. Tieto filtre slúžia na zmenšenie celkového počtu vrátených výsledkov a pre presnejšie špecifikovania dotazu ktorý chceme prehľadávať. Filtre sú nasledovné:

  • Asset Class (trieda aktív)
  • Data Type (dátový typ)
  • Region (región)
  • Publisher (vydavateľ)

Po zadaní výrazu ktorý chceme vyhľadávať, nám vyhľadávač vráti počet dátových vzoriek ktoré vyhovujú nášmu dotazu, spolu so zobrazením dátových množín, ktoré sa najviac zhodujú so zadanou frázou.

Obrázok 2: Zobrazenie výsledkov vyhľadávania slova stocks. [zdroj: autor]

Po vrátení všetkých výsledkov vyhľadávania určitého dotazu, je následne možnosť sa bližšie pozrieť na detaily konkrétnej dátovej množiny. V detailoch každého výsledku je zobrazená štruktúra dát vo formáte, v akom sú ukladané.

Obrázok 3: Bližšie zobrazenie detailov prvej dátovej množiny pre výsledky vyhľadávania slova stocks. [zdroj: autor]

Zároveň sú v rovnakom okne zobrazené detaily o vydavateľovi konkrétnej dátovej množiny, ako aj podrobný prehľad o technických vlastnostiach dát spolu so štýlom ich indexácie.

Obrázok 4: Popis a technické detaily konkrétneho výsledku vyhľadávania. [zdroj: autor]

Veľkou výhodou je priama dokumentácia a popísanie spôsobu, ako sa konkrétna dátová množina pomocou aplikačného programového rozhrania môže natiahnuť do určitého analytického nástroju, na ktorú je odkaz priamo v hlavnom okne zobrazujúcom detaily dátovej množiny.

Typológia dát

Ako už bolo spomínané, portál Quandl disponuje veľkým množstvom finančných, ekonomických a alternatívnych dát. Avšak dátové množiny z každého zo spomínaných celkov, sú v jednom z dvoch poskytovaných dátových formátov. Pre bližšie pochopenie jednotlivých formátov, dokumentačná časť portálu Quandl poskytuje nasledovné porovnanie:

  1. Tabuľky:

    Tabuľky môžu obsahovať rôzne netriedené typy údajov (reťazce, čísla, dátumy atď.) a môžu byť filtrované podľa rôznych polí.[2]

  2. Časové rady:

    Časová rada je súbor pozorovaní alebo meraní uskutočňovaných za určité časové obdobie, zvyčajne v rovnakých intervaloch. Časové rady sa bežne zobrazujú pomocou spojnicových grafov, kde os X predstavuje dátumy a os Y ďalšie numerické pozorovania.[2]

Je ale potrebné spomenúť, že finančné dáta sa zvyčajne sledujú za určité časové obdobie a následne sa porovnávajú hodnoty za určité časové intervaly, preto sú finančné dáta poskytované informačným zdrojom Quandl typicky vo formáte časových rád a pri ostatných typoch dát sa využívajú práve tabuľky.

Využitie zdroja

Zásadná výhoda informačného zdroja Quandl oproti iným poskytovateľom verejne dostupných dát spočíva v tom, že dáta s ktorými by ste chceli pracovať nie je potrebné manuálne sťahovať a následne ich načítať do vývojového prostredia. Každý užívateľ tohto portálu pri registrácii dostane vygenerovaný jedinečný kľúč na využitie aplikačného programového rozhrania (API), ktoré slúži na priame načítavanie dát z Quandlu do rôznych populárnych programovacích jazykov ako aj do veľkého množstva rôznych iných analytických nástrojov pomocou príslušného modulu v konkrétnom nástroji.  Medzi najpopulárnejšie nástroje pomocou ktorých je možné vykonávať rôzne dátové analýzy a do ktorých je možné priamo načítať dáta z Quandlu patria:

  • Python
  • R
  • Excel
  • Ruby

Zároveň je priamo v portály Quandl dostupná podrobná dokumentácia ako správne využiť možnosti tejto funkcionality v jednotlivých nástrojoch a programovacích jazykoch.

Licencie

Informační zdroj Quandl má obrovskú zbierku bezplatných a otvorených údajov zhromaždených od rôznych organizácií: centrálnych bánk, vlád, nadnárodných organizácií a ďalších, ktoré je možné využívať bez akýchkoľvek obmedzení.[1] Avšak niektoré údaje v službe Quandl sú prémiové a prístup k nim je možné získať iba získaním statusu prémiového užívateľa, ktoré prebieha na spôsobe pravidelných mesačných platieb.

Oproti bezplatnému spôsobu užívania má prémiový užívateľ prístup navyše k využívaniu všetkých funkcionalít aplikačného programového rozhrania, ako aj rozšírené možnosti integrácie s ďalšími knižnicami a nástrojmi, sťahovanie v ľubovoľnom formáte a viac možností pre export dát a ich vizualizáciu. [2]

Potrebné je ale ešte spomenúť, že veľká časť zdrojov na Quandli je prístupná a ešte aj v istých prípadoch prémiových dátových množín, je možnosť využívať istú vzorku z celého dátového súboru.

Záver

Quandl je voľne dostupný informačný zdroj využívaný viac ako 400000 užívateľmi, ktorý poskytuje prístup k veľkému množstvu finančných, ekonomických a alternatívnych dát, ktoré by mali slúžiť profesionálom v týchto sektoroch ako podklad pre robenie zásadných rozhodnutí pre ich jednotlivé podniky. Hlavnou misiou tohto zdroju, je extrahovať hodnotu zo svetových dát.[1]

Zdroje

[1] Quandl, Home page [online]. Dostupné z: https://www.quandl.com

[2] Quandl, Guids [online]. Dostupné z: https://docs.quandl.com

Obrázok 1: Základná stránka na prehľadávanie dát v zdroji Quandl. [zdroj: autor]

Obrázok 2: Zobrazenie výsledkov vyhľadávania slova stocks. [zdroj: autor]

Obrázok 3: Bližšie zobrazenie detailov prvej dátovej množiny pre výsledky vyhľadávania slova stocks. [zdroj: autor]

Obrázok 4: Popis a technické detaily konkrétneho výsledku vyhľadávania. [zdroj: autor]

OpenGrey: Evropská databáze šedé literatury

0
Photo by psd

Šedá literatura a její hodnota

Šedá literatura zahrnuje jakékoliv dokumenty, které nebyly zveřejněny přes oficiální vydavatelské distribuční cesty, ať už v akademickém či komerčním světě. Jedná se např. o vysokoškolské kvalifikační práce, příspěvky z konferencí, informační letáky i publikace firem, neziskových organizací či vládních institucí.

Hodnotu šedé literatury si můžeme uvědomit na příkladu činnosti akademického pracovníka.  Spočítáme-li jeho oficiálně publikované články, dojdeme zpravidla k jednotkám článků za rok. Akademik se ale také podílí na výuce a vedení prací studentů, účastní se odborných konferencí a zapojuje se do dalších interních projektů své instituce. Přitom zpracovává řadu informačně bohatých materiálů. Podobně firmy nebo třeba neziskové organizace během své existence vyprodukují obrovské množství dokumentů (třeba prezentace, brožury, infografiky, výroční zprávy), ale málokterý z nich dostane podobu formálně vydané publikace.

Až po této úvaze dojdeme k tomu, že šedá literatura představuje v podstatě nekonečnou studnici informací, která má ale oproti formálním publikacím tu obrovskou nevýhodu, že nemá jednotnou podobu, označení a umístění, což značně komplikuje její dohledání a využití.

Tento problém částečně řeší řada institucí, které vybranou šedou literaturu zaznamenávají a dávají k dispozici ve specializovaných databázích. Jednou z nich je i OpenGrey.

Databáze OpenGrey

OpenGrey je otevřená databáze více než 700 000 bibliografických referencí k šedé literatuře, která vznikla na evropském území. Umožňuje reference podrobně vyhledat, exportovat a zjistit umístění daných materiálů. Zahrnuje šedou literaturu z oblasti vědy, technologií, biomedicíny, ekonomie, a také společenských a humanitních věd. Zároveň obsahuje preprinty z konferencí o šedé literatuře. Vstoupíme do ní přes doménu opengrey.eu či opengrey.org.

Seznámení s obsahem databáze

Pro vyhledávání v databázi je nezbytné používat angličtinu, jelikož všechny záznamy v databázi mají uvedeny název a/nebo klíčová slova v angličtině. Kromě toho je každý záznam opatřen tzv. SIGLE klasifikačním kódem, který záznam zařazuje do určité tematické skupiny.

V případě, že se chceme seznámit se systémem SIGLE klasifikace nebo nemáme konkrétní vyhledávací dotaz, můžeme seznámení s databází začít na záložce Subjects. Po jejím otevření se nám zobrazí kompletní seznam 22 tematických oblastí. 

SIGLE klasifikace (http://www.opengrey.eu/subjects/)

Kliknutím na jakoukoliv z nich jsme přesměrování na záložku Search, kde se nám zobrazí záznamy referencí z dané oblasti. Podrobnější třídění záznamů dle oborů můžeme prozkoumat v levé části obrazovky.

Vyhledávání podle SIGLE kódu (http://www.opengrey.eu/). Vlastní zpracování.

Vyhledávání

Častěji nás zřejmě bude zajímat konkrétní téma a budeme využívat pokročilé vyhledávání. Pokud do vyhledávače zadáme více slov, implicitně je mezi nimi vložen operátor AND. Pro ukázku použijeme spojení virtual team a dostávám 42 výsledků.

Pro upravení či zpřesnění dotazu můžeme využít řadu standardních operátorů a syntaxe. Jde o booleovské operátory (AND, OR, NOT), proximitní operátory (NEAR, NEAR/X), dále použití uvozovek pro vyhledání přesné fráze (virtual teamzúží výsledky na 6 záznamů), vyloučení slova pomocí mínusu (např. virtual team“ -survey) či použití symbolu * pro nahrazení koncové části výrazu (organisation* vyhledá tedy organisations i organisational).

Zajímavou možností je použití BEFORE/AFTER, kterými definujeme časové rozpětí (např. AFTER 2005 nalezne dokumenty vydané po roce 2005) a OPT vyhledá volitelná slova, která se mohou či nemusí v dokumentu vyskytnout. Výsledky hledání se pak srovnají tak, že záznamy obsahující toto volitelné slovo jsou řazeny jako první.

Při rozkliknutí konkrétního záznamu dostáváme veškeré dostupné informace, především tedy název, autora, rok vydání, jazyk, abstrakt (ty se začaly přidávat až od roku 1997), klíčová slova, typ dokumentu, SIGLE kód a umístění dokumentu.

Konkrétní záznam dokumentu (http://www.opengrey.eu/)

Při vyhledávání můžeme využít vyhledávání dle těchto políček, které u záznamu jsou. Nejpraktičtější bude vyhledávání v abstraktu (abstract:“virtual team“). Možností při úpravě vyhledávacího dotazu je nicméně více a jejich kompletní seznam a vysvětlení může čtenář naleznout v zápatí stránky v sekci Help (záložka Search). Na tu samou stránku odkazuje i otazník vedle vyhledávacího okna.

Další možností, jak upravovat svůj dotaz, je skrze filtry zobrazené v levé části obrazovky. Pomocí nich můžeme specifikovat dle konkrétních osob (autorú), organizací, SIGLE klasifikace, klíčových slov, roku vydání, jazyka, typu dokumentu a země jeho původu.

Export záznamu

Pro usnadnění práce s citováním můžeme využít dvou jednoduchých cest, jak si uložit bibliografický záznam námi zvolených dokumentů. Záznam můžeme exportovat ve formátu XML pomocí ikonky nad konkrétním záznamem a nebo, pokud máme předem nainstalované příslušné rozšíření, použít citační manažer Zotero.

Filtrování a rozšířené vyhledávání (http://www.opengrey.eu/). Vlastní zpracování.

Na co nezapomenout?

Ačkoliv OpenGrey a další databáze šedé literatury představují nedocenitelné pomocníky při rešerši neoficiálně publikovaných dokumentů, je nutné si uvědomit, že obsahují pouze její malý výsek. Aby se totiž určitý dokument v databázi objevil, musí jeho vlastník aktivně spolupracovat s institucí, která se zabývá archivací a zpřístupňováním literatury v dané zemi. V ČR například tuto službu poskytuje Národní technická knihovna, skrze portál nusl.techlib.cz pak můžeme prohlížet naši národní databázi šedé literatury. Pouze pokud národní instituce zároveň spolupracuje s OpenGrey, můžeme daný dokument naleznout i zde. Přesto se vyplatí tohoto volně dostupného zdroje využívat, jelikož při běžném hledání na povrchovém webu bychom se k tak bohatým informacím dostávali jen obtížně.

Použité zdroje

OpenGrey databáze. Dostupná z http://www.opengrey.eu/

Tableau Public: Aby dátam rozumeli všetci

0

Úvod

V dnešnom svete je dostupné neuveriteľné množstvo dát. Tieto dáta sa neustále generujú z rôznych systémov po celom svete. Ak by sme ich však nevedeli spracovať, filtrovať, upravovať a dolovať z nich vzácne informácie, ktoré vieme ďalej využiť v nás prospech, boli by tieto dáta zbytočné. Nestačí však, že im rozumejú odborníci a vedci. Je potrebné, aby dátam rozumeli aj bežní ľudia. Práve táto myšlienka bola základným stavebným prvkom pre vytvorenie softwaru Tableau.

Tableau Public

Tableau Software je spoločnosť, ktorá sa zaoberá vývojom BI a analytického softwaru. Ich cieľom bolo vytvoriť intuitívny a ľahko ovládateľný program, pomocou ktorého bude možné pracovať s dátami aj bez vedomosti skriptovacích a programovacích jazykov. Momentálne ponúka spoločnosť rôzne self-service produkty pre rôzne skupiny zákazníkov. Medzi najznámejšie patrí Tableau Desktop, Tableau Server, Tableau Online, Tableau Public, Tableau Prep Builder, Vizable a iné produkty.

Tableau Public je platforma dostupná zadarmo, ktorá slúži pre vytváranie vizualizácii a ich následne zdieľanie. Pre používanie tohto produktu sa stačí zaregistrovať na stránkach spoločnosti a stiahnuť si aplikáciu. Tableau tiež ponúka rôzne návody a videá, na ktorých demonštrujú prácu s Tableaum. Ponúkajú aj niekoľko datasetov, ktoré si môže užívateľ stiahnuť, nahrať do Tableau a vyskúšať si s nimi, ako sa v programe pracuje.

Tableau Public je určený na prácu s verejnými dátami, neslúži pre privátne dáta. Všetky vizualizácie, ktoré sú v Tableu Public vytvorené a publikované, sú dostupné pre každého online.  Každý si tak môže tieto vizualizácie prezerať, poprípade sťahovať a učiť sa na nich, ako boli vytvorené [1].

Nahranie a prvotná úprava dat

Na nahranie dát do Tableau slúži záložka Data Source. Dáta je možné nahrať v rôznych formátoch, napr. to môže byť JSON súbor, textový súbor, Access databáza, Excelovský súbor, PDF a iné. Okrem toho umožňuje Tableau na nahraté dáta nahliadnuť a upraviť ich. Stĺpce sa dajú oddeliť alebo spojiť, premenovať apod.

Často sa stáva, že pre analýzu je potrebné použiť dáta z viacerých datasetov. Na spojenie viacerých zdrojov slúžia funkcie JOIN (spojenie stĺpcov pri rovnakých riadkoch) a UNION (spojenie riadkov pri rovnakých stĺpcoch). Pri použití funkcie JOIN stačí uložiť vedľa seba, určiť typ joinu a stĺpce, ktoré vo vybraných zdrojoch obsahujú rovnaké záznamy a budú slúžiť na prepojenie (Obrázok 1). Pri funkcii UNION sa vybrané zdroje uložia na seba, pričom musia mať zhodné názvy stĺpcov (Obrázok 2).

Obrázok 1: Ukážka joinovania dvoch zdrojov [1]
Obrázok 2: Ukážka unionu dvoch zdrojov [1]

Tvorba grafov

Pre samotnú prácu a tvorbu grafov sa v Tableau nachádza záložka Worksheet.

Na Obrázku 3 vidíme príklady metrík a dimenzií, ktoré sa nachádzajú v použitom dátovom zdroji. Symbol pri každom atribúte značí o aký typ údaju sa jedná, farba označuje či ide o spojitú (zelená farba) alebo diskrétnu (modrá farba) premennú. S metrikami a dimenziami je možné ďalej pracovať, upravovať ich, zmeniť názov, dátový typ či ich zduplikovať. Dimenzie môžu byť konvertované na metriky, metriky na dimenzie, spojité na diskrétne a naopak. Ďalej je možné atribúty zgrupovať, vytvárať rôzne intervaly, či kalkulované polia pomocou rôznych funkcií. Tableau ku tomu poskytuje nápovedu, viď Obrázok 4.

Obrázok 3: Zobrazenie metrík a dimenzií [1]
Obrázok 4: Vytvorenie kalkulovaného poľa [1]

Ovládanie v Tableau nevyžaduje znalosť žiadneho programovacieho jazyka, je postavené na princípe drag&drop. To znamená, že pre vytvorenie grafu, stačí vybrať metriku a dimenziu a pretiahnuť ju do vybraného poľa alebo plátna. Výber metriky či dimenzie funguje aj dvojklikom. V tomto prípade sa vybraná metrika alebo dimenzia dosadí do poľa, ktoré je podľa Tableau najvhodnejšie. Odstránenie a presunutie vybraných dimenzií či metrík funguje na podobnom princípe.

Na Obrázku 5 je zobrazená plocha Worksheetu. Polia „Columns“ a „Rows“ predstavujú miesta, kam sa vkladajú metriky a dimenzie. Podľa ich umiestnenia sa potom na plátne vykreslí graf. Pole „Filters“ je určené taktiež pre vkladanie dimenzií a metrík, podľa ktorých bude možné obmedziť výber záznamov, ktoré sa zobrazia v grafe. Filtrom je možné prispôsobovať nastavenia, v ponuke je napríklad Slider (Obrázok 6), Dropdown Single Value (Obrázok 7), List Multiple Values (Obrázok 8), ale určuje sa aj či sa označené hodnoty majú v grafe zobraziť alebo vynechať apod.

Obrázok 5: Plocha Worksheetu [1]
Obrázok 6: Slider [1]
Obrázok 7: Dropdown Single Value [1]
Obrázok 8: Multiple Values [1]

Pole „Marks“ obsahuje viacero funkcií, ktoré umožňujú ďalšiu prácu s grafom. Opäť sa do všetkých polí vkladajú metriky alebo dimenzie a následne sa graf upraví nasledovne:

  • funkcia Color prispôsobí farby grafu (príklad: najtmavšie zobrazená bude sopka, ktorá najčastejšie vybuchuje)
  • funkcia Size ovplyvní veľkosť alebo šírku zobrazenia záznamov v grafe (príklad: najväčšia na mape bude sopka, pri ktorej výbuchoch sa zranilo najviac ľudí)
  • funkcia Detail umožňuje vybrať level detailu zobrazenia grafu
  • funkcia Tooltip zas umožní zobrazenie dodatočných informácii pri pohybe kurzorom nad grafom (v rámci Tooltipu je možné zobraziť aj vizualizácie)
  • funkcia Label pridá ku grafu popisky

Tableau ponúka veľké množstvo rôznych grafov. Na výber je napríklad tabuľka, tabuľka so zvýraznenými bunkami, histogram, koláčový graf, tepelná mapa, klasická mapa, stĺpcový, spojnicový, krabicový či bodový graf. Dostupné sú podľa toho, aké má užívateľ k dispozícii dáta, ktoré metriky a dimenzie chce použiť (je možné ich označiť pomocou klávesy ctrl). Na základe týchto údajov Tableau užívateľovi odporučí najvhodnejší graf, a ten ohraničí červenou farbou. Zvýrazní však všetky grafy, ktoré budú s daným výberom fungovať a znemožní výber tých, ktoré pri daných údajoch využiť nejde. Pri každom grafe naviac Tableau užívateľovi „našepká“, koľko metrík a koľko dimenzií musí byť použitých, aby bolo možné graf zobraziť. Ponuka týchto grafov je ukrytá pod tlačítkom „Show me“, viď Obrázok 9.

Obrázok 9: Ponuka grafov [1]

V každom Worksheete sa dá zobraziť jeden graf. Potom čo sú grafy hotové, je možné ich kombinovať a vytvoriť Dashboard.

Tvorba dashboardov

Plocha dashboardu je podobná ako plochá Worksheetu. Na ľavej lište sú zobrazené jednotlivé možnosti, ktoré Tableau pri tvorbe dashboardu ponúka. Patrí tu napríklad nastavenie veľkosti plochy alebo zoznam Worksheetov a objektov, ktoré je možné použiť. V dashboarde je možné pomenovať jednotlivé grafy, samotný dashboard, pridať alebo vymazať filtre, prispôsobiť rozloženie grafov, popiskov, filtrov. Tableau umožňuje do dashboardu vložiť obrázky, text, popis, odkaz na webovú stránku a pod. Tableau tiež ponúka mnoho možností formátovania, nastavenia farieb a fontov. Na Obrázku 10 je ukážka jednoduchého dashboardu vytvoreného z dvoch grafov, resp. dvoch worksheetov.

Obrázok 10: Príklad dashboardu [1]

Pre pridanie interaktivity do dashboardu umožňuje Tableau grafy navzájom prepojiť pomocou filtrov alebo highlightov. Filter sa zaktivuje kliknutím na symbol lievika pri grafe. To spôsobí, že druhý graf sa upraví podľa výberu na grafe, pri ktorom je zapnutý filter, viď Obrázok 11. Vďaka tomuto nastaveniu je možné sa bližšie pozrieť len na výsledky, ktoré nás zaujímajú.

Obrázok 11: Ukážka filtrovania [1]

Funkcia Highlight funguje podobne ako funkcia Filter. Rozdielom je, že vybrané záznamy sa zvýraznia, a nevyhovujúce záznamy z grafu nezmiznú, ale ostanú v pozadí, viď Obrázok 12. Táto funkcia sa nachádza v menu Dashboard/Actions/Add Action/Highlight, kde sa nastavia potrebné parametre.

Obrázok 12: Ukážka highlightu [1]

Tableau ponúka aj tzv. Device Designer. Táto funkcia umožňuje prispôsobiť a upraviť dashboard podľa typu zariadenia, na ktorom sa bude zobrazovať. Pri zobrazení dashboardu na mobile je tak možné zmenšiť/odstrániť určité prvky, ktoré by neboli dobre viditeľné na malom displeji, naopak pri zobrazení na desktope zas môžeme nejaké prvky pridať/zväčšiť.

Tvorba príbehov

Vytvorené závery z dat je potrebné nejakou formou prezentovať. Publikovať sa dajú individuálne Worksheety a Dashboardy, ale Tableau ponúka aj ďalšiu funkciu, a to tzv. tvorenie príbehov (záložka Story). Funguje ako prezentácia, do ktorej sa vložia rôzne Worksheety a Dashboardy, ktoré tvoria „story points“, teda jednotlivé časti príbehu.

Hárok pre tvorenie príbehov vyzerá takmer identicky ako hárok pre tvorbu dashboardov. V ľavej lište sú zobrazené možné nastavenia, dostupné Worksheety a Dashboardy a ďalšie použiteľné objekty. Worksheety a Dashboardy sa len pretiahnu na plochu v ľubovoľnom poradí. Pridať je možné popisy a názvy, aby bolo čitateľovi jasné, čo má príbeh vyrozprávať. Odporúča sa začať od všeobecnejších pohľadov k detailnejším alebo naopak. Opäť sú tu dostupné rôzne možnosti formátovania, ktorými docielime to, aby bol príbeh zaujímavejší či estetickejší.

Ukladanie a publikovanie

Všetky vytvorené vizualizácie je možné ukladať na Tableau Public profil. Odtiaľ sa potom dajú zdieľať a vkladať na akékoľvek ďalšie stránky. Uložia sa všetky worksheety, dashboardy a príbehy, ktoré sú v jednom zošite vytvorené a zobrazia sa v takom stave, v akom sú v Tableau v čase uloženia. Ako prvá vizualizácia sa čitateľom na profile zobrazí tá, ktorú máme pri ukladaní aktívnu, resp. zobrazenú.

Všetky uložené vizualizácie sú defaultne dostupné pre každého registrovaného užívateľa. Toto nastavenie je však možné pri každej publikovanej vizualizácii zmeniť.

Záver

Tableau je skvelý nástroj na vizualizáciu dát. Dobrá vizualizácia môže pomôcť získať z dát cenné informácie a pomôcť tak pri procese rozhodovania. Tableau Public je voľne prístupné s určitými obmedzeniami. Aj keď je určené na prácu s verejnými dátami a všetky publikované vizualizácie sú verejné, môžu ho využiť napríklad ľudia, ktorí si nemôžu dovoliť zaplatiť licenciu a chceli by sa s Tableaum naučiť pracovať. V tejto práci sú predstavené základné funkcie, ktoré Tableau Public ponúka. Okrem nich, je tu dostupných mnoho ďalších funkcií, ktoré sa dajú najlepšie naučiť pri samotnej práci s Tableaum.

Zdroje

[1] Tableau Software, LLC, a Salesforce Company [online]. 2021 [cit. 2021-02-10]. Dostupné z: https://public.tableau.com/s/

Data.gov.uk – přístup k otevřeným datům ve Spojeném království

0

Úvod

Data.gov.uk [1]vznikl jako projekt vlády Spojeného království, který měl volně zpřístupnit a dát možnost využívat otevřená data vlády Spojeného království široké veřejnosti. Projekt byl spuštěn v lednu 2010 a k prosinci 2020 obsahuje 55 487 data setů. Data.gov.uk je zároveň uveden v registru úložišť výzkumných dat – Registry of Research Data Repositories[2].

V březnu 2018 projekt spustil službu „Find open data“, pomocí které je možné najít data zveřejněná ústřední vládou, místními úřady a veřejnými orgány. Dále je možné najít odkazy ke stažení datových souborů, případně je možné vytvořit účet k publikování dat (zejména pro organizace).