Data.gov.uk – přístup k otevřeným datům ve Spojeném království

Autor:

Ngoc Tien FIlip Bui

-

18.2.2021

0

Úvod

Data.gov.uk [1]vznikl jako projekt vlády Spojeného království, který měl volně zpřístupnit a dát možnost využívat otevřená data vlády Spojeného království široké veřejnosti. Projekt byl spuštěn v lednu 2010 a k prosinci 2020 obsahuje 55 487 data setů. Data.gov.uk je zároveň uveden v registru úložišť výzkumných dat – Registry of Research Data Repositories[2].

V březnu 2018 projekt spustil službu „Find open data“, pomocí které je možné najít data zveřejněná ústřední vládou, místními úřady a veřejnými orgány. Dále je možné najít odkazy ke stažení datových souborů, případně je možné vytvořit účet k publikování dat (zejména pro organizace).

Pokračovat

Qwant: ďalší vyhľadávač, ktorý rešpektuje súkromí

Autor:

Horňák Patrik

-

17.2.2021

0

Na vzniku Qwantu sa podieľali v roku 2011 traja Francúzi – Éric Léandri, Jean-Manuel Rozan a Patrick Constant. Ich hlavnou prioritou bolo priniesť na trh vyhľadávač, ktorý bude bezpečný a nekontrolovaný.
Webový vyhľadávač Qwant bol spustený v roku 2013. Hlavnou devízou je fakt, že nesleduje aktivitu používateľov a nezhromažďuje o nich žiadne osobné údaje na rozdiel od najznámejších webových vyhľadávačov. Spoluzakladateľ projektu Éric Léandri preferuje neutrálny a otvorený web, ktorého cieľom nie je zisťovať identitu používateľa, jeho sexuálnu orientáciu či náboženstvo. Naopak, hlavným cieľom je doručiť efektívne vyhľadávacie služby.^[1]

Qwant rešpektuje súkromie a anonymitu používateľov

Servery, na ktorých beží Qwant sa nachádzajú v Paríži. Takéto on-premise riešenie je síce drahšie ako využívanie cloudových služieb, avšak, čo sa týka bezpečnosti a anonymity používateľov – dvoch hlavných cieľov spoločnosti Qwant, je on-premise riešenie nevyhnutné. Ako je zrejmé z vyjadrení spoluzakladateľov spoločnosti, používanie amerického cloudu by nebolo bezpečné, keďže cloudové zákony v USA umožňujú sledovať zahraničné údaje.^[2]
K vyhľadávaču Qwant pristupujeme pomocou adresy https://www.qwant.com/.

Obrázok 1: Základné rozhranie Qwant vyhľadávača I
[zdroj: vlastné spracovanie]

Obrázok 2: Základné rozhranie Qwant vyhľadávača II
[zdroj: vlastné spracovanie]

Aké sú benefity používania Qwant vyhľadávača oproti známemu komerčnému vyhľadávaču akým je Google?

Hlavný rozdiel spočíva v súboroch cookies. Cookies sú malé súbory, ktoré uchovávajú informácie a vyhľadávač Qwant nekontroluje svojich používateľov pomocou týchto súborov. To znamená, že nezaznamenáva žiadne osobné údaje prehliadania, lokalizáciu či adresy webových stránok. Okrem toho sú výsledky vyhľadávania a počet dotazov rovnaké pre všetkých používateľov bez ohľadu na to, či sú prihlásení alebo nie a bez ohľadu na polohu, kde sa práve nachádzajú. To znamená, že pri zadaní rovnakého dotazu dvomi rôznymi ľuďmi a na rôznom mieste budú výsledky vyhľadávania rovnaké.

Ako potom funguje Qwant vyhľadávanie?

IP adresa návštevníka je pri každej relácii zašifrovaná a konvertovaná do postupnosti znakov, ktoré obsahujú náhodné čísla. Tento spôsob predchádza následnému vysledovaniu pôvodnej IP adresy.
Napokon spoločnosť Qwant sprístupňuje zdrojový kód vyhľadávača, pomocou ktorého si môžete overiť, že vyhľadávač nezachytáva žiadne údaje o klientoch.^[2]

Pri výsledkoch vyhľadávania sa môžu zobrazovať reklamy. Jedná sa však o kontextové reklamy, ktoré súvisia s podstatou samotného vyhľadávania. Práve takáto reklama svedčí o ďalšom rozdiele medzi vyhľadávačmi Qwant a Google, kedy Google využíva cielené reklamy, ktoré sú založené na sledovaní používateľa – preto môžete mať pocit, že vás reklamy prenasledujú.
Spoločnosť Qwant začala vyvíjať technológiu zameranú na cielené reklamy, ktorá zohľadňuje súkromie používateľa a zároveň využíva personalizáciu. Podstatou personalizácie cielenej reklamy je ukladanie údajov na strane klienta – na jeho lokálnom zariadení, nie však na strane servera. Celý tento postup zastrešuje prehliadač Masq a pripojenie WebSocket.^[3]

Vyhľadávací modul je založený na triediacich algoritmoch, ktoré majú rovnaké požiadavky a tento spôsob zaručuje, že žiadna webová stránka nedisponuje vyššou či nižšou prioritou. Qwant indexuje web bez rozdielov. Výsledky dotazov navyše neuprednostňujú ani históriu prehliadania či používateľský profil.^[4]

Obrázok 3: Ukážka vyhľadávania vo vyhľadávači Qwant I
[zdroj: vlastné spracovanie]

Po zadaní dotazu je možné vyberať medzi viacerými kategóriami vyhľadávania. Konkrétne kategórie sú „Web“, „Správy“, „Obrázky“, „Videá“, „Mapy“ a „Hudba“.

Obrázok 4: Ukážka vyhľadávania vo vyhľadávači Qwant II
[zdroj: vlastné spracovanie]

Obrázok 5: Reštrikcia vyhľadávania pomocou operátorov
[zdroj: vlastné spracovanie]

Kategória „Nastavenia“ umožňuje upraviť zvolený jazyk prehliadania. Okrem toho ponúka trojúrovňové filtrovanie obsahu pre dospelých – buď žiadne, mierne alebo prísne, automatické otváranie zakliknutých odkazov na novej karte, automatické otváranie videí na novej karte, zobrazovanie trendov na domovskej stránke a zobrazovanie správ vedľa výsledkov na webe.

Obrázok 6: Panel nastavení vo vyhľadávači Qwant I
[zdroj: vlastné spracovanie]

Ďalej je možné zmeniť štýl pozadia a možnosť použiť vygenerovaný link, ktorý slúži na uloženie nastavení pre používateľov, ktorí si ešte nevytvorili účet Qwant.

Obrázok 7: Panel nastavení vo vyhľadávači Qwant II
[zdroj: vlastné spracovanie]

Vo vyznačenom paneli si používateľ môže vybrať krajinu a jazyk prehliadania, a filtrovať dotazy v závislosti od času uverejnenia – všetky dotazy, dotazy za posledných 24 hodín, dotazy za minulý týždeň či minulý mesiac.

Obrázok 8: Ukážka vyhľadávania vo vyhľadávači Qwant III
[zdroj: vlastné spracovanie]

Rozkliknutím ikonky „Products“ v hlavnom rozhraní vyhľadávača Qwant dostávame na výber možnosti presmerovania na Qwant Junior, Qwant Maps a Qwant Music.

Obrázok 9: Rozšírené nástroje vyhľadávača Qwant
[zdroj: vlastné spracovanie]

Qwant Junior

V roku 2015 prišla spoločnosť Qwant na trh s novinkou – vyhľadávačom, ktorý je určený pre deti. Qwant Junior je vyhľadávač, ktorý filtruje nevhodný obsah. Okrem toho ponúka ďalšie špecifiká.^[1]Qwant Junior je určený predovšetkým deťom od 6 do 12 rokov. Z vyhľadávania odstraňuje i reklamy.^[3]Vyhľadávač Qwant Junior je takmer identický s jeho rodičovskou verziou Qwant. Pri prehliadaní webov sa história neukladá.^[4]K vyhľadávaču Qwant Junior pristupujeme pomocou adresy https://www.qwantjunior.com/.

Obrázok 10: Základné rozhranie Qwant Junior I
[zdroj: vlastné spracovanie]

Obrázok 11: Základné rozhranie Qwant Junior II
[zdroj: vlastné spracovanie]

Kliknutím na rozšírené možnosti nám Qwant Junior umožňuje výber jazyka, v ktorom chceme vykonávať prehliadanie, umožňuje nám meniť farbu pozadia a nahliadnuť do nastavení. Qwant Junior ponúka dva jazykové parametre. Prvý sa vzťahuje iba na jazyk používateľského rozhrania a druhý na jazyk výsledkov.

Obrázok 12: Rozšírené možnosti vyhľadávača Qwant Junior I
[zdroj: vlastné spracovanie]

Obrázok 13: Rozšírené možnosti vyhľadávača Qwant Junior II
[zdroj: vlastné spracovanie]

Qwant Junior momentálne ponúka používateľské rozhranie pre 6 krajín a 4 svetové jazyky.

Obrázok 14: Ponuka krajín používateľského rozhrania vo vyhľadávači Qwant Junior
[zdroj: vlastné spracovanie]

Po výbere krajiny si používateľ volí jazyk, v ktorom chce dostať výsledky vyhľadávania.

Obrázok 15: Ponuka jazykov prehliadania vo vyhľadávači Qwant Junior
[zdroj: vlastné spracovanie]

Obrázok 16: Zmena štýlu pozadia vo vyhľadávači Qwant Junior
[zdroj: vlastné spracovanie]

Napriek tomu, že Qwant Junior ponúka jazykové rozhranie pre 6 krajín, nie všetky kategórie vyhľadávania sú dostupné pre všetky z nich. Z kategórií „Hľadať“, „Správy“, „Učenie“, „Hranie“ a „Voľný čas“ sú pre krajiny okrem Francúzska, kde bol Qwant založený, dostupné iba prvé dve kategórie – „Hľadať“ a „Správy“.

Obrázok 17: Rozdiel v dostupnosti kategórií prehliadania v rôznych jazykových verziách vyhľadávača Qwant Junior
[zdroj: vlastné spracovanie]

Qwant Maps

Qwant Maps je aplikácia, ktorá funguje na podobnom princípe ako známejšia aplikácia Google Maps. Môžeme pomocou nej plánovať rôzne cesty a zobrazovať rôzne miesta. K službe Qwant Maps pristupujeme pomocou adresy https://www.qwant.com/maps.

Obrázok 18: Základné rozhranie Qwant Maps
[zdroj: vlastné spracovanie]

V rozšírených možnostiach Qwant Maps zadávame parametre hľadania na mapách.

Obrázok 19: Rozšírené možnosti služby Qwant Maps
[zdroj: vlastné spracovanie]

Qwant Music

Qwant Music je aplikácia od spoločnosti Qwant, ktorá umožňuje svojim používateľom vyhľadávať a prehrávať rôzne hudobné žánre. V pravej časti webovej stránky je možné nastaviť si preferovanú krajinu a jazyk prehliadania hudby. Podobne ako Qwant Junior, aj Qwant Music ponúka vlastnosť zmeny štýlu pozadia či ďalšie možnosti nastavení. K službe Qwant Music pristupujeme pomocou adresy https://www.qwant.com/music.

Obrázok 20: Základné rozhranie Qwant Music
[zdroj: vlastné spracovanie]

Obrázok 21: Rozšírené možnosti služby Qwant Music
[zdroj: vlastné spracovanie]

Qwant Music ponúka na prehliadanie webového rozhrania širší výber krajín a jazykov ako vyhľadávač učený pre deti – Qwant Junior.

Obrázok 22: Ponuka jazykov prehliadania služby Qwant Music
[zdroj: vlastné spracovanie]

Qwant Boards

Funkcionalita Qwant Boards poskytovala používateľovi možnosť ukladať webové stránky ako poznámky na nástenku, resp. do priečinkov. Funkcionalita Qwant Boards bola vyradená z prevádzky a k dnešnému dňu ju už naďalej nie je možné využívať.^[4]

Obrázok 23: Základné rozhranie Qwant Boards
[zdroj: vlastné spracovanie]

Mobilná aplikácia Qwant

Pokiaľ patríte medzi používateľov tejto platformy, spoločnosť Qwant vyvinula aj mobilnú aplikáciu vyhľadávača Qwant, ktorú si môžete nainštalovať do svojich smartfónov bez ohľadu na to, či používate operačný systém Android alebo iOS. Mobilná aplikácia Qwant garantuje ochranu proti sledovaniu a súkromné vyhľadávanie bez použitia súborov cookies.^[4]

Qwant Lite

Dva roky po spustení vyhľadávača Qwant sa na trhu objavila jeho lite verzia. Qwant Lite predstavuje rýchlejšiu verziu pôvodného Qwant nástroja a je určený predovšetkým pre používateľov, ktorí využívajú staršie prehliadače a pre tých, ktorí pracujú so staršími a menej výkonnými počítačmi. Jediným hendikepom verzie Qwant Lite je odstránenie integrovaných funkcií akými sú v hlavnej verzii Qwant prehrávanie videa a JavaScript.^[5]
K verzii Qwant Lite pristupujeme pomocou adresy https://lite.qwant.com/.

Obrázok 24: Základné rozhranie vyhľadávača Qwant Lite
[zdroj: vlastné spracovanie]

Qwant Blog

V neposlednom rade sa žiada spomenúť vlastný blog internetového vyhľadávača Qwant, na ktorom nájdeme rôzne témy, ktoré sa naň viažu. Malým mínusom je skutočnosť, že posledný uverejnený príspevok sa datuje na rok 2018. Tento blog nájdeme na adrese https://blog.qwant.com/.

Obrázok 25: Zobrazenie webu blog.qwant.com
[zdroj: vlastné spracovanie]

Zaujímavosti

Spoločnosť Qwant sa usiluje o uzavretie dohody s nadáciou Mozilla, kedy by sa vyhľadávač Qwant stal predvoleným vyhľadávacím nástrojom v prehliadači Mozilla Firefox.^[6]

Qwant uzavrel zmluvy so spoločnosťami Zanox, TripAdvisor, eBay a LeGuide. Vždy keď sa používateľ presmeruje na tieto weby pomocou prehliadača Qwant, prípadne weby, ktoré majú pod sebou, získa spoločnosť Qwant peňažnú čiastku vo výške od 44 do 88 centov.^[2]

V júni 2019 oznámila spoločnosť Qwant uzavretie zmluvy so spoločnosťou Microsoft. Kontrakt umožňuje prepojiť prehľadávače a algoritmy vyhľadávača Qwant s cloudovými službami Azure od Microsoftu s cieľom neporušiť súkromie používateľa.^[7]

Štatistiky za rok 2020 ukazujú, že Qwant je 105. najnavštevovanejšou webovou stránkou vo Francúzsku a 1458. najnavštevovanejšou webovou stránkou vo svete.^[8]

Obrázok 26: Rebríček vyhľadávania webovej adresy qwant.com
[zdroj: vlastné spracovanie]

Obrázok 27: Prehľad premávky návštev webovej adresy qwant.com
[zdroj: vlastné spracovanie]

Obrázok 28: Podiel návštevnosti webovej adresy qwant.com podľa krajín
[zdroj: vlastné spracovanie]

Porovnanie vyhľadávačov, ktoré nesledujú používateľov: Qwant vs. DuckDuckGo

Vyhľadávač	Qwant	DuckDuckGo
Vlastník	Qwant SAS	Duck Duck Go Inc.
Spustenie	Júl 2013	Júl 2008
Počet indexovaných stránok	20 miliárd	1,2 miliardy
Počet denných dotazov	10 miliónov	25 miliónov
Reklamy vo vyhľadávači	Nie	Nie
Bezpečnostné funkcie	HTTPS; Qwant ponúka prostredie bez súborov cookies a na vyhľadávacej platforme je zaručená ochrana súkromia používateľov	HTTPS; DuckDuckGo ponúka prostredie bez súborov cookies a na vyhľadávacej platforme je zaručená ochrana súkromia používateľov^[4]

Internetový vyhľadávač Google je k dnešnému dňu najčastejšie využívaný vyhľadávač na internete a s najväčšou pravdepodobnosťou sa to ani v blízkej budúcnosti nezmení. Pokiaľ však nechcete byť monitorovaný a neprajete si, aby váš prehliadač používal súbory cookies môžete to zmeniť. Na výber máte stále širšiu ponuku vyhľadávačov, ktoré rešpektujú súkromie a anonymitu používateľov. Jedným z nich je práve Qwant.

Zoznam použitej literatúry

[1] Alumni, France. “France Alumni”. [online].
Dostupné na: https://www.francealumni.fr/hu/page/25706/qwant-french-search-engine.

[2] EUDES, Yves. “Qwant: The Encrypted Search Engine That Really Could Challenge Google”. [online]. The World Weekly, 11. júl 2016.
Dostupné na: https://www.theworldweekly.com/reader/view/3001/qwant-the-encrypted-search-engine-that-really-could-challenge-google.

[3] LOMAS Natasha. “Private Search Engine Qwant’s New CEO Is Mozilla Europe Veteran Tristan Nitot”. [online]. TechCrunch (blog), 19. september 2019.
Dostupné na: https://social.techcrunch.com/2019/09/18/private-search-engine-qwants-new-ceo-is-mozilla-europe-veteran-tristan-nitot/.

[4] BRAY, Mikaela. “Qwant Review – How Secure Is This Search Engine for 2021?”. [online]. VPNpro, 25. január 2021.
Dostupné na: https://vpnpro.com/web/qwant-review/.

[5] Nice-Matin. “Qwant Lite est spécifiquement adapté aux utilisateurs d’anciennes versions de navigateurs”. [online]. Nice, 05. október 2015.
Dostupné na: https://www.nicematin.com/culture/qwant-lite-est-specifiquement-adapte-aux-utilisateurs-d-anciennes-versions-de-navigateurs-311041.

[6] BELFIORE, Guillaume. “Mozilla : une version de Firefox avec le moteur Qwant par défaut”. [online]. Clubic.com, 05. júl 2016.
Dostupné na: https://www.clubic.com/navigateur-internet/mozilla-firefox/actualite-811228-mozilla-firefox-moteur-qwant-defaut.html.

[7] FRANCAIX, Juliette. “Qwant et Microsoft annoncent un partenariat exclusif pour une expérience de recherche sur Internet inédite”. [online]. Paris. News Centre, 17. máj 2019.
Dostupné na: https://news.microsoft.com/fr-fr/2019/05/17/microsoft-qwant/.

[8] SimilarWeb. “Qwant.Com Traffic Statistics”. [online]. Bentima House – Seventh Floor, London, 31. január 2021.
Dostupné na: http://similarweb.com/fr/website/qwant.com/.

Mendeley Data – platforma pro správu a vyhledávání výzkumných dat

Autor:

Adam Cakl

-

16.2.2021

0

Úvod

Data jsou v dnešní době jedním z nejdůležitějších aspektů jakéhokoliv výzkumu, avšak je velice obtížné se orientovat v obrovském množství dostupných a stále přibývajících dat na internetu. Povaha a typ dat se liší od disciplíny k disciplíně a každý druh dat má většinou svou doménově specifickou hodnotu. Základní potřebou při provádění výzkumu je pak nalézt odpověď na otázky jako jsou na co, kde a jak spravovat data pro konkrétní výzkum.

A právě informační zdroje a datové repozitáře, jako je Mendeley Data, umožňují lidem objevovat, shromažďovat a sdílet výzkumná data. Usnadňují tedy mj. práci s vyhledáváním, správou, uložením a citací relevantních dat.

Platforma Mendeley Data

Mendeley Data, jakožto součást nizozemského vydavatelství Elsevier, je otevřená cloudová platforma pro správu, ukládání a vyhledávání výzkumných dat v celém jejich životním cyklu. Mendeley Data indexuje tisíce datových repozitářů buď přímo, nebo prostřednictvím DataCite [1] (globální poskytovatel DOI – z anglického Digital Object Identifier, česky “digitální identifikátor objektu” – pro výzkumná data). To znamená desítky milionů indexovaných datasetů.

Tato online platforma dále umožňuje sdílení citovatelných výzkumných dat, čímž pomáhá ve spolupráci s různými výzkumnými komunitami. Mendeley Data rovněž umožňuje uživatelům vytvořit skupinu pro svůj konkrétní výzkumný projekt, kde spolupracující uživatelé mohou shromažďovat, organizovat, anotovat a sdílet data na jednom místě.

Správa a sdílení dat prostřednictvím datového repozitáře jako je Mendeley Data, tak poskytuje větší publicitu datům, která mají být znovu použita legálním a vědeckým způsobem, připsáním citace. Opakovaná použitelnost dat také dává hodnotu agenturám pro financování za jejich investice do konkrétního výzkumu. [2]

Práce s Mendeley Data

Informační zdroj Mendeley Data nabízí kromě jednoduchého (volného) a pokročilého vyhledávání i tvorbu a následnou správu a archivaci vlastních datasetů.

Tvorba nových datasetů

Vytváření datasetů v Mendeley Data je jednoduchý a uživatelsky přívětivý proces. Po registraci k účtu Mendeley mohou uživatelé vytvářet nové datasety. Jednotlivé soubory lze do datasetu přidávat způsobem “drag and drop” (přetažením souboru z jednoho místa do druhého) nebo klasickým výběrem souborů z počítače uživatele. Nahrané soubory je pak možné organizovat do složek a podsložek. Lze nahrát jakýkoliv formát souboru. Dostupné úložiště je omezeno na 10 GB na jeden dataset (viz obrázek 1).

Uživatelé jsou dále vyzváni k zadání názvu, přidání přispěvatelů a popisu a přiřazení předmětové kategorie pro dataset. Uživatelé mohou také zahrnout kroky pro reprodukci výzkumných dat zahrnutím, jak byla tato data získána (protokoly/metody). K vytvářenému datasetu je automaticky přidána citace rezervováním DOI. DOI je aktivní po zveřejnění.

Kromě toho jsou uživatelé požádáni, aby si vybrali licenci pro opětovné použití dat. Lze také přidat odkazy na související článek, dataset či software. Publikované datasety lze pak upravovat. Upravené datasety obdrží nové číslo verze. [2]

Mendeley Data - platforma pro správu a vyhledávání výzkumných dat — Obrázek 1 – ukázka tvorby nového datasetu (zdroj: [3], vlastní úprava)

Při vytváření nového datasetu však existují i určitá omezení: [2]

nelze nahrát již publikované datasety (neboli datasety s již přiděleným DOI)
datasety musí mít vědeckou povahu a musí sestávat z vědeckých dat
datasety nesmí obsahovat spustitelné soubory nebo archivy, které nejsou doprovázeny jednotlivými podrobnými popisy souborů
datasety nesmí zahrnovat obsah chráněný autorskými právy (audio, video, obrázky atd.), ke kterému nevlastníte autorská práva
datasety nesmí obsahovat citlivé informace (např. podrobnosti o pacientovi, data narození atd.)

Vyhledávání vědeckých dat

K vyhledávání datasetů a repozitářů lze využít jednoduché vyhledávání, kde na domovské stránce Mendeley Data stačí kliknout na Find Reserach Data, zadat klíčová slova do vyhledávacího pole a spustit vyhledávání.

Výsledky hledání (viz obrázek 2) se zobrazí v pravém panelu stránky a každý jednotlivý výsledek zobrazuje základní informace, jako jsou přispěvatelé, datum, zdroj ad. Podrobnější informace se zobrazí rozbalením výsledku po kliknutí na nadpis, kde se v části podrobnosti (Details) zobrazí další související soubory, pokud některé existují. Po zvolení vhodného výsledku hledání z jednotlivých náhledů lze získat přístup k úplným informacím kliknutím na More Details nebo Go to Source v závislosti na tom, co je právě prohlíženo (např. v závislosti na zdroji dat, kliknutím na Go to Source je umožněno stáhnout, citovat, sdílet nebo exportovat obsah a kliknutím na More information se otevře domovská stránka datasetu, kde je možné stáhnout soubory a mít plný přístup k metadatům).

Výsledky je také možné dále filtrovat zaškrtnutím požadovaného políčka v levém panelu stránky. Lze filtrovat podle datového typu (tabulka, dataset, obrázek, dokument, text, video audio ad.), typu repozitáře (datový nebo repozitář článků) a zdroje (na výběr je mnoho různých informačních zdrojů, např. ScienceDirect, arXiv, IEEE DataPort nebo samotné Mendeley Data). Zatímco je možné provést výběr z více možností při filtrování dle datového typu, při filtrování dle typu repozitáře a zdroje lze zvolit pouze jednu možnost. [2]

Vše je znázorněno a shrnuto na obrázku 2 – vyhledávání na horní straně a výsledky hledání na spodní straně.

Platforma Mendeley Data také umožňuje pokročilé vyhledávání (Advanced search) pomocí syntaxe určené pro různé pokročilé vyhledávání dat, jako je vyhledávání v definovaných polích a použití booleovských operátorů.

K zacílení na jedno nebo více konkrétních polí v datasetu lze využít následující syntax zadáním tzv. kódu pole (z anglického field code, který musí být psán velkými písmeny) a následným zapsáním požadovaného výrazu do závorky. Přehled jednotlivých kódů polí s jejich popisem je následující: [2]

AUTHOR() – vyhledá autory, jejichž jména obsahují výraz zadaný v závorce v jakékoli části jejich jména
AUTHOR_ID – podporuje následující ID: Mendeley User ID, Scopus User ID, ORCID a všechna ID uživatelů podporovaná DataCite
TITLE() – vyhledá nadpisy, které obsahují výraz zadaný v závorce v jakékoli části textu nadpisu
INSTITUTION() – vyhledá instituce, které obsahují výraz zadaný v závorce v jakékoli části textu nadpisu
INSTITUTION_ID() – podporuje následující ID: Scopus Institution ID, Scival Institution ID, Mendeley Institution ID
ID() – vyhledá dokument, který má externí identifikátor obsahující textový řetězec zadaný v závorce
DOI() – vyhledá dokument, který má DOI identifikátor obsahující textový řetězec zadaný v závorce
KEYWORDS – filtrování výsledku hledání podle klíčových slov
SUBJECT_AREA – filtrování výsledku hledání podle kategorií oblasti předmětu
IS_SUPPLEMENT_TO – vyhledá dokument, který je doplňkem k datové sadě se souvisejícím identifikátorem obsahující textový řetězec zadaný v závorce

Pokročilé vyhledávání navíc podporuje booleovské operátory. Data lze vyhledávat pomocí operátorů AND, OR nebo NOT. Kódy polí lze také použít v jakémkoliv booleovském dotazu, který zahrnuje OR mezi kódy polí a normálními dotazy. Příkladem takového dotazu je např.:

(competitive intelligence AND AUTHOR(Smith)) OR AUTHOR(Smith AND Johnson) AND INSTITUTION(University of Manchester)

K určení přesné shody textu ve vyhledávání lze použít dvojité uvozovky, a to uvnitř kódu pole i mimo něj. Všechna slova uvnitř uvozovek jsou pak vyhledávána tak, jak jsou zapsána. Alternativně lze použít složené závorky k určení přesné shody textu, ale jsou přijaty pouze jako modifikátor kódu pole a nejsou přijaty ve volném textovém vyhledávání, protože složené závorky nejsou přijímány jako znak ve volném vyhledávání. Příkladem jsou např. tyto dotazy: [2]

AUTHOR(„John Smith“) OR AUTHOR({Mary Williams})
„competitive intelligence“

Ukázka výsledku pokročilého hledání vypadá následovně (viz obrázek 3) s využitím tohoto dotazu filtrovaného dle typu zdroje na tabulární data:

TITLE(“covid-19” OR coronavirus)

Závěr

Obrovské množství času a finančních prostředků je investováno do sběru nebo generování dat pro konkrétní výzkumnou práci. Ve světě založeném na datech je pak důležitost náležité péče, zpracování a správy výzkumných dat považována za etickou povinnost institucí i vědeckých pracovníků, protože data jsou zásadním přínosem výzkumu.

Mendely Data je otevřený informační zdroj nabízející desítky miliónů vyhledatelných datasetů, které mohou vědečtí pracovníci či akademické instituce volně použít ke generování nových zjištění. Zároveň díky pokročilému vyhledávání a využití vhodné syntaxe je možné zacílit a omezit výsledek vyhledávání na menší množinu relevantních datasetů a ušetřit tak velké množství času. Mendeley Data navíc poskytuje prostor pro správu a uchování výzkumných dat, které po nahrání obdrží DOI, takže na ně lze odkazovat a citovat.

Mendeley Data má však jednu nevýhodu po stránce filtrování výsledků hledání. Filtrování umožňuje vybírat pouze ze tří hlavních skupin, a to dle datového typu, typu repozitáře a zdroje. Není zde však možnost filtrovat dle kalendářních dat. Tuto možnost nenabízí ani pokročilé vyhledávání.

Použité zdroje

[1] Welcome to DataCite [online]. [vid. 2021-01-31]. Dostupné z: https://datacite.org/

[2] Frequently Asked Questions – Mendeley Data [online]. [vid. 2021-02-01]. Dostupné z: https://data.mendeley.com/faq

[3] Mendeley Data [online]. [vid. 2021-02-10]. Dostupné z: https://data.mendeley.com/

WorldWideScience.org – desítky odborných zdrojov na jednom mieste

Autor:

Jan Sudak

-

16.2.2021

0

WorldWideScience poskytuje rýchly prehľad obrovského množstva zdrojov z vedeckých databáz. Pozrite sa ako ho využiť.

Internet je dnes pre mnohých ľudí hlavným zdrojom informácií pre osobné ale aj profesné potreby. Prvým nástrojom po ktorom intuitívne siahame (alebo sa nám priamo nanucuje) je niektorý z vyhľadávačov ako napr. Google, Yandex či Baidu – nástroje, ktoré prehľadávajú povrchový web (Hitson a Johnson, 2008). Hoci tieto nástroje poskytujú mnohokrát cenné informácie, pri hľadaní spoľahlivých a aktuálnych vedeckých informácií sa môžu ukázať ako nedostačujúce. Či už pre tendenčnosť, nedostatočnú overiteľnosť, alebo nedostupnosť zdrojových súborov (mnohé stránky blokujú indexovacie roboty).

Odpoveď na vyššie zmienené problémy ponúkajú databázy vedeckých publikácií, ktoré obsahujú recenzované zdroje dostupné podľa presného indexu. Dôraz na recenzovanie a indexáciu však spomaľuje proces pridávania zdrojov (Gusenbauer, 2019).

Hybridnou možnosťou medzi dvomi vyššie zmienenými prístupmi je WorldWideScience (WWS) a Google Scholar. Tie sa snažia o dostupnosť všetkých vedeckých publikácií na jednom mieste (podobne ako vyhľadávače). Publikácie však nie sú jednoznačne indexované a pri zadaní rovnakého dotazu poskytujú rôzne výsledky (Gusenbauer, 2019).

V ďalšom texte sa bližšie oboznámime s WorldWideScience.org

WorldWideScience.org

WWS vzniklo v roku 2008 ako snaha o globálny portál pre prístup k vedeckým zdrojom. Zastrešuje ho WorldWideScience Aliance. Technologicky nadväzuje na Science.gov – využíva rovnaký federatívny vyhľadávací model (Hitson a Johnson, 2008). Obsahuje články zo 110 databáz, vrátane troch českých (Repozitář Akademie Věd ČR, Knihovna Akademie Věd ČR, Národní úložiště šedé literatury). Zdrojové databázy môžeme zobraziť na úvodnej stránke, kliknutím na mapu štátu, alebo tlačidlo
„view participants as list“ (WorldWideScience.org, 2020).

Rešeršné možnosti

WWS ponúka dva spôsoby prehľadávania databázy:

Jednoduché vyhľadávanie – cez pole vyhľadávania na úvodnej stránke

Podrobné vyhľadávanie – dostupné v sekcii „Advanced Search“

Podrobné vyhľadávanie ponúka možnosť vyhľadávať frázy podľa obsahu dokumentu, podľa názvu, autora, roku a jazyka . Zároveň ponúka možnosť vybrať konkrétne databázy, ktoré majú byť prehľadávané.

Zaujímavou je tiež funkcia prekladač. Po zadaní dotazu sú databázy postupne prehľadávané. Pri každej databáze sa dotaz preloží do jej jazyka. Následne je databáza prehľadaná a výsledky sú postupne zobrazované v pôvodnom jazyku.

Výsledky sú zobrazované priebežne ešte pred dokončením vyhľadávania (WorldWideScience.org, 2020).

Syntax a operátory

WWS ponúka možnosť pokročilého vyhľadávania pomocou špeciálnych operátorov. Vo vyhľadávaní nerozlišuje veľké a malé písmená.

Pre vyhľadávanie presnej frázy rovnako ako pri väčšine vyhľadávačov uzavrieme výraz do dvojitých úvodzoviek (napr. “competitor intelligence“).

Pri vyhľadávaní viacerých výrazov je možné využiť operátory:

AND – vráti výsledky pre obsahujúce oba výrazy spojené týmto operátorom. Rovnako sú interpretované výrazy oddelené medzerou (napr. výraz competitor intelligence vráti rovnaké výsledky ako competitor AND intelligence).
OR – vráti výsledky obsahujúce aspoň jeden z výrazov spojených týmto operátorom.
NOT – vráti výsledky ktoré neobsahujú výraz nasledujúci za týmto operátorom.

Výrazy je možné logicky usporiadať pomocou zátvoriek (napr. (competitor OR competitive) AND intelligence vráti zároveň výsledky pre competitive intelligence aj competitor intelligence).

Ak chceme vyhľadať všetky slová, ktoré majú rovnaký koreň, môžeme využiť tzv. zástupné znaky. Tie môžu byť využité na začiatku, na konci, alebo uprostred výrazu.

Otáznik (?) zastupuje práve jeden ľubovoľný znak (napr. ??tra vráti výsledky pre extra, intra, ultra apod.)
Hviezdička (*) zastupuje ľubovoľný počet znakov od nuly do nekonečna (napr. competit* vráti výsledky pre competit, copmetitor, competitive, competition apod.) (org, 2020)

Výsledky

Výsledky sú po vyhodnotení dotazu, podobne ako vo vyhľadávačoch povrchového webu ohodnotené a usporiadané podľa relevancie. Relevancia výsledkov je hodnotená 1-5 hviezdičkami. Vďaka tomu sa nám na prvých miestach zobrazujú najrelevantnejšie výsledky.

Zároveň je však nutné podotknúť, že vyhľadávanie rovnakého výrazu nevráti vždy rovnaké výsledky. Napr. po zadaní dotazu intelligence sme pri prvom zadaní dosiahli vo výsledku 5466 článkov a pri opätovnom zadaní rovnakého dotazu bol výsledok už len 5414 článkov (viď obrázky nižšie). Celkovo tak možno predpokladať skôr strojovú, nie úplne exaktnú indexáciu.

Okno s výsledkami je rozdelené do 3 stĺpcov: súhrnné informácie a filtre (vľavo), zoznam výsledkov (uprostred), odkazy na wikipédiu a EurekAlert (vpravo).

V ľavej časti je výsledky možné filtrovať podľa:

Dátumu
Času
Autora
Názvu publikácie
Krajiny
Jazyka
Typu dokumentu (článok, kniha, patent…)
Zdrojovej databázy
Formátu (Full Text, HTML, PDF…).

V záložke Visual zasa môžeme vidieť zaradenie do kategórií podľa témy. Kliknutím na názov témy môžeme zúžiť zoznam výsledkov na tie, ktoré zodpovedajú príslušnej téme.

V strednom paneli sú výsledky rozdelené do štyroch kategórií: články, multimediálne záznamy, dátové súbory/software a voľne prístupné zdroje, čo značne zjednodušuje prehľadávanie veľkého počtu výsledkov.

Vo výsledkoch vyhľadávania je sa zobrazuje:

názov dokumentu s priamym odkazom na dokument
relevancia (1 až 5 hviezdičiek) a formát dokumentu
názov a priamy odkaz na zdrojovú databázu
mená autorov
dátum publikácie
abstrakt

(WorldWideScience.org, 2020)

Výsledky je ďalej možné preložiť do anglického jazyka, uložiť do svojej knižnice a exportovať (vo formáte RIS, alebo do programov Mendeley, Zotero, RefWorks a EndNote), vytlačiť, alebo odoslať do emailovej schránky.

Možnosti práce s výsledkami vyhľadávania. Zdroj: https://worldwidescience.org/

Zhrnutie

WorldWideScience poskytuje široké možnosti prehľadávania odborných databáz. Jej najväčšou výhodou oproti bežným databázam je rozsah zdrojov, ktoré možno prehľadávať a rýchlosť prehľadávania. Na druhej strane však nie je možné jednoznačne popísať spôsob indexácie ani dosahovať jednoznačné výsledky. Tieto vlastnosti ju robia veľmi podobnou vyhľadávaču GoogleScholar, na rozdiel od neho však ponúka lepšie možnosti celkovej analýzy výsledkov a práce s nimi.

Zoznam zdrojov

Gusenbauer, M. (2019) “Google Scholar to overshadow them all? Comparing the sizes of 12 academic search engines and bibliographic databases”, Scientometrics, 118(1), s. 177–214. doi: 10.1007/s11192-018-2958-5.
Hitson, B. A. a Johnson, L. A. (2008) “WorldWideScience.org Bringing Light to Grey”, v Farace, DJ (ed.) DESIGNING THE GREY GRID FOR INFORMATION SOCIETY. GL PROGRAM \& CONFERENCE BUREAU, JAVASTRAAT 194-HS, AMSTERDAM, 1095 CP, NETHERLANDS: TEXTRELEASE (GL Conference Series), s. 11–20.
org (2020). Available at: https://worldwidescience.org/ (Cit: 01. február 2021).

ClinicalTrials.gov – Klinické štúdie z celého sveta

Autor:

Michal Dupkala

-

15.2.2021

0

ClinicalTrials.gov je webová stránka obsahujúca databázu o prevedených a plánovaných klinických štúdiách vo svete. Databáza zahrnuje štúdie celú škálu štúdií o rôznych chorobách, liekov a defektov. Je určená jak pre širokú verejnosť, tak pre odborníkov z praxe. Patrí pod správu National Library of Medicine (NLM), ktorá patrí pod National Institutes of Health (NIH). [1]

Americkým kongresom bola schválená v roku 1997, a to ako následok viacerých obvinení, že spoločnosti úmyselne tajili vedľajšie efekty svojich liekov za účelom zisku. [2] Verejne dostupnou sa stránka stala vo februári roku 2000 a v čase písania článku, obsahuje informácie o 365 tisíc štúdiách z 219 štátov sveta.

Klinické štúdium je pojem, ktorý označuje výskum na dobrovoľníkoch a má za cieľ rozšíriť znalosti medicíny. Sú vykonávané za účelom potvrdenia bezpečnosti a efektivity novej liečby. Na to, aby bol liek schválený pre štandardné užitie (predpisovanie lekárom), musí byť najprv vyhodnotený v rámci klinickej štúdie. Pacienti v týchto štúdiách patria medzi tých, ktorí prijímajú novú liečbu predtým než je dostupná verejnosti. Je v nich podávaný liek, u ktorého sa môžu vyskytnúť vedľajšie účinky ktoré už sú známe laboratórnych testov , alebo sa môžu vyskytnúť nové nežiadúce vedľajšie účinky. Preto sú účastníci týchto štúdií pozorovaní a kontrolovaní prísnejšie, než je štandard. [3]

Možnosti vyhľadávania

Stránka poskytuje celkovo štyri možnosti vyhľadávania, ktoré nás dostanú na zoznam štúdií podľa našich kritérií – „New Search“, „Advanced Search“, „See Studies by Topic“ a „See Studies on Map“.

See Studies by Topic nám stromovou štruktúrou umožní prejsť na nami hľadanú chorobu. Tento spôsob je vhodný, pokiaľ máme predstavu čoho sa choroba týka, no nevieme si spomenúť na presný názov toho, čo hľadáme.

Obrázok 1 – See Studies by Topic [zdroj: ClinicalTrials.gov]

See Studies on Map nám zobrazí interaktívnu mapu, pomocou ktorej sa preklikáme na územie prevedenej štúdie, následne sa nám zobrazí zoznam štúdií, do ktorej sa zapojili inštitúcie z daných štátov. Je potrebné myslieť na to, že do niektorých štúdií sa zapojili desiatky až stovky štátov, preto sa nám zobrazia aj štúdie, kde je krajina reprezentovaná napríklad len jednou inštitúciou z mnohých.

Obrázok 2 – See Studies on Map [zdroj: ClinicalTrials.gov]

Hľadanie podľa kategórií a podľa krajiny sú značne obmedzené na len jeden filter, podľa ktorého štúdie hľadáme. Aj keď sa zobrazené záznamy dajú následne filtrovať v ďalších krokoch, tak pre konkrétnejšie hľadanie je výrazne pohodlnejšie a praktickejšie rovno použiť voľby Search a Advanced Search.

New Search / Advanced Search

Táto voľba reprezentuje klasickejší pojem vyhľadávania, kde si ako užívateľ zvolíme kľúčové slová a podmienky, ktoré chceme aby štúdia obsahovala.

V základnom hľadaní je možné štúdie filtrovať podľa názvu choroby, ostatných spojených pojmov (identifikátor štúdie, použité lieky,…), krajiny alebo dokonca aj konkrétneho mesta. Všetky tieto polia sú nepovinné, čo umožňuje obrovskú flexibilitu hľadania.

Obrázok 3 – Základné vyhľadávanie [zdroj:ClinicalTrials.gov]

Advanced search umožňuje okrem týchto faktorov hľadať podľa rady ďalších ako sú vek a pohlavie participantov, či štúdia zverejnila svoje výsledky, sponzor, štádium a dátumy relevantné s danou štúdiou.

Pri vyhľadávaní hľadá dotaz každé slovo jak spolu tak zvlášť. Ak do contidion or disease zadáme – heart attack, tak dostaneme jak výsledky obsahujúce pojem spolu tak výsledky, u ktorých sú slová oddelené : Heart Defects and Transient Ischemic Attacks. [1]

Pokiaľ chceme hľadať tento výraz ako celok, môžeme dať celý výraz do ” “. Či už při použití horných úvodzoviek alebo nie, nájdené a zvýraznené sú taktiež medicínske synonymá daného pojmu. V tomto príklade by nám vyskočili aj výsledky, ktoré priamo neobsahujú heart attack ale obsahujú spojenie myocardial infarction.

Hľadanie taktiež podporuje používanie booleovských operátorov OR, NOT a AND pre pokročilejšie kombinované vyhľadávanie. Pre použitie viacero operátorov v jednom výraze je potrebné použiť guľaté zátvorky –

(heart disease OR heart attack) AND (stroke OR clot)

Výsledok hľadania Condition or disease – Covid19 AND Asthma

Obrázok 4 – Výsledok vyhľadávania Covid19 OR Asthma [zdroj: ClinicalTrials.gov]

Všetky hľadané nájdené slová sú v zobrazených záznamoch zázname zvýraznené.

Pre zobrazenie hľadaných synoným a upravenie vyhľadávania môžeme použiť záložku „Search Details“, ktorá nám zobrazí vyhľadávané slová, a umožní upraviť náš dotaz.

Obrázok 5 – Search Details Covid19 AND Asthma [zdroj: ClinicalTrials.gov]

Popis štúdie

Informácie o klinickej štúdií si môžeme zobraziť kliknutím na vybranú štúdiu.

Každý záznam (jednotlivé klinické štúdium) obsahuje nasledovné:

Skúmaná choroba
Skúmaný jav (liek, prostredie, chovanie, ktoré je skúmané)
Názov, popis a dizajn
Kritéria pre účastníkov štúdie
Lokácie zapojených inštitúcií
Kontaktné informácie na inštitúcie
Odkazy na informácie z ostatných použitých zdrojov

Niektoré záznamy môžu obsahovať naviac:

popis účastníkov (demografia, vek pohlavie, odhadovaný a reálny počet)
výsledky
súhrn nežiadúcich udalostí účastníkov štúdie

Tieto informácie si môžeme pozrieť buď v móde textovom alebo vo forme tabuľky.

Obrázok 6 – Detail záznamu [zdroj: ClinicalTrials.gov]

Výsledky

U niektorých štúdií sa miesto Study Results nachádza „No Study Results Posted“, čo znamená že výsledky pre danú štúdiu neboli verejne publikované. Pokiaľ nás zaujímajú len štúdie s dostupnými výsledkami, je potreba nastaviť filter „Study Results“ tak, že zaznačíme „With Results“. Len completed výsledky nám nestačia z dôvodu, že nie všetky výsledky sú verejne dostupné. Buď to nie je v ich legislatíve povinné, buď legislatívu porušujú a výsledky zverejňujú neskoro až vôbec [3], alebo čakajú na schválenie. Keď niektorá štúdia chce uverejniť svoje výsledky, tak musia prejsť cez takzvanú Quality control (QC) od NLM. V tejto kontrole sú identifikované chyby, nedostatky alebo nezrovnalosti a výsledky s komentárom vrátené žiadateľovi o zverejnenie na opravenie.

Správne zverejnený výsledok obsahuje sekcie

Tok účastníkov
Základné charakteristiky
Štatistická analýza
Nežiadúce účinky
Obmedzenia a výhrady
Administratívne informácie

Využitie

ClinicalTrials má za úlohu udržovať informácie o klinických štúdiách verejne dostupné a tým predchádzať podvodom a zatajovaniu vedľajších účinkov liekov a poškodzovania pacientov užívajúcich ich.

Na individuálnej úrovni zverejnené výsledky umožňujú lekárom previesť vlastný výskum na lieky, ktoré predpisujú. Vďaka tomu, že obsahuje záznamy aj o plánovaných štúdiách, podporuje informovanosť, a zjednodušuje zapojenie sa do nich.

Motivácia pre účasť v štúdii môže byť rôzna. Pri testovaní na zdravých dobrovoľníkov môže byť účasť kompenzovaná finančnou odmenou. Pre ľudí s ťažkými chorobami to môže byť cesta ako sa rýchlejšie dostať k viac účinnejšej a pohodlnejšej forme liečby. Pre nemocnice a lekárov je to možnosť, ako bezplatne získať nový liek (lieky v štúdií poskytuje zadávateľ), a taktiež sa zoznámiť s novým spôsobom liečby danej choroby. [4]

Pre otestovanie využiteľnosti ClinicalTrials v Českej republike bol vymyslený fiktívny človek, muž, 22 rokov, žijúci v Prahe, ochotný dochádzať maximálne 100 míľ, ktorý trpí Crohnovou chorobou a má záujem dozvedieť sa informácie o metódach liečby. Verí len výskumom, v ktorých boli zapojené pražské inštitúcie.

Pri zadaní daných informácií do vyhľadávania a zvolení si len dokončených štúdie s výsledkami dostaneme a 23 záznamov.

Predpokladajme, že niektorá látka nás zaujala a chceme zistiť možnosti zapojiť sa do plánovanej štúdie v okolí. Filter obmedzíme len na „Recruiting“, dostaneme taktiež 23 výsledkov. V týchto výsledkoch nájdeme rovno 15 rôznych liekov plánované na klinické štúdie v Prahe, ktoré práve naberajú dobrovoľníkov:

E6011, Risankizumab, Ustekinumab, PF-06651600, PF-06700841, Etrolizumab, Guselkumab, Filgotinib, Upadacitinib, Mirikizumab, Cx601, BMS-986165, Ozanimod, UTTR1147A, Adalimumab

Použíté zdroje

[1] U.S. National Library of Medicine, ClinicalTrials.gov [online] [cit 31.1.2021] Dostupné z: https://clinicaltrials.gov/ct2/help/

[2] PILLER, Charles. FDA and NIH let clinical trial sponsors keep results secret and break the law. 2020 [online] [cit 1.2.2021] Dostupné z: https://www.sciencemag.org/news/2020/01/fda-and-nih-let-clinical-trial-sponsors-keep-results-secret-and-break-law

[3] Masarykův onkologický ústav, Co jsou to klinické studie?. [online] [cit 1.2.2021] Dostupné z: https://www.mou.cz/co-jsou-to-klinicke-studie/t900

[4] Státní ústav pro kontrolu léčiv, Jak jsou motivováni dobrovolníci, pacienti, lékaři, zdravotnická zařízení, aby se zařadili do klinické studie?. [online] [cit 1.2.2021] Dostupné z: https://www.sukl.cz/leciva/jak-jsou-motivovani-dobrovolnici-pacienti-lekari

Obrázok 1 – See Studies by Topic [zdroj: ClinicalTrials.gov].

Obrázok 2 – See Studies on Map [zdroj: ClinicalTrials.gov].

Obrázok 3 – Základné vyhľadávanie [zdroj: autor].

Obrázok 4 – Výsledok vyhľadávania Covid19 OR Asthma [zdroj: ClinicalTrials.gov].

Obrázok 5 – Search Details Covid19 AND Asthma [zdroj: ClinicalTrials.gov].

Obrázok 6 – Detail záznamu [zdroj: ClinicalTrials.gov].

DATA.GOV: Otevřená data poskytovaná vládou USA

Autor:

Jan Resl

-

14.2.2021

0

Úvod

Portál data.gov, pomocí kterého vláda USA poskytuje otevřená data veřejnosti vznikl v roce 2009. Založila ho a spravuje ho vládní agentura General Service Administration, sídlící ve Washington D.C.. Projekt je postavený na open source tenchologiích CKAN a WordPress a celý jeho vývoj je veřejně přístupný na platformě GitHub. [1] Celý projekt vznikl pod vedením Viveka Kundry, který byl do pozice jmenován prezidentem Barackem Obamou. [2] Vivek Kundra se kromě poskytování veřejných datasetů zasadil také o vytvoření portálu recovery.gov, kde vláda transparentně poskytovala informace o finančních tocích v rámci stimulačního balíčku ARRA (American Recovery and Reinvestment Act of 2009). [3] K datu 7. 2. 2021 je počet datasetů na portále data.gov 192 180. [1]

V rámci otevření dat veřejnosti byl tedy v roce 2009 zřízen server data.gov, který funguje pro shromažďování a vyhledávání dat, poskytovaných vládou USA. Na tomto portále by měla být všechna data, která vláda generuje a které zároveň nejsou soukromá nebo nemohou být veřejná z bezpečnostních důvodů. Celý projekt je postavený na součinnosti vlády a jednotlivců. Podle tvůrce tohoto portálu, Viveka Kundry projekt „měl zajistit, že se vláda dokáže vypořádat s novou realitou.” [2] Celá myšlenka otevřených dat poskytovaných státními orgány je postavena na tom, že lidé, kteří budou mít k dispozici všechna tato data, se mohou podílet na připomínkování vládních akcí, samotné kontrole nebo mohou pomocí dat nabídnout i lepší řešení. Taková občanská aktivita je pomocí portálu data.gov dokonce i finančně odměňována. Jak konkrétně, je uvedeno pod záložkou Challenges u jednotlivých témat dat portálu data.gov (např. https://www.data.gov/energy/energy-challenges u energií).

Rešeršní možnosti

První a základní možností, jak hledat datasety na portálu data.gov, je klasický search box, který se nachází buď defaultně v pravém horním horu obrazovky nebo po otevření data catalogu (kliknutí na záložku DATA) uprostřed stránky. Tento search box slouží ke klasickému vyhledávání datasetů a pro jednotlivé vyhledávací příkazy není k dispozici žádný speciální syntax.

Pro upřesnění vyhledávané fráze slouží několik nástrojů. Prvním z nich jsou témata obsahů datasetů. Po otevření nabídky TOPICS dostaneme na výběr 7 témat, konkrétně: Agriculture, Climate, Energy, Local Government, Maritime, Ocean a Older Adults Health. Po otevření jednotlivých témat se objeví vždy trochu odlišné prostředí. Vždy se zobrazí nová lišta se záložkami, ale každé téma má odlišné složení těchto záložek, proto je jejich souhrn zobrazen na obrázku 1.

Obrázek 1: Složení záložek u jednotlivých témat na portále data.gov. [zdroj obrázku: data.gov]

Některá témata mají záložku Updates, která funguje jako úvodní stránka pro dané téma. Na záložce Data se otevře příslušný Data catalog, filtrovaný pouze na dané téma. Pod záložkou Apps se nacházejí existující aplikace, které byly vytvořeny uživateli na daných otevřených datech tohoto tématu. Jak již bylo zmíněno, Challenges jsou pobídky uživatelům vyřešit konkrétní problémy daného odvětví pomocí otevřených dat poskytovaných tímto portálem, za finanční odměnu. Dále jsou záložky pro přidání nových dat, frekventované dotazy, zdroje dat a kontaktní údaje na příslušné oddělení. Pro téma Older Adults Health se tato lišta nezobrazí vůbec a uživatel je přesunut přímo na příslušnou část Data catalogu.

Druhou možností, jak zúžit počet vyhledaných datasetů je přes filtry, umístěné na levé straně prostředí Data catalogu. Jejich seznam s krátkým popisem je uveden níže:

Topics – témata obsahu datasetů
Dataset Type – zda je dataset geoprostorový
Tags – tagy datasetů
Formats – formáty datasetů
Organization Types – typ organizace, která nahrála dataset
Organization – název organizace, která nahrála dataset
Publishers – název vydavatele datasetu
Bureaus – příslušný úřad, jehož se dataset týká

Třetí možností, jak omezit vyhledané datasety, je použití mapy, která je první položkou mezi filtry. Na této mapě můžeme po kliknutí na ikonu tužky vravo nahoře vymezit obdélníkovým tvarem území. Po vymezení území se nám najdou pouze datasety, které se týkají tohoto vymezeného území.

Poté, co spustíme vyhledávání, na pravé části prostředí Data catalogu se nám zobrazí počet vyhledaných datasetů a pod ním výsledky vyhledávání čili jednotlivé vyhledané datasety. U takto vyhledaných datasetů je zobrazen název datasetu, pod ním název jeho vydavatele a jeho krátký popis. Pod popisem jsou barevně zobrazeny formáty, ve kterých můžeme dataset získat a vpravo je graficky znázorněno, jakého typu územního celku země se dataset týká (Federal, State, City …). Příklad výsledků vyhledání slovního spojení „police victim“ je znázorněn na Obrázku 2.

Obrázek 2: Výsledky vyhledávání na portále data.gov. [zdroj obrázku: data.gov]

Výsledky vyhledávání má uživatel možnost seřadit podle Relevance, Názvu vzestupně, Názvu sestupně, Data úpravy, Popularity a Data přidání. Sestupnost nebo vzestupnost seřazení lze volit jen u názvu, data lze seřadit pouze od nejnovějšího.

Po kliknutí na konkrétní dataset se zobrazí jeho stránka. Vše bude názorně ukázáno na příkladu datasetu Allegheny County 911 Dispatches – EMS and Fire. Na stránce datasetu je na levé straně název organizace, pod kterou dataset spadá, její krátký popis a v pravém horním rohu graficky znázorněn typ územního celku, viz Obrázek 3.

Obrázek 3: Profil organizace na stránce datasetu. [zdroj obrázku: data.gov]

Pod informacemi o organizaci je dále téma obsahu datasetu, vydavatel a jeho kontakt, možnost sdílení a odkaz na podmínky použití. V pravé, hlavní, části této stránky je případné upozornění ohledně podmínek užití datasetu, dále název a pod ním datum poslední úpravy metadat. Následuje podrobný popis datasetu. Poté jsou zobrazeny informace o dostupnosti a použití, viz Obrázek 4.

Obrázek 4: Informace o dostupnosti a použití na stránce datasetu. [zdroj obrázku: data.gov]

Dále se zobrazí všechny soubory dostupné ke stažení, u kterých je ikona znázorňující formát, název, krátký popis a tlačítko Download pro stažení. Pod soubory jsou data vytvoření a upravení metadat, zdroj metadat, tagy související s datasetem a doplňující metadata tohoto datasetu.

Příklady použití

Portál data.gov zobrazuje seznam aplikací poskytovaných otevřených dat na stránce https://www.data.gov/applications. Zde můžeme najít, jaké projekty byly vytvořeny na základě otevřených dat, které poskytuje vláda USA. Pro představu je to například mobilní aplikace AIRnow, která poskytuje informace v reálném čase o čistotě ovzduší. Slouží jak pro aktuální informace, tak i pro předpověď. [4]

Dalším příkladem je portál Alternative Fueling Station Locator. Tato webová aplikace poskytuje geoprostorové informace o lokacích čerpácích a nabíjecích stanic s alternativními palivy na území USA a Kanady. Na mapě si uživatel může najít stanice pro čerpání bio nafty, CNG, elektrické energie, ethanolu, vodíku, LNG a propanu. [5] Celý projekt je postavený na mapách OpenStreetMap, což je skvělá ukázka toho, jak otevřená data a open-source projekty mohou reálně pomáhat.

Data portálu data.gov jsou využity i pro mobilní aplikaci LeafSnap, která pomáhá uživatelům poznávat rostliny. Pomocí aplikace stačí neznámou rostlinu vyfotit a aplikace za pomoci algoritmů pro rozpoznávání obrázků dokáže rostlinám na fotografii přiřadit jejich název. [6]

Závěr

Portál data.gov byl vytvořen za účelem zapojení občanů do veřejného dění, pro lepší transparentnost veřejné správy a její možnou kontrolu. Je to databáze informací ze všech různých oblastí, ve kterých určitým způsobem figuruje vláda USA, která tato data zpracovává, generuje a všechna data, která neporušují soukromí nebo nenarušují bezpečnost, poskytuje veřejnosti. Jelikož jsou tato data otevřená mohou se uplatnit za pomoci kohokoli na světě a zároveň je dbáno na to, aby to byla data ve formě, ve které nemohou být zneužita. Díky příkladům aplikací, které jsou přímo na stránkách data.gov uvedeny, lze potvrdit, že účel, který tento portál má, je alespoň částečně naplňován.

Zdroje

[1] ANON., nedatováno. About Data.gov. Data.gov [online] [vid. 2021-02-07]. Dostupné z: https://www.data.gov/about/

[2] HANSELL, Saul, 2009. The Nation’s New Chief Information Officer Speaks. Bits Blog [online]. [vid. 2021-02-07]. Dostupné z: https://bits.blogs.nytimes.com/2009/03/05/the-nations-new-chief-information-officer-speaks/

[3] ANON., nedatováno. Recovery.gov | U.S. Department of Education [online] [vid. 2021-02-07]. Dostupné z: https://www.ed.gov/open/plan/recovery-gov

[4] ADMIN |, nedatováno. AIRNOW WIDGET – Developer Central [online]. [vid. 2021-02-07]. Dostupné z: https://developer.epa.gov/airnow-widget/

[5] ANON., nedatováno. Alternative Fuels Data Center: Alternative Fueling Station Locator [online] [vid. 2021-02-07]. Dostupné z: https://afdc.energy.gov/stations/#/find/nearest

[6] ANON., nedatováno. LeafSnap – Plant Identification [online] [vid. 2021-02-07]. Dostupné z: https://plantidentifier.info/

Seznam obrázků

Obrázek 1: Složení záložek u jednotlivých témat na portále data.gov. [zdroj obrázku: data.gov]

Obrázek 2: Výsledky vyhledávání na portále data.gov. [zdroj obrázku: data.gov]

Obrázek 3: Profil organizace na stránce datasetu. [zdroj obrázku: dat.gov]

Obrázek 4: Informace o dostupnosti a použití na stránce datasetu. [zdroj obrázku: data.gov]

WolframAlpha: Výpočetní supernástroj pro každého

Autor:

Tomáš

-

13.2.2021

0

Internetový vyhledávač Google a jemu podobné jsou silnými nástroji při hledání informací a znalostí, ale také nás dokážou zahltit odkazy na nejrůznější zdroje, a to mnohdy i navzdory použití pokročilejších vyhledávacích technik. V případě, že hledáme odpověď na konkrétní otázku či problém jsme buď odkázáni k prohledávání, zkoumání a ověřování validity zdrojů, které nám vyhledávač poskytnul a často dost náročnému studiu daného tématu nebo se naskýtá možnost využít schopností výpočetního nástroje a poskytovatele znalostí WolframAlpha.

WolframAlpha pomocí nových algoritmů (ve více než 1000 doménách) pro jazykovou analýzu, více než 10 bilionů dat a dynamických výpočtů dokáže poskytnout více než 5 tisíc typů vizualizací a tabulkových výstupů [1]. Využitím rozsáhlého úložiště odborných znalostí a algoritmů automaticky zodpovídá otázky, provádí analýzy a vytváří reporty. WolframAlpha stojí za zcela novým přístupem k získávání znalostí a odpovědí – neprohlédává webové stránky, ale využívá dynamické výpočty na rozsáhlé kolekci vestavěných dat, algoritmů a metod [2]. Je dostupný v angličtině a japonštině.

Struktura

Úvodní stránka nástroje vítá uživatele výrazným logem WolframAlpha pod kterým se ihned nachází pole pro zadávání dotazů (viz Obrázek 1). Nástroj je schopný nalézt či vypočítat odpověď na široké množství různorodých problémů. Aby nástroj uživatelům usnadnil formulaci dotazů nachází se pod vyhledávácím polem sekce s předpřipravenými příklady či ukázkami možných problémů a způsoby jejich vyhledávání. Úlohy, otázky nebo problémy jsou roztříděny do čtyř hlavních tematických okruhů, jimiž jsou Matematika, Věda a technologie, Společnost a kultura a dále Každodenní život. V těchto kategoriích můžeme nalézt podkategorie, které se dále dělí až na úroveň konkrétního problému či otázky. Například kliknutím na téma statistiky v sekci matematiky se otevře stránka se čtyřmi podoblastmi, ve kterých jsou již zobrazeny příklady konkrétních úloh (viz Obrázek 2).

WolframAlpha: Výpočetní supernástroj pro každého — Obrázek 1 Úvodní stránka nástroje WolframAlpha (zdroj: [3], pořízeno autorem)

Vyhledávání

Syntaxe vyhledávacích dotazů je uživatelsky velmi přívětivá. Například pro vykreslení funkce stačí před matematický zápis funkce zařadit klíčové slovo „plot“ (viz Obrázek 2). Dalším příkladem jednoduchosti formulace dotazu může být např. výpočet energie fotonu na základě jeho vlnové délky (viz Obrázek 3). WolframAlpha díky algoritmům pro jazykovou analýzu dokáže porozumět přirozenému jazyku, což značně usnadňuje vyhledávání, protože na uživatele není kladena zátěž v podobě nutnosti znát nějaký konkrétní způsob formulace dotazu. V případě, že si uživatel není jistý formulací otázky či problému může využít výše zmíněné vzorové příklady, ke kterým se intuitivně dostane z hlavní stránky přes jednotlivé kategorie. Potěší i prvek rozšířené klávesnice se speciálními znaky, který se nachází bezprostředně pod vyhledávacím polem.

Po zadání dotazu nástroj představí stránku s výsledkem, která se většinou podobá ukázkové stránce níže (viz Obrázek 3). Prvním polem bývá buď „Input information“ nebo „Input interpretation“. Jde o pole, ve kterém nástroj buď rekapituluje informace ze zadaného dotazu nebo vypisuje, jak zadaný dotaz pochopil. Následuje pole „Result“, tedy pole s výsledkem, kde se v případě bezplatné verze nachází pouze stručný výsledek zadaného dotazu. V případě placených variant WolframAlpha nabídne i postup řešení. Další zobrazovaná pole se liší v závislosti na vyhledávané otázce či úloze. Jednou z dalších výhod placených variant je možnost stažení stránky s výsledkem (tlačítko „Download Page“ na konci stránky).Zpoplatněná verze nástroje umožnuje i nahrání zadání úlohy či problému ve formě tabulky, obrázku nebo v některém z mnoha dalších podporovaných typů souborů včetně audio souborů a formátů pro 3D modelování. Tento fakt koresponduje s jedním z cílů WA jímž je snaha o dosažení zcela volného formátu vstupu [2].

Zpoplatněná verze nástroje umožnuje i nahrání zadání úlohy či problému ve formě tabulky, obrázku nebo v některém z mnoha dalších podporovaných typů souborů včetně audio souborů a formátů pro 3D modelování. Tento fakt koresponduje s jedním z cílů WA jímž je snaha o dosažení zcela volného formátu vstupu [2].

Varianty nástroje

WolframAlpha je dostupný ve třech verzích, a to bezplatné verzi, verzi Pro a Pro Premium. Výše poplatku za verzi Pro a Pro Premium se liší podle kategorie, do které uživatel spadá (For Everyone, For Students, For Educators). Oproti bezplatné verzi získá uživatel verze Pro možnost nahrávat vlastní data a obrázky pro analýzy, přizpůsobené a interaktivní vizualizace pro prezentace, možnost stažení dat, více výpočetního času a podrobně popsané řešení úloh.

Příklady využití

Záběr témat otázek, problémů nebo úloh které je nástroj schopný vyřešit je opravdu široký, a tak i možnosti využití nástroje jsou četné. Několik možností využití je vyobrazeno níže (viz Obrázek 4). Zejména významná je možnost využití nástroje ve škole či při samostudiu, jelikož WolframAlpha není jen výpočetní a vyhledávací nástroj, ale i učební platforma, neboť k odpovědím na otázky nabízí i postup řešení, který uživatele dovede krok po kroku ke kýženému výsledku. V rámci jednoho ze svých produktů (Wolfram Problem Generator) pak dokáže pro uživatele vytvářet i cvičné úlohy z matematiky a statistiky.

Závěr

Závěrem je nutné vyzdvihnout jedinečnost tohoto nástroje. WolframAlpha nabízí jak velmi široké tak i hluboké odborné znalosti komukoli, kdykoli a kdekoli [2]. Z uživatelského hlediska je WolframAlpha velice zdařilý. Dokáže porozumět přirozenému jazyku a v případě nejistoty s formulací dotazu dokáže uživateli napovědět pomocí předpřipravených příkladů. Pokročilejší funkce jsou za poplatek, ale ceny jsou ve srovnání s rozšířenou funkcionalitou rozumné. Kromě webové aplikace je dostupná i mobilní verze. Zatím je nástroj dostupný pouze v angličtině a japonštině, což může být pro některé uživatele limitující. Celkově je však nástroj velmi přínosný a jeho použití snadné.

Použité zdroje

[1] WolframAlpha. Wolfram|Alpha Tour [online]. 2021. Dostupné z: https://www.wolframalpha.com/tour/

[2] WolframAlpha. About Wolfram|Alpha: Making the World’s Knowledge Computable [online]. 2021. Dostupné z: https://www.wolframalpha.com/about

[3] WolframAlpha. Wolfram|Alpha: Computational Intelligence [online]. 2021. Dostupné z: https://www.wolframalpha.com

[4] WolframAlpha. Wolfram|Alpha Examples: Statistics [online]. 2021. Dostupné z: https://www.wolframalpha.com/examples/mathematics/statistics/

[5] WolframAlpha. plot x^3 – 6x^2 + 4x + 12 – Wolfram|Alpha [online]. 2021. Dostupné z: https://www.wolframalpha.com/input/?i=plot+x%5E3+-+6x%5E2+%2B+4x+%2B+12&lk=3

[6] WolframAlpha. photon energy 435nm – Wolfram|Alpha [online]. 2021. Dostupné z: https://www.wolframalpha.com/input/?i=photon+energy+435nm&lk=3

ArXiv.org – inspirace nejen v oblasti Data Science

Autor:

Dominik Hartinger

-

12.2.2021

0

Úvod

Asi každý narazil poslední dobou minimálně na jeden z následujících výrazů: data science, machine learning, quantitative finance… a mnoho dalších příbuzných tzv. „buzzwordů.“ Pojďme se na chvíli vžít do role takového „datového vědce,“ jenž se snaží vyřešit problém, se kterým se dříve nesetkal a neví, odkud začít. Google vyhledávač po zadání příslušných výrazů vrací zpět nejen jejich definice, ale i všemožné instruktáže, amatérské lekce, jejichž kvalita je přinejmenším diskutabilní. Internetový vyhledávač nenabízí odpověď, jelikož se už jedná o poměrně specifické téma a nikdo není schopen pomoci. I v takovém případě se vyplatí sáhnout po nástroji jménem ArXiv.

O ArXiv.org

ArXiv je veřejné uložiště akademických článků a prací v oborech fyziky, matematiky, informatiky (computer science), kvantitativní biologie, pokročilých kvantitativních metod ve finančnictví, elektroinženýrství, ekonomie a dalších příbuzných odvětví. Toto uložiště je ve vlastnictví Cornell University a je financováno komunitně – spoléhá na paušální příspěvky přidružených organizací, jež se k podpoře upisují na pět let.

Důležité je zmínit, že články na ArXivu nepodléhají peer reviews, při nahrávání procházejí pouze kontrolou administrátorského týmu ArXivu složeného z dobrovolníků z řad expertů v příslušných odvětvích. Obsah článků je při schválení nahráván tak, jak je. Proto je třeba se mít na pozoru, neboť se může stát, že publikace nebyla hodnocena jinými vědci či profesionály, kterými by mohla být z nějakého důvodu odmítnuta – například kvůli nedostatkům či nesprávnostem. Ve většině případů se totiž jedná o tzv. preprints, které tyto hodnocení teprve čekají. Pro zveřejnění práce na ArXivu je nutná registrace, pro jejich čtení nikoliv.

ArXiv je populární zejména v oboru statistiky a strojového učení, které patří k nejdynamičtěji se rozvíjejícím mezi výše zmíněnými obory. Pojďme zjistit, jaké jsou tedy jeho největší přednosti, a jaké má naopak nedostatky.

Možnosti vyhledávání

Vraťme se zpět k příkladu s datovým vědcem. Ten řeší specifický problém týkající se klasifikace textových dat – jeho data jsou popsána jen z části, ale on potřebuje mít tyto popisky kompletní. Při vyhledávání na Google se dočetl, že by mu mohla pomoci jedna konkrétní metoda, k níž ale nemůže dohledat žádný postup. Zkusí tedy vyhledat řešení na ArXiv.org.

Obrázek 1: Základní vyhledávání na ArXiv.org. [zdroj obrázku: autor]

Základní vyhledávání na ArXivu nám umožňuje hledat klíčová slova ve všech polích, jež záznamy obsahují, nebo v jednotlivých polích jako například titul, autor či abstrakt. Dostupné je pochopitelně mimo jiné i vyhledávání pomocí DOI, pokud už na začátku víme konkrétně, jaký článek hledáme. Pokud nás ovšem ani jedna možnost neuspokojuje, můžeme zvolit funkci pokročilého vyhledávání.

Obrázek 2: Možnosti pokročilého vyhledávání. [zdroj obrázku: autor]

V rámci pokročilého vyhledávání už můžeme volit konkrétní vědecké obory, pomocí kterých chceme výsledky filtrovat. Pokud tedy vezmeme v úvahu případ našeho vědce, upřesníme vyhledávání na obory Computer Science a Statistics. Těchto možností můžeme zvolit více, neboť u většiny článků se obory prolínají a v rámci indexace jsou u článku zmíněny všechny „dotčené“ obory. Další možností pokročilého vyhledávání je upřesnění data, kdy měl hledaný článek vyjít. Uvést můžeme konkrétní datum, měsíc, celý rok, nebo i časové rozpětí definované dvěma daty.

Pokud nehledáme nic konkrétního a na ArXiv jsme zabloudili v rámci studia a objevování nových postupů, čemuž se v některých moderních technologických společnostech věnují celé dny, můžeme si na úvodní stránce jednoduše zvolit požadovaný obor a zobrazí se nám články z posledních pěti dní, kdy došlo alespoň k jednomu nahrání článku. Zatímco u strojového učení se tak počet výsledků k 30. lednu 2021 rovná číslu 92, heslo „Computational finance“ nabízí pouhých 7 článků:

Obrázek 3: Výsledky hledání pomocí oborů. [zdroj obrázku: autor]

Vyhledáváme-li pomocí textového vyhledávání, ať už základního či pokročilého, výsledky našeho dotazu pro každý odpovídající článek zobrazují číslo článku v databázi ArXivu, jeho název, autora či autory, abstrakt (tuto možnost lze vypnout), informaci o datu nahrání a případně doplňující informace – zpravidla zmínky o schválení článku pro účely prezentací na konferencích apod.

Nalezené výsledky můžeme vyfiltrovat podle data oznámení článku, data schválení a nahrání na ArXiv či relevance s ohledem na námi zadaná klíčová slova. Bohužel nelze vyhledávat dle popularity či jiného měřítka oblíbenosti mezi experty v odvětví, což vylučuje možnost hledat řešení mezi těmi nejpopulárnějšími, a tedy dost možná nejpoužívanějšími. To je jeden z nedostatků vyhledávání na ArXivu, ačkoliv se může stát, že na ArXiv už přijdeme z jiné komunitní webové stránky, jež konkrétní hledanou práci zmiňuje.

Obrázek 4: Výsledek vyhledávání. [zdroj obrázku: autor]

Každý záznam má také uveden zkratku kategorie či oboru, ke kterému patří. Na obrázku je to cs.CL, což je zkratka pro „Computation and Language,“ následovaný zkratkou cs.LG, jež odpovídá oboru „Machine Learning.“ Filtrování je, jak bylo zmíněno dříve, poměrně omezené, a proto je dobré již v samém počátku dobře definovat dotaz, pokud možno, v rámci pokročilého vyhledávání. V opačném případě nezbývá než se probrat stovkami a stovkami článků odpovídajícím našim kritériím. V ilustračním případě je to 713 výsledků, jelikož dotaz nebyl zformulován dostatečně konkrétně a nebyly využity pokročilé možnosti vyhledávání.

Pokud tedy nalezneme článek a dle abstraktu se nám jeví jako potenciální pomoc pro náš problém, přejdeme na jeho stránku, jejíž podoba je následující:

Obrázek 5: Stránka konkrétního záznamu. [zdroj obrázku: autor]

Kromě již známých informací, jež jsme měli k dispozici v nadhledu, máme možnost článek stáhnout ve formátu PDF. Je rovněž možné zvolit jiný formát, pokud je nějaký další k dispozici. Rozhraní nabízí i možnost dalšího vyhledávání příbuzných prací nacházejících se ve stejných kategoriích. Zajímavými funkcionalitami jsou možnost exportu citace ve formátu pro BibTeX (software pro uspořádání referencí) a tzv. Article Trackbacks – zpětné vyhledávání webových stránek, na kterých je daný článek řádně ocitován. Pro záznam z obrázku výše je nalezeno 5 blogů, v nichž byl zmíněn:

Obrázek 6: Trackbacks pro daný článek. [zdroj obrázku: autor]

Jelikož je na ArXivu možné vyhledávat i podle autorů, každá stránka záznamu nabízí okamžité vyhledávání dalších autorových prací. Registrovaným uživatelům je rovněž k dispozici emailová adresa autora. Články je také možné přímo v rámci rozhraní uložit jako záložky. Momentálně ArXiv nabízí takovou funkci pro BibSonomy, Reddit, Mendeley a ScienceWISE. API posílá požadavek přímo do konkrétní aplikace prostřednictvím webového rozhraní a přesměrovává rovnou na stránku daného software v novém okně.

Velice užitečnou je přítomnost dalších specifických nástrojů, jež uložiště ArXivu nabízí. V první řadě je potřeba zmínit bibliografické nástroje využívající data třetích stran (Semantic Scholar) pro vyhledávání referencí a citací týkajících se vybraného článku. Výsledky, jež vrací nástroj Bibliographic Tools, je možné třídit podle jejich vlivu, autora, titulu či data zveřejnění a jsou zobrazeny ve dvou přehledných sloupcích. Tato funkcionalita do určité míry nahrazuje možnost filtrování podle popularity, neboť jejím prostřednictvím si lze nepřímo ověřit, nakolik je práce v odvětví uznávána, jaký je její dopad na daný obor a kolik dalších výzkumů využívá její poznatky pro své účely.

Obrázek 7: Bibliografické nástroje. [zdroj obrázku: autor]

Kromě bibliografických nástrojů je ale k dispozici ještě jeden, jež dělá ArXiv natolik oblíbeným v řadách programátorů a vývojářů. Pokud hledáme řešení na konkrétní problém, jehož výstupem má být kód v konkrétním programovacím jazyce aplikující nalezené řešení, nelze se spoléhat pouze na samostatné články na ArXivu. Ty totiž kód neobsahují, nebo obsahují, ale jedná se pouze o pseudokód, náznak syntaxe, jež replikuje logiku daného řešení, je třeba ji nicméně ještě převést na syntaxi jazyka, v němž pracujeme.

Z tohoto důvodu existuje nástroj Code. Autoři článků mají možnost ke svým zveřejňovaným pracím přidat samostatně i kód, prostřednictvím kterého se dobrali ke zveřejňovaným výsledkům a úspěchům. Nelze se spoléhat na to, že na takového autora narazíme. Naštěstí zde existuje chytré spojení se stránkou Paperswithcode.com. Na té vývojáři z celého světa publikují svůj kód a díky citování článků, z nichž pochází inspirace jejich logického řešení, dokáže ArXiv každý kód propojený s daným článkem nabídnout uživateli k nahlédnutí.

Obrázek 8: Propojení s Paperswithcode. [zdroj obrázku: autor]

Závěr

ArXiv.org je online uložiště akademických článků, jež nebyly nutně ohodnoceny v rámci akademické obce. Obsahuje články z různých technických oborů příbuzných hlavně s fyzikou, matematikou a statistikou a je navržen tak, aby umožnil široké veřejnosti přístup k dokumentům o vědecké činnosti a poznatkům z ní vyplývajících. Počet článků uložených v databázi ArXivu se pomalu blíží ke dvěma milionům. Stránka nabízí chytré funkcionality, jež ji činí oblíbenou zejména mezi vývojáři strojového učení díky možnosti dohledání relevantního kódu, ale tematicky pokrývá daleko širší spektrum oborů.

Zdroje

[1] arXiv.org e-Print archive [online]. [cit. 30.1.2020]. Dostupné z: https://www.arxiv.org

[2] paperswithcode.com – The latest in Machine Learning [online]. [cit. 30.1.2020]. Dostupné z: https://www.paperswithcode.com

Seznam obrázků

Obrázek 1: Základní vyhledávání. [zdroj obrázku: autor]

Obrázek 2: Možnosti pokročilého vyhledávání. [zdroj obrázku: autor]

Obrázek 3: Výsledky hledání pomocí oborů. [zdroj obrázku: autor]

Obrázek 4: Výsledek vyhledávání. [zdroj obrázku: autor]

Obrázek 5: Stránka konkrétního záznamu. [zdroj obrázku: autor]

Obrázek 6: Trackbacks pro daný článek. [zdroj obrázku: autor]

Obrázek 7: Bibliografické nástroje. [zdroj obrázku: autor]

Obrázek 8: Propojení s Paperswithcode. [zdroj obrázku: autor]

Tajemství bibliografických záznamů: Cenné informace i pro firmy

Autor:

Černý Jan

-

11.2.2021

1

Tento článek se věnuje tématu bibliografických záznamů coby jednomu z nejdůležitějších sekundárních informačních pramenů. Díky nim můžeme dohledávat primární dokument (kniha, článek, film, hudebnina apod) resp. jejich existenci s určením místa, kde je můžete najít. Zároveň znamenají i unikátní zdroj pro podniky, firmy a organizace.

Pokračovat

NDLTD – Networked Digital Library of Theses and Dissertations

Autor:

NicoleGross

-

11.2.2021

0

Jedným z najvýraznejších míľnikov v živote človeka je ukončenie vysokoškolského štúdia a s ním aj sladkého študentského života. Po približne 18tich rokoch strávených v školských laviciach – u niekoho viac, u niekoho menej – je človek pripravený vydať sa na svoju pracovnú cestu. Obdobie, na ktoré sa väčšina ľudskej populácie nevie dočkať. Predtým však každého čaká posledný rok najväčších nočných môr, medzi ktoré patrí nielen absolvovanie najdôležitejších štátnych skúšok, ale aj tvorba a obhajoba záverečnej práce. Výber vhodnej témy a úvodná rešerš súčasného stavu sú stavebnými kameňmi úspechu. Ako však vybrať čo najrelevantnejšie publikácie a čo najkvalitnejšie analyzovať aktuálnu situáciu, keď má človek k dispozícii obrovské množstvo zdrojov, z ktorých môže vyhľadávať a zároveň obmedzený čas?Organizácia NDLTD na to našťastie našla odpoveď.

Organizácia NDLTD

Existuje nespočetné množstvo kvalitne spracovaných výskumov v rámci celého sveta, ku ktorým sa študent po prejdení viacerých webových stránok či portálov ani nemusí dostať, pretože sú uložené len v archívoch konkrétnej vysokej školy alebo papierovej forme. V roku 1987 bol koncept elektronických dizertačných prác „ETD“ prvýkrát prediskutovaný na stretnutí v Michigane. Boli skúmané problémy spojené s produkciou, archiváciou a prístupom k dizertačným prácam. Začiatkom 90tych rokov projekt „Scholarly Communications“ vyvinul postupy a systémy na spracovanie, archiváciu a sprístupnenie verejných prác Technickej Univerzity vo Virgínii verejnosti. Záujem o elektronické publikácie sa rozšíril a tým projekt získal väčšiu podporu.

Výsledkom niekoľko ročnej práce bol v roku 1996 softvér, ETD databáza, voľne dostupný inštitúciám po celom svete. Vznikla organizácia „The National Digital Library of Theses and Dissertations“ („NDLTD“), ktorá sa premenovala na „The Networked Digital Library of Theses and Dissertations“ po tom, čo sa jej obsah stal medzinárodný. Svoju skratku NDLTD si však ponechala. Úsilie o vytvorenie národnej digitálnej knižnice tak poskytlo koncepčný rámec pre to, čo sa stalo sieťovou digitálnou knižnicou téz a dizertačných prác. Dnes je NDLTD – The Networked Digital Library of Theses and Dissertations nezisková charitatívna organizácia, ktorej členmi sú stovky univerzít po celom svete. Väčšina inštitucionálnych členov pochádza z USA či Kanady. Z Európy tam patrí len Francúzsko a Nemecko. Čo sa týka individuálnych členov majú svoje zastúpenie európske krajiny Španielsko a Francúzsko.

Hlavné posolstvo organizácie NDLTD

Hlavnou úlohou NDLTD organizácie je podpora prijímania, tvorby, používania, šírenia a uchovávania elektronických dizertačných prác. Jej cieľom je posilniť zdieľanie vedomostí po celom svete prostredníctvom elektronického publikovania a otvoreného prístupu. Organizácia sa snaží nielen povzbudiť vysokoškolské inštitúcie k tomu, aby využívali zdroje poskytované prostredníctvom NDLTD a zúčastňovali sa na jej činnostiach, ale aj k vývoju vlastných programov ETD slúžiacim k zhromažďovaniu záverečných prác. Organizácia poskytuje takisto ETD Fórum určené pre všetkých, ktorý majú záujem o propagáciu elektronických prác. Toto fórum je otvorené pre všetkých to znamená, že do diskusie sa môže zapojiť ktokoľvek bez ohľadu na členstvo. Všetky príspevky sú voľne dostupné.

Témy obsiahnuté v NDLTD, Zdroj: http://www.ndltd.org/

Vytvorený softvér je vhodný pre študentov, učiteľov, knihovníkov a správcov univerzít. Poskytuje obsah zameraný na:

elektronické tézy a dizertačné práce „ETD“ (funkcie nájsť, vytvoriť a uchovať),
najnovšie správy a výskumy v komunite,
inštitucionálne či individuálne členstvo,
rôzne právne a technické otázky.

Zoznam webových zdrojov záverečných prác, Zdroj: http://www.ndltd.org/resources/find-etds

Možnosť nájsť elektronické tézy a dizertačné práce, ktorá je obsiahnutá v tomto systéme, je jednou z najpodstatnejších čo sa týka globálneho vyhľadávania uľahčujúceho prácu študentom. Jej obsah pozostáva z dvoch základných častí:

webového linku na globálny ETD vyhľadávač,
zoznamu webových zdrojov rôznych krajín, na ktorých je možné vyhľadávať záverečné práce konkrétnej krajiny
- Zoznam je možné triediť podľa krajiny, názvu zdroja či opisu.
- Jeden z najvyužívanejších v rámci študentov Českej Republiky „Google Scholar“ je takisto zahrnutý.

Elektronické publikácie sú uložené v archíve „NDLTD Union Archive“, ktorý zhromažďuje záznamy metadát pre ETD z celého sveta a agreguje ich do jedného súboru, ktorý môžu poskytovatelia služby následne využiť. Tento archív obsahuje záznamy o miliónoch ETD, pričom jednotlivé ETD môže poskytovateľ vyhľadať prostredníctvom globálneho ETD vyhľadávača.

Globálny ETD vyhľadávač

Globálny ETD vyhľadávač je voľne dostupná databáza, ktorá prehľadáva spomedzi vyše 4 miliónov elektronických publikácií. Webové prostredie je veľmi jednoduché a vyhľadávanie funguje na podobnom princípe ako Google vyhľadávanie. Archív podporuje rozšírené vyhľadávanie a používanie Boolean znakov. Takisto je možné využívať nasledujúce kľúčové slová:

Subject (predmetom publikácie je zadaný výraz – obsiahnutý napríklad v tagu alebo názvu),
Title (názov publikácie obsahuje zadaný výraz),
Creator (autor publikácie),
Description (popis publikácie obsahuje zadaný výraz),
Publisher (vydavateľ publikácie – napríklad meno univerzity),
Language (jazyk, v ktorom je publikácia napísaná),
AND (logický znak „a“),
NOT (logický znak reprezentujúci negáciu).

Kľúčové slová rozšíreného ETD vyhľadávania, Zdroj: http://search.ndltd.org/

Ako s ním pracovať

Kľúčové slová sú v podobe tipov zahrnuté aj na úvodnej stránke po rozkliknutí možnosti „advanced search tips“. Na vyhľadanie diplomových prác, ktoré sa zaoberali Competitive Intelligence, bol využítý výraz Competitive Intelligence, ktorý zobrazil 195578 výsledkov. Pri počte výsledkov je možné zaznamenať aj časové trvanie načítania výsledkov. Upresnenie vyhľadávania je možné dvomi spôsobmi, a to prostredníctvom:

kľúčového slova,
filtrovania.

Využitie kľúčových slov

Prvý zo spôsobov, použitie kľúčových slov, je z časti spomenutý vyššie, preto si povieme len konkrétne rady, na ktoré je dobré nezabudnúť.

Využívanie úvodzoviek vo výrazoch

Pre špecifikáciu vyhľadania diplomových prác, ktoré sa zaoberali – “Competitive Intelligence” – táto digitálna knižnica zobrazí už len 420 výsledkov.

Využívanie kľúčových slov

Pre špecifikáciu vyhľadania diplomových prác, ktoré sa zaoberali priamo témou „Competitive Intelligence“ bol využitý nasledujúci príkaz – title:”Competitive Intelligence” – ktorý vyberie práce, v ktorých je spomínaná téma zahrnutá v samotnom názve. Vyhľadávač zobrazí už len 180 výsledkov.

Využívanie interpunkčných znamienok

Spomínaný systém digitálnych knižníc nerozlišuje veľkosť písmen v zadaných príkazoch avšak rozlišuje použitie interpunkčných znamienok (mäkčeň, dĺžeň). V prípade špecifikácie univerzity VŠE prostredníctvom príkazu – title:”competitive intelligence” AND language:”czech” AND publisher:” Vysoká škola ekonomická v Praze” – databáza zobrazí 25 výsledkov, kdežto pri použití rovnakého príkazu so zmenou – publisher:” Vysoka skola ekonomicka v Praze” – databáza nezobrazí žiaden výsledok.

Využívanie logických operátorov

Pri písaní príkazov je nutné využívať logický znak „AND“, pretože na rozdiel od Google vyhľadaváča, medzera medzi jednotlivými kľúčovými slovami reprezentuje logický operátor „OR“. Pri špecifikácii príkazu – title:”competitive intelligence” language:”czech” publisher:” Vysoká škola ekonomická v Praze” – databáza zobrazí až 129 872 výsledkov.

Využitie filtrovania

Druhý spôsob, ktorým je možné bližšie špecifikovať výsledky vyhľadávania, je využitie samotného filtrovania pri zozname výsledkov. Tento systém digitálnych knižníc umožňuje prehliadanie a vyhľadávanie na základe nasledujúcich informácií:

inštitúcie (Source),
roku publikácie (Publication year),
jazyka (Language),
tagu (Tagged with).

Možnosti filtrovania výsledkov ETD vyhľadávania, Zdroj: http://search.ndltd.org/

Toto filtrovanie berie do úvahy pôvodný príkaz, ktorý bol použitý. Zobrazená stránka s výsledkami takisto ponúka možnosť úpravy pôvodného príkazu prostredníctvom možnosti „Refine Query“. V systéme elektronických dizertačných prác sú okrem zoznamu vyfiltrovaných publikácií vyobrazené aj základné informácie („About“) o vytvorenej a zdarma poskytovanej službe.

Zobrazenie záznamu v ETD vyhľadávači

Zo zoznamu vyfiltrovaných téz a dizertačných prác je možné zvoliť ľubovoľný záznam. Pri voľbe určitého záznamu systém digitálnej knižnice poskytuje možnosť sťahovania na účely čítania či samotnú tlač. Okrem toho sa zobrazia jeho detailnejšie informácie, medzi ktoré patrí napríklad:

názov tézy či dizertačnej práce (reprezentuje kľúčové slovo „title“),
opis tézy či dizertačnej práce – „Description“ (reprezentuje kľúčové slovo „description“),
zoznam tagov – „Tags“,
rok publikácie – „Date“,
autora tézy či dizertačnej práce – „Creators“ (reprezentuje kľúčové slovo „creator“),
vydavateľ – „Publisher“ (reprezentuje kľúčové slovo „publisher“),
zdroj tézy či dizertačnej práce – „Source Sets“,
jazyk tézy či dizertačnej práce – „Language“ (reprezentuje kľúčové slovo „language“),
typ tézy či dizertačnej práce – „Type“,
formát dizertačnej práce – „Format“.

Nie všetky informácie musia byť zahrnuté u každého záznamu.

Detailné informácie konkrétnej publikácie z ETD vyhľadávača, Zdroj: http://search.ndltd.org/

Zhrnutie

Služba ETD je digitálnou knižnicou, ktorá spája tézy a dizertačné práce z celého sveta do jednej databázy. Umožňuje vyhľadávanie publikácií naprieč rôznymi webovými zdrojmi z viacerých krajín. Tento systém nielen skvalitňuje, ale aj uľahčuje prácu študentom a to nie len z časového hľadiska. V dnešnej dobe, ktorá je ovplyvnená technológiami, digitálnou transformáciou či neustálym pokrokom, je elektronická databáza priam nevyhnutnosťou.

Zdroje:

NDLTD organizácia : http://search.ndltd.org/

NDLTD global ETD Search: http://www.ndltd.org/

Úvod

Úvod

Platforma Mendeley Data

Práce s Mendeley Data

Tvorba nových datasetů

Vyhledávání vědeckých dat

Závěr

Použité zdroje

WorldWideScience.org

Rešeršné možnosti

Syntax a operátory

Výsledky

Zhrnutie

Zoznam zdrojov

Možnosti vyhľadávania

New Search / Advanced Search

Popis štúdie

Výsledky

Využitie

Úvod

Rešeršní možnosti

Příklady použití

Závěr

Zdroje

Struktura

Vyhledávání

Varianty nástroje

Příklady využití

Závěr

Použité zdroje

Úvod

O ArXiv.org

Možnosti vyhledávání

Závěr

Zdroje

Seznam obrázků

Organizácia NDLTD

Hlavné posolstvo organizácie NDLTD

Globálny ETD vyhľadávač

Ako s ním pracovať

Využitie kľúčových slov

Využitie filtrovania

Zobrazenie záznamu v ETD vyhľadávači

Zhrnutie

Zdroje:

VÝBĚR REDAKCE

OBLÍBENÉ PŘÍSPĚVKY

OBLÍBENÉ KATEGORIE