Domů Blog Stránka 17

WolframAlpha: Výpočetní supernástroj pro každého

0

Internetový vyhledávač Google a jemu podobné jsou silnými nástroji při hledání informací a znalostí, ale také nás dokážou zahltit odkazy na nejrůznější zdroje, a to mnohdy i navzdory použití pokročilejších vyhledávacích technik. V případě, že hledáme odpověď na konkrétní otázku či problém jsme buď odkázáni k prohledávání, zkoumání a ověřování validity zdrojů, které nám vyhledávač poskytnul a často dost náročnému studiu daného tématu nebo se naskýtá možnost využít schopností výpočetního nástroje a poskytovatele znalostí WolframAlpha.

WolframAlpha pomocí nových algoritmů (ve více než 1000 doménách) pro jazykovou analýzu, více než 10 bilionů dat a dynamických výpočtů dokáže poskytnout více než 5 tisíc typů vizualizací a tabulkových výstupů [1]. Využitím rozsáhlého úložiště odborných znalostí a algoritmů automaticky zodpovídá otázky, provádí analýzy a vytváří reporty. WolframAlpha stojí za zcela novým přístupem k získávání znalostí a odpovědí – neprohlédává webové stránky, ale využívá dynamické výpočty na rozsáhlé kolekci vestavěných dat, algoritmů a metod [2]. Je dostupný v angličtině a japonštině.

Struktura

Úvodní stránka nástroje vítá uživatele výrazným logem WolframAlpha pod kterým se ihned nachází pole pro zadávání dotazů (viz Obrázek 1). Nástroj je schopný nalézt či vypočítat odpověď na široké množství různorodých problémů. Aby nástroj uživatelům usnadnil formulaci dotazů nachází se pod vyhledávácím polem sekce s předpřipravenými příklady či ukázkami možných problémů a způsoby jejich vyhledávání. Úlohy, otázky nebo problémy jsou roztříděny do čtyř hlavních tematických okruhů, jimiž jsou Matematika, Věda a technologie, Společnost a kultura a dále Každodenní život. V těchto kategoriích můžeme nalézt podkategorie, které se dále dělí až na úroveň konkrétního problému či otázky. Například kliknutím na téma statistiky v sekci matematiky se otevře stránka se čtyřmi podoblastmi, ve kterých jsou již zobrazeny příklady konkrétních úloh (viz Obrázek 2).

 

Obrázek 1 Úvodní stránka nástroje WolframAlpha (zdroj: [3], pořízeno autorem)
Obrázek 2 Podoblasti statistiky v nástroji WolframAlpha (zdroj: [4], pořízeno autorem)

Vyhledávání

Syntaxe vyhledávacích dotazů je uživatelsky velmi přívětivá. Například pro vykreslení funkce stačí před matematický zápis funkce zařadit klíčové slovo „plot“ (viz Obrázek 2). Dalším příkladem jednoduchosti formulace dotazu může být např. výpočet energie fotonu na základě jeho vlnové délky (viz Obrázek 3). WolframAlpha díky algoritmům pro jazykovou analýzu dokáže porozumět přirozenému jazyku, což značně usnadňuje vyhledávání, protože na uživatele není kladena zátěž v podobě nutnosti znát nějaký konkrétní způsob formulace dotazu. V případě, že si uživatel není jistý formulací otázky či problému může využít výše zmíněné vzorové příklady, ke kterým se intuitivně dostane z hlavní stránky přes jednotlivé kategorie. Potěší i prvek rozšířené klávesnice se speciálními znaky, který se nachází bezprostředně pod vyhledávacím polem.

Po zadání dotazu nástroj představí stránku s výsledkem, která se většinou podobá ukázkové stránce níže (viz Obrázek 3). Prvním polem bývá buď „Input information“ nebo „Input interpretation“. Jde o pole, ve kterém nástroj buď rekapituluje informace ze zadaného dotazu nebo vypisuje, jak zadaný dotaz pochopil. Následuje pole „Result“, tedy pole s výsledkem, kde se v případě bezplatné verze nachází pouze stručný výsledek zadaného dotazu. V případě placených variant WolframAlpha nabídne i postup řešení. Další zobrazovaná pole se liší v závislosti na vyhledávané otázce či úloze. Jednou z dalších výhod placených variant je možnost stažení stránky s výsledkem (tlačítko „Download Page“ na konci stránky).Zpoplatněná verze nástroje umožnuje i nahrání zadání úlohy či problému ve formě tabulky, obrázku nebo v některém z mnoha dalších podporovaných typů souborů včetně audio souborů a formátů pro 3D modelování. Tento fakt koresponduje s jedním z cílů WA jímž je snaha o dosažení zcela volného formátu vstupu [2].

Zpoplatněná verze nástroje umožnuje i nahrání zadání úlohy či problému ve formě tabulky, obrázku nebo v některém z mnoha dalších podporovaných typů souborů včetně audio souborů a formátů pro 3D modelování. Tento fakt koresponduje s jedním z cílů WA jímž je snaha o dosažení zcela volného formátu vstupu [2].

Obrázek 3 Ukázka dotazu vykreslení funkce (zdroj: [5], pořízeno autorem)
Obrázek 4 Ukázka dotazu a řešení výpočtu energie fotonu na základě jeho vlnové délky (zdroj: [6], pořízeno autorem)

Varianty nástroje

WolframAlpha je dostupný ve třech verzích, a to bezplatné verzi, verzi Pro a Pro Premium. Výše poplatku za verzi Pro a Pro Premium se liší podle kategorie, do které uživatel spadá (For Everyone, For Students, For Educators). Oproti bezplatné verzi získá uživatel verze Pro možnost nahrávat vlastní data a obrázky pro analýzy, přizpůsobené a interaktivní vizualizace pro prezentace, možnost stažení dat, více výpočetního času a podrobně popsané řešení úloh.

Příklady využití

Záběr témat otázek, problémů nebo úloh které je nástroj schopný vyřešit je opravdu široký, a tak i možnosti využití nástroje jsou četné. Několik možností využití je vyobrazeno níže (viz Obrázek 4). Zejména významná je možnost využití nástroje ve škole či při samostudiu, jelikož WolframAlpha není jen výpočetní a vyhledávací nástroj, ale i učební platforma, neboť k odpovědím na otázky nabízí i postup řešení, který uživatele dovede krok po kroku ke kýženému výsledku. V rámci jednoho ze svých produktů (Wolfram Problem Generator) pak dokáže pro uživatele vytvářet i cvičné úlohy z matematiky a statistiky.

Obrázek 5 Příklady využití nástroje WolframAlpha (zdroj: [1], pořízeno autorem)

Závěr

Závěrem je nutné vyzdvihnout jedinečnost tohoto nástroje. WolframAlpha nabízí jak velmi široké tak i hluboké odborné znalosti komukoli, kdykoli a kdekoli [2]. Z uživatelského hlediska je WolframAlpha velice zdařilý. Dokáže porozumět přirozenému jazyku a v případě nejistoty s formulací dotazu dokáže uživateli napovědět pomocí předpřipravených příkladů. Pokročilejší funkce jsou za poplatek, ale ceny jsou ve srovnání s rozšířenou funkcionalitou rozumné. Kromě webové aplikace je dostupná i mobilní verze. Zatím je nástroj dostupný pouze v angličtině a japonštině, což může být pro některé uživatele limitující. Celkově je však nástroj velmi přínosný a jeho použití snadné.

 

Použité zdroje

[1]    WolframAlpha. Wolfram|Alpha Tour [online]. 2021. Dostupné z: https://www.wolframalpha.com/tour/

[2]    WolframAlpha. About Wolfram|Alpha: Making the World’s Knowledge Computable [online]. 2021. Dostupné z: https://www.wolframalpha.com/about

[3]    WolframAlpha. Wolfram|Alpha: Computational Intelligence [online]. 2021. Dostupné z: https://www.wolframalpha.com

[4]    WolframAlpha. Wolfram|Alpha Examples: Statistics [online]. 2021. Dostupné z: https://www.wolframalpha.com/examples/mathematics/statistics/

[5]    WolframAlpha. plot x^3 – 6x^2 + 4x + 12 – Wolfram|Alpha [online]. 2021. Dostupné z: https://www.wolframalpha.com/input/?i=plot+x%5E3+-+6x%5E2+%2B+4x+%2B+12&lk=3

[6]    WolframAlpha. photon energy 435nm – Wolfram|Alpha [online]. 2021. Dostupné z: https://www.wolframalpha.com/input/?i=photon+energy+435nm&lk=3

ArXiv.org – inspirace nejen v oblasti Data Science

0

Úvod

Asi každý narazil poslední dobou minimálně na jeden z následujících výrazů: data science, machine learning, quantitative finance… a mnoho dalších příbuzných tzv. „buzzwordů.“ Pojďme se na chvíli vžít do role takového „datového vědce,“ jenž se snaží vyřešit problém, se kterým se dříve nesetkal a neví, odkud začít. Google vyhledávač po zadání příslušných výrazů vrací zpět nejen jejich definice, ale i všemožné instruktáže, amatérské lekce, jejichž kvalita je přinejmenším diskutabilní. Internetový vyhledávač nenabízí odpověď, jelikož se už jedná o poměrně specifické téma a nikdo není schopen pomoci. I v takovém případě se vyplatí sáhnout po nástroji jménem ArXiv.

O ArXiv.org

ArXiv je veřejné uložiště akademických článků a prací v oborech fyziky, matematiky, informatiky (computer science), kvantitativní biologie, pokročilých kvantitativních metod ve finančnictví, elektroinženýrství, ekonomie a dalších příbuzných odvětví. Toto uložiště je ve vlastnictví Cornell University a je financováno komunitně – spoléhá na paušální příspěvky přidružených organizací, jež se k podpoře upisují na pět let.

Důležité je zmínit, že články na ArXivu nepodléhají peer reviews, při nahrávání procházejí pouze kontrolou administrátorského týmu ArXivu složeného z dobrovolníků z řad expertů v příslušných odvětvích. Obsah článků je při schválení nahráván tak, jak je. Proto je třeba se mít na pozoru, neboť se může stát, že publikace nebyla hodnocena jinými vědci či profesionály, kterými by mohla být z nějakého důvodu odmítnuta – například kvůli nedostatkům či nesprávnostem. Ve většině případů se totiž jedná o tzv. preprints, které tyto hodnocení teprve čekají. Pro zveřejnění práce na ArXivu je nutná registrace, pro jejich čtení nikoliv.

ArXiv je populární zejména v oboru statistiky a strojového učení, které patří k nejdynamičtěji se rozvíjejícím mezi výše zmíněnými obory. Pojďme zjistit, jaké jsou tedy jeho největší přednosti, a jaké má naopak nedostatky.

Možnosti vyhledávání

Vraťme se zpět k příkladu s datovým vědcem. Ten řeší specifický problém týkající se klasifikace textových dat – jeho data jsou popsána jen z části, ale on potřebuje mít tyto popisky kompletní. Při vyhledávání na Google se dočetl, že by mu mohla pomoci jedna konkrétní metoda, k níž ale nemůže dohledat žádný postup. Zkusí tedy vyhledat řešení na ArXiv.org.

Obrázek 1: Základní vyhledávání na ArXiv.org. [zdroj obrázku: autor]

Základní vyhledávání na ArXivu nám umožňuje hledat klíčová slova ve všech polích, jež záznamy obsahují, nebo v jednotlivých polích jako například titul, autor či abstrakt. Dostupné je pochopitelně mimo jiné i vyhledávání pomocí DOI, pokud už na začátku víme konkrétně, jaký článek hledáme. Pokud nás ovšem ani jedna možnost neuspokojuje, můžeme zvolit funkci pokročilého vyhledávání.

Obrázek 2: Možnosti pokročilého vyhledávání. [zdroj obrázku: autor]

V rámci pokročilého vyhledávání už můžeme volit konkrétní vědecké obory, pomocí kterých chceme výsledky filtrovat. Pokud tedy vezmeme v úvahu případ našeho vědce, upřesníme vyhledávání na obory Computer Science a Statistics. Těchto možností můžeme zvolit více, neboť u většiny článků se obory prolínají a v rámci indexace jsou u článku zmíněny všechny „dotčené“ obory. Další možností pokročilého vyhledávání je upřesnění data, kdy měl hledaný článek vyjít. Uvést můžeme konkrétní datum, měsíc, celý rok, nebo i časové rozpětí definované dvěma daty.

Pokud nehledáme nic konkrétního a na ArXiv jsme zabloudili v rámci studia a objevování nových postupů, čemuž se v některých moderních technologických společnostech věnují celé dny, můžeme si na úvodní stránce jednoduše zvolit požadovaný obor a zobrazí se nám články z posledních pěti dní, kdy došlo alespoň k jednomu nahrání článku. Zatímco u strojového učení se tak počet výsledků k 30. lednu 2021 rovná číslu 92, heslo „Computational finance“ nabízí pouhých 7 článků:

Obrázek 3: Výsledky hledání pomocí oborů. [zdroj obrázku: autor]

Vyhledáváme-li pomocí textového vyhledávání, ať už základního či pokročilého, výsledky našeho dotazu pro každý odpovídající článek zobrazují číslo článku v databázi ArXivu, jeho název, autora či autory, abstrakt (tuto možnost lze vypnout), informaci o datu nahrání a případně doplňující informace – zpravidla zmínky o schválení článku pro účely prezentací na konferencích apod.

Nalezené výsledky můžeme vyfiltrovat podle data oznámení článku, data schválení a nahrání na ArXiv či relevance s ohledem na námi zadaná klíčová slova. Bohužel nelze vyhledávat dle popularity či jiného měřítka oblíbenosti mezi experty v odvětví, což vylučuje možnost hledat řešení mezi těmi nejpopulárnějšími, a tedy dost možná nejpoužívanějšími. To je jeden z nedostatků vyhledávání na ArXivu, ačkoliv se může stát, že na ArXiv už přijdeme z jiné komunitní webové stránky, jež konkrétní hledanou práci zmiňuje. 

Obrázek 4: Výsledek vyhledávání. [zdroj obrázku: autor]

Každý záznam má také uveden zkratku kategorie či oboru, ke kterému patří. Na obrázku je to cs.CL, což je zkratka pro „Computation and Language,“ následovaný zkratkou cs.LG, jež odpovídá oboru „Machine Learning.“ Filtrování je, jak bylo zmíněno dříve, poměrně omezené, a proto je dobré již v samém počátku dobře definovat dotaz, pokud možno, v rámci pokročilého vyhledávání. V opačném případě nezbývá než se probrat stovkami a stovkami článků odpovídajícím našim kritériím. V ilustračním případě je to 713 výsledků, jelikož dotaz nebyl zformulován dostatečně konkrétně a nebyly využity pokročilé možnosti vyhledávání.

Pokud tedy nalezneme článek a dle abstraktu se nám jeví jako potenciální pomoc pro náš problém, přejdeme na jeho stránku, jejíž podoba je následující:

Obrázek 5: Stránka konkrétního záznamu. [zdroj obrázku: autor]

Kromě již známých informací, jež jsme měli k dispozici v nadhledu, máme možnost článek stáhnout ve formátu PDF. Je rovněž možné zvolit jiný formát, pokud je nějaký další k dispozici. Rozhraní nabízí i možnost dalšího vyhledávání příbuzných prací nacházejících se ve stejných kategoriích. Zajímavými funkcionalitami jsou možnost exportu citace ve formátu pro BibTeX (software pro uspořádání referencí) a tzv. Article Trackbacks – zpětné vyhledávání webových stránek, na kterých je daný článek řádně ocitován. Pro záznam z obrázku výše je nalezeno 5 blogů, v nichž byl zmíněn:

Obrázek 6: Trackbacks pro daný článek. [zdroj obrázku: autor]

Jelikož je na ArXivu možné vyhledávat i podle autorů, každá stránka záznamu nabízí okamžité vyhledávání dalších autorových prací. Registrovaným uživatelům je rovněž k dispozici emailová adresa autora. Články je také možné přímo v rámci rozhraní uložit jako záložky. Momentálně ArXiv nabízí takovou funkci pro BibSonomy, Reddit, Mendeley a ScienceWISE. API posílá požadavek přímo do konkrétní aplikace prostřednictvím webového rozhraní a přesměrovává rovnou na stránku daného software v novém okně.

Velice užitečnou je přítomnost dalších specifických nástrojů, jež uložiště ArXivu nabízí. V první řadě je potřeba zmínit bibliografické nástroje využívající data třetích stran (Semantic Scholar) pro vyhledávání referencí a citací týkajících se vybraného článku. Výsledky, jež vrací nástroj Bibliographic Tools, je možné třídit podle jejich vlivu, autora, titulu či data zveřejnění a jsou zobrazeny ve dvou přehledných sloupcích. Tato funkcionalita do určité míry nahrazuje možnost filtrování podle popularity, neboť jejím prostřednictvím si lze nepřímo ověřit, nakolik je práce v odvětví uznávána, jaký je její dopad na daný obor a kolik dalších výzkumů využívá její poznatky pro své účely.

Obrázek 7: Bibliografické nástroje. [zdroj obrázku: autor]

Kromě bibliografických nástrojů je ale k dispozici ještě jeden, jež dělá ArXiv natolik oblíbeným v řadách programátorů a vývojářů. Pokud hledáme řešení na konkrétní problém, jehož výstupem má být kód v konkrétním programovacím jazyce aplikující nalezené řešení, nelze se spoléhat pouze na samostatné články na ArXivu. Ty totiž kód neobsahují, nebo obsahují, ale jedná se pouze o pseudokód, náznak syntaxe, jež replikuje logiku daného řešení, je třeba ji nicméně ještě převést na syntaxi jazyka, v němž pracujeme.

Z tohoto důvodu existuje nástroj Code. Autoři článků mají možnost ke svým zveřejňovaným pracím přidat samostatně i kód, prostřednictvím kterého se dobrali ke zveřejňovaným výsledkům a úspěchům. Nelze se spoléhat na to, že na takového autora narazíme. Naštěstí zde existuje chytré spojení se stránkou Paperswithcode.com. Na té vývojáři z celého světa publikují svůj kód a díky citování článků, z nichž pochází inspirace jejich logického řešení, dokáže ArXiv každý kód propojený s daným článkem nabídnout uživateli k nahlédnutí.

Obrázek 8: Propojení s Paperswithcode. [zdroj obrázku: autor]

Závěr

ArXiv.org je online uložiště akademických článků, jež nebyly nutně ohodnoceny v rámci akademické obce. Obsahuje články z různých technických oborů příbuzných hlavně s fyzikou, matematikou a statistikou a je navržen tak, aby umožnil široké veřejnosti přístup k dokumentům o vědecké činnosti a poznatkům z ní vyplývajících. Počet článků uložených v databázi ArXivu se pomalu blíží ke dvěma milionům. Stránka nabízí chytré funkcionality, jež ji činí oblíbenou zejména mezi vývojáři strojového učení díky možnosti dohledání relevantního kódu, ale tematicky pokrývá daleko širší spektrum oborů.

 

Zdroje

[1] arXiv.org e-Print archive [online]. [cit. 30.1.2020]. Dostupné z: https://www.arxiv.org

[2] paperswithcode.com – The latest in Machine Learning [online]. [cit. 30.1.2020]. Dostupné z: https://www.paperswithcode.com

 

Seznam obrázků

Obrázek 1: Základní vyhledávání. [zdroj obrázku: autor]

Obrázek 2: Možnosti pokročilého vyhledávání. [zdroj obrázku: autor]

Obrázek 3: Výsledky hledání pomocí oborů. [zdroj obrázku: autor]

Obrázek 4: Výsledek vyhledávání. [zdroj obrázku: autor]

Obrázek 5: Stránka konkrétního záznamu. [zdroj obrázku: autor]

Obrázek 6: Trackbacks pro daný článek. [zdroj obrázku: autor]

Obrázek 7: Bibliografické nástroje. [zdroj obrázku: autor]

Obrázek 8: Propojení s Paperswithcode. [zdroj obrázku: autor]

Tajemství bibliografických záznamů: Cenné informace i pro firmy

1

Tento článek se věnuje tématu bibliografických záznamů coby jednomu z nejdůležitějších sekundárních informačních pramenů. Díky nim můžeme dohledávat primární dokument (kniha, článek, film, hudebnina apod) resp. jejich existenci s určením místa, kde je můžete najít. Zároveň znamenají i unikátní zdroj pro podniky, firmy a organizace.

NDLTD – Networked Digital Library of Theses and Dissertations

0

Jedným z najvýraznejších míľnikov v živote človeka je ukončenie vysokoškolského štúdia a s ním aj sladkého študentského života. Po približne 18tich rokoch strávených v školských laviciach – u niekoho viac, u niekoho menej – je človek pripravený vydať sa na svoju pracovnú cestu. Obdobie, na ktoré sa väčšina ľudskej populácie nevie dočkať. Predtým však každého čaká posledný rok najväčších nočných môr, medzi ktoré patrí nielen absolvovanie najdôležitejších štátnych skúšok, ale aj tvorba a obhajoba záverečnej práce. Výber vhodnej témy a úvodná rešerš súčasného stavu sú stavebnými kameňmi úspechu. Ako však vybrať čo najrelevantnejšie publikácie a čo najkvalitnejšie analyzovať aktuálnu situáciu, keď má človek k dispozícii obrovské množstvo zdrojov, z ktorých môže vyhľadávať a zároveň obmedzený čas?Organizácia NDLTD na to našťastie našla odpoveď.

Organizácia NDLTD

Existuje nespočetné množstvo kvalitne spracovaných výskumov v rámci celého sveta, ku ktorým sa študent po prejdení viacerých webových stránok či portálov ani nemusí dostať, pretože sú uložené len v archívoch konkrétnej vysokej školy alebo papierovej forme. V roku 1987 bol koncept elektronických dizertačných prác „ETD“ prvýkrát prediskutovaný na stretnutí v Michigane. Boli skúmané problémy spojené s produkciou, archiváciou a prístupom k dizertačným prácam. Začiatkom 90tych rokov projekt „Scholarly Communications“ vyvinul postupy a systémy na spracovanie, archiváciu a sprístupnenie verejných prác Technickej Univerzity vo Virgínii verejnosti. Záujem o elektronické publikácie sa rozšíril a tým projekt získal väčšiu podporu.

Výsledkom niekoľko ročnej práce bol v roku 1996 softvér, ETD databáza, voľne dostupný inštitúciám po celom svete. Vznikla organizácia „The National Digital Library of Theses and Dissertations“ („NDLTD“), ktorá sa premenovala na „The Networked Digital Library of Theses and Dissertations“ po tom, čo sa jej obsah stal medzinárodný. Svoju skratku NDLTD si však ponechala. Úsilie o vytvorenie národnej digitálnej knižnice tak poskytlo koncepčný rámec pre to, čo sa stalo sieťovou digitálnou knižnicou téz a dizertačných prác. Dnes je NDLTD –  The Networked Digital Library of Theses and Dissertations nezisková charitatívna organizácia, ktorej členmi sú stovky univerzít po celom svete. Väčšina inštitucionálnych členov pochádza z USA či Kanady. Z Európy tam patrí len Francúzsko a Nemecko. Čo sa týka individuálnych členov majú svoje zastúpenie európske krajiny Španielsko a Francúzsko.

Hlavné posolstvo organizácie NDLTD

Hlavnou úlohou NDLTD organizácie je podpora prijímania, tvorby, používania, šírenia a uchovávania elektronických dizertačných prác. Jej cieľom je posilniť zdieľanie vedomostí po celom svete prostredníctvom elektronického publikovania a otvoreného prístupu. Organizácia sa snaží nielen povzbudiť vysokoškolské inštitúcie k tomu, aby využívali zdroje poskytované prostredníctvom NDLTD a zúčastňovali sa na jej činnostiach, ale aj k vývoju vlastných programov ETD slúžiacim k zhromažďovaniu záverečných prác. Organizácia poskytuje takisto ETD Fórum určené pre všetkých, ktorý majú záujem o propagáciu elektronických prác. Toto fórum je otvorené pre všetkých to znamená, že do diskusie sa môže zapojiť ktokoľvek bez ohľadu na členstvo. Všetky príspevky sú voľne dostupné.

Témy obsiahnuté v NDLTD
Témy obsiahnuté v NDLTD, Zdroj: http://www.ndltd.org/

Vytvorený softvér je vhodný pre študentov, učiteľov, knihovníkov a správcov univerzít. Poskytuje obsah zameraný na:

  1. elektronické tézy a dizertačné práce „ETD“ (funkcie nájsť, vytvoriť a uchovať),
  2. najnovšie správy a výskumy v komunite,
  3. inštitucionálne či individuálne členstvo,
  4. rôzne právne a technické otázky.
Zoznam webových zdrojov záverečných prác
Zoznam webových zdrojov záverečných prác, Zdroj: http://www.ndltd.org/resources/find-etds

Možnosť nájsť elektronické tézy a dizertačné práce, ktorá je obsiahnutá v tomto systéme, je jednou z najpodstatnejších čo sa týka globálneho vyhľadávania uľahčujúceho prácu študentom. Jej obsah pozostáva z dvoch základných častí:

  • webového linku na globálny ETD vyhľadávač,
  • zoznamu webových zdrojov rôznych krajín, na ktorých je možné vyhľadávať záverečné práce konkrétnej krajiny
    • Zoznam je možné triediť podľa krajiny, názvu zdroja či opisu.
    • Jeden z najvyužívanejších v rámci študentov Českej Republiky „Google Scholar“ je takisto zahrnutý.
 

Elektronické publikácie sú uložené v archíve „NDLTD Union Archive“, ktorý zhromažďuje záznamy metadát pre ETD z celého sveta a agreguje ich do jedného súboru, ktorý môžu poskytovatelia služby následne využiť. Tento archív obsahuje záznamy o miliónoch ETD, pričom jednotlivé ETD môže poskytovateľ vyhľadať prostredníctvom globálneho ETD vyhľadávača

Globálny ETD vyhľadávač

Globálny ETD vyhľadávač organizácie NDLTD
Globálny ETD vyhľadávač organizácie NDLTD, Zdroj: http://search.ndltd.org/

Globálny ETD vyhľadávač je voľne dostupná databáza, ktorá prehľadáva spomedzi vyše 4 miliónov elektronických publikácií. Webové prostredie je veľmi jednoduché a vyhľadávanie funguje na podobnom princípe ako Google vyhľadávanie. Archív podporuje rozšírené vyhľadávanie a používanie Boolean znakov. Takisto je možné využívať nasledujúce kľúčové slová:

  • Subject (predmetom publikácie je zadaný výraz – obsiahnutý napríklad v tagu alebo názvu),
  • Title (názov publikácie obsahuje zadaný výraz),
  • Creator (autor publikácie),
  • Description (popis publikácie obsahuje zadaný výraz),
  • Publisher (vydavateľ publikácie – napríklad meno univerzity),
  • Language (jazyk, v ktorom je publikácia napísaná),
  • AND (logický znak „a“),
  • NOT (logický znak reprezentujúci negáciu).
Kľúčové slová rozšíreného ETD vyhľadávania
Kľúčové slová rozšíreného ETD vyhľadávania, Zdroj: http://search.ndltd.org/

Ako s ním pracovať

Kľúčové slová sú v podobe tipov zahrnuté aj na úvodnej stránke po rozkliknutí možnosti „advanced search tips“. Na vyhľadanie diplomových prác, ktoré sa zaoberali Competitive Intelligence, bol využítý výraz Competitive Intelligence, ktorý zobrazil 195578 výsledkov. Pri počte výsledkov je možné zaznamenať aj časové trvanie načítania výsledkov. Upresnenie vyhľadávania je možné dvomi spôsobmi, a to prostredníctvom:

  • kľúčového slova,
  • filtrovania.
Využitie kľúčových slov

Prvý zo spôsobov, použitie kľúčových slov, je z časti spomenutý vyššie, preto si povieme len konkrétne rady, na ktoré je dobré nezabudnúť.

Využívanie úvodzoviek vo výrazoch

Pre špecifikáciu  vyhľadania diplomových prác, ktoré sa zaoberali – „Competitive Intelligence“ – táto digitálna knižnica zobrazí už len 420 výsledkov.

Využívanie kľúčových slov

Pre špecifikáciu  vyhľadania diplomových prác, ktoré sa zaoberali priamo témou „Competitive Intelligence“ bol využitý nasledujúci príkaz – title:“Competitive Intelligence“ – ktorý vyberie práce, v ktorých je spomínaná téma zahrnutá v samotnom názve. Vyhľadávač zobrazí už len 180 výsledkov.

Využívanie interpunkčných znamienok

Spomínaný systém digitálnych knižníc nerozlišuje veľkosť písmen v zadaných príkazoch avšak rozlišuje použitie interpunkčných znamienok (mäkčeň, dĺžeň). V prípade špecifikácie univerzity VŠE prostredníctvom príkazu – title:“competitive intelligence“ AND language:“czech“ AND publisher:“ Vysoká škola ekonomická v Praze“ – databáza zobrazí 25 výsledkov, kdežto pri použití rovnakého príkazu so zmenou – publisher:“ Vysoka skola ekonomicka v Praze“ – databáza nezobrazí žiaden výsledok.

Využívanie logických operátorov

Pri písaní príkazov je nutné využívať logický znak „AND“, pretože na rozdiel od Google vyhľadaváča, medzera medzi jednotlivými kľúčovými slovami reprezentuje logický operátor „OR“.  Pri špecifikácii príkazu – title:“competitive intelligence“ language:“czech“ publisher:“ Vysoká škola ekonomická v Praze“ – databáza zobrazí až 129 872 výsledkov.

Využitie filtrovania

Druhý spôsob, ktorým je možné bližšie špecifikovať výsledky vyhľadávania, je využitie samotného filtrovania pri zozname výsledkov. Tento systém digitálnych knižníc umožňuje prehliadanie a vyhľadávanie na základe nasledujúcich informácií:

  1. inštitúcie (Source),
  2. roku publikácie (Publication year),
  3. jazyka (Language),
  4. tagu (Tagged with).
Možnosti filtrovania výsledkov ETD vyhľadávania
Možnosti filtrovania výsledkov ETD vyhľadávania, Zdroj: http://search.ndltd.org/

Toto filtrovanie berie do úvahy pôvodný príkaz, ktorý bol použitý. Zobrazená stránka s výsledkami takisto ponúka možnosť úpravy pôvodného príkazu prostredníctvom možnosti „Refine Query“. V systéme elektronických dizertačných prác sú okrem zoznamu vyfiltrovaných publikácií vyobrazené aj základné informácie („About“) o vytvorenej a zdarma poskytovanej službe.

Zobrazenie záznamu v ETD vyhľadávači

Zo zoznamu vyfiltrovaných téz a dizertačných prác je možné zvoliť ľubovoľný záznam. Pri voľbe určitého záznamu systém digitálnej knižnice poskytuje možnosť sťahovania na účely čítania či samotnú tlač. Okrem toho sa zobrazia jeho detailnejšie informácie, medzi ktoré patrí napríklad:

  • názov tézy či dizertačnej práce (reprezentuje kľúčové slovo „title“),
  • opis tézy či dizertačnej práce – „Description“ (reprezentuje kľúčové slovo „description“),
  • zoznam tagov – „Tags“,
  • rok publikácie – „Date“,
  • autora tézy či dizertačnej práce – „Creators“ (reprezentuje kľúčové slovo „creator“),
  • vydavateľ – „Publisher“ (reprezentuje kľúčové slovo „publisher“),
  • zdroj tézy či dizertačnej práce – „Source Sets“,
  • jazyk tézy či dizertačnej práce – „Language“ (reprezentuje kľúčové slovo „language“),
  • typ tézy či dizertačnej práce – „Type“,
  • formát dizertačnej práce – „Format“.

Nie všetky informácie musia byť zahrnuté u každého záznamu.

Detailné informácie konkrétnej publikácie z ETD vyhľadávača
Detailné informácie konkrétnej publikácie z ETD vyhľadávača, Zdroj: http://search.ndltd.org/

Zhrnutie

Služba ETD je digitálnou knižnicou, ktorá spája tézy a dizertačné práce z celého sveta do jednej databázy. Umožňuje vyhľadávanie publikácií naprieč rôznymi webovými zdrojmi z viacerých krajín. Tento systém nielen skvalitňuje, ale aj uľahčuje prácu študentom a to nie len z časového hľadiska. V dnešnej dobe, ktorá je ovplyvnená technológiami, digitálnou transformáciou či neustálym pokrokom, je elektronická databáza priam nevyhnutnosťou.

 

Zdroje:

NDLTD organizácia : http://search.ndltd.org/

NDLTD global ETD Search: http://www.ndltd.org/

 

CiteSeerˣ: zdroj informatických a počítačových věd

0

Úvod

Competitive Intelligence, neboli konkurenční zpravodajství je proces zabývající se průběžným získáváním informací o konkurenci. Sledujeme zde zájmy právních a fyzických subjektů a pomocí získaných a analyzovaných dat se pokoušíme predikovat změny v konkurenčním prostředí. CI je jednou z disciplín Business Intelligence, avšak se více se může podobat investigativní žurnalistice. Všechny nabyté analýzy na základě získaných dat podporují proces rozhodování napříč podniky. Pro tyto cíle Competitive Intelligence slouží různé nástroje, mnou analyzovaný nástroj a knihovna je CiteSeerˣ.

CiteSeerx

Vědecká digitální knihovna a vyhledávač zvaný CiteSeerˣ byl vytvořen roku 1997 na půdě NEC Research Institute, Princetonu a New Jersey autory Steve Lawrence, Lee Giles a Kurta Bollacker. Tento veřejný vyhledávač a digitální knihovna pro vědecké a akademické práce je soustředěna primárně na počítačovou a informatickou vědu. CiteSeerˣ poskytuje svým uživatelům zdroje jako jsou data, metadata, algoritmy, techniky a aplikace pro propagaci ostatních digitálních knihoven. 

Tento nástroj je považován za předchůdce nástrojů jako Google Scholar či Microsoft Academic Search. Mluvíme zde o první digitální knihovně a vyhledávači, který poskytoval jako jediný automatizovanou indexaci citací a také citační propojení pomocí autonomního indexování citací. Dalším přínosem celého vývoje služby je nalezení nových algoritmů pro indexaci článku ve formátu PDF a PostScript. K roku 2010 bylo v rámci knihovny 6 mil. dokumentů se skoro 6 mil. autory a 120 mil. citací (CybermetricsLab, 2010).

CiteSeerˣ
Domovská stránka CiteSeerˣ (citeseerx.ist.psu.edu)

Hlavní funkcionality nástroje a knihovny CiteSeerˣ

Jak již bylo zmíněno výše, vyhledávač CiteSeerˣ využívá autonomní indexaci citací pro automatickou extrakci citací a tvorbu citačních indexů, které mohou být využity pro vyhledávání literatury a její ohodnocení. Pokud porovnáme tradiční citační indexy s tímto autonomním přístupem, je vidět benefit ve snížení nákladů, dosažení vyšší efektivity a včasnosti. Automatická extrakce metadat zajišťuje pro nástroj získání například autora, titulek a další metadata k analýze a procesu vyhledávání. Metadata jsou získávány od všech indexovaných článků.

Co se týče citací konkrétně, tak nástroj CiteSeerˣ například zpracovává citační statistiky a doporučuje související dokumenty pro všechny články citované v databázi, nejen pro ty indexované. Ukazuje kontext citací ke konkrétnímu článku a tím umožňuje výzkumnému pracovníkovi rychle a snadno zjistit, jaké reference a komentáře k danému článku vedou ostatní kolegové. 

Jako první tento nástroj poskytl procházení dokumentů pomocí citačních odkazů, které se generují automaticky. Ohledně nových přidaných citací k sledovaným příspěvkům se uživatelům zobrazují informační notifikace. U tohoto vyhledávače probíhá fulltextové indexování skrze plné texty všech citací a abstraktů.

Knihovna CiteSeerˣ je pravidelně aktualizována na základě údajů od uživatelů a celkového pravidelného procházení. Jsou zde shromažďovány výzkumné práce z veřejných webů a také přijímány příspěvky prostřednictvím systému pro předkládání, tzv. submission systému. Pomocí citací jsou vyhledávány související dokumenty a pro každý tento dokument zobrazována a pravidelně aktualizována bibliografie. Registrovaní uživatelé mohou pomocí funkce MyCiteSeerˣ tvořit vlastní sbírky dokumentů, vlastní soukromé bibliografie či získávat RSS notifikace.

Práce s CiteSeerX

Při procesu vyhledávání na hlavní stránce knihovny je v poli možné vyhledávat za pomocí booleovských operátorů (AND, OR, NOT atd.), proximitních operátorů (NEAR/5, NEAR/0 atd.) či frázové shoda. Uživatelsky přívětivá je forma pokročilého vyhledávání, kde lze snadno vyhledávat jednotlivá metadata bez použití operátorů. Hodnoty v oddělených polí budou zde propojeny operátorem AND. Pokročilé vyhledávání umožňuje uživateli zadání kritérií jako minimální počet citací, rozsah pro rok vydání či zahrnutí citace.

Advanced search
Pokročilé vyhledávání CiteSeerˣ (citeseerx.ist.psu.edu )

Závěr

Práce na reportu o nástroji CiteSeerˣ mě zajisté pomohla naučit se s tímto historicky nejstarším nástrojem a zamyslet se nad komplexností samého procesu vyhledávání. Proces, který jako my studenti využíváme převážně pro akademické práce, zatímco pro lidi ve sférách ku příkladů vědeckých je vyhledávání a analýza informací denní rutinou.  Proto je vhodné vědět o všech možnostech efektivního vyhledávání. Podstatný krok může být již vybrání vhodného nástroje. Pokud by například někdo mimo informační technologie chtěl vyhledávat v knihovně CiteSeerˣ medicínské informace, jednalo by se o ztrátu času. Naopak pro informatiky by byla ztráta času vyhledávat informace v PudMed, který se zaměřuje na biomedicínskou odbornou literaturu.

Jako další důležitý bod vnímám zamýšlení nad aktuálností dat ve zdroji a o aktuálnosti zdroje jako takového. Pro své analýzy bych preferovala například aktuálnější Google Scholar, jelikož služba CiteSeerˣ není v této době nijak rozvíjena.

Použité zdroje

re3data.org zlepšuje přístup k vědeckým datům

0

Úvod

V dnešní hektické době je čím dál obtížnější orientovat se ve velkém množství informací, které se na nás valí ze všech stran. I díky rozvoji internetu je dnes informací tolik, že je velmi obtížné všechny zpracovávat a třídit. Pojmout všechny informace je také časově velmi náročné, zvláště, pokud pracujeme s informacemi, se kterými přicházíme do styku poprvé.

Práci s hledáním a zpracováním informací nám v dnešní době ulehčuje velké množství informačních zdrojů, ať už tuzemských nebo zahraničních.

Informační zdroj re3data

The Registry of Research Data Repositories (re3data.org) je globální rejstřík, který obsahuje uložená vědecká data pocházející z nejrůznějších akademických oborů. re3data pomáhá vědeckým pracovníkům, nakladatelstvím a vzdělávacím institucím najít repozitáře pro permanentní uložení dat a přístup k nim.

Cílem re3data je podporovat kulturu sdílení a zlepšit přístup k vědeckým datům.

První verze re3data byla spuštěna koncem roku 2012. Za jeho vznikem stála Berlínská škola knihovnické a informační vědy (Berlin School of Library and Information Science), Německé výzkumné středisko pro geologické vědy (GFZ German Research Centre for Geosciences) a Knihovna technologického institutu v Karlsruhe (Karlsruhe Institute of Technology). Projekt re3data byl financován německou výzkumnou nadací.

re3data nabízí podrobné informace o více než 2 000 úložištích vědeckých dat.

Vyhledávání repozitářů v re3data.org

Jednou z možností, jak hledat repozitáře v nástroji re3data, je zadat náš požadavek přímo do vyhledávacího pole na úvodní stránce a spustit vyhledávání. Druhou možností je hledat repozitář podle vybraných kritérií. Jak můžeme vidět na obrázku 1, po kliknutí na možnost „Browse“ v horní části obrazovky získáme možnosti hledání repozitářů buď podle předmětu, nebo podle typu obsahu, nebo dle země původu.

Obrázek 1
Obrázek 1: Úvodní stránka re3data.org a možnosti hledání. [zdroj obrázku: autor]

Vybereme-li možnost hledání podle předmětu (Browse by subject), můžeme repozitáře hledat podle předmětů jako jsou humanitní a sociální vědy, přírodní vědy nebo technické vědy. Každý předmět (subject) ukrývá několik podkategorií, které uživateli umožňují přesněji specifikovat, který typ repozitáře hledá. Příklad vyhledávání podle předmětu můžeme vidět na obrázku 2.

Obrázek 2
Obrázek 2: Vyhledávání v repozitářích podle předmětu. [zdroj obrázku: autor]

Druhou možností je vyhledávání podle typu obsahu (Browse by content type). Jedná se o způsob, který umožňuje vyhledávat repozitáře podle typu obsahu. Tento způsob vyhledávání nabízí hledání obrázků, nezpracovaných dat, audiovizuálních dat, konfiguračních dat, softwarových aplikací zdrojového kódu, grafiky nebo prostého text.

Třetí možností je vyhledávání repozitářů podle zemí, jak můžeme vidět na obrázku 3. Nástroj umožňuje uživateli vybrat si zemi, jejíž repozitáře chce zobrazit. Mapa navíc uživateli nabízí přehled o počtu repozitářů provozovaných jednotlivými zeměmi. V modře označených zemích neposkytují instituce žádné repozitáře.

Obrázek 3
Obrázek 3: Vyhledávání v repozitářích podle země. [zdroj obrázku: autor]

Po kliknutí na některou ze zemí se uživateli otevře stránka se všemi repozitáři, které jsou provozovány institucemi dané země. Na obrázku 4 jsou zobrazeny repozitáře provozované institucemi České republiky. U každého repozitáře jsou uvedeny následující informace:

  • Subject(s): předměty, kterých se daný repozitář týká. U prvního příkladu (Benchmark Energy & Geometry Database) máme uvedeny předměty jako: Biochemistry (biochemie), Organic Molecular Chemistry (organická molekulární chemie) atd.
  • Content type(s): zde jsou uvedeny typy obsahů, které repozitář obsahuje.
  • Country: uvádí, ze které země repozitář pochází.

Stejný repozitář, jako je například „Benchmark Energy & Geometry Database“ bychom vyhledali také pomocí předmětů nebo typů obsahu, které jsou u repozitáře uvedeny. Trvalo by to však podstatně déle, jelikož repozitářů se pod každým uvedeným předmětem nebo typem obsahu nachází velké množství.

Obrázek 4
Obrázek 4: Zobrazené repozitáře, které poskytují instituce České republiky. [zdroj obrázku: autor]

U každého repozitáře se také nacházejí dodatečné informace, které mají na Obrázku 4 podobu barevných ikon nacházejících se v pravém horním rohu každého repozitáře. Každá ikona poskytuje jinou informaci o repozitáři. Zjistit tak můžeme například to, zda uložiště poskytuje otevřený přístup ke svým datům nebo zda omezuje nebo dokonce zakazuje přístup ke svým datům.

Ke každému repozitáři jsou uvedeny také základní informace, jak můžeme opět vidět na obrázku 4.

Po kliknutí na vybraný repozitář se uživateli zobrazí podrobné informace o daném repozitáři (Obrázek 5). V sekci „General“ (Obecné) nalezneme informace jako:

  • název repozitáře,
  • URL repozitáře,
  • předměty, kterých se repozitář týká
  • popis repozitáře
  • kontakt
  • typ obsahu
  • klíčová slova
  • velikost repozitáře
  • typ uložiště
  • a další…

Sekce „Institutions“ (instituce) poskytuje informace o:

  • názvu instituce
  • URL instituce
  • kontaktu na instituci
  • zemi, ve které se instituce nachází
  • a další…

V sekci „Terms“ (podmínky) získáme informace o přístupu k datům, licencích atd.

Záložka „Standards“ (Standardy) uvádí standardy spojené s repozitářem.

Obrázek 5
Obrázek 5: Podrobné informace o vybraném repozitáři. [zdroj obrázku: autor]

Na obrázku 5 můžeme vidět repozitář „Map collection Charles University Faculty of Science“, který obsahuje mapovou sbírku Přírodovědecké fakulty UK. „Mapová sbírka patří k jedné z nejrozsáhlejších univerzitních mapových sbírek ve střední a východní Evropě. Sbírka map je digitalizována v rámci projektu NAKI Ministerstva kultury ČR.“, uvádí repozitář ve svém popisku.

Kliknutím na URL odkaz, který se v repozitáři nachází, bude uživatel přesměrován na stránky příslušné instituce, kde získá dodatečné informace k vyhledávanému požadavku. V mém případě jsem byl odkázán na stránky Přírodovědecké fakulty Univerzity Karlovy, kde se mohu o mapové sbírce dozvědět více informací (viz. obrázek 6).

Obrázek 6
Obrázek 6: URL odkaz nacházející se v repozitáři mě přesměroval na stránky Přírodovědecké fakulty UK. [zdroj obrázku: autor]

Závěr

The Registry of Research Data Repositories (re3data.org) je globální rejstřík, který obsahuje uložená vědecká data pocházející z nejrůznějších akademických oborů. re3data pomáhá vědeckým pracovníkům, nakladatelstvím a vzdělávacím institucím najít repozitáře pro permanentní uložení dat a přístup k nim. Cílem re3data je podporovat kulturu sdílení a zlepšit přístup k vědeckým datům. re3data nabízí podrobné informace o více než 2 000 úložištích vědeckých dat.

 

Zdroje

[1] re3data.org – Registry of Research Data Repositories [online]. [cit. 8.12.2020]. Dostupné z: https://www.re3data.org

Seznam obrázků

Obrázek 1: Úvodní stránka re3data.org a možnosti hledání. [zdroj obrázku: autor]

Obrázek 2: Vyhledávání v repozitářích podle předmětu. [zdroj obrázku: autor]

Obrázek 3: Vyhledávání v repozitářích podle země. [zdroj obrázku: autor]

Obrázek 4: Zobrazené repozitáře, které poskytují instituce České republiky. [zdroj obrázku: autor]

Obrázek 5: Podrobné informace o vybraném repozitáři. [zdroj obrázku: autor]

Obrázek 6: URL odkaz nacházející se v repozitáři mě přesměroval na stránky Přírodovědecké fakulty UK. [zdroj obrázku: autor]

OSTI.GOV – miliony otevřených záznamů v oblasti energetiky

0
OSTI.GOV thumbnail

Úřad vědeckých a technických informací (OSTI) byl založen pod americkým mi­nister­stvem energetiky v roce 1947, jako iniciativa po druhé světové válce, která měla zajistit, aby byl vědecký výzkum co nejvíce přístupný veřejnosti. Úřad je zodpovědný za řízení vě­dec­kých a technických informací, které umožní rozvoj vědeckých poznatků a technické inovace.

Tři základní cíle OSTI:

  • vybudování komplexní sbírky výsledků výzkumu a vývoje.
  • trvalé uchování sbírky.
  • široce šíří neklasifikované výsledky a poskytuje bezpečný přístup k utajovaným a citlivým informacím výzkumu a vývoje.

Co je OSTI.GOV

Portál OSTI.GOV je primární vyhledávací nástroj pro vědu, technologie a výsledky výzkumu a vývoje financovaného ministerstvem energetiky. Usiluje o to, aby se věda stala otevřenější, efektivnější a reprodukovatelnější a aby lépe sloužila potřebám jak samotným vědců, tak veřejnosti.

Misí OSTI je zajistit dlouhodobé uchování a přístup k výsledkům investic do výzkumu a vývoje amerického ministerstva energetiky. Posláním organizace je rozvíjet vědu a udržovat technologickou kreativitu tím, že budou výsledky výzkumu a vývoje dostupné výzkumníkům i veřejnosti. Je zodpovědná za shromažďování, uchovávání a poskytování moderního přístupu ke všem druhům výzkumných výstupů.

Co obsahuje OSTI.GOV

OSTI.GOV zpřístupňuje více než 70 let výsledků výzkumu a citací shromážděných americkým ministerstvem energetiky, jeho agentur a přidružených organizací zaměřených na energetiku. Výsledky zahrnují články v časopisech, přijaté rukopisy a související metadata, technické zprávy, soubory a sbírky vědeckého výzkumu, vědecký software, patenty, příspěvky na konference a semináře, knihy a klasifikační práce a multimédia od 40. let 20. století do současnosti.

OSTI.GOV obsahuje více než 3 miliony záznamů, včetně citací k 1,6 milionu článků v časopisech, z nichž 1 milion má identifikátory digitálních objektů (DOI) odkazující na fulltextové články na webových stránkách vydavatelů. Kromě toho OSTI.GOV uchovává více než 500 000 fulltextových zpráv financovaných ministerstvem energetiky. OSTI.GOV poskytuje přístup k těmto vědeckým a technickým informacím tím, že nabízí snadno použitelné možnosti vyhledávání. Navíc pro komunitu ministerstva energetiky jsou k dispozici další citační informace, které vědcům pomohou vyhodnotit dopad článků a najít související výzkumy.

Tematické oblasti, které jsou zahrnuty v OSTI.GOV:

  • Biologie a medicína
  • Chemie
  • Skladování, přeměna a využití energie
  • Inženýrství
  • Vědy o životním prostředí
  • Štěpení a jaderné technologie
  • Fosilní paliva
  • Geovědy
  • Materiály
  • Matematika
  • národní obrana
  • Fyzika
  • Výroba a distribuce energie
  • Obnovitelná energie

Možnosti vyhledávání

Celá databáze je velmi jednoduše zpracovaná a redesign celé webové aplikace z roku 2018 lze hodnotit jako velmi zdařilý. Nabízí tak jednoduché vyhledávací rozhraní. Uživatel má možnost vyhledávat dvěma způsoby:

  • Hledání výrazu (Term Search) – hledání podle výrazů použije zadané vyhledávací termíny přesně tak, jak byly zadány, bez mapování konceptů, a umožňuje použití logických booleovských operátorů.
  • Sémantické vyhledávání (Semantic Search) – výchozí hledání slov nebo frází zadaných do základního vyhledávacího pole z domovské stránky nebo v horní části každé obrazovky v OSTI.GOV používá sémantické vyhledávání a využívá techniku nazvanou mapování klíčových slov na koncept. Hledané výrazy jsou mapovány na související vědecké koncepty založené na tezauru vyvinutém OSTI, což umožňuje načíst výsledky související s hledaným výrazem, ale také prozkoumat užší a podobné koncepty. Logické operátory jsou při sémantickém vyhledávání igno­ro­vány, takže vyhledávané termíny lze snadno mapovat na jiné koncepty. Tato technika je rozšířením vyhledávání a obecně vrátí větší počet výsledků.
úvodní stránka OSTI.GOV
úvodní stránka OSTI.GOV (vlastní zpracování)

Rozbalením šipky vyhledávacího pole se zobrazí možnosti rozšířeného vyhledávání, které nabízí specifikovat parametry vyhledávání. Zajímavou drobností je volba limitovat výsled­ky vyhledávání na držitele Nobelovy ceny. Pokud nechce uživatel hledat konkrétní klíčové slovo, může mimo konkrétních polí k vyhledávání použít také typ požadovaného zdroje, stránku/organizaci která dokument publikovala nebo datum publikování.

Rozšířené pokročilé vyhledávání OSTI.GOV
Rozšířené pokročilé vyhledávání OSTI.GOV (vlastní zpracování)

Možnosti filtrování a práce s výsledky

Levý panel nabízí možnost filtrovat výsledky vyhledání pro zpřesnění hledaných záznamů. Benefitem vyhledávacího nástroje je možnost vyhledání nejen všech záznamů, ale také omezení výsledků pouze na obrázky/tabulky. Samozřejmostí je možnost seřazení výsledků vyhledávání podle data, relevance nebo citovanosti. Příjemné plus představuje možnost uložení a export výsledků do formátů CSV/Excel, XML, JSON a RIS.

Možnosti filtrování výsledků OSTI.GOV
Možnosti filtrování výsledků OSTI.GOV (vlastní zpracování)

Detail vyhledaného záznamu

Horní menu nabízí zobrazit: kompletní vyhledaný záznam; seznam referencí v záznamu; práce, ve kterých je záznam citován; obrázky a tabulky obsažené v záznamu a podobné záznamy v databázi OSTI.GOV.

V levé části je odkaz pro přístup k celému textu (pokud je dostupný nebo má uživatel oprávnění), identifikační číslo DOI, počet prací ve kterých je záznam citován, obrázky a tabulky obsažené v záznamu, možnost uložení záznamu do knihovny, export metadat a možnost záznam sdílet.

Hlavní část obsahuje abstrakt, kompletní metadata a citační záznam ve formátech MLA, APA, Chicago, BibTeX.

Detail bibliografického záznamu OSTI.GOV
Detail bibliografického záznamu OSTI.GOV (vlastní zpracování)

Uživatelské prostředí

Jak bylo zmíněno již v úvodu, tak aplikace OSTI.GOV prošla nedávno redesignem, který se vyznačuje jednoduchostí a uživatelskou přívětivostí. Vše je čisté, přehledné a jasné. Nástroj také obsahuje návody a kvalitně zpracované FAQs. V nich se uživatel dozví, že k vyhledávání je možné použít, tak jak je v podobných nástrojích zvykem, logické boolovské operátory. Vyhledávání a zadání dotazů nepotřebuje jinak zvláštní syntaxy.

Aplikace mimo vyhledání a procházení informačních zdrojů a základních informací o organizaci OSTI obsahuje krátké ale výstižné čtyři sekce:

  • Submit Research Results – stránka poskytuje průvodce jak odeslat výzkumné výsledky.
  • Search Tools – poskytuje odkazy na všechny vyhledávací nástroje, které OSTI poskytuje – specializované vyhledávání časopisů, článků, dat, patentů, video materiálu a softwaru. A další národní nebo nadnárodní vyhledávácí nástroje.
  • Data Services & Dev Tools – portál nabízí datové služby a vývojářské nástroje, které zajišťují efektivní přístup k informacím, poskytnutím komplexní datové podpory pro záznamy dostupné na OSTI.GOV a dalších vyhledávacích nástrojích.
  • News – sekce věnovaná novinkám v rámci působení OSTI a amerického ministerstva energetiky (blogové články, události, aktualizace a tipy).

Tento informační zdroj je tak velmi přehledným a užitečným nástrojem pro získávání informací v oblasti energetiky a příbuzných oborů. I přes to, že je vázán s americkým prostředím, je jeho využití vhodné celosvětově. Poskytuje data založená na principu otevřených dat s cílem sdílet znalosti. S počtem více než tří milionů záznamu se řadí mezi rozsáhlé a velmi cenné informační zdroje. Obsahuje i ne tak časté informační zdroje jako je software, patenty nebo audio/video záznamy.

Nový espacenet: efektivní vyhledávání v milionech patentů

0

A je to tady. Nový espacenet přestává být beta verzí a jde do ostrého provozu. O co jde? O klíčovou, volně dostupnou databázi patentových dokumentů. Nutno podotknout s globálním záběrem. A nyní Evorpský patentový úřad spustil její verzi v novém kabátě. Je zde několik zásadních novinek, které si rozebereme, nicméně v bodech?

  • Nový koncept vyhledávání
  • Filtrování výsledků včetně unikátních vhledů
  • Přehlednější set výsledků
  • Propojení právních stavů v kontextu rodin
  • Prostředí využitelné napříč zařízeními.

Můžete  dosáhnout na 110 milionů patentů

Ale popořadě. Bezesporu zásadní a zcela jasně identifikovatelnou změnou jsou možnosti ve vyhledávání patentových dokumentů. Na výběr je ze základního (smart), pokročilého, a vyhledávání pomocí klasifikace. Chytré vyhledávání je uzpůsobeno začínajícím rešeršérům a de facto umožňuji rychlý průzkum určité oblasti. Fungují zde samozřejmě booleovské operátory, ale rovněž lze využít i kódy pole, které jsou popsány v tomto základním referenčním materiálu. Pokud tak chceme vědět poslední publikované dokumenty od společnosti Google, zadejme do vyhledávacího pole:

pa=google

A pokud bychom tento dotaz chtěli zpřesnit na nějakou oblast techniky, můžeme přidat některou z patentových klasifikací, tedy např. jaké Google má zveřejněné patentové dokumenty v oblasti vozidel (myšleno všeobecná třída vehicles):

pa=google AND ipc=A63*

Nové možnosti vyhledávání

Pokročilé vyhledávání prošlo významnými změnami a nyní je možná jeho konfigurace polí.

Velmi intuiitivním způsobem volíte vazby mezi jednotlivými entitami, přičemž jim přiřazujete vztah opět pomocí booleovských operátorů.

Klasifikační vyhledávání umožňuje poměrně rychle zvolit přesnou technologii, či oblast technologií a nechat si zobrazit všechny výsledky v dané kategorii.

Výsledky a možnosti jejich zobrazení jsou velmi příjemným překvapením nové verze espacenet. V prvé řadě nadchne velmi rychlé prostředí, které dokáže pracovat efektivně s mnoha výsledky a v několika málo okamžicích analyzovat určité trendy. Je k dispozici řada filtrů, vždy s kvantitativním vyjádřením počtu patentových dokumentů.

Samotné výsledkové okno posléze nabízí rychlou analýzu právních stavů včetně rozkladu patentových rodin.

V souhrnu tak lze espacenet v této podobě považovat za opravdu silný patentový nástroj, který rozhodně nebude stát na okraji zájmu (ostatně i jeho původní verze byla silně propagována zejména patentovými úřady). Naopak komerčním nástrojům přibyla konkurence.

 

Unikla z vašeho e-mailu nějaká data? Ověřte si to

0

Žijeme v době, kterou reprezentuje digital gap, neboli digitální propast. Část naší společnosti dbá na opatření minimálně pro základní ochranu jejich soukromí, někteří používají sofistikované nástroje pro svou anonymizaci, jiní tuto oblast zcela ignorují.

Lze však očekávat, že zvyšující se nebezpečenost a četnost kybernetických útoků s sebou nese značná rizika v podobě úniku informací. Na druhé straně však existují projekty, které se snaží šířit a posilovat povědomí o nutnosti informační bezpečnosti i pro běžné smrtelníky.

Jednou z poměrně zajímavých a unikátních záležitostí budiž projekt Have I Been Pwned, který vlastně představuje nejenom přehled, odkud ve svět unikla data, ale i možnost ověřit si svou e-mailovou adresu. A i obsah, který skrze ní komunikujete není náhodou již v rukou někoho jiného.

A čísla nejsou vůbec optimistická. Server v současné době registruje (k 11. listopadu 2019):

  • 412 webových stránek / aplikací, z kterých data unikla
  • 8,5 miliardy zasažených e-mailových účtů
  • 103 tisíc vložených informací o e-mailových účtech (myšleno jako prostý text např. na webu Pastebin.com)
  • 123 milionů jednotlivých e-mailových adres (opět myšleno jako prostý text např. na webu Pastebin.com)

Superznámé služby, z kterých zmizela data

Pokud tak uvažujete nad otázkou, z jakých webů unikla nějaká data, vězte, že i ze známých služeb. A to takových, které zcela jistě využíváte i vy. Jen namátkou můžeme jmenovat LinkedIn, Mall.cz, Canva, 500px, MasterCard Priceless Specials, Minecraft World Map, … a nemalá skupina dalších. Kompletní přehled naleznete zde.

Na stránce Have I Been Pwned si samozřejmě můžete prověřit, zdali i vaše e-mailová adresa, resp. informace z ní unikly. Stačí ji zadat na úvodní stránce, přičemž v případě, že se tak opravdu stalo, dostanete informaci i odkud, a co.

Za projektem stojí Troy Hunt, regionální ředitel Microsoftu, jehož vznik dle informací odstartoval jeden z největších úniků osobních informací v historii, a to ze společnosti Adobe.

Data pocházejí přímo z uniklých datových setů, žádná hesla v souvislosti určité e-mailové adresy nejsou zpřístupněna, nicméně si můžete zkotrolovat, zdali i vámi používané heslo bylo předmětem úniku. To provedete zde.

 

Vydejte se zpátky do digitální minulosti

0

Napadla vás někdy otázka, jak některé stránky organizací, institucí, či nějakých projektů, vypadaly třeba před dvaceti lety? Na webu existuje několik nástrojů a aplikací pomocí nichž se můžete vypravit do minulosti a vidět, jak se postupně vyvíjely webové technologie, design webu, ale i třeba úplně první verze některých stránek.

Asi ten nejznámější nástroje se skrývá v rámci největšího internetového archivu (Archive.org), a to WayBack Machine. Jeho unikátnost spočívá především v jeho globálním záběru, zaznamenané digitální stopě, a potom samozřejmě v jednoduchosti jeho využití.

V roce 2019 tato služba indexovala přes 390 milionů webových stránek, a jak již bylo zmíněno, využití je velmi jednoduché. Do adresního řádku stačí vložit vámi požadovanou doménu, a systém vám předloží všechny dostupné zachycené verze stránke v historii včetně časové osy, resp. možností výběru specifického dne z historie, pokud je dostupný.

Pokud byste tak chtěli například vidět jednoho z předchůdců Google, tedy Altavistu, zadejte adresu www.altavista.com. Můžete se potom vypravit až do října roku 1996. Nebyla to nádherná doba?