Čtvrtek, 14 listopadu, 2024

Google Dataset Search usnadňuje vyhledávání datasetů

Sdílet

Úvod

Tento report je vytvořen pro seznámení čtenáře s vyhledávačem Google Dataset Search vytvořený společností Google. V práci jsou představeny základní vlastnosti vyhledávače, možnosti ovládání, syntaxe a další užitečné funkce, které vyhledávač poskytuje.

Úvodem je dobré si uvědomit, co vlastně jsou data a k čemu lidem slouží. Podle Černého (2017) data popisují určitou část reálného světa, ať už ve formě textu, hodnoty, obrazu nebo zvuku a jsou zaznamenávána tak, aby je bylo možné zpracovat digitálně formou analýzy, výpočtu nebo rozboru. Lachmann (2015) popisuje data jako surovinu, při jejímž zpracování je možné získat určitou informaci. Informace vznikne, pokud se datům přidá určitý smysl nebo význam. Pokud pak člověk dokáže získanou informaci využít, jedná se o znalost.

V dnešním světě se data vyskytují všude kolem nás ať už jako soukromé data firem využívané pro zlepšení efektivity obchodu či evidenci zaměstnanců nebo jako veřejně dostupné data z kterých jsou lidé informováni například o tom, jaká bude předpověď počasí, kolik procent populace volí jejich favorizovanou politickou stranu nebo jaké je hodnocení produktu, o který mají zájem. Pro vyhledávání veřejně dostupných dat je k dispozici mnoho nástrojů, které využívají různých způsobů, jak data filtrovat z obrovského množství obsahu, který se na internetu vyskytuje. Pomocí filtrací je možné vyhledávat například různé druhy obsahu (článek, disertační práce, literatura, vědecký výzkum), typy souborů nebo jména institucí, které zdroj vytvořili. Lze nalézt také velké množství datasetů, což jsou jedna nebo více kolekcí dat, které spolu souvisí. Většinou jsou ve formě tabulek, kde každý sloupec značí určitý atribut a každý řádek odpovídá jedné položce v kolekci dat. Datasety jsou většinou využívané vědci nebo datovými žurnalisty k nalezení potřebných informací.  Vyhledávací nástroj Google Dataset Search se zaměřuje právě na vyhledávání datasetů.

 

V roce 2018 vydala společnost Google nový vyhledávací nástroj Google Dataset Search, který uživatelům umožňuje vyhledávat datasety napříč webovým uložištěm. Na rozdíl od původního vyhledávače společnosti Google, který je zaměřen především na vyhledávání pro běžné uživatele na komerčních webech je Google Dataset Search určen především pro vědce a datové žurnalisty a připojuje se tak k již zavedenému nástroji Google Scholar, který je využíván pro akademické účely a reporty.

Pomocí nástroje je možno nalézt a publikovat datasety, na kterých pak může pracovat více lidí a sdílet svoje nápady a zkušenosti podobně jako na platformě Kaggle jak poznamenal Taylor (2018).  Pokud má instituce zájem o to, aby bylo možné jejich publikovaný dataset vyhledat pomocí nástroje Google Dataset Search, musí ke zdroji zahrnout metadata popisující jejich dataset, včetně autora, datum publikace a dalších informací.

Vědecká pracovnice Natasha Noy ze společnosti Google AI, která spolupracovala na vytvoření nástroje Google Dataset Search poskytla rozhovor zpravodajskému webu The Verge (2020) kde říká, že cílem nástroje je sjednotit desítky tisíc různých datových uložišť a zároveň jejich zdroj udržet tam kde byl danou institucí zveřejněn. Dále v rozhovoru vysvětluje, že momentálně jsou datasety extrémně fragmentované a různé instituce mají své preferované uložiště datasetů. Kvůli tomu je pak problém nalézt zdroje, které nejsou dostupné na jejich preferovaných uložištích. Dataset Search nabízí v tomto problému řešení, kdy je možné všechny tyto uložiště prohledávat pomocí jednotného vyhledávače.

 

Využití metadat pro vyhledávání datasetů

Jak bylo zmíněno, pro to aby byl dataset dohledatelný pomocí Google Dataset Search, je potřeba připravit metadata pomocí kterých bude nástroj tyto datasety vyhledávat. Kompletní definice všech možností využití metadat je dostupná na webu schema.org/Dataset. Jeden z konkrétních příkladů zdrojového kódu obsahující metadata pro dataset je vidět například na Google Search Central (2021). V souboru je použit JSON-LD za využití syntaxe z schema.org. 

  <html>
  <head>
    <title>NCDC Storm Events Database</title>
    <script type="application/ld+json">
    {
      "@context":"https://schema.org/",
      "@type":"Dataset",
      "name":"NCDC Storm Events Database",
      "description":"Storm Data is provided by the National Weather Service (NWS) and contain statistics on...",
      "url":"https://catalog.data.gov/dataset/ncdc-storm-events-database",
      "sameAs":"https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510",
      "identifier": ["https://doi.org/10.1000/182",
                     "https://identifiers.org/ark:/12345/fk1234"],
      "keywords":[
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG",
         "ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE"
      ],
      "license" : "https://creativecommons.org/publicdomain/zero/1.0/",
      "hasPart" : [
        {
          "@type": "Dataset",
          "name": "Sub dataset 01",
          "description": "Informative description of the first subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        },
        {
          "@type": "Dataset",
          "name": "Sub dataset 02",
          "description": "Informative description of the second subdataset...",
          "license" : "https://creativecommons.org/publicdomain/zero/1.0/"
        }
      ],
      "creator":{
         "@type":"Organization",
         "url": "https://www.ncei.noaa.gov/",
         "name":"OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce",
         "contactPoint":{
            "@type":"ContactPoint",
            "contactType": "customer service",
            "telephone":"+1-828-271-4800",
            "email":"ncei.orders@noaa.gov"
         }
      },
      "includedInDataCatalog":{
         "@type":"DataCatalog",
         "name":"data.gov"
      },
      "distribution":[
         {
            "@type":"DataDownload",
            "encodingFormat":"CSV",
            "contentUrl":"http://www.ncdc.noaa.gov/stormevents/ftp.jsp"
         },
         {
            "@type":"DataDownload",
            "encodingFormat":"XML",
            "contentUrl":"http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510"
         }
      ],
      "temporalCoverage":"1950-01-01/2013-12-18",
      "spatialCoverage":{
         "@type":"Place",
         "geo":{
            "@type":"GeoShape",
            "box":"18.0 -65.0 72.0 172.0"
         }
      }
    }
    </script>
  </head>
  <body>
  </body>
</html>

Zdrojový kód 1 Vzorová ukázka kódu metadat pro dataset s využitím metody JSON-LD a syntaxe z schema.org [zdroj: Google Search Central - Dataset help (2021)]

Některé vybrané užitečné funkce jsou popsané na webu Google Search Central (2021) a jejich příklady jsou uvedeny.

  • description – krátký popis datasetu v textové podobě.
  • text musí mít mezi 50 a 5000 znaky a je zapsán v dvojitých uvozovkách
  • name – jméno popisující název datasetu
  • creator – autor datasetu
  • používají se atributy type, name pro rozdělení mezi organizacemi a osobnostmi
  • citation – identifikuje akademické práce, které by měli být citovány při využití datasetu
  • keywords – klíčová slova zahrnutá pro dataset
  • license – licence pod kterou je dataset distribuován
  • alternateName – zkratky a aliasy pouužité pro dataset
  • url – odkaz na stránku popisující dataset
  • hasPart or isPartOf – využívá se, pokud je dataset součástí nějakého většího celku
  • version – číslo označující verzi datasetu

Uživatelské rozhraní

Při vyhledání datasetů se uživateli zobrazí okno prezentující všechny shodné výsledky s jeho požadavky. Všechny části uživatelského rozhraní jsou vidět na ilustračním obrázku a níže je uveden jejich popis. Uživatel může prohledávat všechny datasety z nabídky, navštívit webovou stránku, na které je dostupný jejich zdroj, filtrovat výběr nebo ukládat datasety mezi svoje oblíbené prostřednictvím svého google účtu.

  1. Přehled informací o právě zvoleném datasetu
  2. Seznam datasetů nalezených pro podmínky zadané ve vyhledávači
  3. Vyhledávač pro specifikaci hledaných datasetů
  4. Filtr rozlišující poslední aktualizaci datasetů
  5. Filtr pro typ souboru dostupného ke stažení
  6. Rozlišení na datasety povolené pro komerční a neobchodní využití
  7. Filtr kategorií datasetů (humanitní vědy, společenské vědy, zemědělství, přírodní vědy, strojírenství…)
  8. Rozlišení na datasety zdarma přístupné a placené
  9. Odkaz na centrum podpory
  10. Nahlášení chyb v systému
  11. Zobrazení uložených datasetů pro přihlášený google účet
  12. Možnost uložení, zobrazení citace a sdílení datasetu

Závěr

Už dnes lze předpokládat, že Google Dataset Search bude v budoucnu důležitý vyhledávací nástroj. Uživatelům dává možnost prohledávat více datových zdrojů pomocí jednoho nástroje a díky tomu se samozřejmě zvyšuje šance na nalezení potřebných dat a zároveň se urychluje proces vyhledávání. Efektivita a popularita Google Dataset Search bude růst s tím, jak bude růst množství datasetů, které mají metadata připravené tak, aby je nástroj dokázal rozpoznat. Tento nástroj je prozatím poměrně nový a uživatelů, kteří ho aktivně využívají, není mnoho, nicméně pro vědce a datové specialisty může být velmi užitečný a ulehčit práci s vyhledáváním datových zdrojů.

Zdroje

GOOGLE DATASET SEARCH, [online]. 2021 [cit. 2021-02-07]. Dostupné z: https://datasetsearch.research.google.com/

GOOGLE SEARCH CENTRAL, [online]. 2021 [cit. 2021-02-07]. Dostupné z: https://developers.google.com/search/docs/data-types/dataset

ČERNÝ, J., Data, informace a cesta ke znalostem. [online]. 2017 [cit. 2021-02-08]. Dostupné z: https://www.informacnigramotnost.cz/data-informace-znalosti/

LACHMANN, G., Otevřená data – cenná surovina pro váš business. [online]. 2015 [cit. 2021-02-08]. Dostupné z: https://www.softec.cz/softecon/presentations/otevrena-data-cenna-surovina-pro-vas-business/

TAYLOR, K., Data, A New Seach Engine – Google Dataset Search. [online]. 2018 [cit. 2021-02-09]. Dostupné z: https://www.hitechnectar.com/blogs/intro-new-google-dataset-search-engine/

THE VERGE, Google’s search engine for scientists upgraded for better data scouring. [online]. 2020 [cit. 2021-02-09]. Dostupné z: https://www.theverge.com/2020/1/23/21078310/google-dataset-search-beta-over-filters-improved-open-source

Seznam obrázků

Obrázek 1 Hlavní strana Google Dataset Search

Obrázek 4 Uživatelské rozhraní Google Data Search

Seznam příloh

Zdrojový kód 1 Vzorová ukázka kódu metadat pro dataset s využitím metody JSON-LD a syntaxe z schema.org

Číst více

Další články