Čtvrtek, 5 prosince, 2024

AMiner: Vaše dvere do sveta vedy

Sdílet

ArnetMiner systém druhej generácie (1), AMiner je systém zameraný na zhromažďovanie akademický článkov a ich autorov. Systém sa snaží pomôcť výskumníkom a vedcom zorientovať sa v obrovskej heterogénnej sieti tvorenou autormi, ich publikáciami, vedeckými konferenciami, žurnálmi a akademickými organizáciami (2). Aby ste sa pri svojom pátraní dostali len k relevantným a dôveryhodným zdrojom, AMiner je vybavený „ranking“ systémom, kde sú jednotlivý autori, výskumníci, konferencie a publikácie ohodnotený podľa súvisiacich metrík. Medzi nimi napríklad „Hirschov index“ (h-index), čo je kvantitatívna metrika, ktorá hodnotí autora podľa odhadu dôležitosti, prínosu a vplyvu kumulatívnych príspevkov autora (3).

Ako to funguje?

Celý systém je založený na strojovom učení, ktoré je zodpovedné za celý proces získavania informácií. V skratke sa jedná o 5 krokov, pomocou ktorých sú „vyťažené“ informácie získané, spracované a následne publikované.

  1. Extrakcia informácie: Jedná sa vlastne o automatickú extrakciu profilu autora z Webu. Systém identifikuje a zozbiera relevantné stránky autora a následne z nich vyberie dáta, ktoré sú spracovávané v ďalších krokoch.
  2. Integrácia: V tomto kroku sú zozbierané informácie spojené a integrované z profilom autora a jeho publikáciami. Systém využíva komplexné algoritmy a metódy strojového učenia, aby odstránil prípadné chyby zaradenia v rámci publikácií s podobným obsahom a názvom.
  3. Uloženie a sprístupnenie: Integrované dáta sú následne uložené a hlavne indexované podľa pravidiel a pre čo najefektívnejšie vyhľadávanie v rámci systému.
  4. Modelovanie: Využíva generatívny pravdepodobnostný model, ktorý slúži na roztriedenie jednotlivých zdrojov podľa obsahu do preddefinovaných kategórií.
  5. Služby: Na koniec je zdroj spracovaný pomocou služieb poskytovaných AMinerom. Medzi nimi už napríklad spomínaný systém ohodnotenia autorov/publikácií, vyhľadávanie podľa profilu používateľa (odporúčania podľa histórie a preferencií používateľa), a iné (2).

V tejto kapitole sa zoznámime s funkciami a možnosťami, ktoré systém AMiner poskytuje.

Prerekvizita

Aby sme mohli funkcie AMineru využiť na plno, je doporučené vytvoriť si účet, ktorý je využívaný na profiláciu používateľa. Ak je používateľ sám autorom publikácií, môže sa v rámci svojho profilu systému identifikovať a následne svoje publikácie spravovať. Akademický profil autora je vytváraný automaticky a autor sa môže nájsť pomocou svojho mena, názvu organizácie a kľúčových slov publikácie. Ak svoj profil autor nenájde, je možné kontaktovať podporu, ktorá autorovi akademický profil vytvorí.

Výber kľúčových slov zo zoznamu zaindexovaných výrazov [zdroj: Autor]

Vyhľadávanie a preferencie

Po vytvorení účtu si nastavíme kľúčové slová, ktoré si vyberieme zo zoznamu zaindexovaných výrazov. Podľa vybraných kľúčových slov, ktoré by mali približne definovať naše záujmy. Pozor! Ak chceme systém využívať na plno, je odporučené si na výbere kľúčových slov dať naozaj záležať a to preto, pretože vybrané záujmy budú následne odrazené nie len na odporučených publikáciách na úvodnej stránke, ale aj výsledky samotného vyhľadávania budú do určitej miery ovplyvnené vybranými výrazmi.

Po výbere kľúčových slov sa nám aktualizuje zoznam náhodne vybraných článkov, ktoré systém považuje za relevantné vzhľadom na preferencie používateľa. Odporučené články sa viažu aj na históriu vyhľadávania používateľa a prípadnými článkami, ktoré si používateľ označí za „sledované“.

Samotné vyhľadávanie je už potom len otázka správnej formulácie vyhľadávaného výrazu. AMiner ale predsa poskytuje ešte niekoľko možností, ako vyhľadávanie upresniť.

Príklad rozšíreného vyhľadávania. [zdroj: Autor]

Hľadaný výraz je teda možné rozšíriť o „kanál“, čím sa myslí odvetvie, z akého budú prezentované výsledky. Ďalej je vyhľadávanie možné rozšíriť o autora, publikáciu/konferenciu, kde bolo vedecké dielo prezentované a kľúčové slová. Do upresnenia vyhľadávania je možné napísať viac výrazov a to pomocou znaku „+“ (napr. binarized + convolutional).

Výsledky vyhľadávania sa následne delia na dve záložky:

  • Paper: Tu nájdeme všetky vedecké publikácie, ktoré sa spájajú s našim vyhľadávaným termínom a prípadným upresnením vyhľadávania. Vo výsledkoch vidíme názov vedeckej publikácie, autorov, rok vydania a ako doplnok koľko krát bol článok v rámci systému citovaný a koľko krát bol zobrazený. Následne sú nám poskytnuté funkcie ako stiahnutie publikácie, zobrazenie na stránkach vydavateľa, „Bibtex“ (funkcia ktorá poskytuje, citácie a JSON zo základnými charakteristikami publikácie – autor, názov, …) a veľmi zaujímavá funkcia „Summarize“, alebo zhrnutie danej publikácie, kedy sú nám systémom AMiner a jeho ML funkcionalitou poskytnuté niektoré časti práce (napr. úvod, výsledky, záver).
Príklad výsledku vyhľadávania. [zdroj: Autor]
  • Expert: V tejto záložke nájdeme všetkých autorov, ktorý sú spojený s vyhľadávaným termínom. Ďalej sa dozvieme zamestnanie autora, jeho zameranie a kľúčové oblasti, ktorým sa autor venuje. Je tu taktiež očividný jeden z nedostatkov takto stavaného systému, kedy strojové učenie, na ktorom je AMiner postavený, nesprávne vytvorilo niekoľko akademických profilov pre jedného autora. Dôvodov na to bude niekoľko, ako hlavné však vidím iné písanie mena a inú formu metadát v článkoch autora.
Príklad nedostatku „ťaženia“ dát z Webu. [zdroj: Autor]

Po výbere autora sa dostávame na jeho akademický profil, kde si môžeme prečítať základné informácie o autorovi, jeho skúsenosti, vzdelanie a krátku biografiu autora. Hlavne si však môžeme pozrieť všeobecnú analýzu autorových príspevkov. Ako prvé si všimneme výskumné záujmy autora vo forme grafu. Jedná sa teda o oblasti a témy, ktorým sa autor venuje, rozdelené podľa roku publikácie. Následne sú to samotné vedecké články, v ktorých je osoba autorom alebo spoluautorom. Na pravej strane sa potom zobrazia informácie o výskumníkoch, s ktorými vybraná osoba spolupracovala, relevantné štatistiky autorových článkov (medzi nimi napríklad spomínaný „Hirschov index“) a ako posledné podobný autori, ktorých diela majú podobnú alebo rovnakú tematiku ako zvolená osoba.

Zobrazenie profilu autora. [zdroj: Autor]

Ďalšie funkcionality

V tejto časti si v skrate predstavíme ostatné funkcionality, ktoré AMiner poskytuje.

Channels

Kanály/obory jednotlivých publikácií. Nájdeme tu všetky kategórie vedeckých publikácií, ktoré AMiner identifikuje. Po výbere kategórie sa dostaneme k základným informáciám, ako napríklad horúce témy danej oblasti, top autori v danej oblasti, ale aj frekvencia publikácií a najčastejšie vyhľadávané kľúčové slová danej oblasti.

Príklad dostupných oblastí v rámci AMineru. [zdroj: Autor]
„Dashboard“ oblasti Computer Science. [zdroj: Autor]

Conference

Zoznam vedeckých konferencií, v ktorých nájdeme autorov danej konferencie, publikované články, odkaz na webové stránky konferencie, prípadne videozáznamy z danej konferencie.

Príklad zobrazovaných konferencií v záložke „Conference“. [zdroj: Autor]

Rankings

Hodnotenie všetkých vedeckých publikácií a ich autorov podľa relevantných mierok. Hodnotenie sa delí do šiestich kategórií a to:

  • Najvplyvnejší výskumníci podľa AI
  • Hodnotenie konferencií
  • Hodnotenie vedeckých organizácií
  • Hodnotenie výskumníkov
  • Najlepšie publikácie vs. najviac citované publikácie
  • Ženy v AI
Ukážka systému hodnotenia. [zdroj: Autor]

Must reading

Výber z najlepšie hodnotených tém vedeckých publikácií podľa počtu zobrazení a publikácií v danej téme.

Ukážka tém v záložke „Must reading“. [zdroj: Autor]

Open Data

AMiner poskytuje celú sieť otvorených dát, ktoré svojou činnosťou pozbieral. V rámci obsahu jednotlivých kategórií v data sete je opísaná metóda zbierania dát v danej kategórií, metóda a typ spracovania jednotlivých údajov. Niektoré kategórie sú bohužiaľ spracované len v Čínštine (jazyk autorov systému).

Systém ešte ponúka pomocníka v podobe chatbota, ale ten je kompletne v čínštine, ktorú autor článku neovláda. Ak by ste sa chceli o používaní jednotlivých funkcionalít systému AMiner dozvedieť viac, odporúčam prečítať si manuál od autorov systému, ktorý nájdete tu!

Záver

V tomto článku som sa pokúsil poskytnúť základný popis fungovania a funkcionalít systému AMiner. Systém je zameraný na „ťaženie“ vedeckých publikácií na Webe, a to za využitia možností umelej inteligencie a strojového učenia, ktoré sú vlastne úplne zodpovedné za celý proces získavania dát, ich kategorizáciu a následnú publikáciu v rámci systému.

Použitá literatúra:

  1. BeckerGuides. (2022, Januára 31). Tools for authors: What is the H index? BeckerGuides. [cit. 2022-02-10]. Dostupné z: https://beckerguides.wustl.edu/authors/hindex
  2. Wan, H., Zhang, Y., Zhang, J., & Tang, J. (2019, Marec 1). Aminer: Search and mining of academic social networks. MIT Press. [cit. 2022-02-11]. Dostupné z: https://direct.mit.edu/dint/article/1/1/58/9974/AMiner-Search-and-Mining-of-Academic-Social
  3. Tang, J. (2016, Február 25). Aminer: Toward understanding big scholar data. [cit. 2022-02-11], Dostupné z: https://keg.cs.tsinghua.edu.cn/jietang/publications/WSDM16-Tang-AMiner.pdf

Číst více

Další články