Pondělí, 4 listopadu, 2024

CiteSeerˣ: zdroj informatických a počítačových věd

Sdílet

Úvod

Competitive Intelligence, neboli konkurenční zpravodajství je proces zabývající se průběžným získáváním informací o konkurenci. Sledujeme zde zájmy právních a fyzických subjektů a pomocí získaných a analyzovaných dat se pokoušíme predikovat změny v konkurenčním prostředí. CI je jednou z disciplín Business Intelligence, avšak se více se může podobat investigativní žurnalistice. Všechny nabyté analýzy na základě získaných dat podporují proces rozhodování napříč podniky. Pro tyto cíle Competitive Intelligence slouží různé nástroje, mnou analyzovaný nástroj a knihovna je CiteSeerˣ.

CiteSeerx

Vědecká digitální knihovna a vyhledávač zvaný CiteSeerˣ byl vytvořen roku 1997 na půdě NEC Research Institute, Princetonu a New Jersey autory Steve Lawrence, Lee Giles a Kurta Bollacker. Tento veřejný vyhledávač a digitální knihovna pro vědecké a akademické práce je soustředěna primárně na počítačovou a informatickou vědu. CiteSeerˣ poskytuje svým uživatelům zdroje jako jsou data, metadata, algoritmy, techniky a aplikace pro propagaci ostatních digitálních knihoven. 

Tento nástroj je považován za předchůdce nástrojů jako Google Scholar či Microsoft Academic Search. Mluvíme zde o první digitální knihovně a vyhledávači, který poskytoval jako jediný automatizovanou indexaci citací a také citační propojení pomocí autonomního indexování citací. Dalším přínosem celého vývoje služby je nalezení nových algoritmů pro indexaci článku ve formátu PDF a PostScript. K roku 2010 bylo v rámci knihovny 6 mil. dokumentů se skoro 6 mil. autory a 120 mil. citací (CybermetricsLab, 2010).

CiteSeerˣ
Domovská stránka CiteSeerˣ (citeseerx.ist.psu.edu)

Hlavní funkcionality nástroje a knihovny CiteSeerˣ

Jak již bylo zmíněno výše, vyhledávač CiteSeerˣ využívá autonomní indexaci citací pro automatickou extrakci citací a tvorbu citačních indexů, které mohou být využity pro vyhledávání literatury a její ohodnocení. Pokud porovnáme tradiční citační indexy s tímto autonomním přístupem, je vidět benefit ve snížení nákladů, dosažení vyšší efektivity a včasnosti. Automatická extrakce metadat zajišťuje pro nástroj získání například autora, titulek a další metadata k analýze a procesu vyhledávání. Metadata jsou získávány od všech indexovaných článků.

Co se týče citací konkrétně, tak nástroj CiteSeerˣ například zpracovává citační statistiky a doporučuje související dokumenty pro všechny články citované v databázi, nejen pro ty indexované. Ukazuje kontext citací ke konkrétnímu článku a tím umožňuje výzkumnému pracovníkovi rychle a snadno zjistit, jaké reference a komentáře k danému článku vedou ostatní kolegové. 

Jako první tento nástroj poskytl procházení dokumentů pomocí citačních odkazů, které se generují automaticky. Ohledně nových přidaných citací k sledovaným příspěvkům se uživatelům zobrazují informační notifikace. U tohoto vyhledávače probíhá fulltextové indexování skrze plné texty všech citací a abstraktů.

Knihovna CiteSeerˣ je pravidelně aktualizována na základě údajů od uživatelů a celkového pravidelného procházení. Jsou zde shromažďovány výzkumné práce z veřejných webů a také přijímány příspěvky prostřednictvím systému pro předkládání, tzv. submission systému. Pomocí citací jsou vyhledávány související dokumenty a pro každý tento dokument zobrazována a pravidelně aktualizována bibliografie. Registrovaní uživatelé mohou pomocí funkce MyCiteSeerˣ tvořit vlastní sbírky dokumentů, vlastní soukromé bibliografie či získávat RSS notifikace.

Práce s CiteSeerX

Při procesu vyhledávání na hlavní stránce knihovny je v poli možné vyhledávat za pomocí booleovských operátorů (AND, OR, NOT atd.), proximitních operátorů (NEAR/5, NEAR/0 atd.) či frázové shoda. Uživatelsky přívětivá je forma pokročilého vyhledávání, kde lze snadno vyhledávat jednotlivá metadata bez použití operátorů. Hodnoty v oddělených polí budou zde propojeny operátorem AND. Pokročilé vyhledávání umožňuje uživateli zadání kritérií jako minimální počet citací, rozsah pro rok vydání či zahrnutí citace.

Advanced search
Pokročilé vyhledávání CiteSeerˣ (citeseerx.ist.psu.edu )

Závěr

Práce na reportu o nástroji CiteSeerˣ mě zajisté pomohla naučit se s tímto historicky nejstarším nástrojem a zamyslet se nad komplexností samého procesu vyhledávání. Proces, který jako my studenti využíváme převážně pro akademické práce, zatímco pro lidi ve sférách ku příkladů vědeckých je vyhledávání a analýza informací denní rutinou.  Proto je vhodné vědět o všech možnostech efektivního vyhledávání. Podstatný krok může být již vybrání vhodného nástroje. Pokud by například někdo mimo informační technologie chtěl vyhledávat v knihovně CiteSeerˣ medicínské informace, jednalo by se o ztrátu času. Naopak pro informatiky by byla ztráta času vyhledávat informace v PudMed, který se zaměřuje na biomedicínskou odbornou literaturu.

Jako další důležitý bod vnímám zamýšlení nad aktuálností dat ve zdroji a o aktuálnosti zdroje jako takového. Pro své analýzy bych preferovala například aktuálnější Google Scholar, jelikož služba CiteSeerˣ není v této době nijak rozvíjena.

Použité zdroje

Číst více

Další články