Čtvrtek, 5 prosince, 2024

OCCRP Aleph: Staňte se investigativním reportérem

Sdílet

Úvod

Organized Crime and Corruption Reporting Project (OCCRP) sdružuje investigativní reportéry zabývající se korupcí, praním špinavých peněz a ostatními druhy organizovaného zločinu. V rámci projektu jsou zveřejňovány články investigativních žurnalistů za účelem šíření informací o trestných činech a přivedení zúčastněných osob k odpovědnosti. Investigativním žurnalistům k těmto účelům slouží veřejně přístupná open source platforma OCCRP Aleph (dále pouze Aleph). (Aleph 2022a)

Platforma Aleph je veřejně přístupná, ale k významné části dat lze přistoupit pouze s žurnalistickou či akademickou/aktivistickou licencí. O licenci si lze zažádat u OCCRP. V rámci tohoto procesu je nutné vyplnit dotazník, který mj. vyžaduje odkazy na již existující publikace uchazeče. Jednotlivé žádosti jsou poté individuálně procházeny a vyhodnocovány. Jeden z faktorů při vyhodnocování je i to, jestli byl žadatel schopen se odkázat na člena OCCRP, který se za uchazeče zaručuje, či na předchozí spolupráce s OCCRP. OCCRP tímto způsobem chrání citlivá data proti zneužití a v případě, že by i přes tato opatření úspěšný uchazeč data následně zneužil, tak licence OCCRP anuluje. Více o licencích včetně formuláře lze nalézt na webové stránce platformy (viz Aleph 2022a).

Tento článek je psán na základě přístupu k platformě bez licence, ale obsah není ovlivněn, jelikož je pouze omezeno množství vyhledatelných souborů. Platforma je proto využitelná i pro běžné uživatele bez licence, pro účely sběru informací o entitách v rámci competitive intelligence.

Jaké soubory lze na platformě vyhledat

Tato kapitola vychází z informací o zdrojích v dokumentaci projektu (viz Aleph 2021e).

Aleph obsahuje strukturovaná i nestrukturovaná data, která umožňují uživatelům sledovat aktiva a vlastnictví společností i osob. Prakticky lze tedy i pro účely competitive intelligence na jednom místě prohledávat datasety, databáze a dokumenty se záznamy z rejstříků, novin, archivů, uniklých informací (leaks) či např. finančních záznamů o specifické osobě či firmě. Ve veřejně přístupné verzi platformy jsou k dispozici informace o 336 milionech institucí, lze prohledávat 259 datasetů a to vše v rámci 139 zemí a teritorií.

Uživatelé ale nejsou odkázáni pouze na již nahraná data, jelikož platforma umožňuje nahrávat vlastní soubory, např. PDF, Word dokumenty, ale i e-mailové komunikace a videonahrávky. Nahrávání souborů ulehčuje spolupráci a navíc umožňuje prohledávání platformy na základě extrahovaných informací z nahraných dokumentů. Platforma po nahrání dokumentu automaticky rozeznává a extrahuje jména lidí, názvy společností, telefonní čísla, adresy a IBAN, kterými následně nahrané soubory anotuje. Tento proces se nazývá tzv. named entity recognition (NER). Platforma anotuje i nascenované dokumenty ve formátu PDF. Aleph pro tento účel využívá OCR nástroje Tesseract 4 a Google Vison API. Více o NER a OCR implementaci v projektu lze nalézt v odpovídajících úsecích technické dokumentaci projektu (viz Aleph 2021d). Po tomto procesu následuje indexace dat do search enginu ElasticSearch (Aleph 2021a). Platforma takto umožňuje efektivní prohledávání dat pomocí klíčových slov jednotlivých souborů.

Vyhledávání na platformě

Tato kapitola vychází z informací o vyhledávání, které jsou k dispozici v technické dokumentaci projektu (viz Aleph 2021c).

Kromě vyhledávání dat pomocí klíčových slov z uživatelem nahraných souborů (viz předchozí kapitola Jaké soubory lze na platformě vyhledat) lze platformu prohledávat obvyklými způsoby pomocí vyhledávací lišty. Vyhledávací lišta navíc podporuje pokročilé vyhledávání. Uživatel tak může využívat operátory, které ovlivňují vyhledávání. Alternativně je k dispozici grafické rozhraní, přes které lze zjednodušeně pokročile vyhledávat.

Pokročilé vyhledávání pomocí vyhledávacích operátorů

Obrázek 1 Vyhledávací lišta. Zdroj: (Aleph 2022b)

Pozn.: Všechny uvozovky dále jsou horní uvozovky. V článku se kvůli limitaci WordPressu zobrazují i dolní uvozovky, ty ale ve vyhledávání nefungují.

Vybrané vyhledávací operátory, které lze ve vyhledávací liště využít:

  • Uvozovky („“) pro vyhledání fráze. Tedy „OCCRP Aleph“ vyhledá pouze soubory s celým názvem platformy v tomto slovosledu.
  • Operátor ~ pro vyhledávání variant. Pro vyhledání všech variant jména Hanna, lze vyhledat Hanna~1, kde číslo za ~ určuje počet písmen, která se ke jménu mohou přidat, odebrat, či ve jménu změnit. Tímto způsobem lze nalézt všechny záznamy, kde se vyskytuje kromě Hanna i Hannah, Hana, Hanka atp.
  • Operátor ~ slouží i pro vyhledávání kombinace slov v definovaném rozmezí. Pokud se vyhledá „Praha Brno“~15, tak se vyhledají všechny výsledky, ve kterých je mezi těmito městy rozdíl 15 či méně slov.
  • Operátor + lze využít, je-li vyžadováno, aby výsledek obsahoval dané slovo. Obdobně operátor -, pokud výsledek dané slovo obsahovat nesmí. +Praha -Brno vyhledá výsledky se slovem Praha, ale bez slova Brno.
  • Vyhledávací lišta podporuje booleovský operátory AND a OR. Místo operátoru AND Aleph používá klasickou mezeru. Praha Brno vrátí výsledky, kde musí být obě slova Praha a Brno. Praha OR Brno vrátí výsledek, kde je buď Praha, nebo Brno, či obě města.
  • Pro více pokročilé uživatele je zajímavá informace, že search engine platformy Aleph je ElasticSearch. Mnohé zde nezmíněné operátory tohoto enginu tak fungují i v Alephu. Návod pro funkce ElasticSearch (např. regulérní výrazy či fuzzy matching) lze nalézt v dokumentaci ElasticSearch (viz Elastic 2022).

Operátory lze také libovolně kombinovat.

Pokročilé vyhledávání pomocí grafického rozhraní

Box Advanced Search nahrazuje potřebu využívání operátorů. Lze se k němu dostat pomocí ikony filtrů, napravo od vyhledávací lišty.

OCCRP Aleph
Obrázek 2 Grafické rozhraní pokročilého filtrování. Zdroj: (Aleph 2022b)
  1. All of these words vyhledává všechny výsledky, které obsahují všechny hledané výrazy.
  2. Any of these words vyhledává všechny výsledky, které obsahují alespoň jeden z hledaných výrazů, nebo oba výrazy. Nahrazuje tak booleovský operátor OR.
  3. None of these words vyhledává všechny výsledky, které neobsahují ani jeden z napsaných výrazů. Nahrazuje tak operátor -.
  4. This exact word/phrase vyhledává všechny výsledky, které obsahují napsanou frázi. Nahrazuje tak uvozovky.
  5. Spelling variations vyhledává variace hledaného slova, se specifikovaným maximálním množstvím možných pozměněných operátorů. Nahrazuje tak operátor ~(číslo).
  6. Terms in proximity to each other vyhledává všechny výsledku, které obsahují hledaná slova s definovanou maximální vzdálenosti od sebe. Nahrazuje tak operátor “ „~(číslo).

Grafické rozhraní pro pokročilé vyhledávání přestavuje uživatelsky přívětivou možnost i pro běžnou veřejnost. Jedná se o dostatečné řešení pro většinu vyhledávání. V případě potřeby dalších možností úprav vyhledávání je ale nutné se vrátit k vyhledávání přímo ve vyhledávací liště za využití operátorů, které slouží k pokročilému vyhledávání v search enginu ElasticSearch.

Filtrování výsledků

Po vyhledání výsledků pomocí vyhledávací lišty lze výsledky filtrovat. Platforma umožňuje filtrovat podle typu souboru, jazyka, emailových adres, telefonních čísel, jmen a dalších. Platforma nabízí základní filtry, které lze vidět na obrázku 3.

Obrázek 3 Základní filtry. Zdroj: (Aleph 2022b)

Po rozkliknutí Configure filters lze filtrovat ve vysokém detailu, viz obrázek 4.

Obrázek 4 Pokročilé filtry. Zdroj: (ALEPH 2021b)

Výsledky lze také filtrovat pomocí časové osy. Na ní lze vidět rozložení výsledků v čase a umožňuje se tak zaměřit na specifický časový úsek, viz obrázek 5.

Obrázek 5 Filtrování pomocí časové osy. Zdroj: (Aleph 2022b)

Exportování dat

Data lze kromě nahrávání na platformu i z platformy exportovat. Není tak vyžadováno zpracování souborů pouze v platformě, která umožňuje prohlížení souborů, ale je možné je zpracovávat v uživatelem preferovaném softwaru. Po nalezení výsledků je tak možné např. dataset exportovat do formátu xlsx a následně jej dále zpracovávat mimo platformu. Platforma extrahuje textové formáty jako plain text či HTML, Microsoft Office formáty, tabulární formáty jako csv, e-mailové formáty, balíčky jako ZIP a audiovizuální formáty jako JPEG či mp4.

Organizace výsledků

Aleph umožňuje tvorbu vlastního prostoru (investigation), ve kterém lze organizovat a následně vizualizovat výsledky, ať už pro účely investigativního vyšetřování, či průzkumu firem v rámci competitive intelligence. Jedná se o místo, kam lze soubory nahrávat a kde je lze upravovat a organizovat. Následně lze soubory vkládat do struktur a poté tvořit síťové diagramy. Jelikož platforma podporuje spolupráci, tak lze do pracovních prostorů zvát další členy.

Ukázkový pracovní prostor

Pracovní prostor je demonstrován na základě vyhledávání informací o firmě Madeta a. s. a následného zjišťování vazeb firmy na další subjekty. Po přihlášení se v pravém horním rohu zobrazuje tlačítko Investigations. Po otevření se zobrazuje možnost vytvoření nového pracovního prostoru.

Obrázek 6 Tvorba pracovního prostoru. Zdroj: (Aleph 2021b)

Následně se uživateli zpřístupní pracovní prostor.

Obrázek 7 Úvodní obrazovka pracovního prostoru. Zdroj: (Aleph 2021b)

Do pracovního prostoru lze pomocí tlačítka Create new entitities vytvářet nové entity, které mají být součástí pracovního prostoru. Vytvoříme proto entitu Madeta a. s., která se následně přidá do seznamu firem v pracovním prostoru.

Obrázek 8 Vložení entity do pracovního prostoru. Zdroj: (Aleph 2021b)

Po přidání nové entity lze rozkliknut položku Companies, ve které lze vidět firmu Madeta. K firmě lze přiřadit další údaje jako jurisdikce, datum založení a další.

Obrázek 9 Firmy, které jsou součástí pracovního prostoru. Zdroj: (Aleph 2021b)

Jelikož aktuálně nemáme k dispozici žádné další informace o hledané firmě, je nutné je nejprve na platformě vyhledat. Ve výsledcích na obrázku níže lze vidět, že lze přistoupit ke dvěma datasetům s informacemi o firmě a k dalším dvěma datasetům s informacemi o dotacích, ve kterých firma figuruje.

Obrázek 10 Výsledky vyhledávání. Zdroj: (Aleph 2021b)

Po otevření datasetu s informacemi o firmě lze vidět organizační strukturu firmy.

Obrázek 11 Organizační struktura firmy Madeta a. s. Zdroj: (Aleph 2021b)

Ing. Milan Teplý je předsedou představenstva firmy, kterého můžeme také zařadit do pracovního prostoru.

Obrázek 12 Přidání osoby do pracovního prostoru. Zdroj: (Aleph 2021b)

Po přidání nové entity lze rozkliknut položku People, ve které lze vidět Ing. Milana Teplého. K němu lze přiřadit další údaje jako národnost, datum narození, e-mail a další.

Obrázek 13 Osoby, které jsou součástí pracovního prostoru. Zdroj: (Aleph 2021b)

Jelikož jsme při hledání informací o firmě nalezli datasety s dotacemi (viz obrázek 10), můžeme je dále využít.

Obrázek 14 Informace o dotacích firmy Madeta a.s. Zdroj: (Aleph 2021b)

Po otevření výsledku zjišťujeme, že se jedná o dotace z Evropské unie. Jednotlivé dotace také obsahují odkazy na stažení datasetů, pomocí kterých lze datasety stáhnout a následně vložit do pracovního prostoru (viz kapitola Extrahování dat). Nejdříve přidáme Evropskou unii jako entitu.

Obrázek 15 Vložení Evropské unie do pracovního prostoru. Zdroj: (Aleph 2021b)

Následně také nahrajeme dataset o dotacích, pomocí tlačítka Upload documents, aby byla všechna data na jednom místě.

Obrázek 16 Nahrání souboru do pracovního prostoru. Zdroj: (Aleph 2021b)

Nahraný dokument je poté k dispozici pod tlačítkem Documents.

Obrázek 17 Nahrané dokumenty v pracovním prostoru. Zdroj: (Aleph 2021b)

Jelikož je již součástí pracovního prostoru několik entit, lze je vizualizovat, pomocí tlačítka Sketch a network diagram.

Obrázek 18 Vytvoření diagramu. Zdroj: (Aleph 2021b)

Po vytvoření diagramu se otevře prostředí, ve kterém lze diagramy tvořit.  

Obrázek 19 Prostředí tvorby diagramů. Zdroj: (Aleph 2021b)

Pomocí tlačítka add entity v levém menu lze přidat dříve vytvořené entity. Tímto způsobem postupně přidáme všechny entity v pracovním prostoru.

Obrázek 20 Přidání entity. Zdroj: (Aleph 2021b)

Po přidání se objeví uzel pro každou přidanou entitu.

Obrázek 21 Vizualizace entit. Zdroj: (Aleph 2021b)

Každý uzel lze upravovat kosmeticky a také k němu lze přidávat dodatečné informace.

Obrázek 22 Úprava uzlů. Zdroj: (Aleph 2021b)

Pomocí tlačítka v levém menu lze mezi uzly přidávat vztahy, které se projevují linií mezi uzly. Ty lze obdobně jako u uzlu rozšiřovat o informace.

Obrázek 23 Přidání vztahu mezi uzly. Zdroj: (Aleph 2021b)

Ve výsledku poté vypadá základní vizualizace následovně. Ve grafu lze vidět, že Milan Teplý je předsedou firmy Madeta a. s., která čerpá dotace z Evropské unie. Pro podrobnější informace lze následně v pracovním prostoru otevřít dataset s dotacemi.

Obrázek 24 Ukázková vizualizace. Zdroj: (Aleph 2021b)

Závěr

Platforma OCCRP Aleph je unikátní platforma, která je využívána pro boj proti korupci, praní špinavých peněz a dalším zločinům. To vše v rámci veřejně přístupné open source platformy. Jedná se o užitečný nástroj nejen pro investigativní novináře, ale i běžné uživatele, kteří mohou využívat velké množství rejstříků a ostatních souborů na jednom místě, pro účely competitive intelligence. Platforma umožňuje uživatelům pokročilé vyhledávání a automatickou anotaci nahraných souborů. Aleph kromě vyhledávání informací umožňuje i tvorbu pracovních prostorů, které umožňují nalezené informace organizovat a následně vizualizovat.

Zdroje

Číst více

Další články