Roboti Google dokáží indexovat i soubory různého typu. V dnešním pokračování seriálu o pokročilém vyhledávání v rámci Google se podíváme na možnost získání zajímavých informací ukrytých třeba v excelovských (XLS) souborech.

Proto, abychom nechali Google vyhledat nějaké zajímavé soubory, potřebujeme využít speciálního operátoru filetype:, za který umístíme námi zvolenou příponu. Pokud by vás zajímalo přehled typů souborů, které můžete vyhledávat, naleznete je zde. Ale pojďme dále. Pro začátek si dáme za úkol vytěžit z Googlu nějakou databázi kontaktů s osobními informacemi.

Tisíce kontaktů na dosah ruky

Pro tento úkol si zvolíme příponu XLS, tedy soubor zpracovávaný v programu MS Excel. Vyhledejme si:

"contact list" filetype:xls -template

Tímto dotazem říkáme Googlu, aby zjistil, zda nemá ve svých bázích indexován nějaký zajímavý XLS soubor s názvem „contact list“, nebo aby takový soubor tuto frázi obsahoval.

Na druhé straně výsledků nalezneme mimo jiné třeba následující záznam:

google searching filetype:xls
Na oficiálním serveru státu Massachusetts jsou zajímavé soubory s kontaktními údaji. Třeba pro oblast zdravotní péče.

Pokud si tento soubor prohlédneme, zjistíme stovky jmen z oboru zdravotní péče, kteří zastupují přední firmy. Nechybí e-maily, telefonní čísla… Ale to není vše. Zkusme si náš úkol trochu ztížit a najít seznam amerických novinářů s kontaktními údaji. Zvolme tuto strategii:

"media * *"  intext:"new york times" filetype:xls -template (site:com OR site:us OR site:gov)

Syntax v detailu

Rozeberme si celou syntax v jednotlivých blocích.

"media * *" (tato část řeší potenciální název souboru, např: „media contact list“, „media phone lists“, „media contact database“, apod. * Asterisk má v Google funkci nahrazení jednoho slova.)

intext:"new york times" (zvolili jsme název média, který MUSÍ být součástí této databáze a tím předpokládáme výskyt DALŠÍCH podobných médií.)

filetype:xls (chceme soubory typu XLS)

-template (nechceme, aby se v souboru vyskytovalo slovo „template“, tedy šablona. Tím předpokládáme eliminaci prázdných souborů)

(site:com OR site:us OR site:gov)
(vyhledáváme na doménách COM, US, GOV).

Podívejme se hned na dva zajímavé výsledky.

Google searchich media contacts
Velká databáze francouzských novinářů (z nichž jeden píše pro New York Times)

Ale tento soubor pro nás nebyl klíčový. Druhý soubor je mnohem relevantnější.

google searching filetype:xls
Jedna z databází stovek amerických novinářů s e-mailovými adresami.


Shrnutí:

  • Google operátor filetype: umožňuje vyhledávat mnoho formátů souborů, které jsou indexovány tímto vyhledávačem.
  • V kombinaci s konkrétní frází tak lze hledat různé databáze plné jmen osob s kontaktními údaji.

+ posts

ZANECHTE ZPRÁVU

Prosím vložte komentář!
Prosím zadejte jméno