Domů Blog

Role OSINT při dokumentování válečných zločinů na Ukrajině

0

Úvod

Ruská invaze na Ukrajinu v únoru 2022 radikálně změnila vztahy mezi válkou, technologií a standardy dokazování v mezinárodním trestním soudnictví. Tento konflikt je považován za nejvíce zdokumentovanou válku v historii a zanechal za sebou velké množství digitálních stop, jako například videa natočená na smartphony, snímky z dronů, záběry z osobních kamer vojáků, satelitní snímky a miliony příspěvků na sociálních sítích (Ricci & Crawford, 2024). Tyto digitální stopy sbírají ukrajinská vláda, mezinárodní organizace a nezávislé skupiny pro lidská práva, aby mohly dokumentovat a dokazovat válečné zločiny, které byly spáchány během války. Tohle změnilo tradiční metody dokazování válečných zločinů, které se spoléhaly na svědectví přeživších, fyzické důkazy a oficiální dokumenty.

Hlavní otázkou této práce je, jakou roli hraje OSINT dnes při dokumentování válečných zločinů na Ukrajině a jak tyto důkazy ovlivňují mezinárodní trestní soudnictví. V teoretické části práce se zaměříme na konceptuální a právní rámec pro digitální otevřené zdrojové důkazy se zaměřením na Berkeleyho protokol pro digitální otevřené zdrojové vyšetřování a Leidenské pokyny pro používání digitálně získaných důkazů. V rámci praktické části této práce se podíváme na tři případy válečných zločinů, kde OSINT hrál jednu z klíčových rolí v rekonstrukci těchto incidentů a identifikaci podezřelých. Tyto případy zahrnují masové vraždění civilistů v Buči a bombardování dramatického divadla v Mariupolu, kde se schovávali civilisté se svými dětmi.

Digitální důkazy z otevřených zdrojů a mezinárodní trestní právo


Koncepce a rozsah digitálních informací z otevřených zdrojů

Nejprve je důležité definovat, co jsou digitální informace z otevřených zdrojů. OSINT je soubor dat a informací, které jsou získávány z veřejně dostupných zdrojů a jsou shromažďovány, využívány a včas šířeny mezi příslušné příjemce za účelem splnění konkrétních požadavků na zpravodajské informace (Williams & Blum, 2018). Tyto zdroje mohou zahrnovat příspěvky na sociálních sítích, videa a fotografie z mobilních zařízení, záznamy z kamer a další data, která jsou veřejně dostupná na internetu. Poté, co jsou tyto informace shromážděny a ověřeny z hlediska jejich autenticity a spolehlivosti, mohou být použity v trestních řízeních jako digitální “open source” důkazy.

Gillett a Fan (Gillett & Fan, 2023) zdůrazňují, že tato forma důkazů čím dál více získává na významu a důležitosti v Mezinárodním trestním soudu (ICC) a dalších soudních institucích, které aplikují mezinárodní trestní právo. Zároveň upozorňují na určité výzvy a omezení spojená s používáním OSINT důkazů. Data z otevřených zdrojů jsou dynamická, kumulativní a často neúplná. To znamená, že je potřeba mít jasné metodologie pro sběr, analýzu a ověřování těchto dat, aby byla zajištěna jejich spolehlivost a autenticita v soudních řízeních (Gillett & Fan, 2023). Autoři také uvádějí, že soudní instituce musí zavést systematické postupy pro hodnocení a přijímání digitálních otevřených zdrojových důkazů na základě expertních znalostí a že do procesu sběru a analýzy takových důkazů by měli být zapojeni specializovaní experti.

Berkeleyho protokol pro digitální otevřené zdrojové vyšetřování

Berkeleyho protokol pro digitální otevřené zdrojové vyšetřování (Berkeley Protocol for Digital Open Source Investigations) je zatím nejkomplexnějším a nejpodrobnějším pokusem o vytvoření standardizovaného rámce pro tento druh vyšetřování. Tento protokol byl vyvinut v roce 2022 kanceláří Vysokého komisaře OSN pro lidská práva (OHCHR) spolu s Human Rights Center na University of California, Berkeley School of Law (Office of the United Nations High Commissioner for Human Rights (OHCHR) & Human Rights Center, 2022). Protokol poskytuje praktické pokyny k provádění online vyšetřování porušení mezinárodního trestního, lidských práv a humanitárního práva pomocí OSINT metodologií.

Tento dokument upozorňuje na důležitost dokumentace vyšetřovacích postupů, zachování původních dat a ochrany bezpečnosti a soukromí všech zúčastněných osob a stran, které se objevují v digitálních materiálech. Protokol také klade důraz na princip „neškodit“, který zavazuje vyšetřovatele, aby počítali s možnými riziky a důsledky, které by jejich vyšetřování mohlo mít na oběti, svědky a další zúčastněné strany (Office of the United Nations High Commissioner for Human Rights (OHCHR) & Human Rights Center, 2022).

Leidenské pokyny pro používání digitálně získaných důkazů

Leidenské pokyny pro používání digitálně získaných důkazů (Leiden Guidelines on the Use of Digitally Obtained Evidence) shrnují, jak mezinárodní soudy dosud využívaly digitální důkazy. Tyto pokyny nemění aktuální právní předpisy, ale poskytují odborníkům podrobné pokyny k otázkám relevance, přijatelnosti a práva na spravedlivý proces v souvislosti s digitálně získanými důkazy. Leidenské pokyny zdůrazňují, že fotografie, videa a jiné digitální materiály mohou být připuštěny k soudnímu řízení, pokud jsou relevantní, spolehlivé a mají důkazní hodnotu a pokud jejich připuštění neporušuje práva obviněného (Aalto-Setälä et al., 2022).

V kontextu Ukrajiny Ricci a Crawford uvádějí, jak se tento rámec aplikuje na sběr a používání digitálních důkazů o válečných zločinech spáchaných během ruské invaze. Podle jejich článku mají ukrajinské a mezinárodní organizace miliony potenciálně užitečných digitálních důkazů, ale jen malá část těchto důkazů může být analyzována a předložena soudu pro další řízení (Ricci & Crawford, 2024). Tohle otevírá diskusi o výběru, stanovení priorit a metodické přísnosti pro budoucí využití digitálních důkazů z otevřených zdrojů.

Případové studie využití OSINT při dokumentování válečných
zločinů na Ukrajině

Masové vraždění civilistů v Buči

Buča je malé město ležící severozápadně od Kyjeva které bylo na začátku března 2022 okupováno ruskými vojenskými silami a na konci téhož měsíce osvobozeno ukrajinskou armádou. Po odchodu ruské armády novináři a vyšetřovatelé zaznamenali množství mrtvých civilních obyvatel ležících na ulicích, ve dvorech a sklepech, z nichž většina měla svázané ruce a jasné známky mučení. Organizace Human Rights Watch provedla výzkum na území Buči a v přilehlých oblastech. Organizace uskutečnila rozhovory s obyvateli, prozkoumala věcné důkazy a analyzovala fotografie a videozáznamy. Byla zdokumentována řada případů zjevných masových vražd, násilných unesení a nezákonného zadržování, kterých se během okupace města dopustily ruské silové jednotky, a dospěla k závěru, že tyto činy lze považovat za válečné zločiny. (Institut pro střední Evropu)

Ruské představitele v reakci na to tvrdily, že mrtvá těla byla na ulice vyhozena až po odchodu ruských vojáků a že videozáznamy z Buči jsou zfalšované. Ministerstvo zahraničních věcí a provládní média tvrdily, že všechny ruské jednotky opustily Buču do 30. března a že snímky mrtvých občanů se poprvé objevily 3. dubna, poté, co do města vstoupily ukrajinské ozbrojené síly a bezpečnostní jednotky.

Bellingcat systematicky ověřoval tato tvrzení na základě veřejně dostupných zdrojů. Higgins zrekonstruoval chronologii jednotlivých událostí na základě oficiálních vyjádření ruských představitelů, zpráv ukrajinských místních médií a videí zveřejněných na sociálních sítích. Z výsledků inspekce bylo zjištěno, že ruské státní média sama informovala o operacích ruských vojsk v oblasti Buči 1. dubna, což je v rozporu s tvrzením, že všechna ruská vojska opustila tuto oblast do 30. března (Higgins, 2022).

Současně s tím videa natočená z projíždějícího auta na Jablunske ulici a nahraná na Telegram a Twitter 1. dubna již ukazovala několik těl ležících na ulici. Stejná těla a zničené automobily se objevily i na dalších videích natočených 2. dubna z různých stran. Bellingcat prokázal, že tato videa zachycovala stejné úseky ulice Jablunska a že poloha těl a trosek byla na různých záznamech stejná (Higgins, 2022).

Proruské komentátory se pokoušely tyto záběry diskreditovat tvrzením, že jedno z těl pohybovalo rukou a druhé se zvedlo. Bellingcat a další analytici z otevřených zdrojů podrobně prozkoumali příslušné záběry a ukázali, že údajný pohyb v zpětném zrcátku byl optickým efektem způsobeným zakřivením skla a že to, co bylo prezentováno jako pohybující se ruka, byla ve skutečnosti kapka deště nebo špína na čelním skle.

Tato analýza neposkytla odpovědi na všechny otázky týkající se Buči, ale zpochybnila hlavní dezinformační teorii, že uvedené záběry byly zinscenované po odchodu ruských vojsk.

Analytici z Center for Information Resilience (CIR) v rámci projektu “Eyes on Russia” použili satelitní snímky k rekonstrukci událostí. Shromáždili videa a fotografie s geolokací z ulice Jablunska a porovnali je s satelitními snímky ve vysokém rozlišení pořízenými společností Maxar Technologies 19. března a snímky Planet Labs z 21. března.

Podle jejich reportu byly protáhlé objekty, které byly vidět po stranách ulice Jablunska na satelitních snímcích, na stejných místech jako těla, která byla později vidět na videu pořízeném na místě. CIR použil standardní geoprostorové technologie k potvrzení, že satelitní snímky odpovídají zaznamenané poloze, a pomocí simulace polohy slunce ověřil, že směr a délka stínů odpovídají časovým záznamům v metadatech (Centre for Information Resilience, 2022).

Proruské médium WarOnFakes a některé oficiální zdroje tvrdily, že satelitní snímky z Buči z 19. března neexistují a že stíny na dostupných snímcích neodpovídají uvedenému času. CIR tyto tvrzení popřel a poukázal na to, že vycházely ze selektivního filtrování satelitních archivů a nekorektního převodu místního času na světový koordinovaný čas (Centre for Information Resilience, 2022).

Po úpravě parametrů vyhledávání a ověření času pořízení snímků u různých dodavatelů CIR potvrdil, že snímky ulice Jablunske z 19. března od společnosti Maxar existují a že tvar stínů na nich odpovídá očekávané poloze slunce.

V důsledku těchto veřejných vyšetřování se podařilo odstranit časový a prostorový rozpor, na kterém bylo založeno popírání. Prokázalo se, že těla se na ulici Jablunské nacházela již 19. března, byla nadále viditelná na satelitních snímcích pořízených 21. března a objevila se ve videozáznamech natočených 1. a 2. dubna, v době, kdy ruské vojenské jednotky stále byly v této oblasti, nebo alespoň předtím, než ukrajinské ozbrojené síly mohly tuto situaci zinscenovat (Centre for Information Resilience, 2022; Higgins, 2022).

Tyto závěry jsou v souladu s výsledky Nezávislé mezinárodní komise pro vyšetření událostí na Ukrajině, která zjistila, že ruská vojska spáchala nezákonné vraždy civilního obyvatelstva v Buči, a také s širším rámcem dokumentovaným organizací Human Rights Watch a dalšími organizacemi.

Případ v Buči se tak stal typickým příkladem toho, jak mohou otevřené zdroje informací čelit popírání a dezinformacím o zvěrstvech. Chronologická rekonstrukce, geospatiální porovnání satelitních a terénních snímků a transparentní vyvrácení nepravdivých tvrzení ilustrují, jak lze digitální fragmenty proměnit v souvislý řetězec důkazů. Zároveň tento případ zdůrazňuje, že taková práce doplňuje, ale nenahrazuje soudní expertizu a svědecké výpovědi získané na místě.

Bombardování dramatického divadla v Mariupolu

Útok na Doněcké regionální akademické divadlo v Mariupolu dne 16. března 2022 je jedním z nejvíce šokujících incidentů ruské invaze na Ukrajinu. Z pohledu OSINT je tento případ zajímavý tím, že není možnost dostat se fyzicky na místo činu kvůli ruské okupaci města. Proto se vyšetřovatelé z Amnesty International a Center for Spatial Technologies (CST) museli při rekonstrukci událostí spoléhat na kombinaci různých metod dálkového průzkumu a na analýzu fotografií a videí z otevřených zdrojů. Dalším klíčovým prvkem bylo využití satelitních snímků, na kterých bylo možné vidět škody na budově divadla a to, že nápis “DĚTI”, který byl namalován na chodníku před budovou a sloužil jako varování pro ruské vojáky, byl dobře viditelný ještě před útokem (Amnesty International, 2022). Navzdory tomu však 16. března 2022 kolem 10. hodiny ráno velký výbuch zničil budovu a zabil mnoho lidí. Podle různých zdrojů zahynulo v divadle 300 až 600 lidí.

Na základě těchto důkazů Amnesty International dospěla k závěru, že charakter výbuchů spíše odpovídá jedné nebo dvěma leteckým bombám shozeným z ruského letadla a že se v žádném případě nemohlo jednat o vnitřní výbuch nebo následek menší rakety.

Satelitní snímky pořízené pomocí Maxaru ukázaly zřícení střechy divadla nad hlavním sálem a velké hromady trosek v severní a jižní části budovy. Svědci, kteří tento útok přežili, také tvrdí, že těsně před výbuchem slyšeli zvuky letadel a někteří svědci tvrdí, že viděli samotné letící bomby. Verze proruských médií, že příčinou tragédie byli ukrajinští vojáci, kteří údajně vyhodili divadlo do vzduchu zevnitř, nebyla potvrzena žádnými spolehlivými důkazy (Amnesty International, 2022).

Souběžně s tímto výzkumem vypracovalo v Kyjevě Centrum pro prostorové technologie ve spolupráci s Forensis a Forensic Architecture detailní trojrozměrný model divadla na základě jeho fotografií a architektonických plánů. Tento model byl následně použit k analýze poškození budovy a k rekonstrukci trajektorie leteckých bomb. Vyšetřovatelé také provedli rozhovory s přeživšími, kteří se mohli pohybovat po tomto modelu a vyprávěli výzkumníkům, kde se během útoku nacházeli a jak se jim podařilo přežít (Center for Spatial Technologies (CST) & European Center for Constitutional and Human Rights (ECCHR), 2024). Inženýr-pyrotechnik, přizvaný organizací CST a Evropským centrem pro ústavní práva a lidská práva (ECCHR), dospěl k závěru, že alespoň jedna velká letecká bomba prorazila slabou střechu nad pódiem a explodovala nad hlavním sálem. Výzkum ukazuje, že jako zbraň byla s největší pravděpodobností použita řízená letecká bomba KAB-500, i když nevylučuje použití běžné neřízené bomby. V jakémkoli případě však je jasné, že pro útok na divadlo byly použity ruské vojenské letecké síly, což odpovídá svědectvím přeživších o častých náletech ruských letadel na Mariupol a dalšími veřejnými záznamy o prolétajících ruských letadlech v polovině března 2022 (Center for Spatial Technologies (CST) & European Center for Constitutional and Human Rights (ECCHR), 2024).

Na základě těchto závěrů provedl ECCHR právní posouzení. Tvrdil, že divadlo bylo civilním objektem a že neexistují žádné důkazy o jeho využití pro vojenské účely. Vzhledem k zjevné přítomnosti velkého počtu civilistů a absenci jakýchkoli konkrétních vojenských cílů byl útok buď záměrně namířen proti civilistům a civilnímu objektu, nebo přinejmenším vedl ke smrti civilistů, což zjevně převyšovalo jakékoli možné vojenské výhody. V obou scénářích jsou přítomny prvky válečného zločinu podle Římského statutu. Zpráva také zkoumá tento útok v širším kontextu útoků na civilní obyvatelstvo v Mariupolu a vyslovuje domněnku, že bombardování divadla může být součástí zločinu proti lidskosti, přičemž poznamenává, že pro konečné rozhodnutí jsou zapotřebí další důkazy.

Závěr

Cílem této práce bylo ukázat, jakou roli hraje OSINT při dokumentování a vyšetřování válečných zločinů na Ukrajině a jak tyto digitální důkazy zapadají do rámce mezinárodního trestního práva. Teoretická část ukázala, že Berkeleyho protokol a Leidenské pokyny nabízejí metodologický a právní základ pro práci s tímto typem důkazů. Tyto dokumenty však také kladou důraz na nutnost standardizace transparentních procesů a ověřování, jakož i na nutnost dodržování základního práva na spravedlivý soudní proces.

Případové studie Buči a mariupolského divadla ukazují, že OSINT může být velmi užitečný a efektivní pro vyšetřování a rekonstrukci podobných incidentů během aktivní fáze války. V Buči digitální důkazy pomohly vyvrátit ruské popírání a dokázat zabití civilistů v době ruské okupace. V Mariupolu kombinace satelitních snímků, trojrozměrného modelu a výpovědí přeživších umožnila zrekonstruovat letecký útok na objekt, který byl zjevně civilní.

Zároveň je vidět, že OSINT nemůže v plném míře nahradit tradiční metody dokazování jako například forenzní expertizy na místě činu nebo svědecké výpovědi a vyvolává nové otázky v oblasti etiky, dezinformací a spolehlivosti. Ale i tak můžeme říct, že bez OSINTu by snaha o vyšetření a dokumentaci válečných zločinů v prostředí moderní války byla mnohem slabší a méně přesná.

Photo by Julia Rekamie

Použitá literatura

Aalto-Setälä, S., Caroli, L., Rewald, S. K., Freytag, J., Jaramillo Gomez, M. F., & Lim, J. (2022).
Leiden Guidelines on the Use of Digitally Derived Evidence in International Criminal Courts and Tribunals. Kalshoven-Gieskes Forum, Leiden University.
https://leiden-guidelines.com/assets/Leiden%20Guidelines%20on%20the%20Use%20of%20DDE%20in%20ICCTs_20220404.pdf

Amnesty International. (2022, June). “Children”: The Attack on the Donetsk Regional Academic Drama Theatre in Mariupol, Ukraine (tech. rep. No. EUR 50/5713/2022). Amnesty International.
https://www.amnesty.org/en/wp-content/uploads/2022/06/EUR5057132022ENGLISH.pdf

Center for Spatial Technologies (CST) & European Center for Constitutional and Human Rights (ECCHR). (2024, January). The Attack on the Mariupol Drama Theater: A Legal Assessment (tech. rep.). CST / ECCHR.
https://theater.spatialtech.info/reports/CST-ECCHR%20Mariupol%20Theater.pdf

Centre for Information Resilience. (2022, April). Disinformation and Denial: Russia’s attempts to discredit open source evidence of Bucha.
https://www.info-res.org/eyes-on-russia/reports/disinformation-denial-russias-attempts-to-discredit-open-source-evidence-of-bucha/

Gillett, M., & Fan, W. (2023). Expert Evidence and Digital Open Source Information: Bringing Online Evidence to the Courtroom. Journal of International Criminal Justice, 21(4), 661–693.
https://doi.org/10.1093/jicj/mqad050

Higgins, E. (2022, April). Russia’s Bucha “Facts” Versus the Evidence.
https://www.bellingcat.com/news/2022/04/04/russias-bucha-facts-versus-the-evidence/

Office of the United Nations High Commissioner for Human Rights (OHCHR) & Human Rights Center, B. S. o. L., University of California. (2022). Berkeley Protocol on Digital Open Source Investigations: A Practical Guide on the Effective Use of Digital Open Source Information in Investigating Violations of International Criminal, Human Rights and Humanitarian Law. United Nations.
https://www.ohchr.org/sites/default/files/2024-01/OHCHR_BerkeleyProtocol.pdf

Ricci, A., & Crawford, J. (2024). Puzzling Pieces: OSINT and War Crime Accountability in Ukraine [Long Read]. RUSI Commentary.
https://www.rusi.org/explore-our-research/publications/commentary/puzzling-pieces-osint-and-war-crime-accountability-ukraine

Williams, H. J., & Blum, I. (2018). Defining Second Generation Open Source Intelligence (OSINT) for the Defense Enterprise. RAND Corporation.
https://doi.org/10.7249/RR1964

Moderní přístupy prompt engineeringu a jejich efektivita pro zpravodajský cyklus CI

0
UI
UI

Úvod

Generativní umělá inteligence mění výrazným způsobem fungování trhů a firem na celém světě. Využívání těchto technologií je v dnešní době spíše povinnost, aby organizace obstáli v této konkurenční a rychle měnící se době. Na jednu stranu přináší při správném využití rychlost a efektivitu, kdy uživatelé dokáží vypracovávat úkoly ve zlomku času, kdy stejné zadání by jim ještě před několika lety trvalo o mnoho hodin déle. Na druhou stranu jsou firmy využívající těchto nástrojů vystaveny hrozbám, na které neví v mnoho případech jak reagovat. 

Cílem této práce je analyzovat a propojit využití generativní umělé inteligence a promt engineeringu (PE) v kontextu competitive itelligence (CI) a zpravodajského cyklu. V práci jsou vymezeny teoretické poznatky z oblasti CI, GenAI a PE, ale i praktické ukázky jakým způsobem by měl analytik při využívání těchto nástrojů postupovat. Poukazuje na efektivitu a zrychlení práce při správném využití, ale odkazuje i na hrozby a rizika spojená s tímto tématem. Nakonec jsou uvedeny konkrétní příklady firem, které již tyto nástroje využívají. 

1 Metodologie 

Tato práce kombinuje kvalitativní metody a analytický přístup ke zjištění teoretických a praktických poznatků z oblasti generativní umělé inteligence, competitive intelligence a prompt engineeringu. Metodologie a rešerše poznatků kombinuje tradiční akademické výzkumné techniky s implementací moderních AI asistenčních nástrojů. 

Práce se opírá o akademické články z renomovaných akademických databází. Základ literární rešerše a identifikace klíčových článku o těchto tématech byla provedena s využitím akademických vědeckých vyhledávačů, jako je Scopus, Google Scholar a Web of Science, které poskytli teoretický rámec díky široké škále akademických zdrojů. Časové vyhledávání nebylo nijak omezeno, ale vzhledem k povaze tématu byly preferovány aktuálnější články od roku 2023–2025. 

Dále byla využita metoda tzv. Google Hackingu, což je metoda pokročilého Google vyhledávání. Tato metoda přinesla doplnění akademických zdrojů z akademických databází a umožnila užší a specifičtější rozsah vyhledávání. 

K identifikaci základní osnovy, literární rešerši a strukturování myšlenek byly použity nástroje umělé inteligence. K rešerši zdrojů byly využity hlavně nástroje Perplexity.ai a Google Gemini, které identifikovali řadu akademických zdrojů relevantních pro tuto práci. Všechny články byly následně validovány a přístup byl umožněn skrz knihovnu Vysoké školy Ekonomické. 

Další nástroj, který byl primárně použit k strukturování myšlenek, osnovy práce a vysvětlení komplexnějších témat byl ChatGPT od společnosti OpenAI. 

V neposlední řadě byl použit NotebookLM od společnosti Google, který poskytnul prostředí k sumarizaci a správu znalostí všech identifikovaných zdrojů. Tento nástroj umožnil integraci mezi získanými materiály, generovanými poznatky a písemnou analýzou, a sloužil k identifikaci asistovaných shrnutí a návrhu citací. 

Ke generování a kontrolu citací byl použit nástroj pro správu bibliografií a citací Zotero. Všechny použité zdroje byly nahrány a byly vygenerovány citace pomocí tohoto nástroje. Citace byly následně revidovány a manuálně upraveny o chybějící informace. 

Ačkoliv nástroje umělé inteligence zvýšily efektivitu a rychlost při psaní této práce, etické standardy byly přísně dodržovány. Všechny citované práce jsou veřejně dohledatelné a ověřitelné v akademických databázích. V této práci nebyly použity žádné důvěrné nebo neveřejné údaje. Obsah vygenerovaný umělou inteligencí byl revidován tak, aby nedošlo k žádným nepřesnostem. 

2 Competitive Intelligence v éře generativního AI 

Competitive intelligence (CI) je obor, který jako většina v dnešní době podlého významným změnám z důvodu tlaku generativní umělé inteligence. Postupy a metody pro zjišťování informací o konkurenčním prostředí se mění každým dnem. Zrychlení zpravodajského cyklu významným způsobem nutí firmy rychleji reagovat na konkurenční prostředí a zachycovat slabé signály již v samotném zárodku. Jedině tak firmy zůstávají kompetitivní v dnešním rychle se měnícím prostředí. 

CI neboli konkurenční zpravodajství je definováno mnoha způsoby, většina definic však klade důraz na systematický přístup ke shromažďování informací, etický přístup a dopad na strategické rozhodování. McGonagle & Vella (2002) definují CI jako proces, při kterém se využívají veřejné zdroje k získávání dat o konkurentech a prostředí, přičemž tato data jsou transformována na informace, které podporují obchodní rozhodnutí. Jedná se o etické, systematické a kreativní aplikace zpravodajské metodologie a klíčových metod, které integrují znalosti všech členů organizace. CI poskytuje informace o konkurentech, jejich strategii, cílech, silných a slabých stránkách a dává společnostem příležitost pochopit své postavení vůči konkurenci. Cílem firmy je získat konkurenční výhodu (Gémar, 2015). Klíčové aspektem je, že CI není jen o shromažďování dat a přeměňování na informace v požadovaném čase, ale firma musí zvolit správnou analýzu u různých druhů informací, a skrz tuto analýzu přidat informační hodnotu (Bartes, 2013). 

2.1 Zpravodajský cyklus 

Klíčovým aspektem celého CI je zpravodajský cyklus, který poskytuje systematický přístup ke shromažďování a transformaci surových dat do finálních informací (Bartes, 2013). CI rozděluje dva tradiční modely. Výběr závisí na komplexitě úkolů pro CI. Pro méně složité úlohy se využívá čtyřfázový model, který zahrnuje následující fáze (Bartes, 2013): 

1) Plánování a řízení 

2) Sběr dat 

3) Analýza 

4) Distribuce 

V praxi se více využívá pětifázový model. Ten je vnímán jako lépe přizpůsobený pro řešení složitých úkolů současného podnikatelského prostředí. Vychází z analýzy devíti klíčových kroků zpravodajského cyklu a strukturuje analytické procesy do dvou navazujících etap, čímž umožňuje detailnější zpracování původních dat (Bartes, 2013): 

1) Plánování a řízení cyklu 

2) Shromažďování informací a provádění výzkumu (sběr dat) 

3) Zpracování a ukládání informací (strukturování, hodnocení pravdivosti a úplnosti dat) 

4) Zpravodajská analýza informací (tvorba přidané hodnoty – inteligence) 

5) Distribuce zpravodajského produktu (tvorba finální zprávy a zpětné vazby) 

2.2 Problémy a výzvy CI 

Nástup AI a Big Data výrazně urychlil a zautomatizoval procesy konkurenčního zpravodajství. Úroveň jejich využití se však mezi firmami výrazně liší. Společnosti, které mají zavedený systematický a etický přístup k CI a aktivně začleňují umělou inteligenci, jsou podstatně efektivnější při sběru dat a dokážou si vytvářet udržitelnou konkurenční výhodu. Naopak organizace, jež přistupují ke CI nahodile a váhají s implementací AI, často výrazně zaostávají a provádějí své procesy méně efektivně než jejich konkurenti. CI se potýká se dvěma hlavními problémy, a to s výzvami související jak s povahou konkurenčního boje, tak s integrací nových technologií. 

Klíčové problémy týkající se konkurenční prostředí jsou o složitosti úkolů a nejasnosti a komplikovanosti vztahů mezi konkurenty. S tím souvisí přetíženost informacemi, se kterými se organizace musí potýkat (Gémar, 2015). Narůstající počet dat způsobuje používání podvodných informací (dezinformací) ze strany konkurence, a tlačí firmy ke větší ochraně údajů a obchodních tajemství (Bartes, 2013). S trendem Big Data souvisí i nízká kvalita dat, což má dopad na kvalitu výstupů z analýz. To způsobuje, že firmy nemají dostatek kvalitních informací o konkurentech. Tradiční metody jako průzkum trhu, mohou být zastaralé a mohou vést ke krátkozrakosti při identifikaci konkurenčních vztahů (Yuan et al., 2023). 

Druhou skupinou problému jsou výzvy spojené s AI a její adopcí. Jedním z problémů je nadměrné spoléhání firem na AI, což ztěžuje uživatelům smysluplné využití silných stránek a dohled nad jejich slabinami, což může vést ke zhoršení celkového výkonu (Passi & Vorvoreanu, n.d.). Organizace musí více vnímat AI nástroje jako soubor specializovaných inteligencí než jako jeden univerzální nástroj, který dokáže vše. Spoléhání na univerzalitu AI nástrojů limituje strategické rozhodování (AI hypertropie) (Campbell et al., 2025). Při používání nástrojů je však brát v potaz, že jednotlivá hodnocení jsou často nekonzistentní a zkreslená (biased) v rámci většího počtu AI aplikací(Doshi et al., 2025). Neposlední výzvou je nesoulad očekávaných a reálných schopností konkrétních GenAI inteligencí. Vývoj těchto inteligencí je nerovnoměrný, a vyžaduje přizpůsobení každého úkolu jednotlivým aplikacím dostupných v dané lokalitě. Firmy většinou riskují, že schopnosti těchto aplikací moc přecení, anebo ji podcení v oblastech, ve kterých už je silná. Například, text vygenerovaný AI je většinou z gramatického pohledu správně, ale ve většině případů nebere v potaz kulturní a emocionální nuance (Campbell et al., 2025). 

3 Generativní AI a zpracování informací 

Generativní umělá inteligence patří do skupiny technologií strojového učení, které generují nový obsah tím, že analyzují pravděpodobností vzorce v existujících datových sadách. Tento obsah může mít formu textu, obrázku, audia nebo videa (Campbell et al., 2025). Základním mechanismem těchto modelů je poziční kódování, které sleduje pořadí slov ve vstupu (query), a přiřazuje váhy důležitosti každému slovu v kontextu celkového vstupu. Tyto mechanismy jim umožňují zachytit dlouhé sémantické vztahy v textu (Lopez-Lira & Tang, 2025). 

Základním mechanismem velkých jazykových modelů je tokenizace. Tento proces rozděluje text do menších, zpracovatelných jednotek zvaných tokeny. To jsou nejmenší elementární jednotky, které mohou představovat slova, části slov, symboly nebo dokonce jednotlivé znaky. Takto se zpracovávají jak data strukturovaná, což jsou data s jasným formátem a strukturou většinou ve formě sloupců a řádků, ale i nestrukturovaná, tedy data která nemají jasnou strukturu (například data generována sociálními médii, nebo obrázky a videa). Nestrukturovaná data jsou modely zpracována a transformována na malá písmena (tokeny), a následně lemmatizována, což je základní proces v rámci zpracování přirozeného jazyka (NLP), který převádí slova na jejich základní slovníkový tvar, tzv. lemma. Příklad takového procesu může být převedení slova běžel na běžet (Ju, 2024). 

Další metodou NLP je stemming, který zpracovává a převádí nestrukturovaná data do strukturovaného formátu na základě odvozování kmenů slov (stems). Oproti lemmatizaci by tento proces převedl slovo bežel na běž. Lemmatizace je však více využívána kvůli její lepší interpretovatelnosti (Ju, 2024). 

Obě metody spadají do širší fáze čištění dat, kdy je text převeden na malá písmena, odstraněna je interpunkce, číslice a stop slova, což jsou slova, která nemají analytickou hodnotu (např. „a“, „the“, „is“) (Ju, 2024). 

Model následně funguje tak, že takto zpracovaný text kóduje do vícerozměrných vektorových reprezentací, kde jsou zachyceny kontextuální a sémantické vztahy. Sémantické vztahy odkazují na interpretaci a pochopení slov, frází, vět a vztahů mezi nimi (Chang et al., 2024). Kontextuální vazby určují, že sémantika je interpretována v rámci širšího okolí, což odkazuje na schopnost interpretovat enviromentální, časové a kulturní podněty za účelem generování relevantnějších a emočně citlivějších vstupů (Campbell et al., 2025). 

K těmto vazbám se následně váže kontextové okno (context window), což je kritické omezení, které přímo ovlivňuje, jak efektivně dokáže jazykový model pracovat s kontextuálními a sémantickými vazbami (Huang et al., 2025). Zpracovaný text, kde jsou zachyceny všechny potřebné vztahy je použit k vygenerování výstupu modelu, který je generován autoregresivním způsobem, kdy model na základě naučených statistických vzorů predikuje následující tokeny na základě vstupů generovaného uživatelem. Model maximalizuje pravděpodobnost sekvence tokenů podmíněnou kontextem. Jazykové modely v poslední době prošly velkými inovacemi, kdy už nejsou schopné jen generovat výstup, ale také plánovat, rozhodovat a jednat s využitím nástrojů, paměti a uvažování (tzv. agentní AI) (Campbell et al., 2025). 

Jak již bylo zmíněno na začátku, takovéto modely generují nový obsah na základě datových sad, na kterých jsou trénovány, a fungují na základě elementárních jednotek (tokenů). K tomu, aby modely dokázaly generovat relevantní obsah, musí být trénovány na obrovských korpusech textových dokumentů s miliony a miliardami tokenů. Například model GPT – 3 byl trénován na 300 miliardách tokenů a GPT – 4 na 13 bilionech tokenů (Brynjolfsson et al., 2025). 

3.1 Využití generativního AI ve zpravodajské cyklu 

Jazykové modely transformují zpravodajský cyklus tím, že zrychlují, zkvalitňují a automatizují klíčové fáze, jako je sběr, zpracování a analýza dat. Klíčové je, aby firmy přistupovaly k nástrojům generativního AI jako k dynamickému a vyvíjejícímu se spolupracovníkovi, namísto generického nástroje z důvodů zmíněných v kapitole 2.2. Obecně lze říci, že tyto modely dokáží generovat hodnotu skrze čtyři základní pilíře: překlad, shrnutí, klasifikace a amplifikace (zesílení) (Campbell et al., 2025). 

A. Fáze plánování a řízení 

V úvodní fázi zpravodajského cyklu dokážou jazykové modely rozkládat složité problémy dekompozicí komplexních úkolů na zvládnutelné pod úlohy, a navrhovat strategie a hypotézy formou Graph of Thoughts (GoT) a Tree-of-Thought (ToT) modelující informace jako komplexní graf nebo strom, což umožňuje zvažovat více možných řešení a strategií z různých úhlů pohledu, včetně pohledu dopředu (look ahead) a sebereflexe (self-evaluation) (Campbell et al., 2025). 

B. Fáze sběru informací 

V této fázi jsou jazykové modely nejvíce prospěšné tím, že umožňují přístup k aktuálním a rozsáhlým externím zdrojům, zejména pomocí augmentace vyhledávání (RAG). Tato technika rozšiřuje jazykové modely o externí znalostní databáze připojené uživatelem, což překonává omezení jazykových modelů (např. halucinace, vyhledávání zastaralých informací) tím, že vyhledávají relevantní dokumenty a zahrnují je do vstupu (promptu) (Y. Gao et al., 2024). 

C. Fáze zpracování a ukládání informací 

Následně je nutné shromážděná data očistit, strukturovat a zpracovat pro analýzu. Jazykové modely zde uplatňují pravidla popsané v kapitole 3. o zpracování textu. Všechny dostupné informace model segmentuje (tzv. chunking) do menších bloků, které jsou ukládány do vektorových databází. Tento proces je klíčový pro větší relevanci výstupu modelu (Huang et al., 2025). Následně jsou všechny dostupné bloky přeřazeny podle relevantnosti. Ty nejvíce relevantnější bloky se objeví na začátku a model omezí celkový počet bloků pro následné zpracování. Nakonec vybrané texty zkrátí na takovou délku, aby se předešlo informačnímu přetížení a problému „Lost in the middle“ (tendence jazykového modelu ignorovat informace uprostřed textu) (Y. Gao et al., 2024). 

D. Fáze analýzy 

Díky schopnostem uvažování, predikce a klasifikace přináší jazykové modely největší přidanou hodnotu ve fázi analýzy. Modely dokážou efektivně uvažovat nad problémy a navrhovat řešení. Jsou schopné uvažovat nad kroky vyhodnocování problémů a predikovat finanční dopady jednotlivých návrhů. Modely jako GPT – 4 dokážou přesně posoudit ekonomické dopady zpráv a tím predikovat výnosy či ztráty. Díky vyšší pokročilosti moderních modelů je možné analyzovat a interpretovat zprávy vyžadující hlubší analytické uvažování (např. oznámení příjmů nebo změny ratingu akcií) (Lopez-Lira & Tang, 2025). 

E. Fáze distribuce 

V poslední fázi zpravodajského cyklu se uplatňují jazykové modely při sumarizaci informací a hodnocení kvality výstupů. Generují plynulý, koherentní a relevantní obsah, jako jsou články, zprávy nebo marketingové kopie. Výsledky překládá a poskytuje přirozenější překlady než starší nástroje. Klíčová je interakce s jazykovým modelem, kdy dokáže upravit výstup do požadovaného formátu nebo systému na základě zpětné vazby od uživatele (Chen et al., 2025). Na základě metrik automaticky hodnotí kvalitu výstupu (např. plynulost, přesnost, novost a relevance) (Lopez-Lira & Tang, 2025). 

4 Prompt engineering (PE) 

Podle Chen et al., (2025) je prompt engineering systematický proces navrhování a optimalizace vstupních pokynů (tzv. promptů) pro velké jazykové modely (LLMs). Jeho hlavním cílem je maximalizovat užitečnost, přesnost, relevanci, koherenci a použitelnost generovaného výstupu. Umožňuje využít plný potenciál LLMs tím, že usměrňuje jejich chování a zvyšuje jejich účinnost. Dobře navržený prompt je klíčový ke generování relevantního obsahu bez chyb, jako jsou strojové halucinace. 

Metodologie rozlišuje dvě základní skupiny technik vedení modelu k přesnější a strukturovanějším odpovědím. 

4.1 Základní (foundational) techniky 

Základní techniky jsou oproti těm pokročilejším jednodušší a uchopitelnější pro netechnického uživatele. Mají jasnou strukturu a specifičnost, aby model zúžil prostor odpovědí (Chen et al., 2025). V tabulce 1 je přehled o základních technikách PE včetně příkladů. 

4.2 Pokročilé (advanced) techniky 

Tyto techniky jsou navrženy k řešení komplexnějších úkolů s cílem zajistit co nejvíce relevantní výstup bez halucinací (Chen et al., 2025). V tabulce 2 je přehled pokročilých technik a jejich ilustrace na konkrétních příkladech. 

Pokročilé techniky PE dosahují daleko vyšší relevantnosti výstupu než standartní prompting. V následující tabulce můžeme vidět porovnání přesnosti techniky COT se standartními prompt technikami. 

Je důležité poznamenat, že technika CoT pozitivně neovlivňuje výkon, dokud není použita s modelem dostatečné velikosti (Wei et al., 2023). 

Technika PoT, které deleguje výpočty programovacímu jazyku python dosahuje průměrnému zlepšení výkonu o 12 % oproti technice CoT v matematických a logických úlohách (Vatsal & Dubey, 2024). 

Na základě daných informací je očividné, že pro strategické řízení firmy a zrychlení zpravodajského cyklu je klíčové použití správné metody PE k dosáhnutí co nejvíce relevantních informací bez halucinací. Dále je klíčové přizpůsobit výběr techniky k povaze úkolu. K úkolům matematické nebo logické povahy bude vhodnější technika PoT, avšak k úkolům kreativnější charakteru a generování nápadů bude analytikovi spíše vyhovovat CoT, ToT nebo GoT. 

5 Využití PE a generativního AI v CI 

Jak již bylo v textu zmíněno, nástroje generativního AI a PE jsou klíčové ke zvýšení efektivity a rychlosti práce CI analytika v průběhu celkového zpravodajského cyklu. Pro účel competitive intelligence se nejvíce využívají k řešení následujících analytických úkolů. 

  1. Lingvistická inteligence 

Tato inteligence zahrnuje práci s textem, od shromáždění, zpracování až po tvorbu obsahu a klíčových analýz (Campbell et al., 2025). Následující tabulka sumarizuje klíčové analytické úkoly a konkrétní příklady pro CI. 

2. Logicko-matematická inteligence 

Tato analýza se zaměřuje na řešení matematických a logických problémů, predikativní analýzu a rozpoznávání vzorů (Campbell et al., 2025). Tabulka 5 sumarizuje konkrétní příklady využití. 



3. Kontextuální a agentní inteligence 

Tyto typy inteligence se stále rozvíjejí, avšak už nyní představují zásadní prvek pro úspěšné zvládání dynamických a strategických úloh. V následující tabulce je výčet těch nejdůležitějších úkolů pro CI. 

Již mnoho firem úspěšně implementovalo generativní AI do jejich zpravodajského cyklu. Například francouzský maloobchodní řetězec Carrefour implementoval generativního asistenta svým zaměstnancům, který poskytuje real-time přehled o produktovém positioningu konkurence a doporučení úpravy nabídky během interakce se zákazníkem. Dalšími firmami, které implementovali nepřetržitý monitoring konkurence jsou Walmart a Amazon. Například Walmart predikuje potřeby zásob tím, že kombinuje data o chování konkurence (cenové změny, promo akce) a tím predikuje poptávku po produktech. (Banafont, n.d.). Dalším příkladem je AI výzkumná platforma Northern Light SinglePoint, která centralizovala tisíce zdrojů (vědecké články, regulační dokumenty, analytické zprávy) do jednoho AI-portálu pro farmaceutické firmy. Tato platforma firmám ušetří pět milionů dolarů ročně (Northern Light, 2025). 

Dané příklady ilustrují důležitost implementování generativních AI nástrojů do zpravodajského cyklu a ukazují, že firmy, které úspěšně implementují tyto nástroje získávají konkurenční výhodu. 

6 Rizika, etika a limity 

Generativní AI a PE s sebou nesou řadu významných rizik a limitací, které můžou významným způsobem ohrozit kvalitu výstupu. 

Nejzásadnějším je již několikrát zmíněná halucinace a faktické nepřesnosti. Halucinace odkazuje na případy, kdy model generuje zdánlivě uvěřitelný, ale fakticky nekonzistentní nebo absurdní obsah, který je nepodložen. To může být ve formě malých nepřesností, ale i zcela imaginárního obsahu (Sahoo et al., 2024). Halucinace je jedna z kritických příčin, proč LLMs nelze používat na úkoly vyžadující vysokou faktickou přesnost (Xi et al., 2023). Tyto nepřesnosti vytvářejí riziko dezinformací, snižují důvěru a vedou k mezerám v odpovědnosti za daný výstup (Anh-Hoang et al., 2025). Příčin halucinací je několik. Data pro trénování mohla být zkreslena, nebo model může mít omezený přístup k aktuálním informacím nebo špatně pochopil kontext vstupu (Sahoo et al., 2024). 

Dalším rizikem je zaujatost a neobjektivita modelů (bias), které vznikají z důvodu nevyváženosti tréninkových dat, ve který je obsažen škodlivý obsah a sociální zaujatost, což způsobuje etická a sociální rizika. LLMs šíří a potenciálně zvětšují tento obsah (např. stereotypy vůči určité demografické identitě, rase, pohlaví nebo ideologii) (Chang et al., 2024). 

Asi nejdůležitějším rizikem z pohledu CI jsou rizika spojená s kybernetickou bezpečností a PE, který ačkoli zvyšuje produktivitu, otevírá nové vektory útoků, které mohou ohrozit integritu a důvěryhodnost zpravodajských dat. Pomocí promtu lze odhalit vlastnická a interní data, nebo jiný důvěryhodný materiál určený jen pro interní použití. Toto riziko je hmatatelné a vyžaduje systematické řízení firemních dat (Campbell et al., 2025). Už několik firem doplatilo na to, že nahráli senzitivní data do LLMs jako je Chatgpt. Asi nejznámějším případem je celosvětová firma Samsung, kdy jeden ze zaměstnanců nahrál interní kód do tohoto chatbotu a tím narušil integritu vnitropodnikových dat (Siladitya, 2023). Tím, že modely všechny vstupy ukládají a následně se na nich trénují, jsou data navždy uložena na serverech mimo kontrolu společnosti. Firmy se musí chovat zodpovědně a eticky k vnitropodnikovým datům a informacích o svých zákaznících tak, aby nedošlo k narušení soukromí, což s sebou nese jak finanční, tak i reputační riziko. 

Dalším rizikem jsou tzv. adversární útoky, kdy na základě cíleně škodlivého promtu je model manipulován tak, aby uživatelům generoval škodlivé výstupy (Campbell et al., 2025) 

Závěr 

Cílem práce bylo analyzovat využití generativní umělé inteligence a promt engineeringu v kontextu competitive itelligence a zpravodajského cyklu. Práce popisuje jak teoretické poznatky z oblasti CI, generativního AI a prompt engineeringu, ale zkoumá i praktické techniky, metody využití a použitelnost pro práci CI analytika. 

Implementace generativního AI je klíčové pro strategický rozvoj a kompetitivnost firmy. Využití nástrojů GenAI zvyšuje produktivitu, rychlost a efektivitu v každé fázi zpravodajského cyklu, od plánování přes sběr a analýzu dat, až po distribuci zpravodajského produktu. Klíčové je výběr správného nástroje, který vyhovuje povaze daného úkolu. Analytik musí zvolit správnou metodu dotazování, která povede k relevantnímu výstupu bez halucinací. Práce dále vyzdvihuje etický a kritický přístup k využívání těchto nástrojů. Uživatel musí strukturovat své dotazy v soulady s nejlepšími postupy PE (jako RAG augmentace nebo ToT přístup) s přihlédnutím na senzitivu interních dat jako jsou uživatelské informace jejich zákazníků, aby nedošlo k narušení těchto dat a uložení na veřejný server. To s sebou nese jak finanční, tak i reputační riziko. 

Práce ilustruje využití GenAI ve zpravodajském cyklu na reálných příkladech firem jako je Walmart nebo Carrefour, kteří již využívají real-time analytiku informací o konkurentech ke zlepšení své strategické pozice na trhu. 

Analytik by neměl tyto nástroje brát jako všemocný a univerzální nástroj který dokáže vše. Měl by využívat sadu těchto nástrojů a brát je spíše jako asistenta pro zrychlení a vylepšení svého výstupu práce. 

Zdroje 

Anh-Hoang, D., Tran, V., & Nguyen, L.-M. (2025a). Survey and analysis of hallucinations in large language models: Attribution to prompting strategies or model behavior. Frontiers in Artificial Intelligence, 8, 1622292. https://doi.org/10.3389/frai.2025.1622292 

Anh-Hoang, D., Tran, V., & Nguyen, L.-M. (2025b). Survey and analysis of hallucinations in large language models: Attribution to prompting strategies or model behavior. Frontiers in Artificial Intelligence, 8, 1622292. https://doi.org/10.3389/frai.2025.1622292 

Banafont, A. (n.d.). How Generative AI is redefining competitive analysis—Flipflow Blog. Retrieved November 29, 2025, from https://www.flipflow.io/en/blog-en/generative-ai-redefining-competitive-analysis/ 

Bartes, F. (2013). Five-phase model of the intelligence cycle of Competitive Intelligence. Acta Universitatis Agriculturae et Silviculturae Mendelianae Brunensis, 61(2), 283–288. https://doi.org/10.11118/actaun201361020283 

Brynjolfsson, E., Li, D., & Raymond, L. (2025). Generative AI at Work. The Quarterly Journal of Economics, 140(2), 889–942. https://doi.org/10.1093/qje/qjae044 

Campbell, C., Sands, S., Whittaker, L., & Mavrommatis, A. (2025). The AI intelligence playbook: Decoding GenAI capabilities for strategic advantage. Business Horizons, S0007681325001405. https://doi.org/10.1016/j.bushor.2025.08.004 

Chang, Y., Wang, X., Wang, J., Wu, Y., Yang, L., Zhu, K., Chen, H., Yi, X., Wang, C., Wang, Y., Ye, W., Zhang, Y., Chang, Y., Yu, P. S., Yang, Q., & Xie, X. (2024). A Survey on Evaluation of Large Language Models. ACM Transactions on Intelligent Systems and Technology, 15(3), 1–45. https://doi.org/10.1145/3641289 

Chen, B., Zhang, Z., Langrené, N., & Zhu, S. (2025). Unleashing the potential of prompt engineering for large language models. Patterns, 6(6), 101260. https://doi.org/10.1016/j.patter.2025.101260 

Doshi, A. R., Bell, J. J., Mirzayev, E., & Vanneste, B. S. (2025). Generative artificial intelligence and evaluating strategic decisions. Strategic Management Journal, 46(3), 583–610. https://doi.org/10.1002/smj.3677 

Gao, A. K. (2023). Prompt Engineering for Large Language Models. 

Gao, Y., Xiong, Y., Gao, X., Jia, K., Pan, J., Bi, Y., Dai, Y., Sun, J., Wang, M., & Wang, H. (2024). Retrieval-Augmented Generation for Large Language Models: A Survey (arXiv:2312.10997). arXiv. https://doi.org/10.48550/arXiv.2312.10997 

Gémar, G. (2015). Text mining social media for competitive analysis. Management Studies. 

Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., Chen, Q., Peng, W., Feng, X., Qin, B., & Liu, T. (2025). A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions. ACM Transactions on Information Systems, 43(2), 1–55. https://doi.org/10.1145/3703155 

Ju, X. (2024). A social media competitive intelligence framework for brand topic identification and customer engagement prediction. PLOS ONE, 19(11), e0313191. https://doi.org/10.1371/journal.pone.0313191 

Lopez-Lira, A., & Tang, Y. (2025). Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models (arXiv:2304.07619). arXiv. https://doi.org/10.48550/arXiv.2304.07619 

McGonagle, J. J., & Vella, C. M. (2002). Bottom Line Competitive Intelligence. Bloomsbury Academic. 

Northern Light. (2025, November 12). How a Fortune 50 Pharma Company Saved $5M+ and Scaled Strategic Intelligence with SinglePointTM. https://www.northernlight.com/blog/how-a-fortune-50-pharma-company-saved-5m-and-scaled-strategic-intelligence-with-singlepoint-tm?utm_source=chatgpt.com 

Passi, S., & Vorvoreanu, M. (n.d.). Overreliance on AI Literature Review. 

Sahoo, P., Meharia, P., Ghosh, A., Saha, S., Jain, V., & Chadha, A. (2024). A Comprehensive Survey of Hallucination in Large Language, Image, Video and Audio Foundation Models. Findings of the Association for Computational Linguistics: EMNLP 2024, 11709–11724. https://doi.org/10.18653/v1/2024.findings-emnlp.685 

Sahoo, P., Singh, A. K., Saha, S., Jain, V., Mondal, S., & Chadha, A. (2025). A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications (arXiv:2402.07927). arXiv. https://doi.org/10.48550/arXiv.2402.07927 

Siladitya, R. (2023, May 2). Samsung Bans ChatGPT Among Employees After Sensitive Code Leak. https://www.forbes.com/sites/siladityaray/2023/05/02/samsung-bans-chatgpt-and-other-chatbots-for-employees-after-sensitive-code-leak/ 

Vatsal, S., & Dubey, H. (2024). A Survey of Prompt Engineering Methods in Large Language Models for Different NLP Tasks (arXiv:2407.12994). arXiv. https://doi.org/10.48550/arXiv.2407.12994 

Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. (2023). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models (arXiv:2201.11903). arXiv. https://doi.org/10.48550/arXiv.2201.11903 

Xi, Z., Chen, W., Guo, X., He, W., Ding, Y., Hong, B., Zhang, M., Wang, J., Jin, S., Zhou, E., Zheng, R., Fan, X., Wang, X., Xiong, L., Zhou, Y., Wang, W., Jiang, C., Zou, Y., Liu, X., … Gui, T. (2023). The Rise and Potential of Large Language Model Based Agents: A Survey (arXiv:2309.07864). arXiv. https://doi.org/10.48550/arXiv.2309.07864 

Yuan, H., Deng, W., Ma, B., & Qian, Y. (2023). Monitoring Events of Market Competitors: A Text Mining Method for Analyzing Massive Firm-Generated Social Media. Journal of Theoretical and Applied Electronic Commerce Research, 18(2), 908–927. https://doi.org/10.3390/jtaer18020047 

Model Collapse: When AI Training on Synthetic Data Threatens Knowledge Integrity

0
synthetic visualization created by an artificial intelligence model based on the "Ouroboros" and "Model Collapse" concepts discussed in text
Synthetic visualization created by Nano Banana Pro (by Google) based on the Ouroboros and Model Collapse concepts discussed in text

Generative AI models increasingly train on content produced by previous AI systems rather than authentic human data, causing model collapse, a recursive degradation of system performance and diversity. This paper systematically analyzes peer-reviewed research, industry data, and market developments from November 2022 through November 2025. It demonstrates analytically that model collapse is mathematically inevitable: the Central Limit Theorem ensures each training generation on synthetic data reduces variance and eliminates distribution tails containing rare but crucial patterns. Empirical studies across text, code, and image generation confirm this theoretical prediction, showing measurable degradation within five generations. It covers manipulation risks caused by my large amount of synthetic text appearing online, beyond technical degradation, including government contracts worth millions designed to bias AI outputs toward specific political interests. Then, it examines the economic response: AI companies have committed hundreds of millions of dollars in licensing deals, with individual agreements ranging from $25 million to over $250 million to secure uncontaminated pre-2022 human data. Findings reveal that model collapse threatens AI reliability, knowledge diversity and cultural representation, with severe implications for linguistic minorities.

1        Introduction

We built AI to learn from us. Now, it is partially (and increasingly) learning from itself. This wasn’t the plan. After ChatGPT launched in late 2022, there was a huge increase in AI-generated content posted online. The percentage of new articles written mainly by AI rose from 4.2% before November 2022 to over 50% by late 2024 (Graphite, 2025).

Because AI models are trained on bulk web-scraped data, this change has led to a new problem: newer models started learning from data made by earlier AIs instead of real human content. This leads to model collapse, where AI systems lose both quality and variety when trained on synthetic data created by other models (IBM, 2024).

However, the technical issues are only part of the problem caused by large amounts of text and videographic content making up the internet. A bigger question is: if AI content becomes the standard online, who gets to decide what is considered normal?

This paper addresses the issue in three sections, using a literature review and conceptual analysis. It brings together peer-reviewed studies, industry reports, and investigative journalism about AI up to November 2025. The analysis focuses on interpreting current research, technical details, and market trends rather than presenting new experiments.

Sources were chosen for their recent publication, reliability, and direct connection to the post-ChatGPT era, with a focus on primary research and firsthand industry accounts. The paper first explains how model collapse happens, including the math behind why training on synthetic data weakens AI systems. Next, it highlights the risk of manipulation by influencing the data that future models use. The paper then looks at two possible solutions: finding older, uncontaminated data or filtering new datasets. Finally, it reviews the economic factors behind the competition for high-quality authentic human content.

2        The Technical Mechanism of Model Collapse

2.1       How AI Models Learn

Understanding the reasons for system degradation requires an examination of how AI models learn. Although these systems are often anthropomorphized as thinking, they are fundamentally statistical machines that process large volumes of text. Rather than reading literature, they operate by analyzing probabilities.

During training, the model tweaks billions of parameters to minimize the difference between its own guess and the actual human example it has seen before. As explained by 3Blue1Brown (2024), this process of minimizing prediction error enables the machine to build a high-dimensional map of language. This map is designed to capture the full, chaotic distribution of human communication. Not just the standard grammar, but the rare expressions, the creative leaps, and the nuanced edge cases.

However, the model’s performance is strictly bound by the quality of these inputs. If you train it on diverse, high-quality human content, you get a robust system. But synthetically generated content is systematically different from human content, and that is where the trouble begins.

2.2       The Feedback Loop

Model collapse results from recursive degradation and is occurring gradually. When generating text, AI models rarely select the most creative or unconventional options, even less frequently than humans. Instead, they tend to produce a smoothed representation of reality, reflecting an average of the patterns learned during training.

The Model Collapse diagram: AI-generated content enters the public web, where it is subsequently scraped as training data for future models.
Source: Author’s own illustration.

As shown in the diagram above, the public web (main resource for training LLMs) becomes increasingly more infected with AI-written text, AI-generated images and AI-generated code. This synthetic part of the internet therefore is also poured into the mix for future AI models to train on.

Though this synthetic content is safer (per say, the risk of getting a harmful advice is lower), it is also more homogeneous (generic) than the original human data. It lacks our natural variance, uniqueness and creativity (Alemohammad et al., 2023).

Research by Shumailov et al. (2024) demonstrated this progression empirically. They:

  1. trained language models on Wikipedia articles (strictly human-written)
  2. iteratively retrained new models on output from previous generations

Early generations of iterative training showed a loss of diversity (distribution tails volume reduction). Later generations exhibited complete breakdown. Theoretical analysis from NYU later confirmed model collapse as a statistical inevitability when models train predominantly on synthetic data (NYU Center for Data Science, 2024).

2.3       Mathematical Inevitability

Model collapse isn’t just an empirical observation as mentioned above. It’s a statistical inevitability that can be proven analytically (Shumailov et al., 2024). The core mechanism relates to how AI models process and generate content, which inherently causes variance reduction.

When an AI model generates content, it doesn’t simply retrieve examples from memory. Instead, it aggregates vast numbers of learned patterns to produce what it calculates as the most probable output. To understand why this causes problems, consider the training data as a collection of independent random variables X₁, X₂, …, Xₙ, each drawn from the distribution of human-created content with some mean μ and variance σ². The model does not respond to user prompts by selecting from its data collection randomly with a uniform probability, which would preserve the original variance. It effectively aggregates across these patterns, similar to computing a weighted average, systematically favoring more probable outputs and thereby reducing variance.

According to the Central Limit Theorem, when we calculate a sample mean from n independent observations, the resulting distribution has the same mean μ but a variance of σ²/n. That is, the original variance divided by the sample size (Dekking et al., 2005). The critical insight is that AI models must simplify real-world distributions into a parameterized space, which inevitably overlooks residual variability at the individual level, causing output to regress towards average patterns with reduced variance (Shumailov et al., 2024).

Although AI models introduce some randomness through probabilistic sampling rather than always selecting the highest-probability token, which explains why identical prompts can yield different outputs (3Blue1Brown, 2024). While this sampling mechanism (via “temperature”) adds surface-level variation, it operates within the model’s already-narrowed probability distribution and therefore cannot recover the full variance of the original human data.

AI
Progressive Distribution Narrowing Through Model Generations with decreasing variance
Source: Author’s own illustration.

Each time a new generation of models trains on AI-generated content rather than original human data, this variance reduction compounds. Mathematical analysis proves that the variance collapses toward zero as the number of generations increases (k), with probability 1. The model doesn’t just lose accuracy, it systematically eliminates the tails of the distribution. In early-stage collapse, the model first shows reduction in variance, oversampling well-understood aspects while neglecting important but poorly understood ones (Shumailov et al., 2024). By late-stage collapse, the model’s output displays very little variance and begins producing increasingly similar outputs with little resemblance to the original data distribution (IBM, 2024).

2.4       Beyond Variance: The Susceptibility to Manipulation through Introduced Bias

We as humans tend to want to fall in line. Our psychology often drives us to agree with what we consider to be “normal.” This raises a problem, as under the assumptions below, “AI-generated” will soon equal normal.

  1. Normality, defined as “conforming to a type, standard, or regular pattern” (Merriam-Webster, 2025), is statistically interpreted as approximating the mean, though it is often mistakenly understood by the public as the mode.
  2. The vast proportion of the internet (new posts) becomes AI-generated – this is already true (Graphite, 2025).

If all of the above is true, how can we be sure AI is learning from us and not the other way around? Is our subconscious not forcing us to lean towards what we read on the internet (and is generated by AI)? We cannot even tell whether the comments from “real users” we read online are authentically generated. Vice versa with pictures – as Google’s release of Nano Banana Pro (with its capabilities of making pictures indistinguishable from reality) puts the nail in the coffin when it comes to necessary legislative changes regarding video and photo evidence presented in court. Even if you don’t consider yourself an enthusiast when it comes to language and literature and are quote on quote okay with language development caused by LLMs, this issue should concern you.

Obviously, the models themselves (statistical machines built to process large amounts of data) have no incentive to change the human perspective. But what about the people who either develop the algorithms, or provide the data they are later trained on? We truly have no guarantee that the end result content AI gives us is a mere perfect smoothing out of our own words. We are certain that the loss of variance of the end output is a problem, but we don’t know if it is the only one. We must consider whether the data, though surely less variable, is still centered around the true mean value (average human rhetoric), or if there is also a bias introduced on purpose.

Often, we ask Large Language Models questions that shape our lives. We ask these models to explain political matters, complex war conflicts or decide what food to put in our bodies. And journalists often do the same, after which they post whatever AI told them on the internet or on the news, marking it as their own work or opinion.

How can we with certainty tell we are not being manipulated, especially when we observe that major entities, including corporations and nations involved in these conflicts, are actively signing contracts with the developers of these systems, or with third-party firms to impact the training process of LLMs? Consider concrete evidence of such influence: the Israeli government hired the firm Clock Tower X LLC in a contract valued at $6 million to create websites and content specifically designed to influence how generative models such as ChatGPT frame political topics and respond to user queries (Cleveland-Stout, 2025).

If the training data is sold to the highest bidder or systematically influenced by well-resourced actors, the “average” view presented by AI in its responses may not be an average of human thought, but a reflection of specific commercial or political interests.

3        Real-World Evidence Across Different Domains

3.1       Text and Code Generation

The first major warning regarding model collapse didn’t come from a research lab at a prestigious university, but from the world’s largest community of developers (at least at the time, as it has due to AI later lost a lot of its significance in the SWE-world). Until late 2022, Stack Overflow was the undisputed go-to resource for developers.

Shortly after the release of ChatGPT, the platform became one of the first to experience a massive influx of AI-generated content. The volume of AI responses exceeded the volume of humas ones almost overnight. At first glance, this looked like an upgrade: promising increased speed, efficiency, and reduced workloads. However, not long after, Stack Overflow was forced to issue a strict ban on AI-generated responses. Why? The moderators realized something dangerous: the AI answers looked authoritative and confident on the surface but deep down, contained subtle errors that were difficult to spot (Meta Stack Exchange, 2022).

Research analyzing over 150 million lines of committed code found that the rise of AI coding assistants has resulted in a measurable increase in “churn” and mistakes being pushed into permanent codebases (VentureBeat, 2024). This creates a recursive nightmare for the future: as tomorrow’s models train on today’s public repositories, they will be learning from buggy, insecure, AI-generated logic. We are effectively cementing what we developers call “technical debt” into the AI itself. Consider the mechanics of this loop below.

The Code Contamination Cycle: How AI-Generated Bugs Become Standard Practice
Source: Author’s own illustration.

Unlike with plain text, where model collapse results in obvious gibberish, model collapse in coding results in functional failures, which enter into future training sets, can quickly turn into making these errors standard practice.

3.2       Image Generation

In the area of image generation, the rapid loss of diversity is perhaps the most visible to the naked eye. Research by Alemohammad et al. (2023) demonstrated that when image models are trained iteratively on their own output, they don’t just get worse. They break completely within just five generations. The study documented a “madness” where distinctive features blurred and the models began hallucinating artifacts, unable to recall what a normal object looked like.

Despite this, the feedback loop is being monetized rather than stopped. Major stock photo library Shutterstock Shutterstock alone made $104M in 2023 to feed their archives into AI models (Media and The Machine, 2025). This creates a closed loop (similar to text or code): the models are trained on stock photos, generate new “stock-like” images, and those images flood back into the libraries. This propagates the characteristic, plastic “AI aesthetic” while erasing the chaotic diversity of authentic human photography.

4        The Economics of Training Data: The Race for Human Intelligence for the creation of Artificial Intelligence

4.1       The Premium on Human Thought

Our problem implies an obvious solution: Use older, AI-free data. Data from before late 2022 (pre-AI internet era) has therefore acquired extraordinary value. A good chance of having authentic human authorship makes the content created at that time substantially more valuable than post-2022 data highly contaminated with AI-generated outputs (Computertrends, 2025). We are witnessing a race for human intelligence for the creation of artificial ones.

The Internet Archive (Wayback Machine) functions as a digital time capsule, preserving the “pure” web of the pre-AI era. In August 2024, Reddit aggressively restricted the Archive’s crawling ability (permission and technical capacity for an automated bot to visit a website and copy its contents). Reddit’s goal was strategic: to close off this “back door” and force AI companies, who were likely using the Archive to bypass Reddit’s paywall, to stop scraping for free and start paying for the data directly (Columbia Journalism Review, 2025).

4.2       The Billion-Dollar Licensing Boom

As most problems, even this one leads us to money, as it has (unsurprisingly) resulted in huge licensing agreements between data providers and algorithms designers. For example: News Corp’s 2024 deal with OpenAI, valued at over $250 million over five years, grants access to archived content from The Wall Street Journal, New York Post and others (Variety, 2024). Reddit signed a $60 million annual deal with Google, followed by an estimated $70 million with OpenAI, granting them API access while blocking other automated crawlers (The Decoder, 2024; Columbia Journalism Review, 2025).

By end of 2024, over 40 major content licensing deals existed between AI companies and publishers (Digiday, 2024). OpenAI accounted for approximately 53% of tracked deals, followed by Google at 12% and Microsoft at 9%. Such distribution is logical, with OpenAI having the most inelastic demand for data, as they lack their own source. Total committed value exceeded $2.9 billion, with average annual payments of $24 million per partnership (Media and The Machine, 2025). These deals typically combine fixed upfront payments with variable usage-based compensation.

4.3       The Landlords and the Tenants

Surprisingly, not everyone has to pay these tolls. A divide has emerged between the AI giants. On one side are the buyers, principally OpenAI. Because they don’t own a social network or search engine, OpenAI is forced to aggressively buy access to the world to keep their models competitive (CB Insights, 2024).

On the other side are the landlords, specifically Google and Meta. These giants have a distinct advantage because they do not need to buy as much data; they effectively own the history of the internet (search engines, social media platforms). Google and Meta are mining their own proprietary backyards, utilizing decades of YouTube videos, Gmail logs, and Instagram photos, while their competitors have to pay rent (Similarweb, 2024).

4.4       Google’s unrivaled advantage

Apart from practically owning its own training data, Google has another major advantage against its competitors. As expensive as these data deals sound, they are merely a drop in the bucket compared to the cost of actually learning from that data.

With the release of Gemini 3 in November 2025, the company showed a level of vertical integration that no other competitor can match. While the rest of the industry is still fighting over Nvidia GPU allocations (The Verge, 2024; CNBC, 2024), Google trained its flagship model (topping the SWE benchmarks at the time of its release) entirely on its own sixth-generation Trillium TPUs and the newly announced Ironwood chips. By owning the engineering, the infrastructure and the data, Google has effectively made itself independent, gaining an unrivaled advantage entering the new phases of the AI race (Trending Topics, 2025).

5        Detection and Mitigation Strategies: Cleaning the Data

5.1       Technical Solutions: Building a filter

If we couldn’t gain access to valuable pre-AI internet data, is there a way to get the best from what we have? To filter out AI-contaminated data into a cleaner version? What if we marked the AI generated data somehow to erase it from the training later?

Watermarking approaches embed statistical signatures (footprints, in a way) into AI-generated content for algorithmic detection. In practice, however, this has turned into a losing game of cat and mouse. These digital stamps are fragile. A simple paraphrase or a minor edit is often enough to scrub them clean, while Type I errors (true human writing gets flagged as a false AI-positive) are frequent (Computertrends, 2024).

A more robust alternative is the digital passport approach, such as the Really Simple Licensing (RSL) initiative. This uses blockchain to track the provenance of a file, proving it came from a human source. It is a promising concept, but it faces a massive logistical hurdle: it requires the entire internet to agree on a single standard for verification, and right now, the incentives just aren’t there (Columbia Journalism Review, 2025).

5.2       The Only Real Cure: A Balanced Diet

It turns out that AI models are a lot like us, they get sick if they eat only processed food. Research has proven that the only way to stop model collapse is to maintain a strict diet of real, organic human data. The key finding is that you cannot replace human data with synthetic data entirely, you have to accumulate both. As long as the original human signal remains strong in the mix, the model stays healthy (Gretel.ai, 2024). Industry leaders are already pivoting to this hybrid approach. IBM, for example, has shifted its focus to pipelines that blend strictly verified human inputs with limited, high-quality synthetic material (VKTR, 2025). Even when using synthetic data, quality control is everything. Researchers at NYU recently demonstrated that if you use reinforcement techniques to cherry-pick only the absolute best AI-generated data, you can actually overcome performance plateaus, but only if you have a rigorous external verifier to separate the genius from the gibberish (NYU Center for Data Science, 2024).

6        Conclusion: The Ouroboros and the Human Spark

Model collapse is more than just a technical bug, it is a warning sign about the fragility of intelligence itself. As we reach the end of this analysis, it becomes clear that we are facing a paradox: we have built systems designed to surpass human capabilities, only to discover that they cannot survive without us.

The most profound danger is not that AI will stop working, or replace humans, but that it will homogenize the human experience. If future models are trained on the output of past models, we risk a flattening of our culture, a recursive loop where the unique, the weird, and the culturally specific are smoothed out into a bland, statistical average. This is already visible in the struggle for linguistic survival. As global giants optimize for English dominance, smaller cultures risk being relegated to the margins of the digital world. The Czech context offers a powerful example of resistance against this trend. Local giant Seznam.cz invested tens of millions of crowns to build proprietary models trained specifically on Czech content, recognizing that preserving a language requires more than just translation, it requires preserving the cultural logic behind the words (Lupa.cz, 2024).

The ancient symbol of the Ouroboros
Source: Castens, 2024.

The phenomenon of model collapse reminds us of the ancient symbol of the Ouroboros, the snake eating its own tail. An AI system that feeds on its own output will eventually starve. It will drift into incoherence and hallucinations. (Big Think, 2024).

The future of AI, as it turns out, depends entirely on the continued vitality of the human spirit.

7        Disclaimers and Declarations

Note on Visuals: Figures 1, 2 and 3 were programmatically generated using Python (version 3) with the Matplotlib (Hunter, 2007), NumPy (Harris et al., 2020), and SciPy (Virtanen et al., 2020) libraries.

Writing Assistance: Grammarly was used for sentence structure refinement. All substantive content, arguments, and analysis remain the author’s own work.

Literature search: Claude Opus 4.5 (Anthropic) was used to assist with relevant literature search, citation format verification (APA 7) and to clarify the mathematical reasoning behind how the Central Limit Theorem contributes to variance decay in recursive model training, as introduced in Section 2.3.

Visual Development: Claude Sonnet 4.5 (Anthropic) was used to assist with writing Python code for generating figures. Featured Image is a Synthetic visualization created by Nano Banana Pro (by Google)

8        References

3Blue1Brown. (2024). But what is a neural network? https://www.3blue1brown.com/lessons/neural-networks

Abraham, Y. (2025, October 29). Inside Israel’s deal with Google and Amazon. +972 Magazine. https://www.972mag.com/project-nimbus-contract-google-amazon-israel/

AI News International. (2025). Model collapse or model renaissance? The risk of AI training on AI-generated content. https://www.ainewsinternational.com/model-collapse-or-model-renaissance-the-risk-of-ai-training-on-ai-generated-content/

AI Now Institute. (2024, January 12). OpenAI quietly deletes ban on using ChatGPT for “military and warfare”. https://ainowinstitute.org/news/openai-quietly-deletes-ban-on-using-chatgpt-for-military-and-warfare

Alemohammad, S., Casco-Rodriguez, J., Luzi, L., Brandt, J., Dimakis, A. G., & Mahoney, M. W. (2023). Self-consuming generative models go MAD. arXiv. https://arxiv.org/abs/2307.01850

American Friends Service Committee. (2025, February 12). Microsoft Corp: Company overview. AFSC Investigate. https://investigate.afsc.org/company/microsoft

Big Think. (2024, September 10). “Model collapse” threatens to kill progress on generative AIs. https://bigthink.com/the-future/ai-model-collapse/

Castens. (2024). Creating a one of a kind Ouroboros ring. Castens Jewellery. https://castens.com/en/blog/skabelsen-af-en-unika-slangering/

CB Insights. (2024, September 18). AI content licensing deals: Where OpenAI, Microsoft, Google, and others see opportunity. https://www.cbinsights.com/research/ai-content-licensing-deals/

Cleveland-Stout, N. (2025, October 2). Israel wants to train ChatGPT to be more pro-Israel. Responsible Statecraft. https://responsiblestatecraft.org/israel-chatgpt/

CNBC. (2024, January 18). Mark Zuckerberg indicates Meta is spending billions on Nvidia AI chips. https://www.cnbc.com/2024/01/18/mark-zuckerberg-indicates-meta-is-spending-billions-on-nvidia-ai-chips.html

Coherent Solutions. (2024). AI development cost estimation. https://www.coherentsolutions.com

Columbia Journalism Review. (2025). Reddit is winning the AI game. https://www.cjr.org/analysis/reddit-winning-ai-licensing-deals-openai-google-gemini-answers-rsl.php

Computertrends. (2024). Otrávit jazykové modely je pozoruhodně snadné. https://www.computertrends.cz

Computertrends. (2025). Kontaminace dat umělou inteligencí může být nevratný problém. https://www.computertrends.cz

Cudo Compute. (2024). What is the cost of training large language models? https://www.cudocompute.com

Dekking, F. M., Kraaikamp, C., Lopuhaä, H. P., & Meester, L. E. (2005). A modern introduction to probability and statistics: Understanding why and how. Springer. https://doi.org/10.1007/1-84628-168-7

Digiday. (2024). 2024 in review: A timeline of the major deals between publishers and AI companies. https://digiday.com

Digitální Česko. (2024). AI Akt. https://digitalnicesko.gov.cz/ai-akt/

Feng, Y., Dohmatob, E., & Kempe, J. (2024). A tale of tails: Model collapse as a change of scaling laws. In Proceedings of the 41st International Conference on Machine Learning (Vol. 235, pp. 13313–13338). PMLR. https://proceedings.mlr.press/v235/feng24b.html

Fortune Business Insights. (2025). AI training dataset market size, share | Global report [2032]. https://www.fortunebusinessinsights.com/ai-training-dataset-market-109241

Graphite. (2025). More articles are now created by AI than humans. https://graphite.io/five-percent/more-articles-are-now-created-by-ai-than-humans

Gretel.ai. (2024, August 23). Addressing concerns of model collapse from synthetic data in AI. https://gretel.ai/blog/addressing-concerns-of-model-collapse-from-synthetic-data-in-ai

Harris, C. R., Millman, K. J., van der Walt, S. J., Gommers, R., Virtanen, P., Cournapeau, D., Wieser, E., Taylor, J., Berg, S., Smith, N. J., Kern, R., Picus, M., Hoyer, S., van Kerkwijk, M. H., Brett, M., Haldane, A., del Río, J. F., Wiebe, M., Peterson, P., … Oliphant, T. E. (2020). Array programming with NumPy. Nature, 585(7825), 357–362. https://doi.org/10.1038/s41586-020-2649-2

Hunter, J. D. (2007). Matplotlib: A 2D graphics environment. Computing in Science & Engineering, 9(3), 90–95. https://doi.org/10.1109/MCSE.2007.55

IBM. (2024). What is model collapse? IBM Think. https://www.ibm.com/think/topics/model-collapse

Lupa.cz. (2024, January 17). Seznam.cz chystá vlastní umělou inteligenci: V češtině už je o něco lepší než GPT-3.5. https://www.lupa.cz/clanky/seznam-chysta-vlastni-umelou-inteligenci-v-cestine-uz-je-o-neco-lepsi-nez-gpt-3-5/

Lutzker & Lutzker. (2024). Reddit’s licensing agreement with Google. https://www.lutzker.com

Media and The Machine. (2025). The 7 deal points of AI content licensing agreements. https://mediaandthemachine.substack.com

Merriam-Webster. (2025). Normal. In Merriam-Webster.com medical dictionary. https://www.merriam-webster.com/dictionary/normal#medicalDictionary

Meta Stack Overflow. (2022, December 5). Temporary policy: Generative AI (e.g., ChatGPT) is banned. https://meta.stackoverflow.com/questions/421831/policy-generative-ai-e-g-chatgpt-is-banned

NYU Center for Data Science. (2024, August 19). Overcoming the AI data crisis: A new solution to model collapse. Medium. https://nyudatascience.medium.com/overcoming-the-ai-data-crisis-a-new-solution-to-model-collapse-ddc5b382e182

Shumailov, I., Shumaylov, Z., Zhao, Y., Papernot, N., Anderson, R., & Gal, Y. (2024). AI models collapse when trained on recursively generated data. Nature, 631(8022), 755–759. https://doi.org/10.1038/s41586-024-07566-y

Similarweb. (2024). Top 10 data licensing deals that powered AI innovation in 2024. https://www.similarweb.com

TechCrunch. (2024, May 6). Stack Overflow signs deal with OpenAI to supply data to its models. https://techcrunch.com/2024/05/06/

The Decoder. (2024). Reddit reportedly signs $60 million annual training data deal with Google. https://the-decoder.com

The Verge. (2024, January 18). Mark Zuckerberg’s new goal is creating artificial general intelligence. https://www.theverge.com/2024/1/18/24042426/mark-zuckerberg-meta-ai-agi-nvidia-gpu-h100

Trending Topics. (2025). Gemini delivers: In year 3 after ChatGPT, nobody’s laughing at Google anymore. https://trendingtopics.com/gemini-delivers-google-comeback

Variety. (2024, May 21). News Corp inks OpenAI licensing deal potentially worth more than $250 million. https://variety.com/2024/digital/news/news-corp-openai-licensing-deal-1236013734/

VentureBeat. (2024). OpenAI partners with Stack Overflow to make models better at coding. https://venturebeat.com

Virtanen, P., Gommers, R., Oliphant, T. E., Haberland, M., Reddy, T., Cournapeau, D., Burovski, E., Peterson, P., Weckesser, W., Bright, J., van der Walt, S. J., Brett, M., Wilson, J., Millman, K. J., Mayorov, N., Nelson, A. R. J., Jones, E., Kern, R., Larson, E., … SciPy 1.0 Contributors. (2020). SciPy 1.0: Fundamental algorithms for scientific computing in Python. Nature Methods, 17(3), 261–272. https://doi.org/10.1038/s41592-019-0686-2

Visual Capitalist. (2025). Charted: The surging cost of training AI models. https://www.visualcapitalist.com

VKTR. (2025, September 10). Model collapse: How generative AI is eating its own data. https://www.vktr.com/ai-technology/model-collapse-how-generative-ai-is-eating-its-own-data/ Zhou, J., Li, X., Ding, T., You, C., Qu, Q., & Zhu, Z. (2022). On the optimization landscape of neural collapse under MSE loss: Global optimality with unconstrained features. arXiv. https://arxiv.org/abs/2203.01238

Ethical limits of AI avatars and voice clones in marketing

0

AI-generated avatars and synthetic voices have advanced to the point where they can
convincingly mimic human appearance and even speech. Today’s marketers use AI avatars or
voice clones to personalize ads, automate customer interactions, or even replace human
influencers. Yet these techniques raise serious ethical questions. Voices carry emotion and
personal identity, using them without thought risks misleading consumers. As mentioned in a
recent analysis of AI voice cloning, celebrity like synthetic voices increases the trust building
qualities of voices in marketing contexts (Lutz, 2025). At the same time, regulators are trying
to catch up. The EU AI Act will require all AI-generated audio to be clearly labelled as such. This
essay examines the ethical and legal boundaries of employing AI avatars and voice clones in
marketing, covering law, privacy, psychology, labour, misinformation, culture, and responsible
principles, with recommendations for businesses, regulators, and technologists.

Legal and Regulatory Framework

AI avatars and voice clones sit at the intersection of multiple laws. In Europe, data protection
law treats voiceprints as personal data. For example, processing voice recordings to create a
clone requires a legal basis under the GDPR, since voice features (like pitch and speech
patterns) qualify as biometric or identifying data (Lutz, 2025). As one legal review notes, “like
a person’s face, a voice may be regarded as a direct identifier” under EU law (Lutz, 2025). This
means marketers must justify voice use by contract or consent, mindful of strict EU rules on
special category data. Similarly, in the US such as Illinois classifies voiceprints as biometric data
under laws like BIPA, requiring consent for collection.


Beyond privacy, the EU AI Act directly governs voice clones. Under the Act, most voice cloning
tools won’t be labelled high risk by themselves, but any use of cloned voices for interactive
marketing (e.g. chatbots or phone ads) triggers transparency requirements. Companies must
inform users when they are hearing an AI voice (Lutz, 2025). In fact, realistic voice clones
(deepfakes) used in public content must be labelled as synthetic no later than the first
exposure (Lutz, 2025). Moreover, from August 2026 the AI Act mandates explicit human and
machine-readable labels on all AI-generated media, including audio ads, to prevent deception.
These EU rules apply extraterritorially. Meaning any AI-generated voice used on the EU market
must meet them (Lutz, 2025). In the US, federal and state laws are evolving. The FTC (Federal
Trade Commission) has warned against deceptive AI practices, and new bills such as California’s
AI deepfake law make it illegal to use cloned celebrity voices without consent.


On intellectual property and publicity rights, permission is crucial. Voice recordings are often
copyrighted, so using them to train or output a clone requires licensing (Lutz, 2025). Even
more, a person’s voice is treated as part of their right of personality. In many jurisdictions (Lutz,
2025). this means an individual can object if their voice likeness is used without consent (as
actress Scarlett Johansson famously did when an AI clone mimicked her voice (Lutz, 2025).
Both EU and US systems generally require a contract specifying allowed uses of a voice clone
and forbid sell-out of a person’s identity without safeguards. This means marketers must
navigate GDPR, AI regulations, IP law and publicity rights. The emerging consensus is clear
consent and transparency are legal prerequisites for ethical AI voice use.

Privacy and Informed Consent

Voice cloning relies on personal data. Every marketing campaign using synthetic voices should
begin with informed consent. Ethically, voice data embodies identity. It can reveal age, gender,
mood, health and even the speaker’s unique vocal characteristics. EU regulators emphasize
that any processing of biometric voice data demands careful justification. As one guide states,
ethical voice cloning hinges on explicit consent, transparent disclosure, and legitimate
purpose. In practice, that means a company must obtain clear permission from the person
behind any cloned voice, specifying how and where the clone will be used (Lutz, 2025).
Consent should be freely given, specific, informed, and revocable, aligning with GDPR norms.


Marketers must also respect customer privacy when using avatars. If an AI avatar is generated
from a user’s likeness or biometric scans, it too should be treated as personal data. Researchers
argue that an avatar closely resembling its creator should count as biometric data, requiring
privacy safeguards akin to fingerprint or facial recognition. This means designers should
minimize collected data and anonymize features wherever possible. Furthermore, any profiling
or personalization of avatars must be disclosed and governed by users’ privacy rights.


In sensitive cases (e.g. children’s voices or vulnerable populations), extra caution is warranted.
For example, EU law bans using biometric profiles of children without parental consent.
Similarly, using voice clones to sway political opinions could trigger additional rules on
electoral integrity. Marketers should also maintain data security (encrypt voice files) and clear
retention policies. Overall, the ethical axis here is: do not use anyone’s voice or likeness
without their permission, do not mislead people about how their data are used, and treat
voices as the sensitive biometric identifiers that they are (Lutz, 2025).

Psychological Effects on Consumers

AI voices can powerfully influence audiences because humans instinctively trust voices.
Psychologists find a “default to human” bias. Listeners hearing an AI-generated voice that
sounds familiar or local tend to assume it’s a real person. One study in Scotland showed people
exposed to an AI-modified voice mirroring their own accent overwhelmingly believed it was
human, even when it wasn’t. Likewise, a security survey found 70% of people could not reliably
distinguish a cloned voice from the original (Barrington et al., 2025). These findings imply
marketers could intentionally exploit this bias, for example by giving an avatar a matching
regional accent or tone to build rapport. However, this raises concerns. If consumers assume
a voice is human when it is not, their autonomy in processing the message is compromised.


Empirical marketing research warns about these risks. A recent study of TikTok ads found that
AI-generated voices elicited lower engagement than human voices (Wang et al., 2024).
Viewers subconsciously notice a lack of warmth or subtle inflection. The researchers found
that simply lowering the pitch of the AI voice helped narrow the gap in consumer engagement
(Wang et al., 2024). Moreover, ads using AI-cloned celebrity voices achieved engagement
comparable to real celebrities, but at the cost of potential deception. These results suggest
that while AI voices can be optimized for effectiveness, they still suffer an authenticity deficit
for many consumers. If trust is undermined (as some voice actors warn, people do not bother
with their audiobooks when narrated by a “soulless” AI. In short, the long-term effect could be
negative word of mouth or brand distrust.


There is also an uncanny valley in speech. A voice that sounds almost real but not quite can
feel unsettling or manipulative. Importantly, consumers often don’t realize they’ve been
manipulated. Humans have an instinct that familiar voices are real and that makes AI voices
both persuasive and stealthy. Ethically, marketers must consider listener psychology. Deploying
a lifelike AI voice without clear disclosure capitalizes on this subconscious trust and arguably
violates the spirit of honest communication. Responsible use would demand that consumers
be informed whenever an AI is speaking and not a human.

Impact on Creative Labor and the Job Market

AI voice cloning poses a potential disruption to voice artists, radio hosts, and customer service
roles. Already, industry groups warn that thousands of voice talents could be displaced. For
instance, the Australian Voice Actors Association estimated 5,000 local actors’ jobs at risk from
inexpensive AI clones (Taylor, 2024). Their concern is not anti-technology per say, but that
employers might opt for cheaper AI voices for narration, ads, and announcements. One actor
accurately notes that companies may come to regret the lack of human connection if the voice
reading an audiobook is AI-generated. Listeners feel nothing, less connection, when hearing a
synthetic voice.


Union agreements are beginning to address this. Voice actor unions like SAG-AFTRA have
negotiated deals ensuring members retain rights over digital replicas and can earn residuals
when their clone is used (Carras, 2023). Such frameworks suggest an ethical middle ground.
Empower artists to consent and license their voice clones, rather than banning the technology
outright. On the other hand, proponents argue AI can create new opportunities. E.g., voice
actors diversifying into voice tech, or smaller businesses affording voiceover services.
Culturally, there is a concern about eroding craft. A richly performed voice conveys nuance and
improvisation. An AI model can sound smooth but lacks genuine spontaneity. From a consumer
standpoint, the loss of human artisanship may degrade the quality of ads and entertainment.
Companies might save costs short-term, but brands known for authenticity may suffer if
consumers react negatively. Ethically, then, marketers should weigh not just profits but the
social value of creative labour. Responsible strategies might include co-creating with voice
artists (using AI as a tool rather than replacement) and ensuring fair compensation in any use
of voice clones (Lutz, 2025).


Complementing these concerns, smaller-scale voice roles (customer service, e-learning) are
already prone to automation. Yet even here, companies often rely on synthetic voices for
consistency or accessibility. An ethical approach could involve offering users choices (e.g., an
option to talk to a human agent) and retraining displaced workers for higher-value creative
tasks. In short, the job-market impact of AI voices is significant but not wholly negative.
Societies must develop policies like fair bargaining and upskilling, so that the technology uplifts
rather than merely replace talent.

Misinformation and Consumer Trust

AI voice cloning intensifies disinformation risks. Audio deepfakes such as a fake recording of a
celebrity or official are increasingly convincing. UNESCO warns that scammers use just seconds
of someone’s voice to generate urgent calls for money, tricking victims with familiar voices
(Vellani & Common, 2025). Studies confirm that people cannot consistently identify these
fakes (Naffi, 2025). This has two marketing implications. First, if a company’s ad uses a cloned
voice without disclosure, consumers may feel deceived if the truth later emerges, eroding
brand trust. Second, even truthful ads could suffer. Under scepticism, audiences may doubt
real endorsements by saying “that’s probably AI”.


The broader impact is even more concerning. In an era where seeing and hearing are no longer
believing, all audio claims face suspicion. For marketers, this means any synthetic voice content
may be scrutinized or distrusted. Platforms also bear responsibility. Social media that
algorithmically personalize ads might amplify deepfakes through filter bubbles, leveraging the
illusory truth were repeated exposure breeds belief.


Ethically, marketers must avoid contributing to this misinformation ecosystem. Best practice is
clear disclosure. As one recommendation emphasizes, hybrid or AI-generated content should
only be presented without labels if it is purely informative and fact-checked. Otherwise, visible
warnings are needed. This is not only legal (under upcoming EU rules) but also fosters
consumer trust in the long run. In regulated advertising, trade standards could require any
synthetic voice ad be explicitly marked. Companies should also vet AI-generated content
carefully to avoid inadvertently spreading false or biased claims (since text-to-speech models
can introduce errors). By committing to transparency and accuracy, marketers can use AI voices
without compromising consumer trust or contributing to disinformation.

Cultural and Social Considerations

AI voice technology can inadvertently reflect and amplify social biases. For example, linguistic
research shows most AI voice models are trained on mainstream American English (Abate,
2023), sidelining accents and dialects of other communities. Speakers of non-standard English
report frustration at the homogeneity of AI accents. They feel the tools were built with some
other people in mind. In marketing, this matters, if an AI avatar or voice sounds neutral or
stereotypically global (read U.S. accent), it may alienate audiences elsewhere or erase regional
identity. Worse, accent biases in voice clones could reinforce prejudice (studies have shown
people with certain accents are unfairly judged less favourably).


Cultural representation in avatars also raises questions. Companies can choose any avatar
appearance. From skin colour, gender to style, etc. Ethically, these choices send messages. A
recruiting video featuring a diverse AI avatar can inspire underrepresented job seekers but
could backfire if the company’s real workforce is homogenous, feeling it’s mere tokenism.
Similarly, using a youthful avatar for a serious product might unintentionally convey ageism or
bias. Marketers must reflect on what their avatars symbolize. Are they reinforcing stereotypes
(e.g. an animated “sexy” persona for soft drink ads) or genuinely representing the brand’s
values?

Global context is also key. An AI voice that is acceptable in one culture may be unsettling in
another. For instance, certain tonalities or speech patterns have different connotations
worldwide. Ethical marketing should be sensitive to these cultural nuances, ensuring AI
characters do not offend or miscommunicate. In short, social and cultural ethics demand that
AI avatars and voices be chosen thoughtfully. they should avoid bias, reflect diversity in a
genuine way, and respect the cultural identities of target audiences.

Ethical Principles and Best Practices

Drawing together the above, the ethical deployment of AI avatars and voices should follow
core principles of trustworthy AI. The EU’s AI Ethics Guidelines are instructive. AI systems must
be lawful, ethical, and robust (European Commission, 2024). In practical terms, this means
respecting human autonomy (provide user control and awareness), ensuring privacy and data
protection, and maintaining fairness and non-discrimination. For voice clones, human
oversight is crucial. A person should review any synthetic content before release, especially in
sensitive ads. Transparency demands that consumers know they are hearing an AI, not be
unknowingly misled (Lutz, 2025).

Privacy and data governance, another core principle. Translate into treating voice data as
securely as biometric identifiers. Companies should document how they obtain and use voice
data, conduct impact assessments if analysing sensitive traits, and allow individuals to
withdraw consent. Non-discrimination implies testing voice generators for bias (e.g. not
defaulting to one accent or gender) and ensuring accessibility (e.g. providing transcripts or
options for those who find certain AI voices hard to understand). Societal well-being suggests
evaluating broader consequences. If an AI campaign might stir controversy or harm vulnerable
groups, marketers should err on the side of caution. Finally, accountability means keeping
audit trails and allowing redress. E.g. offering a human contact if an AI ad somehow violates
rights.

Recommendations based on Mentioned Sources

For Companies (Marketers & Advertisers):

  • Adopt clear AI use guidelines. Treat AI voices like any brand asset, with approved
    licenses and voice-alignment standards.
  • Ensure informed consent from any voice talent. Use formal contracts specifying how AI
    clones may be used, with options to revoke permission (Lutz, 2025).
  • Label AI content visibly. If an advertisement uses an AI avatar or voice, disclose it
    upfront to maintain trust and comply with regulations (Lutz, 2025).
  • Mitigate bias. Test voices on diverse focus groups, include varied accents/languages,
    and avoid stereotypes in avatar design.
  • Engage human creativity. Use AI to augment, not replace, human actors when possible.
    For instance, employ voice artists as consultants or supplemental characters rather
    than eliminating them.

For Regulators and Policymakers:

  • Enforce data protection laws on voice cloning. Require impact assessments and
    stronger penalties for misuse of voice data. Clarify the status of public figures’ voices
    as public data or not, to balance publicity rights with freedom of expression.
  • Update advertising codes to explicitly require disclosure of synthetic voices in
    commercial messages. This could mirror rules for paid endorsement or sponsored
    content.
  • Support workforce transitions. Fund retraining programs for performers and voice
    artists and encourage ethical licensing agreements like those negotiated by SAG
    AFTRA.
  • Promote AI literacy. Educate consumers about the existence of synthetic media so they
    approach ads with healthy scepticism, and mandate fact-checking obligations for
    platforms distributing deepfakes.

For Technology Developers:

  • Embed privacy-by-design. Build consent management and data minimization into
    avatar/voice tools. For instance, create default settings that do not retain raw voice
    data unless needed.
  • Implement watermarking or authentication for synthetic voices, enabling machine
    detection of AI-generated audio (in line with EU mandates).
  • Prioritize explainability: provide human users (both marketers and consumers) with
    simple explanations of how voices are generated and their limitations, enhancing
    informed use.
  • Foster multi-stakeholder collaboration. Work with ethicists, linguists, and disability
    advocates when designing voice systems to ensure inclusive, respectful outputs.

In all cases, the goal is responsible innovation and leveraging AI avatars and voice clones can
bring marketing efficiencies and personalization, but only if balanced with respect for rights,
truth, and social values.

Conclusion

AI avatars and voice cloning are transforming marketing by offering new forms of personalized
content. However, as this analysis shows, their use is bounded by legal, ethical, psychological,
and social constraints. Companies must navigate data protection laws, obtain genuine consent,
and avoid deceptive practices that breach consumer trust. They must consider the human
effects. From potential job losses to the emotional impact on audiences. And honour principles
of transparency and fairness (Lutz, 2025). Regulators, for their part, are crafting rules (like the
EU AI Act) to curtail misuse, but enforcement will be key. Ultimately, ethical marketing in the
AI era requires clear frameworks and ongoing dialogue among all stakeholders. By adhering to
ethical guidelines and treating voice clones with the same care as any human medium, firms
can harness innovation without crossing into manipulation or harm.

List of references

Carras, C. (2023, listopad 13). What’s in the SAG-AFTRA deal? Here’s what the union has to say, including about AI terms. Los Angeles Times. https://www.latimes.com/entertainment-arts/business/story/2023-11-13/whats-in-the-sag-aftra-deal-contract-ai-terms

Lutz. (2025). The sweet voices of robots – cloning voices with AI. Financier Worldwide. https://www.financierworldwide.com/the-sweet-voices-of-robots-cloning-voices-with-ai

Wang, X., Zhang, Z., & Jiang, Q. (2024). The effectiveness of human vs. AI voice-over in short video advertisements: A cognitive load theory perspective. Journal of Retailing and Consumer Services, 81(C). https://ideas.repec.org//a/eee/joreco/v81y2024ics0969698924003011.html

Barrington, S., Cooper, E. A., & Farid, H. (2025). People are poorly equipped to detect AI-powered voice clones (No. arXiv:2410.03791). arXiv. https://doi.org/10.48550/arXiv.2410.03791

Taylor, J. (2024, červen 29). Cheap AI voice clones may wipe out jobs of 5,000 Australian actors. The Guardian. https://www.theguardian.com/technology/article/2024/jun/30/ai-clones-voice-acting-industry-impact-australia

Vellani, N., & Common, D. (2025, březen 20). Her grandson's voice said he was under arrest. This senior was almost scammed with suspected AI voice cloning. CBC News. https://www.cbc.ca/news/marketplace/marketplace-ai-voice-scam-1.7486437

European Commision. (2024). Ethics guidelines for trustworthy AI | Shaping Europe’s digital future. European Commision. https://digital-strategy.ec.europa.eu/en/library/ethics-guidelines-trustworthy-ai

Naffi, N. (2025). Deepfakes and the crisis of knowing | UNESCO. https://www.unesco.org/en/articles/deepfakes-and-crisis-knowing

Abate, T. (2023). Automated speech recognition less accurate for blacks. https://news.stanford.edu/stories/2020/03/automated-speech-recognition-less-accurate-blacks

The use of Large Language Models in Generating Real-Life Models and Objects

0

Abstract

This report analyses current Large Language Models (LLMs) and their
application in generating three-dimensional models and physical objects. The
intersection of generative AI and 3D content creation represents a rapidly
evolving market with implications for manufacturing, design, gaming, and e-
commerce industries. Through analysis of current market players, technologi-
cal capabilities, and strategic positioning, this report evaluates the competitive
landscape using Porter’s Five Forces. A practical demonstration using Hy-
per3D Rodin Gen-2 validates the current state of technology and its readiness
for real-world applications, including 3D printing. The findings reveal that
while the technology has achieved production-ready quality for creative appli-
cations, significant post-processing remains necessary for functional additive
manufacturing use cases.

Introduction

Motivation

My motivation for this topic comes mainly from my hobby: 3D printing. After my
bachelor studies, I had free time and wanted to learn something new, so I bought
a Prusa 3D FFF printer(Prusa Research, 2025) and started learning how to use it
from various online tutorials and online forums. Currently, I mostly print models
from others, as I still have not had enough time to learn various modeling tools, such
as Fusion 360, to create my own models. Thus, I wanted to research the current
text and image to a 3D model landscape and find out what current LLM models
can do and whether they could supplement my knowledge gap.

Background and Context

Text-to-3D and image-to-3D generation have emerged as fast-growing segments in
generative AI, with the market valued at $1.28–1.63 billion in 2024 and projected
to reach $9–16 billion by 2032–2033(Growth Market Reports, 2024).
This technology fundamentally changes how 3D content can be generated, re-
ducing what once took professional modelers’ days of manual work to minutes. This
rapid evolution has createda place where established technology companies, new star-
tups, and open-source communities compete for the growing market.

Key Intelligence Questions

This report addresses two primary Key Intelligence Questions (KIQs):

  1. What is the current state of LLM-based 3D generation technology, and can it
    supplement traditional 3D modeling skills for hobbyist applications?
  2. How do competitive dynamics shape strategic opportunities in this market?

  3. The scope of the report includes text-to-3D and image-to-3D generation tools
    and models. Various other photogrammetry, CAD, and 3D scanning solutions are
    excluded from the analysis.

Methodology

This analysis employs multiple competitive intelligence methodologies. For informa-
tion gathering, I used primary sources including company documentation, API spec-
ifications, pricing pages, and product announcements. Secondary sources included
various industry reports, technology news outlets, and user community forums. I
also applied Porter’s Five Forces analysis (Porter, 2008) to evaluate the current in-
dustry and market structure. Finally, I attempted to create a practical model using
Hyper3D Rodin Gen-2.

Theory

3D Generation Technologies

Several foundational techniques underpin modern 3D generation. Score Distillation
Sampling (SDS), introduced by DreamFusion (Poole, Jain, Barron, & Mildenhall,
2022), enables 3D generation without 3D training data by optimizing a Neural Ra-
diance Field (NeRF) such that its 2D renderings achieve high likelihood under a pre-
trained diffusion model. NeRFs themselves represent scenes as continuous volumet-
ric functions encoded in neural network weights, producing high-quality novel views
but requiring slow per-scene optimization (Mildenhall et al., 2020). More recently,
3D Gaussian Splatting (3DGS) has shifted toward explicit representations using mil-
lions of parameterized Gaussians, enabling real-time rendering at 90+ FPS—roughly
10× faster than NeRF—at the cost of larger memory requirements (Kerbl, Kopanas,
Leimkühler, & Drettakis, 2023).

Large Reconstruction Models

Large Reconstruction Models (LRMs) have become the dominant architecture for
commercial tools. These transformer-based encoder-decoders with 500M+ param-
eters predict 3D representations from single images in seconds. GS-LRM achieves
reconstruction in 0.23 seconds from 2–4 images (Bi et al., 2024). Commercial ex-
amples include Hyper3D’s Rodin Gen-2, which scales to 10 billion parameters, and
Tripo 3.0, which reaches 20 billion parameters. These models accept both text and
image inputs and produce 3D mesh files (such as .stl or .obj) as outputs.

Competitive Analysis

Market Overview

The text-to-3D generation market demonstrates strong growth fundamentals driven
by several factors: the democratization of 3D content creation for non-technical
users, cost reduction in game development and visual effects production, e-commerce
adoption of 3D product visualization, and integration with AR/VR platforms and
spatial computing (Growth Market Reports, 2024; Market.us, 2024; Allied Market
Research, 2025).

Key Players and Competitive Landscape

The competitive landscape divides into three tiers: well-funded leaders, emerging
specialists, and research-focused organizations. Table 1 summarizes key player char-
acteristics.

Table 1: Overview of Key Players in LLM-Based 3D Generation (Author’s own work)

Geographic distribution shows concentration in the United States (Luma AI,
World Labs, CSM.ai), China (Hyper3D, Tripo AI), and the United Kingdom (Sta-
bility AI). North America leads the market, followed by Europe and Asia Pacific,
with the latter experiencing the fastest growth driven by expanding gaming and
animation industries (Growth Market Reports, 2024).
Luma AI has emerged as the funding leader after closing a $900 million Series C
in November 2025 led by Saudi Arabia’s HUMAIN, achieving a valuation exceeding
$4 billion (Tech Startups, 2025). Based in Palo Alto with 25+ million registered
users, Luma focuses on 3D scanning (Genie) and video generation (Dream Machine).
Hyper3D/Deemos Tech represents China’s most significant player, having
raised tens of millions of dollars in a January 2025 Series A led by ByteDance
and Meituan (Animation World Network, 2024). The company’s Rodin Gen-2
Competitive Intelligence Report LLMs and 3D Model Generation
model (10 billion parameters) is widely regarded as current quality leader, producing
production-ready models.
Tripo AI has achieved profitability with $12 million in revenue and serves 4 mil-
lion users (Yahoo Finance, 2024). The company’s open-source TripoSR model (de-
veloped with Stability AI) achieves generation in under 0.5 seconds on an NVIDIA
A100 (Stability AI, 2024).
Meshy.ai has captured the prosumer market with 3+ million creators and com-
prehensive integrations across Unity, Unreal Engine, Blender, Maya, and 3D printing
platforms (Meshy AI, 2024).

Porter’s Five Forces Analysis

Threat of New Entrants: MODERATE-HIGH

Open-source models such as TripoSR and Hunyuan3D reduce technical barriers by
providing MIT-licensed alternatives (Stability AI, 2024; VAST-AI-Research, 2024).
However, significant barriers remain: large-scale 3D training datasets are scarce—Autodesk’s
Project Bernini was trained on ten million diverse 3D shapes, described as the
world’s largest 3D training dataset (Autodesk, 2024)—and foundation model train-
ing requires substantial compute investment.

Bargaining Power of Suppliers: HIGH

Key suppliers include cloud compute providers and GPU manufacturers (primarily
NVIDIA). NVIDIA’s dominance creates concentration risk—according to Mizuho
Securities, NVIDIA controls 70–95% of the AI chip market (Novet, 2024).

Bargaining Power of Buyers: MODERATE-HIGH

Low switching costs between similar tools increase buyer power, while freemium
models intensify competition. However, ecosystem lock-in through various API and
enterprise plugins reduces switching for deeply integrated users and companies.

Threat of Substitutes: LOW-MODERATE

Substitutes include traditional 3D modeling software (Blender, Maya), photogram-
metry, and outsourced modeling services. AI generation complements rather than
fully replaces traditional workflows—professional outputs still require artist refine-
ment.

Industry Rivalry: HIGH

Currently, the industry is characterized by rapid product iteration and aggressive
pricing through expanding free tiers. There is currently no clear absolute winner
among the players competing in the market.

Technology Comparison

Table 2: AI 3D Generation Platforms: Pricing and Features (Author’s own work)

Industry Applications

To understand where the market is heading, I examined adoption patterns across
key industries, which also informed my choice of tool for practical testing.
Gaming leads adoption with 87% of game studios now using generative AI tools
(MIT Technology Review, 2024). The AI gaming market exceeded $3.28 billion in
2024 and is projected to reach $27.47 billion by 2029 (Technavio, 2024). The 2024
Unity Gaming Report indicates 62% of developers are using AI tools, with 68%
reporting that AI accelerates prototyping (Unity Technologies, 2024).
Manufacturing applications center on generative design optimization. Au-
todesk’s Fusion 360 and newly announced Neural CAD foundation models generate
manufacturable design iterations based on material and cost constraints (Autodesk,
2024).
Film and VFX applications include tools like Autodesk Flow Studio, which
transforms live footage into editable CG scenes (The Hollywood Reporter, 2024).

Practical Example

As noted in the section 1.1, I wanted to test out a model from the underlying analysis
to test out its capabilities and find out whether these tools can supplement my lack
of knowledge in 3D modelling.
I chose Hyper3D Rodin Gen-2 based on my analysis, as it has the highest quality
ceiling among analyzed models, generation time was not critical for my use case, and
its free tier (10 credits/month with preview capability) is competitive. I considered
Meshy.ai for its 3D printing integration but lower quality ceiling, Tripo AI for speed
but less manufacturing suitability, and open-source TripoSR which requires technical
setup I wanted to avoid.

Methodology

I attempted to recreate a damaged part of my kitchen grater, following a workflow
from user guides on how to achieve the best results with LLM-generated models for
3D printing (3D Revolution, 2025):

  • Reference Preparation: I took eight photos of the broken object and up-
  • loaded them to Google’s image generation model to create a complete reference
  • image of the undamaged part. Prompt: “Can you please generate me an image of the complete model for later generation of
  • a model file? Where there were 5 legs total, 4 of the smaller ones were identically spaced and were
  • identical, 3 of the legs broke partially or fully. The last leg (long) is correct in the model. The full
  • diameter of the model is 49.80mm, and the 4 identical legs are 6.75mm from the outer perimeter”
  • 3D Generation: I uploaded the reference image to Hyper3D Rodin Gen-2
  • with a descriptive prompt. Prompt: “White plastic circular ring with tabs. it has 5 tabs in total 4 smaller ones and one
  • larger one.”
  • Post-Processing: I exported the model as .stl and repaired geometry issues
  • using Windows 11’s built-in mesh repair.
  • Printing: I prepared the part in PrusaSlicer and printed it on my FFF printer.

Results

Figure 1–3: Images used for the part creation

Following through the workflow took me several hours on the first attempt. The
most critical factor proved to be prompt design. The model responded inconsistently
to detailed specifications. Thankfully using the preview feature, I could iterate on
prompts without consuming credits, as until you confirm the preview no mesh model
is generated in full.

Figure 4–5: Pictures of the part creation attempts

The final part required three print attempts (each 25 minutes) to achieve a
proper fit. Despite explicit prompting, Rodin consistently failed to capture the
missing fifth leg—a limitation I could not overcome through prompt refinement
alone. The printed part ultimately fit its intended purpose after manual cleanup
with a deburring knife.

Evaluation

My practical test revealed both capabilities and limitations relevant to my original
question.

What worked: The tool successfully generated a functional model from photos
and text descriptions. Basic geometry was captured surprisingly well, and I feel like
it got me 90% there.
What did not work: Precise dimensional specifications were ignored. Complex
features (the fifth leg) could not be generated regardless of prompting, and post-
processing was still necessary for functional fit.
Intellectual Property Concerns: During my analysis, I examined Hyper3D’s
terms of service (Hyper3D.ai, 2025). The terms do permit commercial use of the
generated models, but they do not mention any IP rights, only saying that they take
no responsibility for any copyright infringement or breach of laws resulting from user
use of the output.
Subscription Practices: I also noticed that Hyper3D’s free trial requires credit
card details, with terms stating “Upon payment, the Subscription Plan chosen by
you cannot be canceled or downgraded within the corresponding subscription period,
potentially resulting in a $280 annual charge. I reached out to the support page
regarding this, as I wanted to try out the better features and more credits that
come with a subscription before possibly purchasing the service, but they did not
get back to me.

Conclusions

Addressing the Key Intelligence Questions

KIQ 1: Can LLM-based 3D generation supplement traditional modeling
skills?

Based on my research and practical testing, the answer is: partially. For creative,
non-functional objects (game assets, decorative items), current tools do significantly
accelerate workflows. For functional parts requiring dimensional accuracy, the tech-
nology cannot yet replace traditional modeling skills. In my case, I would have
definitely achieved better results by learning basic Fusion 360 operations than by
iterating on AI prompts.
Based on my experience, these tools currently enhance productivity for creative
work but cannot replace modeling expertise for functional applications. Users with
traditional modeling experience will produce superior results when using AI tools.

KIQ 2: How do competitive dynamics shape strategic opportunities?

The market is very dynamic and currently has crystallized around distinct com-
petitive positions: Hyper3D leads in quality, Tripo AI in speed, Luma AI in fund-
ing, and Meshy.ai in ecosystem integration. High industry rivalry and low switching
costs benefit users through aggressive free tiers, but also create uncertainty about long-term platform viability. The open-source ecosystem (TripoSR, Hunyuan3D)
provides alternatives for technically capable users.

Summary of Findings

This competitive intelligence analysis reveals several key findings:

  1. The text-to-3D market is transitioning from research curiosity to production
    technology, with leading company valuations exceeding $4 billion.
  2. Large Reconstruction Models (LRMs) and 3D Gaussian Splatting have emerged
    as dominant technical approaches, enabling sub-second draft generation.
  3. Gaming leads industry adoption with 87% studio usage. E-commerce and
    manufacturing applications are accelerating.
  4. For 3D printing applications, significant post-processing remains necessary—my
    practical test confirmed that functional parts require manual intervention re-
    gardless of prompt sophistication.

Limitations and Future Research

This analysis is limited by the rapidly evolving competitive landscape, limited access
to proprietary benchmarks, and single-tool practical validation (Hyper3D Rodin).
Future research directions could include long-term tracking of these technologies, the
IP question with these generated models, and the viability of commercially selling
products created by these technologies.

Declaration of AI Tool Usage

In accordance with academic integrity requirements, the following AI tools were
used in the preparation of this report:

Perplexity (Perplexity AI): Used along with Google dorking for a breadth-
wide search of the current landscape and possible sources with the goal of
mapping the analyzed landscape and identify the most relevant sources

  • NotebookLM (Google) and Claude (Anthropic): Used for initial re-
    search assistance and source identification. The content generated and pin-
    pointed to by these models was verified and evaluated against the primary
    sources. The abstract and final summary of findings sections of this report are
    an AI-aided summary of the report’s content and were the last part I created.
  • Nano Banana 3 (Google): Used for a initial 2D image generation in the
    example part of the section 5
  • Hyper3D Rodin Gen-2: Used for a practical example of image/text-to-3D
    capabilities as documented in Section 5.
  • Grammarly AI: Used for the final validation of the grammar of the report
    All claims, analyses, and conclusions represent my own work and critical judgment.

Reference

3D Revolution. (2025). A.I. generated 3D prints are good now? YouTube video. Re-
trieved from https://www.youtube.com/watch?v=j1nT2WKWYPk. (Accessed
November 2025)

Allied Market Research. (2025). Spatial computing market to reach USD
1061 billion by 2034. Retrieved from https://finance.yahoo.com/
news/spatial-computing-market-reach-usd-140100252.html. (Accessed
November 2025)

Animation World Network. (2024). Deemos launches groundbreak-
ing Rodin Gen-2 GenAI for intuitive 3D creation. Retrieved from
https://www.awn.com/news/deemos-launches-groundbreaking-rodin
-gen-2-genai-intuitive-3d-creation. (Accessed November 2025)

Autodesk. (2024). Autodesk unveils research Project Bernini for generative AI 3D
shape creation. Retrieved from https://adsknews.autodesk.com/en/news/
research-project-bernini/. (Accessed November 2025)

Bi, S., Xu, Z., Tan, H., Zhang, K., Zhe, C., Luan, F., . . . Bi, S. (2024). GS-
LRM: Large reconstruction model for 3D gaussian splatting. https://sai-bi
.github.io/project/gs-lrm/. (Accessed November 2025)

Growth Market Reports. (2024). Text-to-3D generation market research report

  1. Retrieved from https://growthmarketreports.com/report/text-to
    -3d-generation-market. (Accessed November 2025)

Hyper3D.ai. (2025). Terms of service. Retrieved from https://hyper3d.ai/legal/
terms. (Accessed November 2025)

Kerbl, B., Kopanas, G., Leimkühler, T., & Drettakis, G. (2023). 3D Gaussian
Splatting for real-time radiance field rendering. ACM Transactions on Graph-
ics (SIGGRAPH). (Introduced 3D Gaussian Splatting technique)

Market.us. (2024). 3D e-commerce market size, share | CAGR of 21.3%. Re-
trieved from https://market.us/report/3d-e-commerce-market/. (Ac-
cessed November 2025)

Meshy AI. (2024). Meshy AI – the #1 AI 3D model generator. Retrieved from
https://www.meshy.ai/. (Accessed November 2025)

Mildenhall, B., Srinivasan, P. P., Tancik, M., Barron, J. T., Ramamoorthi, R., &
Ng, R. (2020). NeRF: Representing scenes as neural radiance fields for view
synthesis. In Proceedings of the european conference on computer vision (eccv).
(Foundational Neural Radiance Fields paper)

MIT Technology Review. (2024). How generative AI could reinvent what it means
to play. Retrieved from https://www.technologyreview.com/2024/06/20/
1093428/generative-ai-reinventing-video-games-immersive-npcs/. (Reports a16z 2023 survey finding 87% of game studios using AI. Accessed
November 2025)

Novet, J. (2024). Nvidia dominates the AI chip market, but there’s more
competition than ever. CNBC. Retrieved from https://www.cnbc.com/
2024/06/02/nvidia-dominates-the-ai-chip-market-but-theres-rising
-competition-.html. (Mizuho Securities estimates NVIDIA controls 70–95%
of AI chip market. Accessed November 2025)

Poole, B., Jain, A., Barron, J. T., & Mildenhall, B. (2022). DreamFusion: Text-to-
3D using 2D diffusion. arXiv preprint arXiv:2209.14988 . (Foundational paper
introducing Score Distillation Sampling for text-to-3D)

Porter, M. E. (2008). The five competitive forces that shape strategy. Harvard Busi-
ness Review , 86 (1), 78–93. (Foundational competitive strategy framework)

Prusa Research. (2025). Types of printers and their differences. Prusa Knowl-
edge Base. Retrieved from https://help.prusa3d.com/article/types-of
-printers-and-their-differences_112464. (Accessed November 2025)

Stability AI. (2024). Introducing TripoSR: Fast 3D object generation from
single images. Retrieved from https://stability.ai/news/triposr-3d
-generation. (MIT license, developed in partnership with Tripo AI. Accessed
November 2025)

Tech Startups. (2025). Luma AI lands $900M led by Saudi Arabia’s HUMAIN
to challenge OpenAI and Google with frontier multimodal models. Retrieved
from https://techstartups.com/2025/11/20/luma-ai-lands-900m-to
-challenge-openai-and-google-with-frontier-multimodal-models
-partners-with-humain-on-saudi-arabias-2gw-ai-megacluster/. (Ac-
cessed November 2025)

Technavio. (2024). Artificial intelligence (AI) in games market size to grow by USD
27.47 billion from 2024 to 2029. Retrieved from https://www.technavio
.com/report/ai-in-games-market-industry-analysis. (Market research
report)

The Hollywood Reporter. (2024). For Hollywood, AI is a double-edged sword.
Retrieved from https://www.hollywoodreporter.com/business/business
-news/hollywood-ai-production-vfx-animation-1236086670/. (Accessed
November 2025)

Unity Technologies. (2024). 2024 Unity Gaming Report: Trends, data & expert tips.
Retrieved from https://unity.com/resources/gaming-report-2024. (Re-
ports 62% of developers using AI tools, 68% using AI to accelerate prototyping.
Accessed November 2025)

VAST-AI-Research. (2024). TripoSR: Fast 3D object reconstruction from a single
image. Retrieved from https://github.com/VAST-AI-Research/TripoSR. (MIT License. Accessed November 2025)

Yahoo Finance. (2024). Tripo, the frontrunner of 3D AI boom, supercharges new
era in content creation with 3.0 upgrade. Retrieved from https://finance
.yahoo.com/news/tripo-frontrunner-3d-ai-boom-151500448.html. (Ac-
cessed November 2025)

Field Competitiveness in the U.S.

0

Median annual salaries (2019–2024) provide a clear indication of how competitive different academic fields are in the U.S. doctoral labor market. This report examines salary growth across disciplines, differences between employment and postdoctoral paths, and how these trends relate to long-term research funding patterns from 2010–2023.

How have the relative competitiveness and priorities of academic disciplines in the United States evolved over the past decade? This guiding question motivates the present study, which examines long-term patterns in both labor-market outcomes and research investment. Using data from the National Center for Science and Engineering Statistics (NCSES), the analysis focuses on two key indicators of competitiveness: the median basic annual salaries of doctorate recipients with definite postgraduation plans, and the levels of research and development (R&D) funding allocated to each field. Together, these metrics offer a comprehensive view of how different disciplines have gained or lost prominence within the U.S. academic and research landscape. 

The first indicator—median annual salaries—reflects the economic value and demand for expertise in each discipline. The analysis focuses on doctorate recipients in the United States from 2019 to 2023 , considering differences by field of study, type of postgraduation plan (employment or postdoctoral study), and sex. Examining these patterns provides insights into how financial incentives and professional opportunities have shifted across academic and professional domains in recent years. 

The second indicator, R&D funding , serves as a proxy for institutional and societal investment in research within each field. Funding may originate from a range of internal and external sources, including businesses, government agencies, higher education institutions, and non-profit organizations. By tracking changes in R&D funding from 2010 to 2023 , the study aims to identify long-term trends that reflect which areas of research are receiving greater financial support and attention. 

The research encompasses both science and engineering fields —including agricultural sciences; biological and biomedical sciences; computer and information sciences; engineering; geosciences, atmospheric sciences, and ocean sciences; health sciences; mathematics and statistics; physical sciences; psychology; and social sciences—as well as non-science and engineering fields , such as business management and administration, education, humanities, and visual and performing arts.  

Through the combined analysis of salary and funding data, this study seeks to provide a comprehensive understanding of how competitiveness and priorities within the US academic and research landscape have evolved over time. 

Competitiveness within academic and research fields is commonly understood as the relative ability of a discipline to attract talent, funding, and long-term career opportunities. Fields that offer higher salaries, stronger employment prospects, or more substantial research budgets tend to draw greater institutional attention and a larger share of researchers. In this sense, competitiveness reflects both labor-market dynamics and strategic research priorities, linking individual incentives with broader national investments (OECD, 2015). 

In labor-market research, salary levels are widely used as an indicator of demand for specialized expertise. Higher median salaries typically signal that employers face competition for qualified workers or that the field provides significant economic or societal value. Variations in salary growth across disciplines therefore reveal how the relative attractiveness and market relevance of different fields evolve over time (NSF, 2023). 

Research and development (R&D) funding represents another critical dimension of competitiveness. R&D investment is broadly interpreted as a measure of institutional commitment to advancing research capacity and supporting innovation. Fields that receive large and growing financial resources tend to have stronger research ecosystems, better infrastructure, and more opportunities for scientific progress. Long-term changes in R&D funding patterns illustrate how national priorities shift in response to technological, economic, or societal challenges (OECD, 2023). 

Taken together, salaries and R&D funding provide complementary perspectives on the competitiveness of academic fields. Salary levels capture individual labor-market incentives, revealing how the value of expert knowledge changes over time. Funding trends, by contrast, reflect structural priorities and long-term institutional strategies. When analyzed jointly, these indicators offer a comprehensive picture of how disciplines gain or lose prominence within the broader U.S. research and innovation system. 

The datasets used in this research are published by the National Center for Science and Engineering Statistics (NCSES), the primary federal statistical agency responsible for collecting data on the U.S. science and engineering workforce and research funding. NCSES data are widely used in academic, economic, and policy research due to their methodological consistency, national coverage, and reliability (NCSES, 2024). 

Median and annual salaries

The National Center for Science and Engineering Statistics (NCSES) provides comprehensive data on the median basic annual salaries of doctorate recipients in the United States who have definite postgraduation plans. These data are categorized by field of studytype of postgraduation plan (employment or postdoctoral study), and sex, allowing for a nuanced analysis of salary distribution across different disciplines and demographic groups. Covering the period from 2019 to 2023, this dataset offers valuable insights into evolving market trends, salary growth, and the relative desirability and competitiveness of various fields. 

This part of the research examines salary trends between 2019 and 2023, focusing on changes in median annual salaries across scientific and non-scientific disciplines. The analysis further explores differences by postgraduation plans—distinguishing between those entering employment and those pursuing postdoctoral study—as well as by gender, in order to assess patterns of equity and representation. By identifying variations in salary developments across time and categories, this section aims to provide a clearer understanding of how economic outcomes reflect the broader competitiveness and attractiveness of each field within the U.S. academic and professional landscape. 

Understanding the Categories 

The Total with definite plans category represents the median basic annual salary for all doctorate recipients in a given field who indicated a clear postgraduation plan, whether that plan involves direct employment or further postdoctoral study. This measure provides an overall picture of salary outcomes among individuals who have successfully transitioned into the next stage of their professional or academic careers. 

The Employment total refers specifically to recipients whose definite plan was employment in a non-postdoctoral position. These salaries typically reflect positions in academia, industry, government, or nonprofit organizations, and serve as an indicator of the market demand and compensation for advanced expertise within each field. 

The Postdoctoral study total, by contrast, represents the median salary for those whose definite plan was a postdoctoral appointment. Postdoctoral positions generally emphasize continued research training and scholarly development rather than immediate entry into the labor market. Comparing this category with employment salaries highlights differences in compensation between research-focused career paths and other professional trajectories. 

Note: All values are in thousands (K). 

Changes in Field Classifications 

A notable shift occurred in 2021, when NCSES redefined several categories: 

  • Removed fields: Economics, Social Sciences, Physics & Astronomy, Life Sciences, Chemistry. 
  • New fields introduced
  • Computer and Information Sciences (previously grouped with Mathematics & Computer Sciences in 2019–2020). 
  • Multidisciplinary/Interdisciplinary Sciences
  • Visual and Performing Arts

These changes reflect the evolving academic and labor market landscape, highlighting the growing importance of computing, interdisciplinary work, and creative industries

Salary Trends (2019–2024) 

When comparing the earliest available data to 2024, we see clear patterns of growth in some fields and decline in others. 

When comparing the earliest available data to 2024, we see clear patterns of growth across almost all fields (some stronger, some weaker), with the only decline in Mathematics and Statistics

  • The strongest increases were observed in: Multidisciplinary/Interdisciplinary Sciences, Agricultural Sciences & Natural Resources, Biological & Biomedical Sciences, Health Sciences, and Physical Sciences . 
  • Moderate increases (around +8K) occurred in: Business, Education, Humanities, and Social Sciences . 
  • Weak increases were seen in Engineering and Computer & Information Sciences , despite their already high absolute salary levels (95K and 130K respectively). 
  • The only decline occurred in Mathematics & Statistics , which fell sharply by −24K, dropping from 100K in 2019 to 76K in 2024. 
     
     

These results suggest that Natural and Applied Sciences , especially health- and nature-related fields, are experiencing rising demand and are trying to attract specialists with higher salaries. In contrast, IT specialties , while still commanding high salaries, have seen limited growth, indicating a possible plateau. The decline in Mathematics and Statistics may reflect a shift in the labor market: pure mathematical skills are no longer sufficient on their own to remain competitive. Instead, employers increasingly expect complementary expertise in areas such as data analytics, computer science, and applied computational methods . 

Average Doctorate Salaries 

To understand how doctoral salaries developed depending on postgraduation plans, three categories were compared: doctorate recipients with definite plans overall, those who secured employment excluding postdoctoral positions, and those who entered postdoctoral research roles. The results reveal not only how salaries changed between 2019 and 2024, but also how strongly the outcomes differ depending on the chosen path. 

For doctorate recipients with definite postgraduation plans, the average salary showed steady improvement over the period. Female recipients increased their median pay from about $70,000 in 2019 to $78,000 in 2024, while male recipients rose from $70,000 to $84,000. Taken together, this represents an overall increase of $11,000 for the group. The stronger growth for men compared to women indicates that gender differences in compensation remain present even among those with similar levels of educational attainment. 

The employment group, consisting of graduates who secured non-postdoctoral jobs, reported the highest salary levels and the strongest growth. Female doctorate recipients in this category increased from almost $80,000 in 2019 to $92,000 in 2024, while their male counterparts rose from $88,000 to $103,000. These values demonstrate that employment provides the most competitive salaries for new PhD graduates and that industry, government, and non-postdoctoral academic roles are prepared to offer significantly higher compensation than other pathways. 

By contrast, postdoctoral study continues to function as a lower-paying transitional role. Female postdocs increased their salaries from $51,000 in 2019 to $63,000 in 2024, while male postdocs rose from $53,000 to $64,000. Although these gains are comparable in magnitude to the other categories, the absolute salary levels remain much lower. This illustrates the structural pay gap between postdoctoral appointments and direct employment, reflecting the training-oriented nature of postdoctoral positions rather than their competitiveness in the labor market. 

Overall, salaries for doctorate recipients improved across all three categories between 2019 and 2024. However, the differences between groups are striking. Employment clearly remains the most competitive pathway, offering both the highest absolute salaries and the strongest growth, while postdoctoral study continues to lag significantly despite modest increases. Gender differences persist, with men seeing larger absolute gains across categories. Taken together, the analysis shows that the doctoral labor market in the United States rewards direct entry into employment far more strongly than continued academic research training, and that competitive pressures are greatest in sectors outside the postdoctoral track. 

Conclusion about the Median annual salaries research  

This analysis of NCSES data from 2019–2024 highlights clear shifts in the competitiveness of doctoral fields in the United States. The reclassification of fields in 2021—introducing areas such as Computer and Information SciencesMultidisciplinary/Interdisciplinary Sciences, and Visual and Performing Arts—reflects the growing importance of technological integration, cross-disciplinary collaboration, and creative sectors. 

Salary trends show overall growth across most fields, with the strongest increases in health-, biological-, and nature-related sciences, while Engineering and Computer Sciences maintained high but stable levels. The only decline occurred in Mathematics and Statistics, suggesting reduced demand for purely theoretical expertise. 

Across postgraduation paths, employment positions offered the highest salaries and strongest growth, while postdoctoral study remained significantly lower-paying, emphasizing its transitional nature. Gender differences persisted, with male doctorate recipients generally earning more across categories. 

Overall, these findings indicate that the most competitive and rapidly advancing fields are those aligned with applied research and emerging societal needs, while the doctoral labor market continues to reward direct employment more strongly than extended academic training. 

R&D funding 

Introduction

Another relevant statistical report published by the National Center for Science and Engineering Statistics (NCSES)“Trends in U.S. R&D Performance and Funding,” provides essential insights into the evolution of research activity and investment across different scientific and academic fields. This report focuses on research and development (R&D) funding, defined as the financial resources devoted to research—either performed within an organization or transferred to other sectors. Such funding reflects both the priorities of funding institutions and the perceived potential of various disciplines to contribute to innovation and economic growth. 

For the purposes of this study, the analysis is limited to the same set of scientific and non-scientific fields examined in the median salary research, ensuring direct comparability between the two dimensions of competitiveness. While the salary analysis captures how the labor market values expertise in each discipline, the R&D funding analysis reveals how financial resources are allocated to support research within those fields. Together, these two perspectives—salaries as labor market signals and funding as investment signals—provide a comprehensive understanding of how different disciplines are positioned within the broader U.S. research and innovation ecosystem. 

By examining R&D funding trends from 2010 to 2023, this section aims to identify which fields have attracted growing investment over time and how these patterns align with or diverge from the salary trends observed among doctorate recipients. This combined approach allows for a deeper interpretation of competitiveness, highlighting not only where talent is most rewarded, but also where resources are most strategically concentrated. 

Total R&D Investments by Field (2010–2023) 

To assess how research funding is distributed across disciplines, total R&D investments between 2010 and 2023 were analyzed for each field. The results highlight substantial differences in financial support, reflecting varying levels of national priority and institutional capacity. 

Health sciences received by far the largest share of total R&D funding, underscoring its central role in U.S. research policy and its strong connections to both public health needs and the biomedical industry. Biological and biomedical sciences and engineering also attracted significant funding, confirming their strategic importance in innovation and technology development. Moderate levels of investment were observed in physical sciencesgeosciences, and agricultural sciences, suggesting steady but focused support for these foundational areas. 

In contrast, social sciencespsychologyeducation, and humanities received comparatively limited funding, reflecting their smaller research budgets and the tendency for these fields to rely more on institutional or nonprofit sources rather than large-scale federal or corporate R&D allocations. Visual and performing arts registered the lowest total investment, indicating that research activity in this domain remains relatively small in scope. 

Overall, the funding distribution reveals a strong concentration of resources in health- and technology-oriented fields, consistent with broader economic and societal trends emphasizing innovation, applied research, and the life sciences. 

R&D Investment Trends Over Time (2010–2023)

To capture how research funding has evolved, total R&D investments were tracked annually for each field between 2010 and 2023. The results reveal a consistent upward trend in most disciplines, though the pace and magnitude of growth vary considerably. 

Health sciences show the most substantial and sustained increase throughout the period, particularly after 2016, when funding began accelerating sharply and ultimately surpassed $350 million by 2023. This reflects both the expanding role of health research in national priorities and heightened investment in biomedical innovation, public health, and life science technologies. Biological and biomedical sciences and engineering also display strong upward trajectories, each showing steady year-to-year growth and confirming their central roles in the U.S. research ecosystem. 

Moderate increases are observed in physical sciences and agricultural sciences, indicating stable, long-term institutional support for these foundational research areas. In contrast, most social science, education, and humanities fields exhibit only gradual or minimal growth, maintaining lower funding levels overall and reinforcing their relatively smaller share within the national R&D landscape. 

Overall, the data demonstrate that U.S. R&D investment priorities have increasingly concentrated in health-related and applied scientific disciplines. This steady redirection of resources toward life sciences and technology-oriented fields aligns closely with broader societal challenges and economic objectives, emphasizing innovation and impact-driven research. 

Conclusion about the R&D funding research 

This analysis of NCSES R&D funding data from 2010 to 2023 reveals clear patterns in how financial resources are distributed across research fields in the United States. The results demonstrate a strong and persistent concentration of investment in health sciencesbiological and biomedical sciences, and engineering, reflecting the growing emphasis on innovation, technology development, and public health priorities. These fields not only dominate total funding but also exhibit the most consistent upward trends over time. 

In contrast, social scienceseducationhumanities, and visual and performing arts continue to receive comparatively modest funding, showing only gradual increases over the period. This uneven distribution highlights enduring structural imbalances between applied, high-technology disciplines and fields with less direct economic or industrial application. 

Overall, the findings suggest that U.S. research priorities are increasingly aligned with applied and interdisciplinary areas capable of driving innovation and societal impact. When viewed alongside the median salary results, the data indicate that fields attracting the greatest funding also tend to offer stronger labor market outcomes, reinforcing the close connection between research investment, professional competitiveness, and national strategic priorities. 

Conclusion

This report provides a comparative analysis of the competitiveness of various scientific and non-scientific fields in the United States by examining two complementary dimensions: median annual salaries of doctorate recipients and R&D funding trends. Together, these indicators offer a comprehensive view of how talent and resources are distributed across disciplines and how the academic and research landscape has evolved in recent years. 

The salary analysis (2019–2024) revealed that most fields experienced steady or strong salary growth, particularly in health-, biological-, and nature-related sciences, reflecting increasing labor market demand and societal relevance. Engineering and computer sciences maintained the highest absolute salaries, though with slower growth, indicating market maturity. The only decline occurred in mathematics and statistics, suggesting a shift toward applied and computational skills as key competitive advantages. Furthermore, the analysis confirmed that employment positions remain significantly more rewarding than postdoctoral study, emphasizing the stronger competitiveness of direct labor market entry. Gender differences persist, with male doctorate recipients consistently earning higher salaries across categories. 

The R&D funding analysis (2010–2023) complemented these findings by highlighting where long-term financial investment is concentrated. The results showed that health sciencesbiological and biomedical sciences, and engineering attract the largest and fastest-growing shares of research funding, aligning with national priorities in health, technology, and innovation. In contrast, social scienceseducationhumanities, and arts continue to receive relatively modest support, with limited growth over time. This imbalance underscores the prevailing emphasis on applied, innovation-driven disciplines within the U.S. research ecosystem. 

Viewed together, the salary and funding analyses reveal a clear alignment between labor market rewards and research investment priorities. Fields that receive substantial R&D funding also tend to offer higher salaries and faster growth, reinforcing their competitive strength and societal value. Conversely, disciplines with lower funding levels often exhibit slower salary progression, reflecting limited external investment and narrower career pathways. 

Overall, the findings suggest that the most competitive fields in the U.S. are those that combine strong research support with high labor market demand—particularly in health, engineering, and life sciences. The growing importance of interdisciplinary and applied areas highlights a continuing shift toward innovation-oriented, problem-solving disciplines. At the same time, persistent gaps across gender and field type point to the need for more balanced investment and equity initiatives within academia and research. 

References 

OECD. Frascati Manual 2015: Guidelines for Collecting and Reporting Data on Research and Experimental Development. Paris: OECD Publishing, 2015. 
Available from: https://doi.org/10.1787/9789264239012-en  

OECD. Main Science and Technology Indicators 2023. Paris: OECD Publishing, 2023. 

National Science Foundation. Doctorate Recipients from U.S. Universities: 2023. Alexandria, VA: National Center for Science and Engineering Statistics, 2023. 
Available from: https://ncses.nsf.gov/pubs/nsf24300  

National Center for Science and Engineering Statistics. Trends in U.S. R&D Performance and Funding: 2024. Alexandria, VA: NCSES, 2024. 
Available from: https://ncses.nsf.gov/pubs/nsb20257  

Data Sources 

National Center for Science and Engineering Statistics. Survey of Earned Doctorates: Median basic annual salary data (2019–2024). 
Available from: https://ncses.nsf.gov/surveys/earned-doctorates/2024#tableCtr14488 

National Center for Science and Engineering Statistics. Research and Development: U.S. R&D funding data (2010–2023). 
Available from: https://ncses.nsf.gov/pubs/nsb20257  

Tools and Computational Resources

Text refined for clarity using ChatGPT. 

Jupyter Notebook (Python) used for data analysis and visualization. 
Available from: https://colab.research.google.com/drive/1aeEcYXurTHK7sQzTQ2TyJ3pb6W4kQEdW

Případová studie Protext: Jak těžit z tiskových zpráv a získat tak konkureční výhodu

0
Detailní pohled na monitor počítače zobrazující řádky zdrojového kódu v tmavém vývojovém prostředí psaného v jazyce Python.
Zdroj: Pexels / Саша Алалыкин (https://www.pexels.com/cs-cz/foto/internet-pripojeni-technologie-pocitac-16592498/)

Současná digitální éra je charakterizována extrémním množstvím online dat a rostoucím tlakem na firmy rychle tato data zpracovávat. Competitive Intelligence (CI) se z nástroje strategických oddělení posunula do běžné praxe organizací napříč obory, neboť stále větší část veřejné komunikace probíhá v online prostředí. Subjekty schopné systematicky sbírat, třídit a interpretovat data tím získávají konkurenční výhodu. Klíčovým předpokladem je přístup k relevantním zdrojům a jejich rychlé zpracování, kde vstupuje do hry web scraping. Web scraping umožňuje analyzovat informace v měřítku, které by dřívější manuální rešerše nedokázala pokrýt. 

V oblasti konkurenčního zpravodajství mají zvláštní význam tiskové zprávy. Tiskové zprávy jsou prvotním zdrojem informací, které se teprve později dostávají do mediálního pokrytí. Pro CI představují médium, v němž lze zachytit jemné tržní signály dříve než konkurence. V českém prostředí je nejvýznamnějším distribučním kanálem služba Protext ČTK, která umožňuje firmám publikovat tiskové zprávy prostřednictvím infrastruktury České tiskové kanceláře (Protext, 2025). 

Tato esej zkoumá, jak lze data eticky a legálně vytěžovat z platformy Protext a jaké limity vyplývají z povahy tiskových zpráv. Současně ukazuje, jak může systematická práce s tímto typem zdroje odhalit trendy a dynamiku jednotlivých odvětví. V praktické rovině představuje funkční Python skript pro scraping veřejně dostupný na platformě GitHub

Metodologie

Informační základna práce byla vybudována prostřednictvím rešerše zejména v databázi Google Scholar. Zdroje byly poté doplněny o primární legislativu, odborné blogové články a oficiální dokumentace softwarových knihoven. 

Pro efektivní zpracování praktické i teoretické části byly využity nástroje umělé inteligence. Vývoj praktického projektu (nástroje protext-scraper) probíhal v „AI-native“ vývojovém prostředí Cursor. Tento nástroj umožnil akceleraci psaní kódu v jazyce Python, optimalizaci využití knihoven Beautiful Soup a Requests a řešení technických problémů při scrapingu. Pro syntézu teoretických poznatků, strukturaci argumentace a stylistickou korekci textu byly podpůrně využity jazykové modely NotebookLM, Gemini 3 a ChatGPT 5.1. Tyto modely sloužily výhradně jako nástroj pro formování textu, nikoliv jako zdroj primárních dat. 

Web scraping

Od crawlingu ke scrapingu

Původní webové technologie pro sběr dat byly zaměřeny na crawling (neboli indexaci). Crawling je systematické navštěvování webových stránek za účelem indexace obsahu, například pro vyhledávače pomocí crawlerů1 (Tseriotis, 2025). 

Z crawlingu se postupně vyvinul scraping. Web scraping je technika automatického získávání, třídění a využívání dat z konkrétních webových stránek. Crawling býval často zaměňován se scrapingem, nebo dokonce označován jako synonymum (Kawase, 2023). 

Principy scrapingu

Proces scrapingu vyžaduje detailní pochopení struktury cílové webové stránky, aby bylo možné data jednak legálně data získat, jednak efektivně extrahovat. V této kapitole jsou shrnuty základní principy webového scrapingu. 

Technický proces web scrapingu je v podstatě programovou emulací toho, co vykonává webový prohlížeč (Fortinet, Inc., 2025). Stáhne HTML kód, přečte jej a najde relevantní informace. Jakmile scraper získá tento surový text pomocí HTTP požadavku, musí jej analyzovat. K tomu slouží nástroj zvaný parser, který z HTML vytvoří strukturovanou reprezentaci nazývanou Document Object Model (DOM). DOM představuje stromovou strukturu, kde každý prvek stránky – text, obrázek či odkaz – tvoří list nebo větev tohoto stromu. 

Parsování lze realizovat pomocí specializovaných knihoven, například Beautiful Soup2 v jazyce Python. Tento nástroj umožňuje snadno se v DOM stromě navigovat a vyhledávat konkrétní prvky. Pro cílenou extrakci dat je nezbytné přesně specifikovat, kde se požadované informace nacházejí, k čemuž slouží selektory. Tyto selektory využívají syntaxi CSS selektorů nebo XPath dotazů k výběru konkrétních částí DOM (Hajba, 2018). 

Webové stránky nemají vždy stejnou strukturu, což je pro scraping problematické. Místo spoléhání se na jediný selektor lze implementovat postupné zkoušení několika možností, lze například nejprve hledat specifický HTML element s přesnými atributy, následně obecnější variantu, a nakonec záložní řešení. Tento proces však nemusí být spolehlivý a dlouhodobě fungující, proto je kód potřeba udržovat a aktualizovat. Některé stránky, zejména sociální sítě jako Facebook, se proti tomu brání obfuskací selektorů nebo jejich častou změnou (Clark, 2021). 

Mnoho moderních webových stránek generuje obsah dynamicky pomocí JavaScriptu (Client-Side Rendering). U takových stránek by pouhé stažení HTML kódu vedlo k prázdnému výsledku, neboť skutečný obsah se do dokumentu vkládá až po spuštění JavaScriptu v prohlížeči. Standardní řešení této situace vyžaduje použití tzv. headless browserů. Nástroje, umožňující headless browser, jako například Selenium nebo Scrapy dokážou JavaScript spustit a vykreslit finální podobu stránky. Samotnou extrakcí však proces nekončí, následuje totiž fáze čištění, ukládání dat. 

Získaná surová data jsou často “zašuměná” (noisy) a obsahují chyby či nechtěné elementy, jako jsou reklamy, což je činí nevhodnými pro okamžitou analýzu. Proces předzpracování (pre-processing) je proto nezbytný pro převod materiálu do strojově čitelného a strukturovaného formátu. V praxi to zahrnuje normalizaci textu, sjednocování klíčů v tabulkách s proměnlivou strukturou nebo převod datových typů. U nestrukturovaného textu se využívají techniky zpracování přirozeného jazyka (NLP), jako je tokenizace, stemming a odstranění tzv. stop-slov (Tseriotis, 2025). 

Vyčištěná data se exportují do formátů, které umožňují jejich další využití. Pro jednodušší datové sady se běžně využívají souborové formáty JSON a CSV. Efektivní variantou je formát JSON Lines (.jl), který umožňuje zápis dat průběžně, což minimalizuje riziko ztráty dat při přerušení procesu. Pro komplexnější projekty je vhodnější ukládání do databází. Ačkoliv klienti často vyžadují relační databáze (SQL), pro scraping se strukturálně lépe hodí NoSQL databáze (např. MongoDB), jelikož webové stránky jsou svou povahou dokumenty, což odpovídá logice NoSQL systémů (Hajba, 2018). 

Automatizovaný sběr dat musí být realizován tak, aby nenarušil provoz cílového webu. Tento přístup, označovaný jako polite scraping, stojí na třech hlavních technických zásadách. 

  • Rate Limiting: Omezování rychlosti požadavků je klíčové, aby nedošlo k přetíženíserveru, což by mohlo být vyhodnoceno jako útok typu Denial-of-Service(Tseriotis, 2025.; Kawase, 2023).
  • Identifikace (User-Agent): Scraper by se měl transparentně identifikovat v hlavičce HTTP požadavku a neměl by se vydávat za běžného uživatele, pokud to nenínezbytně nutné (Hajba, 2018).
  • Respektování robots.txt: Z technického hlediska slouží soubor primárně jakoinstrukce pro crawlery, které části webu nemají navštěvovat. To samé platí i proscraping. Většina frameworků (např. Scrapy) umožňuje automatické dodržovánítěchto pravidel.

Výše uvedené principy řeší technickou proveditelnost a ohleduplnost k infrastruktuře, samotná legálnost sběru dat je otázkou mnohem komplexnější. Zda je data možné legálně stahovat a využívat, definuje právní rámec, kterému se věnuje následující kapitola. 

Právní rámec scrapingu

Právní rámec web scrapingu pro tuto esej byl rozdělen do třech částí – autorské právo, ochrana osobních údajů (GDPR) a praktická smluvní omezení. V EU tyto oblasti dohromady určují, co lze z webu legálně extrahovat, jak s daty pracovat a kde končí hranice automatizovaného sběru. 

Autorské právo

Z pohledu autorského práva naráží web scraping na základní překážku: technický proces stahování webových stránek nutně zahrnuje vytvoření jejich digitální rozmnoženiny (kopie). Aby byl tento sběr dat legální i bez výslovné licenční smlouvy s provozovatelem webu, musí se opírat o zákonnou výjimku. V evropském a českém právním řádu je touto klíčovou legalizační oporou tzv. vytěžování textů a dat (Text and Data Mining – TDM). 

TDM definuje podmínky, za kterých lze automatizovaně analyzovat digitální obsah. 

  1. Obecná výjimka pro komerční účely (§ 39c): Umožňuje komukoliv (včetně firempro účely CI) stahovat a analyzovat data, ke kterým má legální přístup. Tatosvoboda má však zásadní limit – platí pouze tehdy, pokud si vlastník webu těžbudat výslovně nevyhradil (tzv. digitální opt-out). V praxi se tento nesouhlasvyjadřuje strojově čitelným způsobem, nejčastěji prostřednictvím protokolurobots.txt. Pokud tedy robots.txt scraping zakazuje, výjimka TDM přestává platit asběr dat se stává nelegálním porušením autorského práva (Zákon č. 121/2000 Sb.,2000).
  2. Specifická výjimka pro vědecký výzkum (§ 39d): Tato část zákona je zásadní proakademické práce a výzkumné organizace. Poskytuje širší oprávnění než § 39c anení omezena výhradou autora (opt-outem). To znamená, že pro vědecké účely lzeza určitých podmínek vytěžovat data i v případě, kdy by to komerčnímu subjektubylo zakázáno (Zákon č. 121/2000 Sb., 2000).

Obě výjimky však sdílejí nutnou podmínku „zákonného přístupu“, což znamená, že TDM nelze aplikovat na obsah získaný z pirátských zdrojů nebo prolomením hesel. Pro tuto práci je tedy klíčové, že scraping Protextu spadá pod režim TDM, což jej činí legálním nástrojem analýzy, nikoliv krádeží obsahu (Čermák, 2025). 

GDPR

Zatímco autorské právo chrání obsah, GDPR chrání jednotlivce. Zásadním omylem při sběru dat bývá předpoklad, že veřejně dostupná data na internetu nespadají pod ochranu osobních údajů. Nařízení GDPR se však vztahuje na veškeré informace o identifikované nebo identifikovatelné fyzické osobě, a to bez ohledu na jejich veřejnou dostupnost (Nařízení Evropského parlamentu a Rady (EU) 2016/679). 

Identifikovatelnost osoby v digitálním prostředí není omezena pouze na jméno, ale zahrnuje i lokační údaje nebo síťové identifikátory (IP adresy, cookies), které mohou být použity k profilování. Pro účely Competitive Intelligence je proto klíčové držet soukromá data fyzických osob mimo scraping, aby se předešlo odpovědnosti za jejich případný únik. 

Pokud ke zpracování osobních údajů dochází, musí mít správce (scraper) tzv. právní titul. V kontextu CI se nejčastěji uvažuje o titulu oprávněného zájmu správce. Jeho existence však není automatická a musí být pečlivě posouzena tzv. balančním testem, zda zájem firmy nepřevažuje nad základními právy subjektu údajů. S tím souvisí i následující principy. 

  • Minimalizace dat: Data musí být omezena na nezbytný rozsah pro daný účel (Nařízení Evropského parlamentu a Rady (EU) 2016/679).
  • Informační povinnost: I při získávání dat od třetích stran (scrapingem) má správcepovinnost informovat dotčené osoby o zdroji dat a účelu zpracování, a to vpřiměřené lhůtě (Nařízení Evropského parlamentu a Rady (EU) 2016/679). V praxije tato povinnost u masivního scrapingu obtížně splnitelná, což představujevýznamné právní riziko. Nicméně není nevykonatelná, viz. Obrázek 1 níže.

Obrázek 1: E-mail oznamující zpracování osobních dat v databázi společnosti Dun & Bradstreet

Zdroj: Vlastní zpracování autora.

Praktická a smluvní omezení

Kromě zákonů veřejného práva je scraping regulován také soukromoprávními smluvními vztahy, konkrétně Podmínkami užití (Terms of Service – ToS). Před zahájením extrakce je nezbytné prostudovat ToS cílového webu. Pokud podmínky obsahují klauzuli zakazující scraping (často hledáním klíčových slov jako crawler, spider, bot), a uživatel s nimi souhlasil, je touto smlouvou vázán (Kawase, 2023). 

Tiskové zprávy jako datový korpus

Tiskové zprávy z platformy Protext, kterou provozuje Česká tisková kancelář, představují specifický žánr institucionální komunikace využívaný pro komerční i nekomerční účely. Jedná se o oficiální, verifikované texty opatřené metadaty (datum, kategorie, autor). Zprávy zpravidla dodržují strukturu tzv. obrácené pyramidy, kde klíčová fakta stojí na začátku, zatímco doplňující informace následují v dalších odstavcích (Tomandl, 2011). Tato předvídatelná struktura významně usnadňuje scraping. 

Výhody tiskových zpráv

Hlavní předností tohoto zdroje je standardizace a kontinuita. Díky archivaci v Infobance ČTK vzniká konzistentní korpus pokrývající široké spektrum trhu od financí po veřejnou správu. 

  • Strukturovaná data: Pevná forma („kdo–co–kdy–proč“) zefektivňuje parsování a zvyšuje přesnost výstupů. 
  • Široká distribuce a relevance: Díky napojení na zpravodajské agregátory a média se informace dostávají k širokému publiku, což činí z Protextu relevantní zdroj pro monitoring tržního dění. 

Limity tiskových zpráv

Při interpretaci dat je však nutné zohlednit zkreslení plynoucí z povahy PR komunikace a právního rámce. 

  • PR Bias: Tiskové zprávy jsou primárně nástrojem public relations, jehož cílem je budování kladné image a reputace (Tomandl, 2011). Negativní informace jsou v tomto žánru potlačeny, což vyžaduje kritický přístup k analýze sentimentu – texty nelze vnímat jako neutrální zpravodajství, ale jako propagační sdělení (Hejlová, 2015). 
  • Nereprezentativnost: Protext je placená služba. Dataset proto obsahuje pouze subjekty s rozpočtem na PR, zatímco menší hráči na trhu mohou zcela chybět. Data tedy reflektují komunikační aktivitu, nikoliv nutně reálný tržní podíl. 
  • Právní omezení: Na tiskové publikace se vztahuje zvláštní právo vydavatele dle § 87b Autorského zákona (Zákon č. 121/2000 Sb.). Ačkoliv se ochrana nevztahuje na jednotlivé údaje, systematické vytěžování a dlouhodobá archivace celých textů je mimo výjimky pro vědecký výzkum omezena (Směrnice Evropského parlamentu a Rady (EU) 2019/790). 

Implementace scraperu a tvorba datasetu

Pro účely sběru dat byl v jazyce Python vyvinut pomocí nástroje Cursor specializovaný projekt protext-scraper5, který automatizuje extrakci tiskových zpráv přímo z portálu Protext.cz. Architektura nástroje byla navržena s důrazem na efektivitu sběru a striktní dodržování právních a etických norem definovaných v Kapitole 2. 

Projekt je dostupný na platformě Github: https://github.com/koprjaa/protext-scraper

Architektura a technické řešení

Nástroj využívá hybridní přístup k identifikaci relevantních URL adres. Místo náročného plošného procházení webu (crawling) využívá scraper RSS kanál portálu (protext.cz/rss/cz.php) k detekci aktuálního rozsahu ID článků. Následně probíhá přímá iterace přes ID v definovaném rozsahu, kdy scraper konstruuje cílové URL ve formátu zprava.php?id={article_id}. 

Technologicky je řešení postaveno na knihovně Beautiful Soup 4 pro parsování HTML kódu a knihovně Requests pro realizaci HTTP požadavků. Pro robustnost extrakce je využit parser lxml, který je schopen zpracovat i validně nedokonalé HTML dokumenty. 

Právní a technická omezení

Před zahájením sběru proběhla analýza souboru robots.txt, která potvrdila, že provozovatel uplatňuje digitální opt-out specificky vůči AI botům (např. GPTBot, CCBot). Soubor však neobsahuje globální zákaz (User-agent: * Disallow: /). Nástroj protext-scraper byl proto nakonfigurován tak, aby tyto podmínky respektoval. Scraper využívá vlastní User-Agent řetězec, který jej identifikuje jako akademický projekt, nikoliv jako komerční AI bot. Tím technicky nespadá do skupiny blokovaných agentů. Ačkoliv technické nastavení webu sběr dat neblokuje, projekt se pro jistotu opírá i o zákonnou licenci pro vytěžování textů a dat pro účely vědeckého výzkumu dle § 39d zákona č. 121/2000 Sb., která není dotčena případnými technickými výhradami směřovanými na komerční subjekty. 

Struktura datasetu

Výstupem je JSON soubor, kde každý záznam obsahuje: 

  • titulek (Title),
  • obsah (Content),
  • metadata (Link, ID, Date, Keywords a Category).

Příklad jednoho z výstupů: 

{ “title”: “U Příbora silničáři opravují frekventovanou silnici nad dálnicí”, 

“content”: “Přibližně jeden měsíc bude trvat dopravní omezení na silnici I/58 v lokalitě u dálnice D48 na úrovni Příbora. Důvodem je oprava povrchu silnice, přičemž část opravy se týká mostu nad dálnicí. Jan Rýdl, mluvčí ŘSD: “Od pátku 3. října začínáme s opravou obchvatu Příbora. Více než 3,5 km silnice I/58 vyžaduje nový povrch, proto vyměníme asfaltové vrstvy formou recyklace materiálu za horka přímo na místě. Cena prací přesahuje 24 milionů korun a hotovo budeme mít nejdéle do poloviny listopadu.” Silničáři si jednotlivé fáze opravy naplánovali tak, aby na sebe plynule navazovaly. Zatímco na jednom místě ještě opravovali dilatační spáry, z druhé strany už pokládali první vrstvu asfaltu. Po dobu oprav je v místě snížena rychlost. Dopravní situace se mění průběžně podle jednotlivých fází opravy vozovky a může docházet i k dočasnému uzavření provozu. Některé sjezdy a nájezdy v místě mimoúrovňového dálničního křížení jsou uzavřené. Doprava je vedena po vyznačených objízdných trasách. Motoristé by při projíždění celého úseku měli věnovat pozornost dopravnímu značení, které se může průběžně měnit. V době provozu stavební techniky po vozovce je nutné dbát pokynů pracovníků stavby. Pokud půjde vše bez komplikací, měla by se dopravní situace v místě rekonstrukce vrátit k normálu do půlky listopadu. Zdroj: POLAR televize Ostrava PROTEXT”, 

“link”: “https://www.protext.cz/zprava.php?id=54653”, 

“id”: 54653, 

“date”: “Příbor 10. října 2024 (PROTEXT)”, 

“keywords”: “Protext-ČR-doprava-dopravniinfo.tv-VIDEOSTREAM-UPOZORNĚNÍ”, 

“category”: “Auto-moto, doprava a stroje” }

Využití pro Competitive Intelligence

Získaný dataset tiskových zpráv představuje pro analytika Competitive Intelligence (CI) cenný zdroj primárních dat. Na rozdíl od nestrukturovaného šumu sociálních sítí, tiskové zprávy odrážejí oficiální komunikační strategii sledovaných subjektů a jejich snahu o řízení reputace (reputation management) a budování důvěry (Prozrová, 2020; Nsibande et al., 2025). Analýzou tohoto korpusu lze rekonstruovat, jak chtějí být konkurenti vnímáni trhem a jaká témata se snaží aktivně nastolovat. 

Kvantitativní obsahová analýza (QCA)

Základní metodou možného zpracování datasetu je kvantitativní obsahová analýza (QCA), která patří mezi nejužívanější metody výzkumu médií pro svou schopnost objektivně zpracovat velké objemy textu (Špundová, 2024). V kontextu CI umožňuje QCA transformovat textová data na měřitelné ukazatele a sledovat strategické priority konkurence. 

Klíčovým prvkem této metody je frekvenční analýza. Měřením četnosti klíčových slov v poli content a keywords lze identifikovat tzv. mediální agendu. Pokud například v komunikaci konkurenta dlouhodobě narůstá frekvence pojmů jako “udržitelnost” nebo “umělá inteligence”, indikuje to strategický posun, na který může firma reagovat ještě před uvedením konkrétních produktů na trh (Nsibande et al., 2025). 

Analýza Share of Voice (SOV)

Díky atributu category, který scraper extrahuje z metadat Protextu, je možné provádět segmentovanou analýzu tržního podílu v médiích, v CI terminologii označovanou jako Share of Voice (SOV) (Nsibande et al., 2025). Objem publikací v daném sektoru přímo koreluje s viditelností značky a její schopností ovládnout téma (Špundová, 2024). 

Analytik může filtrovat dataset například na kategorii “Finance” a vizualizovat rozložení mediálního prostoru. Subjekt s dominantním SOV v dané kategorii zpravidla určuje trendy, zatímco subjekty s nízkou aktivitou riskují ztrátu tržního povědomí (Pospíšil, 2011). Tato analýza rovněž odhaluje sektorové průniky – např. banka publikující v sekci IT naznačuje strategický důraz na fintech inovace. 

Detekce signálů v čase

Časová řada, kterou dataset poskytuje skrze atribut date, je klíčová pro pochopení dynamiky konkurence a předvídání budoucích kroků (Early Warning Signals). CI není jen o statickém popisu, ale o proaktivním monitorování trendů a změn v čase. 

Analýza časování komunikačních kampaní může odhalit. 

  • Cyklické vzorce: Pravidelnost v uvádění novinek, která umožňuje predikovat příští kroky konkurenta. 
  • Reakční schopnost: Měřením odstupu mezi tržní událostí a vydáním tiskové zprávylze hodnotit agilitu konkurence (Špundová, 2024).

Zpracovaná data tak slouží jako základ pro tvorbu actionable intelligence. Dané poznatky mohou umožnit provádět lepší strategické rozhodnutí a poskytují podniku udržitelnou konkurenční výhodu. 

Závěr

Tato práce prokázala, že automatizovaný sběr dat je jednoduchým a efektivním, avšak právně komplexním nástrojem pro potřeby moderního Competitive Intelligence. Vyvinutý nástroj protext-scraper úspěšně demonstroval možnost získávání strukturovaných dat z platformy Protext.cz, přičemž klíčovým aspektem řešení byl striktní soulad s aktuálním legislativním rámcem. Implementace potvrdila, že technická efektivita sběru nemusí být v rozporu s etickými principy; využitím mechanismů polite scrapingu a oporou o zákonnou licenci pro vědecký výzkum (§ 39d autorského zákona) se podařilo legálně získat data i v prostředí, kde jsou komerční AI boti technicky omezováni prostřednictvím digitálního opt-outu. 

V aplikační rovině práce identifikovala oficiální tiskové zprávy jako strategicky cenný zdroj primárních dat a definovala metodický rámec pro jejich využití. Získaný strukturovaný dataset vytváří nezbytný základ pro následnou aplikaci metod CI. Práce ukazuje cestu, jak transformovat nestrukturovaný text na měřitelné ukazatele, které analytikům v budoucnu umožní posun od pasivního monitoringu k proaktivní detekci tržních signálů a trendů. 


Zdroje

  1. Apostle, J., & Schröder, C. (2024, říjen). First Significant EU Decision ConcerningData Mining and Dataset Creation to Train Artificial Intelligence.https://www.orrick.com/en/Insights/2024/10/Significant-EU-Decision-Concerning-Data-Mining-and-Dataset-Creation-to-Train-AI
  2. Beautiful Soup Documentation—Beautiful Soup 4.4.0 documentation. (b.r.).Získáno 16. listopad 2025, z https://beautiful-soup-4.readthedocs.io/en/latest/
  3. Clark, M. (2021, duben 15). How We Combat Scraping. Meta Newsroom.https://about.fb.com/news/2021/04/how-we-combat-scraping/
  4. Cursor. (b.r.). Cursor: The best way to code with AI. Cursor. Získáno 4. listopad2025, z https://cursor.com
  5. Čermák, J. (2025, 8). TDM výjimka a výhrada z ní ve světle trénování jazykovýchmodelů generativní umělé inteligence – část II. | pravoit.cz. pravoit.cz.https://pravoit.cz/novinka/tdm-vyjimka-a-vyhrada-z-ni-ve-svetle-trenovani-jazykovych-modelu-generativni-umele-inteligence-cast-ii
  6. Česká tisková kancelář. (b.r.-a). O službě Protext ČTK | Protext—PR služby ČTK.Protext. Získáno 3. listopad 2025, z https://protext.cz/protext-ctk.php
  7. Česká tisková kancelář. (b.r.-b). Úvodní strana | Protext—PR služby ČTK. Protext.Získáno 3. listopad 2025, z https://protext.cz/
  8. Fortinet, Inc. (2025). What Is Web Scraping? How Do Web Scrapers Work?Fortinet. https://www.fortinet.com/resources/cyberglossary/web-scraping
  9. Geiger, C., Frosio, G., & Bulayenko, O. (2018). The Exception for Text and DataMining (TDM) in the Proposed Directive on Copyright in the Digital SingleMarket—Legal Aspects (SSRN Scholarly Paper No. 3160586). Social ScienceResearch Network. https://doi.org/10.2139/ssrn.3160586
  10. Google. (b.r.). Google Scholar. Google Scholar. Získáno 30. listopad 2025, zhttps://scholar.google.com/
  11. Google. (2024). NotebookLM [Large language model]. In Google.https://notebooklm.google.com/
  12. Google. (2025). Gemini3 [Large language model]. https://gemini.google.com/app?hl=cs
  13. Hajba, G. L. (2018). Website Scraping with Python: Using BeautifulSoup andScrapy. Apress. https://doi.org/10.1007/978-1-4842-3925-4
  14. Kawase, T. (2023, prosinec 8). Co je to scraping? Vysvětlení právních problémůužitečné metody sběru dat, která přitahuje pozornost. MONOLITH LAW OFFICE |Tokyo, Japonsko. https://monolith.law/cs/general-corporate/scraping-datacollection-law
  15. lxml—Processing XML and HTML with Python. (b.r.). lxml. Získáno 2. prosinec2025, z https://lxml.de/
  16. Nsibande, O., Dinath, W., & Niemand, C. J. P. (2025). CI Practices to GainCompetitive Advantage through Social Media in the PR Industry. South AfricanJournal of Information Management, 27(1).https://doi.org/10.4102/sajim.v27i1.1996
  17. OpenAI. (2025). 5.1[Large language model]. In OpenAI. https://chatgpt.com/?model=gpt-4o 
  18. Prozrová, A. (2020). Online PR jako součást komunikace Pražských náplavek[Diplomová práce, Vysoká škola ekonomická v Praze]. https://theses.cz/id/slhf19/
  19. Psf/requests. (2025). [Python]. PythonSoftware Foundation. https://github.com/psf/requests (Original work published 2011) 
  20. Regulation (EU) 2016/679 of the European Parliament and of the Council of 27April 2016 on the Protection of Natural Persons with Regard to the Processing ofPersonal Data and on the Free Movement of Such Data, and Repealing Directive95/46/EC (General Data Protection Regulation) (Text with EEA Relevance), 119OJ L (2016). http://data.europa.eu/eli/reg/2016/679/oj
  21. Scrapy. (b.r.). Scrapy. Získáno 16. listopad 2025, z https://scrapy.org
  22. Selenium. (b.r.). Selenium. Získáno 16. listopad 2025, z https://www.selenium.dev/
  23. Špundová, K. (2024). Analýza efektivity PR vybraných filmových festivalů[Bakalářská práce, Vysoká škola ekonomická v Praze].https://theses.cz/id/f9j8bv/?lang=cs
  24. Tseriotis, A. M. (2025). Advanced Web Scraping in the Modern Web.
  25. Zákon č. 121/2000 Sb., Pub. L. No. 121/2000 Sb., Sbírka zákonů (2000).https://www.zakonyprolidi.cz/cs/2000-121

Leak Databáze v Competitive Intelligence: Zlatý důl nebo právní past?

0
Gemini_Generated_Image
Gemini_Generated_Image

Úvod

Databáze úniků (Leak Databases) představují pro Competitive Intelligence (CI) nesmírně lákavý, ale nebezpečný zdroj informací.

Tato úniková data mohou obsahovat kritické detaily o konkurentech, zákaznících či trzích. Často jde o informace, které by jinak zůstaly hluboko skryté.

Přesto jejich využívání naráží na mnoho otázek. Z právního a etického hlediska může jít o tzv. „ovoce ze zkaženého stromu“.

Získaná data jsou sice veřejná, ale jejich původ může být sporný. Z hlediska analýzy musíme řešit, zda jsou taková data pravdivá a důvěryhodná (Wright, 2024).

Tento text zkoumá, kde leží hranice mezi OSINT (Open-Source Intelligence) a nelegálním získáváním dat. Podíváme se na to, v čem tkví rizika spojená s kvalitou dat a jaké hrozby čekají analytiky.

V závěru navrhujeme praktická doporučení, jak bezpečně a eticky pracovat, když analyzujete databáze úniků. Text přináší právní, technické i strategické perspektivy.


1. Právní rámec pro veřejné databáze úniků: OSINT vs. nelegální sběr

1.1 Rozlišení OSINT a špionáže

OSINT (Open-Source Intelligence) je definováno jako sběr a analýza veřejně dostupných informací pro odpověď na konkrétní inteligenční otázku (McQueen, 2020).

Zásadní je, že OSINT využívá údaje z legalizovaných zdrojů. Jde například o veřejné weby, mediální zprávy, open registry a podobně.

Naopak korporátní špionáž zahrnuje nelegální metody. Mezi ně patří hacking, odposlech či neoprávněný přístup, které porušují zákony a etické standardy.

Mnoho expertů varuje před podvodnými metodami. Například falešná identita nebo neoprávněný přístup do systémů překračuje hranici CI a spadá do nelegálních praktik (McQueen, 2020).

1.2 Princip „ovoce ze zkaženého stromu“

V právní terminologii znamená tento princip, že důkazy získané nelegálně či bez oprávnění jsou potenciálně nepřijatelné.

V kontextu competitive intelligence tato analogie nese jasné poselství. I když jsou databáze úniků veřejně přístupné, jejich původ byl nezákonný.

Útočník je totiž získal hacknutím či jiným neoprávněným přístupem (Wright, 2024).

V praxi však není v obchodním prostředí jasný jednotný právní zákon. Ten by musel výslovně zakazovat používání uniklých dat pro konkurenční analýzu, pokud organizace sama neprovedla hacking.

V USA by se teoreticky mohly uplatnit tyto zákony:

1.3 GDPR, CCPA a osobní údaje v databázích

Uživatelé CI se musejí ptát na obsah dat. Je nutné zjistit, zda databáze úniků neobsahují osobní údaje, na které se vážou přísná právní omezení.

GDPR (Evropská unie): Podle Nařízení (EU) 2016/679 je jakýkoli údaj o identifikované osobě považován za osobní údaj.

V EU je stahování nebo uchovávání uniklých osobních dat bez souhlasu obecně nezákonné. Výjimky pro „výzkum“ jsou velmi úzké. Využití e-mailů konkurence pro marketing je tak v přímém rozporu s GDPR.

CCPA (Kalifornie, USA): CCPA přísně omezuje zpracování osobních údajů rezidentů Kalifornie bez jejich souhlasu.

Pokud by firma zpracovávala data osob v EU či Kalifornii, měla by zajistit soulad s místními pravidly.

Tip: Více o ochraně dat si můžete přečíst v našem článku o implementaci GDPR v analytice.

1.4 Etický rozměr

Zásada fair play v CI vyžaduje transparentnost. Propagátoři „hard intelligence“ připouští pouze otevřené zdroje. Porušení etiky poškozuje dlouhodobou reputaci firmy.

Případová studie: Volkswagen vs. General Motors (1997)
Volkswagen najal Jose Ignacia Lopeze z GM, který odnesl krabice důvěrných dokumentů. Volkswagen později zaplatil 100 milionů USD jako urovnání sporu.

Případová studie: PepsiCo vs. Coca-Cola (2006)
PepsiCo obdržela nabídku na koupi tajemství Coca-Coly. Namísto využití informací PepsiCo vše nahlásila úřadům, čímž se vyhnula obrovskému riziku.


2. Šedá zóna: Hranice etického sběru informací

Etický sběr konkurentních informací existuje v oblasti „gray zone“.

Například přestrojení se za zákazníka či uchazeče o zaměstnání a kladení citlivých otázek jsou obecně vnímány jako nemorální (McQueen, 2020).

Podstatná je i problematika anonymity a zdvořilosti. Pokud CI analytik přímo kontaktuje konkurenta, měl by jasně deklarovat svou identitu a účel. Úplatky a lži jsou v rozporu s etikou.


3. Jakou kvalitu mají databáze úniků?

3.1 Problémy s kvalitou dat

Veřejné databáze úniků (tzv. „combo listy“) bývají nekvalitní surovinou. Často obsahují mnoho překlepů, duplicit a neplatných záznamů.

Studie Maschler et al. (2017) se zaměřila na validaci těchto databází. Výzkumníci zjistili, že v některých souborech byla signifikantní část dat problematická.

Dokonce demonstrovali vytvoření „fake“ úniku, který na první pohled nevzbudil podezření.

3.2 Poisoning a konkurenční manipulace

I skutečná databáze úniků může být cílem „poisoningu“. Útočník či konkurence do ní může nastražit falešná data. Data mohou být neúplná, zastaralá nebo zcela vytržená z kontextu (chybí metadata).

3.3 Techniky ověření dat

Bezpečnostní analytik musí data křížově ověřovat. Používají se různé nástroje.

Mezi nejčastější patří:

  • MX-Checker: kontroluje existenci poštovního serveru.
  • SMTP validátor: ověřuje platnost e-mailů.
  • Formátová kontrola: identifikuje deformované záznamy.

Spolehlivost dat z úniku je tedy nízká. Každá informace by měla být považována maximálně za hypotézu (Wright, 2024).

3.4 Riziko deanonymizace a „mosaikový efekt“

S nástupem AI se mění pohled na anonymitu. Tzv. „mosaikový efekt“ umožňuje propojit fragmentované údaje a znovu identifikovat osoby.

I když jednotlivé databáze úniků obsahují jen střípky, moderní algoritmy je spojí. To přináší zvýšené riziko porušení GDPR (Narayanan & Shmatikov, 2008).


4. Bezpečnostní rizika pro analytiky

4.1 Malware a technické riziko

Stahování dat z neznámých serverů či otevírání příloh z úniků může infikovat systémy malwarem. Servery na dark webu jsou v tomto ohledu velmi rizikové.

Trojské koně mohou být zabudovány přímo do archívů, což ohrožuje bezpečnost analytika.

4.2 Honeypoty a sledování

Útočníci mohou nastražit falešné soubory (honeypoty), aby monitorovali zájemce o data. Analytik tak riskuje odhalení své identity (IP adresy). Doporučuje se používat izolované prostředí a VPN.


5. Strategická hodnota vs. reputační riziko

5.1 Potenciální přínosy

Pokud jsou databáze úniků zpracovány opatrně, mohou nabídnout cenné informace.

Mezi hlavní výhody patří:

  • Pohled do úmyslů útočníků (ransomware skupiny).
  • Odhalení neznámých slabin konkurence.
  • Rychlé doplnění threat intelligence dat.

5.2 Reputační riziko

Pokud veřejnost zjistí, že firma využila ukradená data, vede to ke ztrátě důvěry.

Příkladem je pokuta pro Telekom Romania Communications SA (2020). Ačkoliv šlo o malou částku, ilustruje to, že zpracování cizích dat má právní následky.

5.3 Defenzivní CI

Eticky nejčistším využitím je defenzivní competitive intelligence. Analytici monitorují úniky s cílem chránit vlastní dodavatelský řetězec.

Včasná detekce úniku u dodavatele umožňuje předejít kybernetickému útoku na vlastní organizaci.


6. Doporučení pro práci s databázemi úniků

Na základě výše uvedených faktů navrhujeme tato doporučení pro práci s databázemi úniků:

  • Právní kontrola: Vždy konzultujte právní oddělení (GDPR, CCPA).
  • Etický kodex: Zaveďte pravidla proti klamání a manipulaci.
  • Technické zabezpečení: Pracujte v izolovaném prostředí (VM, offline server).
  • Validace: Data považujte za hypotézu, dokud nejsou ověřena.
  • Minimalizace údajů: Filtrujte osobní informace.
  • Transparentnost: V reportech jasně označte, že data pocházejí z neoficiálních zdrojů.

7. Závěr

Využití veřejně dostupných databází úniků je v competitive intelligence dvousečný meč. Klíčem je uvědomit si, že dostupnost dat neznamená automaticky legálnost jejich zpracování.

Analytici i vedení by měli být k těmito zdrojům maximálně obezřetní. Je nutné ověřovat spolehlivost informací a důsledně chránit soukromí. Jen tak může analýza přinést strategickou hodnotu bez poškození firmy.


Reference

[1] Computer Fraud and Abuse Act, 18 U.S.C. §1030 (1986).
[2] Dunn, P., & Baskins, A. (2006). Hewlett-Packard pretexting scandal.
[3] Maschler, F., et al. (2017). Real or fake? Large-scale validation of identity leaks.
[4] McQueen, A. (2020). Competitive intelligence ethics gone wrong.
[5] Narayanan, A., & Shmatikov, V. (2008). Robust De-anonymization of Large Sparse Datasets.
[6] Prunckun, H. (2019). Counterintelligence theory and practice.
[7] Regulation (EU) 2016/679 (GDPR).
[8] Telekom Romania Communications SA. (2020). GDPR fine Decision.
[9] Volkswagen and GM settle civil dispute. (1997). Los Angeles Times.
[10] Westerhorstmann, K. (2015). The Computer Fraud and Abuse Act.
[11] Wright, P. (2024). The ethical dilemma of using data breach information.

Gemini_Generated_Image
Gemini_Generated_Image

Geopolitika AI čipů: využití UN Comtrade a Patentscope v Competitive Intelligence pro mapování dodavatelských řetězců GPU

0

Úvod

Rychlý rozvoj umělé inteligence v posledních letech zásadně zvýšil poptávku po specializovaných výpočetních akcelerátorech. Ty se staly nejen technologickou infrastrukturou, ale také geopolitickou komoditou: rozdíl mezi státy schopnými tyto čipy vyrábět a státy odkázanými na jejich dovoz má přímé důsledky pro jejich inovační i strategické možnosti (Clark et al., 2021). Produkce nejpokročilejších polovodičů je přitom vysoce koncentrovaná – Tchaj-wan dominuje špičkové výrobě (Thadani & Allen, 2023) a exportní restrikce Spojených států vůči Číně zásadně mění globální toky těchto technologií (Shivakumar et al., 2025).

V této situaci roste potřeba přesné, datově podložené CI . K pochopení skutečných trendů a zranitelností v řetězci AI čipů nestačí pouze sledovat mediální výstupy či expertní komentáře – je nutné pracovat s primárními datovými zdroji. Právě otevřené databáze UN Comtrade a WIPO Patentscope umožňují zkoumat mezinárodní obchodní toky a patentovou aktivitu v technologických oblastech, které jsou klíčové pro vývoj GPU a souvisejících akcelerátorů (Hausmann et al., 2024; Murdick & Thomas, 2020).

Tato práce proto využívá oba zdroje jako nástroje pro aplikaci metod CI:

  • obchodní data UN Comtrade slouží k analýze změn ve vývozu a dovozu kategorií polovodičů souvisejících s GPU,
  • patentová data z Patentscope umožňují identifikovat technologické trendy, hlavní aktéry a tempo inovací v AI hardwaru.

Cílem úvodu není detailně popsat geopolitickou situaci, ale vysvětlit, proč právě tato kombinace dat a metod poskytuje vhodné zázemí pro analytickou část práce. Primární pozornost se následně přesouvá na empirickou analýzu – tedy na to, co mohou reálná data říci o skutečných tocích GPU, technologické dominanci států a možných zranitelnostech globálního dodavatelského řetězce.

1       Competitive Intelligence a metodické rámce

CI definujeme jako systematický a etický proces sběru, analýzy a interpretace informací o externím prostředí, který slouží jako podklad pro strategické rozhodování. V kontextu této práce nejde pouze o monitoring konkurence, nýbrž o komplexní pochopení tržních sil, regulací a technologických posunů v polovodičovém průmyslu.

V technologicky exponovaných odvětvích nabývá CI kritického významu. Specifikem polovodičového sektoru je vysoká míra informační asymetrie a neprůhlednost dodavatelských struktur, která je často umocněna geopolitickými zájmy. Jak uvádí Miller (2022), čipy se staly “novou ropou” 21. století a informace o jejich toku jsou strategickým aktivem. Tradiční informační kanály zde často selhávají, neboť oficiální reporty mohou být zpožděné či strategicky zkreslené. Efektivní CI v této oblasti proto vyžaduje schopnost syntetizovat fragmentovaná data z otevřených zdrojů a identifikovat signály (“weak signals”) budoucích hrozeb či příležitostí.

1.1      Technology Intelligence & OSINT

V rámci CI využívá tato práce přístup Technology Intelligence (TI) a Competitive Technical Intelligence (CTI), což jsou specializované formy CI zaměřené na sledování technologických trendů, výzkumných aktivit a inovací. Jejich úkolem je identifikovat nastupující technologie dříve, než se projeví v tržních datech.

Klíčovou roli hraje OSINT. Pro oblast AI čipů jsou zásadní dva typy datových stop:

  • Trade data (UN Comtrade) — ukazují reálný fyzický pohyb polovodičů mezi státy a umožňují odhalit změny v tokách zboží, které by jinak zůstaly skryté.
  • IP data (WIPO Patentscope) — zachycují technologickou dominanci a investiční priority firem a států prostřednictvím patentových přihlášek.

Kombinace těchto zdrojů umožňuje překlenout neprůhlednost polovodičového průmyslu a propojit fyzické toky hardwaru s technologickým know-how.

1.2     Analýza hodnotového řetězce

Pro pochopení geopolitické dynamiky AI čipů je v této práci aplikován rámec globálního hodnotového řetězce (GVC). Výroba GPU není vertikálně integrovaný proces, ale síť vysoce specializovaných činností, rozprostřených mezi několik geograficky i technologicky odlišných uzlů:

  • Design (NVIDIA, AMD) — nejvyšší přidaná hodnota, určující technologické směry.
  • Manufacturing (TSMC, Samsung) — kritický chokepoint, protože více než 90 % nejpokročilejších čipů vzniká na Tchaj-wanu (Thadani & Allen, 2023)
  • Advanced Packaging / HBM — zásadní pro AI čipy; zde dominuje Jižní Korea (SK Hynix, Samsung).

Právě existence těchto úzkých hrdel (chokepoints) činí polovodičový sektor extrémně zranitelným. Identifikace jejich změn a posunů je jedním z hlavních cílů analýzy.

1.3     Metodika sběru dat

Metodický rámec empirické části práce vychází z kombinace OSINT a kvantitativní analýzy sekundárních dat za období 2020–2025, které zachycuje jak nástup generativní AI, tak klíčové geopolitické zlomy — včetně exportních omezení USA směřujících proti Číně.

Práce využívá dva hlavní datové zdroje:

  1. Obchodní statistiky UN Comtrade, které umožňují sledovat hodnotové i fyzické toky klíčových kategorií polovodičových produktů mezi hlavními technologickými centry (USA, Čína, Tchaj-wan, Jižní Korea, EU).
    V rámci metodiky je kladen důraz na bilaterální toky, očištění od re-exportů a porovnání trendů před a po zavedení amerických sankcí.
  2. Patentová data WIPO Patentscope, která slouží jako indikátor technologické a inovační aktivity. Patentová analýza kombinuje full-textové vyhledávání klíčových pojmů a filtrování dle relevantních IPC tříd, což umožňuje identifikovat dominantní aktéry a nastupující technologické směry v oblasti AI hardwaru.

Cílem této kapitoly není uvádět konkrétní datové parametry — ty jsou detailně popsány v kapitole 2 — ale stanovit metodický postup, který umožní syntézu obchodních a patentových dat do jednotného CI rámce.

2       Datové zdroje

Empirická část této práce kombinuje dva klíčové otevřené zdroje dat, které poskytují komplementární pohled na problematiku AI čipů: UN Comtrade pro analýzu fyzických obchodních toků a WIPO Patentscope pro analýzu technologické a inovační aktivity. Oba zdroje představují základní komponenty OSINT a Technology Intelligence v oblasti polovodičového průmyslu (Murdick & Thomas, 2020)

2.1      UN Comtrade

UN Comtrade je nejrozsáhlejší globální databází oficiálních statistik mezinárodního obchodu, do níž přispívá více než 170 zemí. Je založena na klasifikaci Harmonizovaného systému (HS), který umožňuje sledovat toky zboží na různých úrovních detailu.

Ačkoliv HS kódy neumožňují odlišit konkrétní modely polovodičů, poskytují dostatečnou granularitu k identifikaci makrotrendů v tokách zboží mezi klíčovými technologickými centry. Pro účely této práce byly analyzovány následující kategorie na úrovni 6místných HS kódů:

  • HS 854231 – Processors and controllers (nejbližší proxy pro GPU a AI akcelerátory),
  • HS 847330 – Parts and accessories for data-processing machines,
  • HS 854232 – Electronic integrated circuits – memories(indikátor výroby a exportu HBM pamětí),
  • HS 848620 – Machines and apparatus for semiconductor production (proxy pro snahu států budovat vlastní výrobní kapacity).

Analýza pracuje s hodnotovými (USD) i množstevními ukazateli, kde jsou dostupné. Data byla posuzována bilaterálně především mezi USA, Čínou, Tchaj-wanem, Jižní Koreou a EU. Součástí metodiky byla také kontrola re-exportů, zejména přes Hongkong a Singapur, jejichž zapojení může zkreslovat skutečný původ nebo konečný směr toku citlivého zboží (Shivakumar et al., 2025).

2.2     Patentscope

WIPO Patentscope je globální databáze patentových dokumentů, která zahrnuje více než 100 milionů přihlášek, včetně mezinárodních podání dle Smlouvy o patentové spolupráci (PCT). Na rozdíl od národních databází (např. USPTO, EPO) poskytuje jednotný přístup napříč světovými jurisdikcemi, což je klíčové v silně globalizovaném a geograficky rozptýleném polovodičovém průmyslu.

Pro tuto práci byly využity dvě analytické funkce:

  • Full-textové vyhledávání, které umožňuje pracovat s úplným textem patentových dokumentů, a tím zachytit detaily architektur AI akcelerátorů, paměťových systémů nebo pouzdřicích technologií.
  • Kombinace klíčových slov a IPC tříd, konkrétně:
    • G06N – systémy pro AI,
    • G06F – zpracování dat,
    • H01L – polovodičová zařízení a struktury,
    • G11C – paměťové technologie.

Použitím těchto klasifikací a cílených dotazů („AI accelerator“, „HBM memory“, „chiplet architecture“) lze odfiltrovat nerelevantní patenty a odhalit strategické investiční směry jednotlivých států a firem. Patentová data slouží jako leading indicator – ukazují technologické trendy dříve, než se projeví v obchodních statistikách (Hausmann et al., 2024; Murdick & Thomas, 2020).

2.3     Limity obou zdrojů

Aby byly výsledky kapitoly 3 a 4 interpretovány objektivně, je nutné reflektovat metodická omezení obou datových zdrojů.

2.3.1       Limity UN Comtrade

  1. Nedostatečná granularita – HS kódy nerozlišují mezi nízkopříkonovými procesory a špičkovými AI akcelerátory. HS 8542.31 tak zahrnuje velmi heterogenní spektrum produktů.
  2. Re-exporty a transshipment – Toky přes Hongkong, Singapur nebo Nizozemsko mohou zakrýt skutečný původ nebo destinaci zboží.
  3. Časové zpoždění dat – Některé státy zveřejňují data se zpožděním i 6–12 měsíců, což zvláště ovlivňuje roky 2024–2025.
  4. Regulační a politické zkreslení – U citlivých technologií může docházet k obcházení sankcí nebo k nepřesnému reportování (Shivakumar et al., 2025).

2.3.2      Limity Patentscope

  1. Kvantita neimplikuje kvalitu – Vysoký počet čínských patentů je částečně výsledkem dotačních schémat, nikoliv technologického náskoku (Hausmann et al., 2024).
  2. Publikační embargo (18 měsíců) – Patenty z posledního roku nejsou v databázi plně dostupné, což ovlivňuje analýzu trendů 2024–2025.
  3. Nepatentované know-how – Klíčové výrobní postupy (např. procesní uzly TSMC nebo EUV subsystémy ASML) jsou často chráněny jako obchodní tajemství.
  4. Různá patentová kultura států a firem – Zatímco americké a korejské firmy patentují převážně technologické jádro, jiné jurisdikce mají tendenci patentovat i marginální inovace.

3      Analýza obchodních toků GPU (UN Comtrade)

Tato kapitola předkládá empirickou analýzu dat z databáze UN Comtrade. Cílem je ověřit dopady geopolitických intervencí na globální dodavatelský řetězec polovodičů. Analýza je rozdělena do tří sekcí podle klíčových uzlů: exportní dominance Tchaj-wanu, efektivita amerických sankcí a čínská snaha o získání výrobních kapacit.

3.1      Tchaj-wan: Přesměrování toku čipů (HS 8542)

Data za exportní kód HS 8542 (Elektronické integrované obvody) z Tchaj-wanu (Other Asia, nes) odhalují zásadní strukturální změnu. Zatímco do roku 2022 byla Čína dominantním a rostoucím trhem, rok 2023 představuje zlomový bod.

Jak ukazuje Tabulka 1, export do Číny se po zavedení amerických sankcí (říjen 2022) propadl a v roce 2023 klesl o 17 %. Naproti tomu export do USA vykazuje v roce 2024 bezprecedentní nárůst o 111 % oproti předchozímu roku. Tento trend potvrzuje hypotézu o “decouplingu” – USA si zajišťují přímé dodávky strategického hardwaru z Tchaj-wanu, čímž obcházejí kompletaci v Číně.

RokExport do ČínyExport do USATrend
202042,2 mld. $1,6 mld.$Dominance Číny
202149,1 mld. $2,0 mld.$Růst obou trhů
202257,4 mld. $3,2 mld. $Vrchol exportu do Číny
202347,3 mld. $3,5 mld.$Efekt sankcí (pokles Číny)
202448,4 mld. $7,4 mld. $Masivní nástup USA

Tabulka 1: Export HS 8542 z Tchaj-wanu (hodnoty v miliardách USD) (Zdroj: UN Comtrade, data zpracovaná autorem)

3.2     USA: Sankce a efekt “Trade Diversion” (HS 854231)

Analýza exportu procesorů (HS 8542.31) přímo ze Spojených států (viz Tabulka 2) slouží jako indikátor efektivity sankcí. Data ukazují dramatický propad přímého exportu do Číny v roce 2023 (o 45 % oproti roku 2022).

Z pohledu Competitive Intelligence je však klíčový nárůst exportu do Vietnamu. Zatímco Čína klesá, Vietnam roste o stovky procent (z 0,3 mld. v roce 2020 na 1,3 mld. v roce 2023). Tento jev, známý jako Trade Diversion, naznačuje, že globální technologické firmy přesouvají kompletaci (nebo jen logistické trasy) do sousedních zemí, aby se vyhnuly přímým restrikcím, nebo že Vietnam přebírá roli nového montážního centra pro americké technologie.

RokExport do ČínyExport do VietnamuInterpretace CI
20202 956 mil. $308 mil.$Standardní tok
20213 674 mil. $694 mil.$Růst poptávky
20223 331 mil. $1 031 mil. $Počátek restrikcí
20231 829 mil. $1 324 mil. $Propad Číny (-45 %) vs. Růst Vietnamu

Tabulka 2:Export procesorů (HS 8542.31) z USA (hodnoty v milionech USD) (Zdroj: UN Comtrade, data zpracovaná autorem)

3.3     Čína: “Panic Buying” výrobních strojů (HS 848620)

Nejkritičtějším bodem pro čínskou soběstačnost v AI je schopnost vyrábět vlastní čipy. K tomu potřebuje litografické stroje, jejichž trh ovládají Nizozemsko (ASML), Japonsko a USA.

Data o čínském importu strojů (HS 848620) v grafu 1 odhalují strategii masivního předzásobení (Panic Buying).

  • USA: Import klesl už po roce 2021 (dřívější sankce).
  • Nizozemsko: Zde je vidět anomálie. V roce 2023 a 2024 import z Nizozemska explodoval na více než 6 miliard USD (nárůst o 380 % oproti roku 2020).

Toto potvrzuje, že Čína využila časového okna před plnou implementací nizozemských restrikcí (platných od ledna 2024 pro nejpokročilejší DUV stroje) k nákupu maximálního množství vybavení od společnosti ASML.

Graf 1: Vývoj importu výrobních zařízení (HS 848620) do Číny (Zdroj: Vlastní zpracování dle dat UN 

4      Analýza patentové dominance AI čipů (Patentscope)

Zatímco obchodní data v předchozí kapitole reflektovala fyzický pohyb zboží, patentová analýza slouží v Competitive Intelligence jako předstihový indikátor (leading indicator) budoucího rozložení sil. Následující analýza interpretuje výsledky tří specifických rešeršních dotazů v databázi WIPO Patentscope za období 2020–2025.

4.1      Dominance Číny a diverzifikace hráčů (AI Akcelerátory)

První analytická sonda zaměřená na architekturu AI procesorů (dotaz: „AI accelerator“ OR „Neural Network Processor“v třídě G06N) odhaluje v období 2020–2025 celkem 757 relevantních záznamů. Data ukazují zřetelnou geopolitickou asymetrii na úrovni států, ale technologickou dominanci zavedených hráčů na úrovni firem.

Z pohledu jurisdikcí drží prvenství Čína (333 přihlášek), která výrazně převyšuje Spojené státy (206 přihlášek). Tento náskok v objemu naznačuje silný tlak čínského státního aparátu na dosažení technologické suverenity v návrhu čipů.

Při analýze konkrétních žadatelů (Applicants) je však situace vyrovnanější. Na prvních dvou místech figurují globální technologičtí lídři:

  1. Samsung Electronics (41) – Jižní Korea,
  2. Apple Inc. (38) – USA,
  3. Google LLC (29) – USA.

Zajímavým signálem pro CI je však přítomnost specifických čínských vyzyvatelů v první desítce, konkrétně Beijing Horizon Information Tech (24) a Huawei (18). To indikuje, že zatímco západní firmy (a Samsung) inovují v rámci širokého portfolia, v Číně vyrůstají specializovaní “national champions” zaměření čistě na AI hardware.

4.2     Úzké hrdlo: Oligopol pamětí HBM

Analýza patentů v oblasti High Bandwidth Memory (HBM), která je kritickou komponentou pro trénink velkých jazykových modelů, ukazuje zcela odlišný obraz. Zde nevidíme čínskou dominanci, nýbrž technologický oligopol západních a korejských firem.

Celkový počet výsledků (137) je výrazně nižší než u logických čipů, což svědčí o vysoké specializaci a bariérách vstupu. Žebříčku žadatelů jasně dominují:

  1. Micron Technology (35) – USA,
  2. Samsung Electronics (26) – Jižní Korea.

Zásadním zjištěním je absence čínských firem mezi top žadateli. Ačkoliv Čína figuruje jako země podání (31 přihlášek), samotní vlastníci technologií jsou zahraniční subjekty. V seznamu top žadatelů nefiguruje ani Huawei, ani CXMT. Toto zjištění identifikuje HBM paměti jako kritický chokepoint – Čína je v této klíčové technologii zcela závislá na importu a nedisponuje vlastním patentovým portfoliem, které by jí umožnilo rychlou substituci.

4.3     Strategie přežití: Masivní investice do Packagingu (Chiplets)

Nejvýraznější geopolitický signál přináší třetí analýza, zaměřená na „Chiplets“ a „Advanced Packaging“ (CoWoS, Heterogeneous Integration). Zde data odhalují masivní čínskou ofenzivu.

Z celkového počtu 1 194 výsledků připadá drtivá většina na Čínu (628), zatímco USA (274) výrazně zaostávají. Ještě výmluvnější je pohled na konkrétní žadatele. Žebříčku nevévodí komerční firmy, ale státem podporované instituce:

  1. National Center for Advanced Packaging Co Ltd (NCAP China) – 288 přihlášek,
  2. Shanghai Xianfang Semiconductor – 132 přihlášek.

Teprve na třetím místě se nachází americký Intel (94). TSMC, světový lídr ve výrobě, má v tomto specifickém výřezu pouze 23 záznamů.

Interpretace pro CI: Extrémní aktivita NCAP China (téměř 3× více patentů než Intel) potvrzuje hypotézu, že Čína zvolila strategii „bypassing“. Protože nemá přístup k nejpokročilejší EUV litografii pro zmenšování tranzistorů, investuje obrovské prostředky do technologií pouzdření, které umožňují propojit více starších čipů do výkonného celku. Toto je přímá a daty podložená reakce na americké exportní restrikce.

4.4     Shrnutí trendů 2020–2025

Syntéza patentových dat z Patentscope indikuje tři hlavní trendy:

  1. Bipolarizace AI hardwaru: Zatímco USA a Korea (Samsung, Micron) ovládají klíčové úzké hrdlo pamětí HBM, Čína masivně dotuje vývoj vlastních akcelerátorů.
  2. Vzestup čínského “Packaging” giganta: Dominance NCAP China v oblasti pokročilého pouzdření naznačuje, že příští fáze “čipové války” se neodehraje jen na úrovni nanometrů, ale na úrovni skládání čipletů.
  3. Specializace vs. Univerzalita: Zatímco západní technologičtí giganti (Apple, Google) si udržují silné pozice v designu, Čína buduje zcela novou infrastrukturu (NCAP) pro fyzickou výrobu a kompletaci, aby snížila svou zranitelnost.

5      Syntéza a interpretace v CI

Tato kapitola integruje poznatky získané z analýzy obchodních toků (UN Comtrade) a patentové aktivity (Patentscope). Cílem není opakovat data, nýbrž konstruovat zpravodajský obraz (Intelligence Picture) současného stavu globálního trhu s AI čipy. Syntéza odhaluje, že trh již nefunguje jako jeden globalizovaný celek, ale štěpí se do dvou technologicky i logisticky oddělených ekosystémů.

5.1      Mapa hodnotového řetězce

Kombinace dat o exportu a inovacích ukazuje na vznik dvou paralelních dodavatelských řetězců. Zatímco do roku 2022 byl řetězec integrovaný (Design v USA → Výroba na Tchaj-wanu → Kompletace v Číně), data z let 2023–2025 indikují radikální rozpojení.

  1. Americko-Tchajwanská osa (High-End):
    • Obchodní data (Kapitola 3.1) potvrdila přesměrování fyzických toků čipů z Tchaj-wanu přímo do USA (+111 % v roce 2024).
    • Patentová data (Kapitola 4.2) potvrzují, že tato osa kontroluje klíčové technologie pamětí HBM (Micron, Samsung), které jsou nezbytné pro trénink pokročilých AI modelů.
  2. Čínská osa (Legacy & Advanced Packaging):
    • Čína reaguje na odříznutí od špičkové litografie strategií, kterou lze označit jako „Technological Bypassing“.
    • Korelace dat je zde klíčová: V Kapitole 3.3 jsme identifikovali „Panic Buying“ výrobních strojů z Nizozemska. V Kapitole 4.3 jsme následně odhalili dominantní patentovou aktivitu státního institutu NCAP China v oblasti Advanced Packaging.
    • Interpretace: Čína využívá nakoupené stroje nikoliv k marnému boji o 2nm čipy (kde nemá EUV technologie), ale k masivní výrobě starších čipů, které následně pomocí pokročilého pouzdření (technologie patentované NCAP) spojuje do výkonných celků (Chiplets).

5.2     Geopolitické chokepointy

Metodou CI jsme identifikovali dvě kritická úzká hrdla (chokepoints), kde má jeden aktér schopnost „vypnout“ rozvoj AI druhého aktéra.

  1. A. Chokepoint: High Bandwidth Memory (HBM)

Zatímco pozornost médií se soustředí na logické procesory (GPU), naše patentová analýza (Kapitola 4.2) odhalila, že Čína má kritický deficit v oblasti pamětí HBM. V seznamu top žadatelů zcela chybí čínské subjekty, zatímco trh ovládá oligopol SK Hynix, Samsung a Micron.

  • Dopad: Bez HBM pamětí nelze efektivně trénovat modely typu GPT-4. Toto je nejzranitelnější místo čínských AI ambicí, které nelze snadno obejít ani pomocí „chipletů“.
  1. B. Chokepoint: Výrobní kapacita a „Trade Diversion“

Analýza UN Comtrade (Kapitola 3.2) odhalila fenomén Trade Diversion směrem k Vietnamu. Ačkoliv USA omezily přímý export do Číny, nárůst exportu do Vietnamu naznačuje, že globální řetězec se pouze prodloužil, nikoliv přerušil.

  • Riziko: Vietnam se stává novým “montážním uzlem”, což pro západní státy představuje výzvu v oblasti kontroly exportu (end-use monitoring).

5.3     Limity a bias analýzy

V souladu s etikou CI a akademickou integritou je nutné uvést limity této syntézy:

  • Lagging vs. Leading Indicators: Obchodní data (UN Comtrade) mají zpoždění a v roce 2025 plně nereflektují nejnovější sankční balíčky z konce roku 2024. Patentová data mají 18měsíční publikační lhůtu, takže nevidíme nejnovější vynálezy, které jsou nyní v laboratořích Huawei.
  • Skrytý obchod a šedá zóna: UN Comtrade sleduje pouze oficiální celní deklarace. Nezachytí pašování čipů (např. přes spotřebitelskou elektroniku) ani vnitřní transfery v rámci nadnárodních korporací, které mohou obcházet sankce.
  • Strategické ne-patentování: Klíčové procesní know-how společnosti TSMC (např. přesné nastavení EUV strojů) je často chráněno jako obchodní tajemství (Trade Secret), nikoliv patentem. Patentová analýza tak může podhodnocovat skutečný náskok Tchaj-wanu.

6    Závěr

Tato práce si kladla za cíl ověřit využitelnost otevřených datových zdrojů (OSINT) pro strategickou analýzu globálního trhu s AI čipy. Kombinace obchodních statistik UN Comtrade a patentových dat WIPO Patentscope se ukázala jako vysoce efektivní nástroj Competitive Intelligence, který dokázal odhalit trendy neviditelné při pohledu pouze na jeden typ dat.

Analýza prokázala, že v letech 2020–2025 došlo k zásadní bipolarizaci dodavatelského řetězce. Zatímco obchodní data potvrdila fyzické přesměrování exportu špičkových čipů z Tchaj-wanu do USA a vznik nových logistických uzlů ve Vietnamu (efekt Trade Diversion), patentová analýza odhalila skrytou strategii čínské technologické obrany.

Klíčovým zjištěním práce je identifikace tzv. „Bypassing“ strategie. Vysoká patentová aktivita čínského institutu NCAP v oblasti Advanced Packaging (pouzdření) v korelaci s masivním nákupem výrobních strojů naznačuje, že Čína se snaží obejít sankce na litografii skrze skládání starších čipů do výkonných celků. Naproti tomu oblast pamětí HBM zůstává kritickým úzkým hrdlem, kde si západní a korejské firmy udržují technologický monopol.

7  Doporučení

Na základě provedené Technology Intelligence analýzy vyplývají následující doporučení pro strategické rozhodování v sektoru polovodičů:

  1. Monitorovat technologie pouzdření (Packaging): Tradiční kontrola exportu se zaměřuje na nanometrovou litografii. Analýza však ukazuje, že těžiště inovací se přesouvá k Advanced Packaging. Doporučuje se rozšířit monitoring konkurence (CI) právě na patenty v třídě H01L, kde hrozí technologické překvapení ze strany čínských subjektů (NCAP).
  2. Zaměřit se na HBM jako strategickou páku: Vzhledem k nulové přítomnosti čínských firem mezi top vlastníky patentů pro HBM paměti představuje tato technologie nejúčinnější bod pro uplatňování sankcí či vyjednávání. Pro západní firmy je to klíčová oblast pro udržení konkurenční výhody (“Moat”).
  3. Implementovat integrovaný CI přístup: Práce demonstrovala, že spoléhat se pouze na obchodní data (která jsou zpožděná) je rizikové. Firmy i státní instituce by měly standardně využívat patentovou analýzu jako předstihový indikátor (Leading Indicator), který dokáže predikovat tržní posuny o 18–24 měsíců dříve, než se projeví ve fyzickém obchodu.

Prohlášení autora:
Na jazykovou korekturu textu byly použity asistivní AI nástroje Google Gemini a ChatGPT. Analýza dat, odborný obsah a závěrečné interpretace jsou výsledkem vlastní práce autora.

Použitá literatura

Clark, J., Miller, K., & Gelles, R. (2021). Measuring AI Development: A Prototype Methodology to Inform Policy. Center for Security and Emerging Technology. https://doi.org/10.51593/20210008

Černý, P. J. (2019). Competitive Technical Intelligence.

Hausmann, R., Yildirim, M. A., Chacua, C., Hartog, M., & Matha, S. G. (2024). Global Trends in Innovation Patterns: A Complexity Approach. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4815080

Miller, C. (2022). Chip War: The Fight for the World’s Most Critical Technology. Scribner.

Murdick, D., & Thomas, P. (2020). Patents and Artificial Intelligence: A Primer. Center for Security and Emerging Technology. https://doi.org/10.51593/20200038

Shivakumar, S., Wessner, C., & Howell, T. (2025). The Limits of Chip Export Controls in Meeting the China Challenge. https://www.csis.org/analysis/limits-chip-export-controls-meeting-china-challenge

Thadani, A., & Allen, G. C. (2023). Mapping the Semiconductor Supply Chain: The Critical Role of the Indo-Pacific Region. https://www.csis.org/analysis/mapping-semiconductor-supply-chain-critical-role-indo-pacific-region

UN Comtrade. (b.r.). Získáno 30. listopad 2025, z https://comtradeplus.un.org/

WIPO – Search International and National Patent Collections. (b.r.). Získáno 30. listopad 2025, z https://patentscope.wipo.int/search/en/search.jsf

Algorithmic Personalization and the Creation of Filter Bubbles

0
bubble

Introduction

In today’s world, we spend an increasing amount of time on digital platforms. We mostly learn new information by reading, watching, and discovering online on digital platforms such as Instagram, TikTok, YouTube, or Google Search. Since the stream of data produced by these platforms appears infinite, they have started relying on filtering systems that help manage the overwhelming amount of data. These systems learn from our behaviour and predict what we are most likely to enjoy.

In everyday life, this feels convenient. Instead of searching for everything manually, we are given content that seems relevant and familiar. However, because these systems determine what remains hidden from us, they inevitably shape how we interpret information and form opinions. This dynamic is often described as filter bubbles, a term introduced by Pariser (2011).

However, some studies suggest that filter bubbles are not universal and argue that user behaviour and multi-platform media habits can prevent bubbles from forming. Because these perspectives differ significantly, the essay will examine what personalization entails, where the risks are genuine, and where they may be overstated.

To study this phenomenon, this essay draws on review of academic literature, empirical studies, theoretical papers, and reports examining algorithmic personalization and its effects. Sources were selected through keyword searches.

This essay approaches the topic by reviewing a focused selection of research papers on algorithmic personalization, filter bubbles, and their societal impact. It also focuses on three main research questions:

  1. How do personalization systems work, and how they contribute to filter bubbles?
  2. What social and ethical consequences are there?
  3. What could help reduce negative effects without losing the benefits of personalization?

To answer these questions, the essay first explains what is behind algorithmic personalization. Then, it examines how filter bubbles form and shows how these processes differ across major digital platforms. The third section explains the negative consequences of personalization.

 Finally, we discuss possible solutions to these problems. To sum it up, the goal of this essay is to present a balanced understanding of the filter bubbles matter, from both points of view. By examining the research from several angles, the essay tries to clarify a debate that is often oversimplified and to propose realistic ways to support a healthier and more diverse information environment.

How Algorithmic Personalization Works 

First, to understand why filter bubbles even form, it is important to look at how personalization systems work. Although platforms differ in their technical design, they share a similar goal: predicting which content is most likely to keep each user engaged.

Algorithms learn from behaviour

Personalization begins with the data people generate while using a platform. Algorithms observe what users click on, how long they watch a video, which posts they like or ignore, which accounts they follow, and what they search for. Over time, these signals help the system infer patterns in individual preferences.

The effects are apparent in daily use. Watching several fitness videos on YouTube quickly results in more sports-related recommendations. Interacting with beauty content on Instagram reshapes the Explore page into a largely cosmetic and fashion-focused feed. Even search engines behave similarly. Hannák et al. (2013) found that two people entering identical queries may receive different Google results because the system takes into account past searches or location.

Machine learning in the background

Most personalisation systems rely on machine-learning models that process much more data than any human editor could manage. These models try to estimate what each user will find interesting or engaging.

 YouTube functions on two-stage neural network. In the first step, the system gathers a broad set of potentially relevant videos. The second model ranks them based on predicted watch time. The result depends on both the user’s behaviour and large-scale patterns observed across millions of accounts (Covington et al., 2016).

Collaborative filtering identifies users with similar patterns and recommends what those users have previously enjoyed. Content-based analysis, on the other hand, examines the characteristics of the content itself—hashtags, text, sound, colours, or objects—and matches them with user preferences.

Some platforms adjust even more rapidly. TikTok, for example, uses reinforcement learning to respond almost instantly to micro-behaviours such as rewatching a few seconds of a clip. Klug et al. (2021) show that the app can build a surprisingly accurate impression of a user after only a short period of scrolling.

Ranking algorithms and hidden bias

Once an algorithm predicts what we might enjoy, it still must decide what to show first. This is where ranking systems come in. Ranking systems typically place posts with the highest predicted engagement at the top. That often means emotionally intense, visually striking, or sensational material appears first.

Bozdag (2015) points out that this creates a structural bias. Informational or balanced content is frequently pushed downward simply because it attracts fewer reactions.

Over time, this contributes to a highly curated version of reality. Users see only a small fraction of the information that is technically available to them and is shaped by their past behaviour. This is what makes personalization feel so seamless and convenient, but it also means that people may unknowingly miss out on diverse viewpoints or alternative perspectives. When the same types of posts keep appearing repeatedly, it becomes easier for information environments to narrow and for filter bubbles to take shape.

This leads to a central question: under what conditions do these systems produce filter bubbles?

How Filter Bubbles Form

Personalization is designed to make platforms easier and more enjoyable to use, but it can also narrow the range of information a person sees. Pariser (2011) describes a filter bubble as an environment in which algorithms repeatedly present content aligned with past preferences, reducing exposure to diverse or conflicting viewpoints. This narrowing results from several interacting factors: technological design, user behaviour, and the structure of social networks.

Reinforcement loops: getting more of the same

One of the main mechanisms behind filter bubbles is the reinforcement loop. Personalization systems rely on the idea that the things users engaged with before are probably the things they will want to see again. As a result, actions such as click, a pause, or like, send signal to the algorithm about people’s preferences, and the system adjusts recommendations in response.

Researchers have observed the reinforcement loops pattern across many platforms. Google search, for example, give results based on the user’s history (Hannák et al., 2013). TikTok’s system is even more sensitive, as little as small hesitating or watching a video twice can noticeably change the feed (Medina Serrano et al., 2020; Klug et al., 2021).

As these signals accumulate, recommendations can become increasingly repetitive. This process often begins long before users recognise that their feed has become homogeneous.

Our friends shape what we see

Technology is not the only factor. Human behaviour naturally contributes to informational narrowing. People tend to interact with others who share similar views, a pattern known as homophily. On social networks, this tendency forms clusters of like-minded users.

Del Vicario et al. (2016) found that information spreads more effectively within these ideologically similar groups, while opposing viewpoints rarely enter or gain traction. When personalization algorithms rely on the social graph, as Facebook does, homophily and algorithmic ranking reinforce. The result is an information environment that becomes partially narrowed down even before the algorithmic filtering even takes place.

We prefer information that confirms our beliefs

Selective exposure further strengthens this effect. People often prefer information that aligns with what they already believe. When users repeatedly choose agreeable content, algorithms treat these choices as strong evidence of preference and surface more of the same.

Nguyen et al. (2014) found that recommendation systems not only reflect these tendencies but also intensify them. Each interaction is interpreted as confirmation, which can gradually limit the variety of information that reaches a user.

Different Platforms, Different Bubble Dynamics

Although the basic logic of personalization is similar across platforms, the way filter bubbles develop can look quite different. Each service collects its own data, reacts to different signals, and optimises for specific goals, which means the narrowing effect varies from one platform to another.

YouTube: deep recommendation chains and topic drift

YouTube’s goal is to maximise watch time. Because recommendations depend heavily on behavioural similarity rather than on social connections, users can easily drift into narrow content categories.

Ribeiro et al. (2020) mentions topic drift, where people start with neutral videos and gradually end up watching more niche or extreme material simply because the algorithm interprets repeated engagement as preference.

TikTok: extreme speed and identity clustering

TikTok’s algorithm responds almost instantly to tiny behavioural cues: pause, scroll, like and other. Studies show that TikTok can build a surprisingly truthful profile of a user within just a few moments of interaction (Klug et al., 2021).

TikTok tends to create identity-based clusters. These often revolve around themes, mainly the aesthetic of fitness, beauty, self-improvement, mental health, or gaming. For instance, if a person reads a certain fantasy book and starts liking or seeking out videos with a similar theme, their feed will quickly fill with dragons, book recommendations, and reviews. That happens on more platforms, TikTok’s reaction time is, however, the fastest.

Because the content is short, emotional, and endlessly personalised, the speed and intensity of TikTok’s system can be particularly influential, especially for adolescents who are still forming their sense of identity.

Instagram: all about aesthetic

Instagram’s system often creates bubbles that focus on aesthetics or lifestyle themes. Chua and Chang (2016) show that seeing idealised photos again and again can influence how people feel about their own appearance, especially when they compare themselves to influencers or friends online.               

Because Instagram reacts to small cues, the Explore page can become narrow after only a few interactions. Instead of showing a mix of content, Instagram tends to repeat the same styles, beauty ideals, or lifestyle trends that the user has already engaged with. As a result, people often end up in an aesthetic bubble filled with similar looks, body types, or fashion ideas, which can subtly affect how they see themselves and what they think is normal.

Facebook: social homophily and ranking

Facebook uses the combination of the social circles that users choose themselves and the platform’s ranking system. Most people already tend to stay close to friends who think and behave similarly, and Facebook’s algorithm strengthens this tendency by highlighting posts that generate strong engagement. Bakshy et al. (2015) found that even when users follow people with a range of political views, the feed still leans toward material that matches what they already believe. Because emotional political content keeps users engaged, it tends to prioritize this type of content, making already familiar perspectives appear even more.

This combination of social homophily and engagement-based ranking explains why political discussions on Facebook can feel quite one-sided and why ideological bubbles on appear more distinct than on other platforms.

Google Search: subtle personalization

Google personalizes search results in a subtle way compared social media platforms, even these small adjustments could matter to some users.

The order of search results may shift depending on searches history, clicks, or the user’s location (Hannák et al., 2013). These differences are not usually distinct, but they can become more noticeable when queries relate to politics, controversies, or commercial topics.

But… Filter Bubbles are not guaranteed to occur

Despite these mechanisms, some scholars indicate that filter bubbles do not affect all users equally. Haim, Graefe, and Brosius (2018) observed that personalised Google News feeds still shared major overlaps. Personalization influenced ordering but did not create separate informational worlds.

Another key factor is that most people use multiple sources. Dubois and Blank (2018) found that individuals rarely depend on a single platform. They move between social media, messaging apps, search engines, and offline interactions, naturally broadening their information environment.

Users also make active choices. Zuiderveen Borgesius et al. (2016) show that people frequently seek content deliberately, follow diverse accounts, and search independently. Algorithms may amplify their habits, but they do not fully determine them.

Filter bubbles tend to emerge only when several conditions align, such as highly responsive algorithms, repetitive user behaviour, and socially homogeneous networks. For many users, these conditions do not consistently appear. As a result, filter bubbles are better understood as a contextual risk rather than a universal outcome of personalization.

Possible consequences

Filter bubbles can affect more than what appears on a user’s screen. Because personalization highlights familiar viewpoints while hiding others, it can sometimes influence how people interpret social issues, how their personality forms, and how they form their beliefs.

These effects vary, but research shows that algorithmic filtering can, in some way, shape user’s perception of the world and even their own body.

Political Polarization

Political polarization refers to the growing distance between ideological groups. Scholars distinguish ideological polarization (people adopting increasingly divergent policy preferences) from affective polarization, where individuals begin to view supporters of the opposite camp with suspicion or hostility. In the United States, both forms have intensified over the last two decades, with Democrats and Republicans perceiving each other as fundamentally different and less trustworthy (Pew Research Center, 2014).

Within this context, filter bubbles act as accelerators. They do not create political division, but they strengthen the existing believes by narrowing exposure to differing viewpoints. Algorithms simply learn what users click on, and with enough time, they construct information environments that reinforce familiar narratives while filtering out competing ones (Pariser, 2011; Dubois & Blank, 2018).

In the United States, this dynamic is especially visible because of the clear two-party structure. Content of a user who frequently interacts with liberal beliefs (climate change, social justice, or reproductive rights), is shaped around those themes. Meanwhile, a conservative user engaging with content about border security, inflation, or gun rights, and such themes, has very different feed. Even when both search for the same topic, such as immigration, the explanations, tone, and suggested solutions diverge. Over time, each group comes to view its own position as common sense and the opposing one as unreasonable or detached from reality.

A comparable, though more fragmented, version of this pattern appears also in Czechia. The political landscape includes many parties, which makes polarization less binary but still algorithmically reinforced. Someone who follows for example Piráti, or environmental NGOs tends to encounter stories about transparency, climate responsibility, and social equality. Another user who engages with SPD or ANO, will more likely see posts about migration, inflation, geopolitical uncertainty, or distrust in EU institutions.

The problem is not that citizens disagree—disagreement is normal in any democracy—but that personalization gradually reduces the overlap in what people see, making mutual understanding feel more distant than it truly is.

Misinformation Spread

Filter bubbles can also support the spread of misinformation. If people repeatedly see the same type of content and do not come across alternative explanations, it becomes harder to judge what is true and what is not.

Research by Del Vicario et al. (2016) shows that misinformation spreads most effectively in connected, like-minded online communities. In these spaces, users interact with people who share similar beliefs, so false information can face very little disagreement. Once a misleading claim enters such a network, it is reposted and spread.

Personalization does not invent misinformation; it only creates a convenient environment for that information to spread. When feeds lack diverse viewpoints, even obviously questionable claims can appear trustworthy, and users may never encounter the evidence needed to reconsider them.

Reduced Critical Thinking and Passive Consumption

Another consequence of heavy personalization is how people approach information. Before the rise of personalization systems, people were forced to actively seek information to learn something, which naturally formed critical thinking. But nowadays, most of the content is pre-selected by algorithms, users do not feel the need to actively seek for more information. They just passively consume content chosen by the algorithm.

Evidence from the Health Information Filter Bubble Study (2016) shows that personalised search results can narrow the range of explanations users consider. When algorithms repeatedly provide similar answers, people feel confident that they understand a topic, even if they have not seen alternative interpretations. Over time, this reliance on algorithmic curation weakens critical thinking.

Youth and Identity Formation

Adolescents, being the most active on social media, are especially sensitive to the effects of personalised feeds. Adolescence is a crucial stage in which identity and self-confidence are still developing, and platforms like TikTok, Instagram, and YouTube react to their behaviour with remarkable speed. Within a short time, the algorithm begins shaping what teenagers see, how they compare themselves to others, and which communities they feel they belong to.

Klug et al. (2021) show that TikTok can channel young users into narrow, identity-based content clusters like beauty, dieting or fitness, after only a few minutes of interaction. The platform reinforces it by repeating similar videos, sounds, and creators. For many teenagers, these loops feel natural rather than engineered, which makes the influence even harder to notice.

Young audiences typically have limited media-literacy skills, and they may not understand that algorithms filter out and prioritise information.

As a result, personalised feeds can have a stronger effect on their self-image, mood, and social expectations, making teenagers at-risk groups.

Ethical Concerns

There are several important ethical issues concerning the personalization systems. First concern is transparency. Many users do not know why certain posts appear in their feed or what was filtered out. Helberger (2019) argues that when recommendation systems operate without explanations, users lose the understanding of the processes shaping their online experience.

There are also issues related to platform incentives. Because engagement generates advertising revenue, algorithms often prioritise emotionally charged, sensational, or provocative content (Bozdag, 2015). This does not necessarily reflect what is useful for users, it reflects what keeps them scrolling. As a result, people’s attention can be guided in subtle ways that benefit the platform more than the user.

 A small number of technology companies now oversee much of the information flowing online. While users see only the curated feed presented to them, platforms control the algorithms and the decisions about what becomes visible or invisible. This imbalance affects individual autonomy of users.

Solutions and Interventions

Although filter bubbles can limit what people see online, they do not have to be a thread. So, instead of removing personalization entirely, something that would make digital platforms unusable, the goal is to design and use these systems in ways that encourage diversity, transparency, and user control.

Diversity-Aware Algorithm Design

Several researchers suggest that the most effective changes must come from the platforms themselves. One direction involves designing recommender systems that include elements of novelty or “serendipity.” Instead of showing only the most predictable content, these systems intentionally weave in posts or videos that fall slightly outside the user’s usual preferences.

The idea is not new. Streaming services like Spotify have long used “discovery” playlists that mix familiar tracks with new genres. Studies such as Lv et al. (2024) show that people are generally open to these small surprises and that they can broaden the range of content they encounter without reducing satisfaction. YouTube’s Explore page follows a similar logic by offering categories unrelated to the user’s history, making it possible to step outside the usual feed with one click.

Increasing Transparency

One recurring problem is that people often have very little insight of how recommendation systems decide what appears on their screens. Helberger (2019) notes that this this lack of transparency makes it difficult for users to recognise when their view of the world has narrowed. Some platforms have begun addressing this, for example, TikTok’s “Why this video?” option gives a basic explanation of why it was recommended.

Better approach would be letting users see what content the platform has assigned to them, which behaviours influenced recommendations, and which topics are currently being deprioritised.

More Control for Users 

Transparency becomes valuable only when users have options to act on it. Therefore, there should be available some simple tool, that helps users operate and navigate through their feed. This way they could consume more diverse content and not only mindlessly scroll through the recommended content. This software adjustment would prevent some negative consequences, such as reduced critical thinking and the creation of filter bubbles themselves.  

But there are also steps users can take while besides waiting for the system fixes, which could also take a very long time. Users can take steps outside the platform to prevent the filter bubbles. Clearing browsing history, removing stored cookies, or logging out of accounts before searching can reduce personalization. Some people maintain two separate browser profiles, one logged in, one anonymous, to prevent algorithms from building behavioural profiles.  There has been rise of privacy-focused browsers and search engines like Firefox’s private mode, DuckDuckGo, or Brave minimise data collection by not tracking your searches, which reduces the strength of personalization signals.

External Oversight and Platform Accountability

Companies have full control over the algorithms that rank content, as well as the user data these systems depend on. Because of this, relying solely on voluntary transparency is unlikely to give users a complete picture of how these systems work.

In recent years, there has been some attempts to fill this gap. An example is the EU’s Digital Services Act (DSA), which now obliges major platforms to explain the basics of how their recommender systems function, give researchers access to key data, and offer users the option to switch to a non-personalised feed. These measures ensure that platforms are accountable for the influence their algorithms have on public information spaces.

Since the information provided by algorithms may quickly become threatening or harmful, regular audits can help reveal if an algorithm unintentionally boosts extreme content, sidelines certain groups, or encourages harmful reinforcement loops .

Regulation, then, works as a necessary counterpart to technical improvements. While engineers can design more balanced algorithms, external oversight ensures that platforms cannot quietly steer information flows without scrutiny.

Since filter bubbles emerge from a mix of algorithmic processes and user behaviour, no single solution can remove them completely. But combining several approaches, like clearer explanations of how feeds work, stronger user controls, more diversity-aware algorithm design, independent oversight, and better media literacy can reduce the risk of narrowing without entirely sacrificing personalized content.

Together, these measures point toward a healthier online environment: one where personalization still helps people find relevant information but no longer limits them to a narrow slice of what the internet has to offer.

Conclusion

Filter bubbles can influence the way people browse, think, and form opinions online, but the research shows that their effects are more nuanced than they are often portrayed. Behind the scenes of filter bubbles creation stand personalization systems, which help manage data shown to user and form their personalized feed, this includes hidden mechanisms such as reinforcement loops, homophily, and selective exposure that can contribute to the narrowing information space. However, they do not operate uniformly across all platforms or users.

For many people, everyday habits such as consuming information from several sources, talking to others offline, or simply having varied interests, introduce enough diversity to counteract strong bubble effects. At the same time, the risks should not be dismissed. Political debates can become more polarised, misinformation spreads more easily in closed communities, and younger users’ mental health and development may be affected.

The solutions discussed in this essay suggest that it is possible to keep the advantages of personalization while reducing its downsides. Greater transparency, more accessible user controls, thoughtful algorithm design, external oversight, and effort made by users. None of these steps alone can burst filter bubbles entirely, but together they can help create healthier digital environments where personalization improves our experience without quietly limiting the perspectives we encounter.

In the end, understanding how these systems shape our information environment is the first step toward using them more consciously. As long as individuals, designers, and policymakers recognise their shared responsibility, it is realistic to aim for online environments that support both relevance and diversity.

References

Bakshy, E., Messing, S., & Adamic, L. A. (2015). Exposure to ideologically diverse news and opinion on Facebook. Science, 348(6239), 1130–1132. https://doi.org/10.1126/science.aaa1160

Bozdag, E. (2013). Bias in algorithmic filtering and personalization. Ethics and Information Technology, 15(3), 209–227. https://doi.org/10.1007/s10676-013-9321-6

Chua, T. H. H., & Chang, L. (2016). Follow me and like my beautiful selfies: Singapore teenage girls’ engagement in self-presentation and peer comparison on social media. Computers in Human Behavior, 55(Part A), 190–197. https://doi.org/10.1016/j.chb.2015.09.011

Covington, P., Adams, J., & Sargin, E. (2016). Deep neural networks for YouTube recommendations. In Proceedings of the 10th ACM Conference on Recommender Systems (pp. 191–198). Association for Computing Machinery. https://doi.org/10.1145/2959100.2959190

Del Vicario, M., Bessi, A., Zollo, F., Petroni, F., Scala, A., Caldarelli, G., Stanley, H. E., & Quattrociocchi, W. (2016). The spreading of misinformation online. Proceedings of the National Academy of Sciences, 113(3), 554–559. https://doi.org/10.1073/pnas.1517441113

Dubois, E., & Blank, G. (2018). The echo chamber is overstated: The moderating effect of political interest and diverse media. Information, Communication & Society, 21(5), 729–745. https://doi.org/10.1080/1369118X.2018.1428656

Haim, M., Graefe, A., & Brosius, H.-B. (2018). Burst of the filter bubble? Effects of personalization on the diversity of Google News. Digital Journalism, 6(3), 330–343. https://doi.org/10.1080/21670811.2017.1338145

Hannák, A., Sapiezynski, P., Kakhki, A. M., Krishnamurthy, B., Lazer, D., Mislove, A., & Wilson, C. (2013). Measuring personalization of web search. In Proceedings of the 22nd International Conference on World Wide Web (pp. 527–538). Association for Computing Machinery. https://doi.org/10.1145/2488388.2488435

Helberger, N. (2019). On the democratic role of news recommenders. Digital Journalism, 7(8), 993–1012. https://doi.org/10.1080/21670811.2019.1623700

Holone, H. (2016). The filter bubble and its effect on online personal health information. Croatian Medical Journal, 57(3), 298–301. https://doi.org/10.3325/cmj.2016.57.298

Klug, D., Qin, Y., Evans, M., & Kaufman, G. (2021). Trick and please: A mixed-method study on user assumptions about the TikTok algorithm. In Proceedings of the 13th ACM Web Science Conference 2021 (pp. 84–92). Association for Computing Machinery. https://doi.org/10.1145/3447535.3462512

Pariser, E. (2011). The filter bubble: What the Internet is hiding from you. Penguin.

Pew Research Center. (2014). Political polarization in the American public. Pew Research Center. https://www.pewresearch.org/politics/2014/06/12/political-polarization-in-the-american-public/ Pew Research Center

Ribeiro, M. H., Ottoni, R., West, R., Almeida, V. A. F., & Meira, W., Jr. (2020). Auditing radicalization pathways on YouTube. In FAT ’20: Proceedings of the 2020 Conference on Fairness, Accountability, and Transparency* (pp. 131–141). Association for Computing Machinery. 

Regulation (EU) 2022/2065 of the European Parliament and of the Council of 19 October 2022 on a single market for digital services and amending Directive 2000/31/EC (Digital Services Act). (2022). Official Journal of the European Union, L 277, 1–102. EUR-Lex+1 Zuiderveen Borgesius, F. J., Trilling, D., Möller, J., Bodó, B., de Vreese, C. H., & Helberger, N. (2016). Should we worry about filter bubbles? Internet Policy Review, 5(1). https://doi.org/10.14763/2016.1.401