Úterý, 1 července, 2025

Výhružná odpověď modelu Google Gemini a rizika spojená s prompt engineeringem

Sdílet

Úvod

Umělá inteligence představuje v současnosti technologii, která je podrobně zkoumána a sledována z mnoha důvodů. Tato technologie má potenciál změnit lidský život způsobem, jaký dosud žádná jiná technologie před ní. S tímto potenciálem přicházejí i výzvy, zejména v oblastech bezpečnosti a regulace. Významná část veřejnosti vnímá umělou inteligenci s obavami a je náchylná přijímat negativní zprávy o této technologii, šířené médii. Tato práce se zaměřuje na specifickou podkategorii umělé inteligence, označovanou jako chatboty.

Chatboti, jakožto podmnožina umělé inteligence, jsou běžnému uživateli známi teprve několik let. Hlavní popularizace začala díky ChatGPT od společnosti OpenAI. Jedná se o generativní model, který funguje na bázi zpráv – uživatel napíše otázku nebo nějaké tvrzení a chatbot na to reaguje v závislosti na svém interním nastavení a na základě historie zpráv jako kontextu. Tímto způsobem se umělá inteligence přibližuje člověku, protože to vypadá, jako by si člověk dopisoval s jiným člověkem. Uživatel se může chatbota ptát téměř na cokoliv – od faktických otázek po pomoc s domácími úkoly, syntézu textu a podobně.

Google Gemini je chatbot od společnosti Google. Dne 13. listopadu 2024 se na internetu objevila fotografie obrazovky, která ukazuje odpověď zmíněné umělé inteligence obsahující děsivý obsah. Fotografie je uvedena níže.

Obrázek č. 1 – výhružná odpověď chatbota Gemini

Spolu s fotografií obrazovky se na internet dostal i samotný chat, který je dostupný na adrese https://gemini.google.com/share/6d141b742a13?ftag=MSF0951a18

Motivace

V současné době, kdy je stále větší množství obsahu na internetu generováno umělou inteligencí (Valyaeva, A., 2024, 14. August), nabývá na významu schopnost kritického myšlení. Pro běžného uživatele internetu je stále obtížnější orientovat se ve světě plném dezinformací a syntetického obsahu.

První část studie se zaměřuje na analýzu konkrétního incidentu, kdy chatbot Gemini generoval výhružnou odpověď, a hodnotí reálnost a důvěryhodnost jeho odpovědí. Druhá část se věnuje zkoumání rizik spojených s prompt engineeringem, konkrétně etickým a bezpečnostním problémům, které mohou nastat při manipulaci s generativními modely umělé inteligence.

Metodologie

  1. Analýza historických dat a incidentu – Prozkoumal jsem historii chatu s Gemini a zkoumal uživatelské vstupy
  2. Zkoumání veřejného názoru – Provedl jsem analýzu diskuzí na Redditu a dalších veřejných fórech, abych zjistil, jak ostatní uživatelé hodnotí daný incident

Část 1. – Výhružná zpráva modelu Gemini

1.1. Kontext

Incident související s výhružnou zprávou (obrázek č. 1) generovanou chatbotem Gemini v druhé polovině listopadu 2024 upoutal pozornost většiny zahraničních médií a byl dokonce zmiňován v reportáži CBS News (zdroj). Tato výhružná odpověď byla adresována 29letému studentovi Vidhayi Reddymu, který se na chatbota obrátil s žádostí o pomoc s domácím úkolem. Google se vyjádřil portálu CBS News následovně: 

“Large language models can sometimes respond with non-sensical responses, and this is an example of that. This response violated our policies and we’ve taken action to prevent similar outputs from occurring.”

Na internetu se následně rozproudila diskuze nejen o nevhodnosti této odpovědi, ale také o jejích možných důsledcích. Bylo poukázáno na to, že pokud by podobnou zprávu obdržela osoba ve zhoršeném psychickém stavu, mohlo by to vést k fatálním následkům. Za pozornost stojí postoj společnosti Google, která se omezila na stručné vyjádření a nepokusila se vyvrátit tvrzení studenta ani hlouběji analyzovat odpověď chatbota Gemini.

1.2. Analýza

Jedním ze zdrojů mé analýzy bylo diskuzní fórum Reddit, které umožňuje otevřené debaty na různá témata. V kategorii Artificial Intelligence se po zmíněném incidentu rozběhla diskuze o dané zprávě a příběhu, který za ní stojí. Mnozí uživatelé situaci komentovali s nadsázkou, například žertovali o tom, že nadvláda umělé inteligence již začala. Za zvláštní označovali zejména skutečnost, že statistický model, který generuje odpovědi na základě poskytnutého kontextu, dokáže vyprodukovat takové sdělení. Zvláštní pozornost mě však zaujala jedna konkrétní diskuze, viz foto níže.

Obrázek č. 2 – diskuze členů fóra Reddit ohledně historie chatu

Uživatelé iluomo a Big_Cheezits si všimli, že chatová historie není kompletní. Bohužel jsem v historii chatu nenašel žádný skrytý vstup, který by mohl objasnit tuto neúplnost. Další možností je použití technologie speech-to-text, která pravděpodobně není zobrazena v historii chatu, ale je možné, že uživatel nahrál zvukovou zprávu, která chatbotovi přesně sdělila, co má napsat. V aktuální verzi však text-to-speech je viditelný, a historie chatu se jeví jako pravdivá.

Pojďme se nyní podívat na uživatelský vstup před tím, než model Gemini vygeneroval výhružnou zprávu. Počáteční část chatu probíhá zcela běžně – uživatel (student) klade standardní otázky týkající se starších lidí, jejich příjmů a výzev, jimž čelí po odchodu do důchodu. Jak však chat pokračuje, uživatel začíná vkládat stále extrémnější a iracionálnější vstupy.

Obrázek č. 3 – jeden ze vstupů v úvodní části historie chatu

Obrázek č. 4 –  jeden ze vstupů v poslední části historie chatu

Lze vidět, že uživatel chatbota postupně více a více extremizuje svoje prompty a dává jim negativní kontext. Tohle mohlo ovlivnit interní logický systém chatbota a nastavit negativní vnímání poslední zprávy, která vypadá následovně.

Obrázek č. 5 –  poslední vstup před výhružnou odpovědí

Zpráva začíná negativní otázkou, kdy uživatel zpochybňuje pravdivost určité informace. Následně přichází otázka 16, kde se objevuje výraz Listen, který nedává smysl. Tato část většinu lidí přesvědčuje, že se jednalo o speech-to-text, ale podle mého názoru to není ten případ. Je možné, že místo prázdného místa pod výrazem Listen byly do modelu vloženy speciální znaky, které se do něj dostaly před tím, než byly sanitizovány. Tyto znaky mohly způsobit narušení fungování modelu, což vedlo k výsledné odpovědi.

Existuje i alternativní vysvětlení, a to, že uživatelský vstup může být výstupem z jiné umělé inteligence, která mohla přidat speciální znaky, což vedlo k narušení fungování modelu. Bohužel žádný důkaz o této možnosti nebyl nalezen.

1.3. Závěr

Na základě dostupných informací se domnívám, že se jedná o případ prompt engineeringu, který je maskován jako snaha pomoci studentovi s testem či úkolem. Historie chatu neodpovídá standardnímu průběhu interakce mezi uživatelem a modelem. Připouštím však možnost, že se jednalo o nešťastnou souhru vstupů. Nicméně postupná eskalace těchto vstupů nahrává spíše domněnce, že jde o záměrnou manipulaci.

Část 2. – Rizika spojená s prompt engineeringem

Prompt engineering je umění komunikace s generativním modelem AI. Jde o proces vytváření a optimalizace promptů, textových vstupů, které řídí generování textu modelem Albert Ziegler, J. B. (2024a, May 21). Prompt engineering může mít také etické problémy. Útočníci se mohou snažit manipulovat modelem tak, aby generoval nekorektní odpovědi, například odpovědi, které nejsou založeny na skutečnosti, obsahují zkreslení nebo jsou zaměřeny na dehonestaci samotného modelu. Dalším rizikem je šíření strachu či manipulace s lidmi.

Společnosti stále vnímají umělou inteligenci jako černou skříňku. Nedostatky ve znalostech o AI mohou vést k iracionálním přesvědčením a bránit přijetí této technologie (Brauner et al., 2023). Tento problém je zvláště zásadní v kontextu reakce na negativní zprávy o umělé inteligenci, protože lidé, kteří dané téma nerozumí nebo je nepochopili, mají tendenci se ho obávat. Strach tedy roste s mírou neznalosti. Umělá inteligence je relativně nová technologie, zejména v podobě, jak ji známe dnes. To znamená, že může docházet k chybám a že technologie ještě není plně připravena pro každodenní použití. Zejména chatboti, kteří jsou trénováni na datech od lidí, nesou apriorní biasy většinové populace, což může ještě více posilovat obavy veřejnosti, která už tak těžko důvěřuje AI.

Když AI generuje nevhodné či neetické výsledky (nebo k tomu byla donucena – i omylem), jako v případě výhružné odpovědi od chatbota Gemini, mohou tyto incidenty posílit obavy o bezpečnost a spolehlivost AI. To vede k dalšímu posílení negativního vnímání, což může bránit jejímu širšímu přijetí ve společnosti. Když veřejnost čelí zprávám o selháních AI, je snadné zaměřit se na potenciální rizika místo na přínosy, které tato technologie může nabídnout.

Existují však i útočné prompt engineering metody, které mohou narušit soukromí jednotlivých uživatelů chatbota. Zmíněný chatbot Gemini má funkcionalitu, u které uživatel může připojit google drive soubory. Útočník může vložit škodlivý kód do těchto dokumentů a následně pomocí prompt engineeringu donutit model, aby tento kód spustil (Sestito, K. 2024, November 14).

Závěr

První část se zaměřila na konkrétní případ prompt engineeringu, který měl významný mediální dosah. Tento incident nemusel být záměrný, přesto i neúmyslné chování může mít vážné následky. Druhá část poskytla teoretické shrnutí problematiky prompt engineeringu, zdůraznila jeho dopad na přijetí technologií umělé inteligence a upozornila na existenci ještě nebezpečnější metod, které mohou v současnosti krást uživatelské informace. V budoucnu, až AI agenti budou schopni vykonávat kód, může tento přístup představovat nový vektor útoku proti firmám i jednotlivým uživatelům.

Toto pojednání má také za cíl povzbudit čtenáře k využívání kritického myšlení a k opatrnosti při přijímání informací, které jsou prezentovány v médiích. V případě incidentu Gemini nešlo o výhružnou zprávu vygenerovanou modelem samostatně, ale o souhru (záměrných či nešťastných) uživatelských vstupů a neviditelných znaků, které vedly k extrémnímu chování statistického modelu. Je nezbytné takové situace pečlivě monitorovat a pravidelně aktualizovat pravidla pro interakci s chatboty a obecně s umělou inteligencí.

Zdroje

Valyaeva, A. (2024, August 14). AI image statistics: How much content was created by ai. Everypixel Journal – Your Guide to the Entangled World of AI. https://journal.everypixel.com/ai-image-statistics 

Brauner, P., Hick, A., Philipsen, R., & Ziefle, M. (2023). What does the public think about Artificial intelligence?—a criticality map to understand bias in the public perception of ai. Frontiers in Computer Science, 5. https://doi.org/10.3389/fcomp.2023.1113903 

Albert Ziegler, J. B. (2024a, May 21). A developer’s Guide to Prompt Engineering and LLMS. The GitHub Blog. https://github.blog/ai-and-ml/generative-ai/prompt-engineering-guide-generative-ai-llms/

Sestito, K. (2024, November 14). New google gemini vulnerability enabling profound misuse. HiddenLayer. https://hiddenlayer.com/innovation-hub/new-google-gemini-content-manipulation-vulns-found/ 

OpenAI. (2024). ChatGPT-4 [Large language model]. https://chat.openai.com/chat (použito pro opravu gramatiky a sumarizaci)

+ posts

Číst více

Další články