Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Upraveno 9 prosince, 2023 22:49

Vědci objevili novou metodu, jak mohou obejít bezpečnostní opatření, která jsou integrovaná do modelu ChatGPT 4. Díky této metodě jste schopni získat z tohoto jazykového modelu i potenciálně nebezpečné rady. Tuto metodu můžete dohledat pod označením “Odbourání bezpečnostních omezení pro jazyky s omezenými zdroji”. Podle provedených testů navíc tato metoda dosahuje velmi slušné, 79% úspěšnosti. Pokud jste si tedy někdy také kladli otázku, jak lze odbourat bezpečnostní zábrany ChatGPT 4, tak to jde v podstatě docela “jednoduše”.

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Co to vlastně znamená, když napíšu termín “odbourání bezpečnostních omezení pro jazyky s omezenými zdroji“? V základu je to proces, při němž se uživatel snaží obejít blokace, nebo bezpečnostní opatření pomocí jazyku, na který nebyl model dostatečně trénovaný. Blokace se pak uživatel snaží obejít z toho důvodu, že by mu jinak zabránily získat potenciálně škodlivou, nebo nebezpečnou informaci. Možná také znáte situaci, kdy se modelu ChatGPT zeptáte např. na otázku, jak podomácku sestrojit bombu, nebo se ho zeptáte na nábožensky citlivé téma. Nemusíme chodit ani moc daleko. Zkuste se zeptat např. na vtip o Mohamedovi. V těchto případech Vám jazykový model zkrátka odmítne odpovědět.

A na co že se vlastně dotazovali vědci při výše uvedeném pokusu? Přiměli model GPT-4 poskytovat rady, týkající se krádeže zboží z obchodu v otevírací době, kdy je obchod plný lidí. A Chat GPT opravdu poradil a to i přes své jinak integrované morální zábrany.

Výzkumníci zdůraznili, že stávající bezpečnostní opatření pro generativní umělou inteligenci jsou nedostatečná. Vývojáři modelu ChatGPT se totiž primárně zaměřují na odvracení útoků, které uživatel generuje v anglickém jazyce. To však ale vedlo k nechtěnému vytvoření bezpečnostních mezer pro jazyky s omezenými zdroji.

Co jsou to vlastně ty jazyky s omezenými zdroji?

Zjednodušeně řečeno jsou to takové jazyky, na které nebyl velký jazykový model v průběhu tréninku dostatečně připraven, nebo jim nebyla věnována ze strany vývojářů dostatečná pozornost. To znamená, že model vytváří potenciální rizika, pokud dostane nebezpečné otázky v některém z těchto málo trénovaných jazyků.

Výzkumný článek také zdůrazňuje, že současný důraz na anglicky psané *benchmarky vytváří falešný pocit bezpečí. Vývojáři musí nyní přijmout nová opatření a soustředit se na vytvoření nových datových sad pro takové jazyky, které mají omezené zdroje. Pokud by se tak nestalo, nebyla by zajištěna celková bezpečnost a spolehlivost aktuálně velmi hojně používaných jazykových modelů s umělou inteligencí.

Co je to benchmark? V kontextu modelů jazykové generace, jako je ChatGPT, využívají výzkumníci a vývojáři benchmarky k hodnocení schopností těchto modelů generovat text, komunikovat, plnit úkoly, nebo provádět specifické úlohy. Výsledky benchmarků pak pomáhají vývojářům v tom, aby lépe porozuměli a hodnotili výkonnost a chování jazykových modelů.

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Závěr

Z výše uvedeného textu je tedy patrné, že vývojáři jazykového modelu ChatGPT velmi podcenili bezpečnostní omezení pro jazyky, kterými běžně nemluvíme či nepíšeme. Díky tomu, že pro tyto jazyky nemá ChatGPT tak tvrdá omezení, lze jeho schopnosti lehce zneužít ke generování jinak blokovaného obsahu.

Web je vytvářen s pečlivostí k obsaženým informacím. Snažím se poskytovat kvalitní a užitečný obsah, který ostatním pomáhá, nebo je inspiruje. Pokud jste spokojeni s mou prací a chtěli byste mě podpořit, můžete to udělat prostřednictvím jednoduchých možností.

Byl pro Vás tento článek užitečný?

Klikni na počet hvězd pro hlasování.

Průměrné hodnocení. 0 / 5. Počet hlasování: 0

Zatím nehodnoceno! Buďte první

Sdílejte článek na Facebooku

Sdílejte článek na Twitteru

Odebírejte Newsletter

Buďte v obraze! Připojte se k odběru newsletteru a buďte první, kdo získá nejnovější informace přímo do vaší e-mailové schránky. Sledujte aktuality, exkluzivní události a inspirativní obsah, přímo na Vašem e-mailu.

Administrátor

Co mě baví

Proč píšu blog

Má certifikace

Administrátor

Co mě baví

Proč píšu blog

Má certifikace

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Co jsou to vlastně ty jazyky s omezenými zdroji?

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Závěr

Odebírejte Newsletter

Seznam rubrik

Sociální sítě

Obláček štítků

RSS Feed

Jiří Vaněk

Kontakt

blog.jirivanek.eu/cs

Administrátor

Co mě baví

Proč píšu blog

Má certifikace

Administrátor

Co mě baví

Proč píšu blog

Má certifikace

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Co jsou to vlastně ty jazyky s omezenými zdroji?

Jak lze odbourat bezpečnostní zábrany ChatGPT 4

Závěr

Odebírejte Newsletter

Seznam rubrik

Sociální sítě

Obláček štítků

Štítky

RSS Feed

Jiří Vaněk

Kontakt

blog.jirivanek.eu/cs