Co je to ChatGPT – Generative Pre-trained Transformer

Umělá inteligence je dnes velmi často skloňovaný termín. Používá se prakticky v každém odvětví našeho života. Někde vidět je, jinde o ní zase prakticky nikdo neví. Největší boom zažila umělá inteligence hlavně s příchodem ChatGPT. To byl první nejvíce viditelný chat bot, kterého lidé začali masivně používat ke zvýšení kreativity i k úspoře práce při různých úkolech. O tom, co je to ChatGPT si trochu více povíme v tomto článku.

Co je ChatGPT – Generative Pre-trained Transformer

Začněme velmi zjednodušenou formulací toho, co ChatGPT opravdu je. Je to velký jazykový model (LLM – large language model), který je založený na strojovém učení a umělé neuronové síti. V podstatě je to kus softwaru, kterému předložíte část textu, a on na základě tohoto textu dokáže generovat odpověď. Zkratka GPT znamená Generative Pre-trained Transformer. Důležité je zde slovo pre-trained. To znamená předtrénovaný.

Pokud se zastavíme na chvíli u tohoto slova, co vlastně znamená, předtrénovaný? Opět si to vysvětlíme zjednodušeně. Tomuto softwaru byl předložený obrovský balík textových dat. Tato data zahrnovala obrovské množství knih, textů, internetových článků a faktických informací. Na základě tohoto balíku dat se software začal učit a získal základní vědomosti.

Naučil se díky tomu poskládat slova do vět, naučil se v určitém smyslu kontextu otázek a získal znalosti, podle kterých umí generovat odpověď. Pokud modelu ChatGPT položíte otázku, kdo je prezidentem Francie, spojí si dohromady dvě klíčová slova. Prezident a Francie. Na základě toho už je schopen s takovou otázkou pracovat, najít klíčové informace a předložit odpověď.

Dlužno dodat, že ChatGPT není zdaleka jediný takový model, který máme v dnešní době k dispozici. Mezi další takové velké jazykové modely patří např. Bard od společnosti Google, nebo Llama od Mety.

Jak funguje neuronová síť?

Co je to ChatGPT – Generative Pre-trained Transformer

Neuronová síť je počítačový program, který se inspiruje fungováním lidského mozku. Skládá se z velkého množství malých jednotek, které se nazývají neurony. Neurony jsou vzájemně propojené a také si navzájem předávají informace. Každý neuron má své vlastní vstupy a výstupy. Na vstupy přicházejí informace z jiných neuronů. Tyto informace jsou zesilovány nebo zeslabovány podle váhy, která je přiřazena každému vstupu. Na základě této váhy se pak rozhoduje, zda neuron vydá výstup nebo ne.

Neuronové sítě jsou obvykle rozděleny do několika vrstev. Na vstupní vrstvě se nacházejí neurony, které přijímají informace z vnějšího světa. Na výstupní vrstvě se nacházejí neurony, které generují výstupní informace. Mezi vstupní a výstupní vrstvou se mohou nacházet i další vrstvy, které slouží k zpracování informací.

Neuronové sítě se učí na základě přijatých dat. Tato data mohou být například ve formě fotografií, textů nebo zvuků. Neuronová síť se snaží naučit veškeré vztahy mezi vstupními a výstupními daty.

Neuronová síť a modely zaměřené na generování textu

Jak je tedy možné, že takový ChatGPT pomocí neuronové sítě naprosto přesně ví, co Vám má odpovědět na větu “Napiš mi něco hezkého, co mi zvedne náladu”?

Umělá inteligence generující text se učí na základě obrovských dat textu. Tato data mohou být například knihy, články, e-maily nebo konverzace. Neuronová síť se snaží naučit vztahy mezi slovy a frázemi v těchto datech. Díky tomu se např. naučí, že nebe je modré, slunce je žluté a tráva je zelená. Z tohoto obrovského množství textu se také naučí, jak funguje lidská psychika a co může člověku zvednout náladu (například se tento text naučí z knih zaměřených na psychologii člověka).

Díky tomu si pamatuje určitá spojení jako že “zvednout náladu” = “dělat něco, co člověka baví“. A díky tomuto spojení Vám poté odpoví např. následující větou: “Přemýšlej o něčem, co tě baví. Může to být tvůj koníček, záliba, nebo prostě něco, co tě těší.”

ChatGPT zdaleka nechápe jako člověk, na co se ho ptáte. Má ve svém algoritmu pouze uložená určitá slovní spojení, na základě kterých poté generuje text. Neznamená to tedy, že se bavíte se strojem, který empaticky chápe, na co se ho ptáte. Použije pouze části uložených slovních spojení k tomu, aby vygeneroval text odpovědi.

Naprosto stejné je to např. s tím, když chcete po ChatGPT napsat kód na jednoduchý kontaktní formulář v PHP. Má ve své paměti uložených mnoho takových příkladů formulářů, a jeden z nich prostě poskládá dohromady. To je také důvod, proč zdaleka ne všechny kódy naprogramované pomocí ChatGPT fungují. Není to programátor. Jen předkládá dříve naučené modely různých PHP skriptů. Někdy se trefí, jindy zase i na desátý pokus jeho kód nefunguje.

Jaké verze ChatGPT můžete nyní používat?

Co je to ChatGPT – Generative Pre-trained Transformer

K dispozici nyní máte několik verzí, které se od sebe poměrně zásadně liší výkonem i množstvím dat, na kterých byly tyto verze trénované.

  • ChatGPT 3.5
  • ChatGPT 4.0
  • ChatGPT Plus

ChatGPT 3.5 je základní verze ChatGPT, která je zdarma a je dostupná na webové stránce https://chat.openai.com. Tato verze je vycvičená na sadě textu o velikosti zhruba 45 TB textu a je schopna generovat text, překládat jazyky, psát různé druhy kreativního obsahu.

ChatGPT 4.0 je uzavřená verze ChatGPT, která je dostupná pouze na základě předplatného. Tato verze je vycvičená na sadě textu o velikosti 175 TB (skoro 4x více jak předchozí verze). Navíc je schopna komunikovat s okolním světem prostřednictvím internetu, což jí umožňuje poskytnout vám aktuálnější a přesnější informace.

ChatGPT Plus je placená verze ChatGPT 3.5, která nabízí několik dalších funkcí, jako jsou:

  • Pluginy, které umožňují ChatGPT používat další funkce, jako je webový scraping, nebo generování kódu.
  • Advanced Data Analysis, která umožňuje ChatGPT analyzovat data.
  • Neomezená konverzace.

Na jak velkém množství textu byl ChatGPT trénovaný?

Jak jsem uvedl výše, záleží na modelu. Vyšší verze ChatGPT byla trénovaná na datech o velikosti 175 TB (175 000 GB). Na těchto datech se ChatGPT učil hlavně jazyk. Nicméně jsou to data, která nejsou filtrovaná. To znamená, že mohou obsahovat i potenciálně škodlivý materiál jako jsou lži, dezinformace, propaganda, rasově či sexuálně urážející texty a pod.

Taková data je nutné vyfiltrovat, aby nevzniklo něco, čemu se říká BIAS. Česky řečeno předpojatost či předsudek. Předsudek v kontextu umělé inteligence (AI) je neobjektivní, nebo zkreslená tendence, která může mít negativní dopad na výsledky AI systému. Může se projevit v různých formách. Uveďme si příklad, o kterém jsem již jednou psal.

Pokud vložíte umělou inteligenci do automobilu, které svěříte řízení vozu namísto člověka, může se BIAS projevit v jeho rozhodování. Bude postaven před situaci, kdy musí zvolit menší zlo. Buď havaruje s osobou na palubě do stoky, aniž by člověk na palubě vozu utrpěl zranění, nebo srazí člověka tmavé pleti a vyhne se tak ohrožení posádky. Pokud bude umělá inteligence trénovaná na špatných datech, která zahrnují rasisticky zabarvené texty, může se rozhodnout špatně a zvolí raději srážku s člověkem tmavé pleti. U dat bez BIASU by zvolila raději svedení automobilu do stoky, kde nehrozí nebezpečí ani pro posádku, ani pro člověka na silnici.

Z tohoto důvodu byly všechny tréninkové sady textů vyfiltrované o data, která by mohla takový BIAS způsobit. Výsledná velikost dat, které ChatGPT používá je tak výrazně nižší. Přesné číslo do OpenAI neznáme.

Co jsou to tokeny?

V kontextu AI a ChatGPT jsou tokeny malé jednotky textu, které se používají k reprezentaci větších textových formátů. Tokeny mohou být slova, čísla, značky, nebo jiné znaky. Mohou být krátké jako jeden znak, nebo dlouhé jako celé slovo. Jedná se však o nejvýstižnější text, kterému může jazykový model porozumět.

ChatGPT používá tokeny k reprezentaci textu, který je mu zadán. Tokeny jsou pak použity k trénování modelu na velkém souboru textu a kódu. Tento proces trénování umožňuje modelu naučit se vztahy mezi různými tokeny a generovat text, který je podobný textu, na kterém byl vycvičen.

Zde jsou některé příklady tokenů, které může ChatGPT používat:

  • Slova: jeden, dva, tři, čtyři, pět
  • Čísla: 1, 2, 3, 4, 5
  • Znaky: . ; , : ?
  • Ostatní znaky: – * /

Tokenizace je pak proces, při kterém ChatGPT rozděluje část textu na menší prvky, což jsou výše uvedené tokeny. Tento postup je nezbytný pro to, aby model efektivně porozuměl psanému textu a zpracoval lidský jazyk. V každém jazyce je počet tokenů odlišný. Stejný text v angličtině a v češtině bude mít nejen jiný počet slov, ale také bude obsahovat jiný počet tokenů vůči počtu použitých slov v textu. Obecně je čeština na počet tokenů náročnější. Pokud se placený jazykový model účtuje podle počtu tokenů, bude čeština bohužel dražší, jak angličtina.

Co je to ChatGPT – Generative Pre-trained Transformer

Závěr

Tento článek je pouze stručným vysvětlením toho, co je to ChatGPT a jak funguje. Umělá inteligence se obzvláště u jazykových modelů neustále vyvíjí. Nechci zde zabíhat do takových detailů, jako je otázka morálky či filosofie. Na toto téma jsem případně napsal jiný článek: Morální dilemata umělé inteligence. Pro základní pochopení toho, Co je to ChatGPT a jak vlastně tento jazykový model funguje by tento text měl stačit. Pokud Vás o umělé inteligenci zajímá více dotazů, články budou v čase přibývat.

FAQ

ChatGPT je velký jazykový model (LLM), který byl vyvinut společností OpenAI. Jedná se o počítačový program, který je schopen generovat text, překládat jazyky, psát různé druhy kreativního obsahu a odpovídat na otázky.

ChatGPT je založen na strojovém učení. Byl vycvičen na obrovském souboru textu a kódu. Tento soubor dat obsahuje knihy, články, webové stránky, kód a další textové zdroje.

ChatGPT se učí vztahy mezi slovy a frázemi v tomto souboru dat. Díky tomu je schopen generovat text, který je podobný textu, na kterém byl vycvičen.

ChatGPT 3.5 je základní verze, která je zdarma a je dostupná na webové stránce https://chat.openai.com. Tato verze je vycvičená na sadě textu o velikosti zhruba 45 TB textu a je schopna generovat text, překládat jazyky, psát různé druhy kreativního obsahu.

ChatGPT 4.0 je uzavřená verze, která je dostupná pouze na základě předplatného. Tato verze je vycvičená na sadě textu o velikosti 175 TB (skoro 4x více jak předchozí verze). Navíc je schopna komunikovat s okolním světem prostřednictvím internetu, což jí umožňuje poskytnout vám aktuálnější a přesnější informace.

ChatGPT Plus je placená verze ChatGPT 3.5, která nabízí několik dalších funkcí jako je např Advanced Data Analysis nebo použití pluginů.

Výhody:

  • Generuje text, který je podobný lidskému textu.
  • Překládá jazyky.
  • Píše různé druhy kreativního obsahu.
  • Odpovídá na otázky.

Nevýhody:

  • Může generovat text, který je nepřesný nebo zavádějící.
  • Občas generuje text, který je urážlivý nebo škodlivý (avšak postupem času se implementují bariéry).
  • ChatGPT může být použit k šíření dezinformací nebo propagandy.

ChatGPT může být bezpečný i nebezpečný, v závislosti na tom, jak je používán. Pokud je ChatGPT používán odpovědně, může být cenným nástrojem. Pokud je však ChatGPT používán nezodpovědně, může být použit k šíření dezinformací nebo propagandy.

Web je vytvářen s pečlivostí k obsaženým informacím. Snažím se poskytovat kvalitní a užitečný obsah, který ostatním pomáhá, nebo je inspiruje. Pokud jste spokojeni s mou prací a chtěli byste mě podpořit, můžete to udělat prostřednictvím jednoduchých možností.

Byl pro Vás tento článek užitečný?

Klikni na počet hvězd pro hlasování.

Průměrné hodnocení. 0 / 5. Počet hlasování: 0

Zatím nehodnoceno! Buďte první

Jak užitečný vidíte tento článek.

Sledujte mě na sociálních médiích.

Je mi líto, že pro Vás nebyl článek užitečný.

Jak mohu vylepšit článek?

Řekněte mi, jak jej mohu zlepšit.

newsletter

Odebírejte Newsletter

Buďte v obraze! Připojte se k odběru newsletteru a buďte první, kdo získá nejnovější informace přímo do vaší e-mailové schránky. Sledujte aktuality, exkluzivní události a inspirativní obsah, přímo na Vašem e-mailu.  

Odebírat
Upozornit na
guest
0 Komentáře/ů
Vložené zpětné vazby.
Zobrazit všechny komentáře.

Pokud mi chcete napsat rychlou zprávu, využije, prosím, níže uvedený
kontaktní formulář. Děkuji.

Další Kontaktní údaje