Upraveno 9 prosince, 2023 22:49
Stejně tak, jako internet prohledává Google, Yahoo nebo ruský Yandex, tak nyní do rodiny dalších vyhledávacích robotů přibyl i GPTBot. Společnost OpenAI ho vypustila na internet z prostého důvodu. Bude indexovat obsah webů a informace společnost použije pro vývoj a trénování nových modelů z rodiny GPT. Společnost OpenAI má vlastního vyhledávacího robota GPTBot provozovaného konkrétně na serverech společnosti Microsoft, se kterou úzce spolupracuje. Stejně, jako i jiné roboty pak můžete chování GPTBota ovlivnit pomocí souboru robots.txt.
OpenAI má vlastního vyhledávacího robota GPTBot
To, že Váš web navštívil robot společnosti OpenAI poznáte v logu podle tohoto zápisu:
User agent token: GPTBot
Full user-agent
string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
Jak samotná společnost uvádí, indexovaný obsah použije pro trénování nových modelů a robot je zároveň nastavený tak, aby obsah filtroval. Robot se díky filtrům vyhýbá např. webům s placeným obsahem a také neindexuje jakýkoliv text, který porušuje zásady společnosti OpenAI.
Ovlivnit jeho chování můžete klasickými direktivami v souboru robots.txt, které jsou totožné jako u každého jiného vyhledávacího robota.
Jak můžete zakázat indexování obsahu robotem GPTBot
Pokud jste doposud na svůj web neumístili soubor robots.txt, pak stačí, když takový soubor vytvoříte na svém počítači a nahrajete do kořenové složky webu. Pokud chcete GPTBota blokovat, vložte do tohoto souboru tyto direktivy:
User-agent: GPTBot
Disallow: /
Trochu jiný zápis proveďte v případě, kdy chcete robotovi umožnit indexovat pouze část obsahu Vašeho webu a jinou naopak striktně zakázat:
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
V zápisu výše dáváte robotovi najevo, že se může podívat do složky directory-1 a její obsah smí i indexovat. Složka directory-2 je ale pro něj zakázaná a tedy do této složky by se dívat neměl a její obsah indexovat nesmí. Je nutné abych podotknul, že žádný robot nemusí striktně taková pravidla dodržovat. Jde pouze o seznam instrukcí, jak se má chovat, kam může a kam naopak nesmí. Zda bude tato pravidla dodržovat záleží vždy na vývojářích společnosti, která daného robota vlastní a provozuje.
Z jakých IP adres Vás může GPTBot navštívit?
Seznam IP adres serverů, na kterých je robot provozován uvádí OpenAI na svém webu (https://openai.com/gptbot-ranges.txt). Konkrétně jde o tento seznam IP rozsahů:
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
Ip adresy patří všechny do rozsahu Microsoft Azure, kde společnost robota provozuje (díky spolupráci se společností Microsoft, která zároveň poskytuje infrastrukturu pro provoz a také používá Chat GPT 4 ve spolupráci se svým vyhledávačem Bing).
Web je vytvářen s pečlivostí k obsaženým informacím. Snažím se poskytovat kvalitní a užitečný obsah, který ostatním pomáhá, nebo je inspiruje. Pokud jste spokojeni s mou prací a chtěli byste mě podpořit, můžete to udělat prostřednictvím jednoduchých možností.
Byl pro Vás tento článek užitečný?
Klikni na počet hvězd pro hlasování.
Průměrné hodnocení. 0 / 5. Počet hlasování: 0
Zatím nehodnoceno! Buďte první
Je mi líto, že pro Vás nebyl článek užitečný.
Jak mohu vylepšit článek?
Řekněte mi, jak jej mohu zlepšit.
Odebírejte Newsletter
Buďte v obraze! Připojte se k odběru newsletteru a buďte první, kdo získá nejnovější informace přímo do vaší e-mailové schránky. Sledujte aktuality, exkluzivní události a inspirativní obsah, přímo na Vašem e-mailu.