OpenAI má vlastního vyhledávacího robota GPTBot

Upraveno 9 prosince, 2023 22:49

Stejně tak, jako internet prohledává Google, Yahoo nebo ruský Yandex, tak nyní do rodiny dalších vyhledávacích robotů přibyl i GPTBot. Společnost OpenAI ho vypustila na internet z prostého důvodu. Bude indexovat obsah webů a informace společnost použije pro vývoj a trénování nových modelů z rodiny GPT. Společnost OpenAI má vlastního vyhledávacího robota GPTBot provozovaného konkrétně na serverech společnosti Microsoft, se kterou úzce spolupracuje. Stejně, jako i jiné roboty pak můžete chování GPTBota ovlivnit pomocí souboru robots.txt.

OpenAI má vlastního vyhledávacího robota GPTBot

To, že Váš web navštívil robot společnosti OpenAI poznáte v logu podle tohoto zápisu:

				
					User agent token: GPTBot
Full user-agent 
string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
				
			

Jak samotná společnost uvádí, indexovaný obsah použije pro trénování nových modelů a robot je zároveň nastavený tak, aby obsah filtroval. Robot se díky filtrům vyhýbá např. webům s placeným obsahem a také neindexuje jakýkoliv text, který porušuje zásady společnosti OpenAI.

Ovlivnit jeho chování můžete klasickými direktivami v souboru robots.txt, které jsou totožné jako u každého jiného vyhledávacího robota.

Jak můžete zakázat indexování obsahu robotem GPTBot

Pokud jste doposud na svůj web neumístili soubor robots.txt, pak stačí, když takový soubor vytvoříte na svém počítači a nahrajete do kořenové složky webu. Pokud chcete GPTBota blokovat, vložte do tohoto souboru tyto direktivy:

				
					User-agent: GPTBot
Disallow: /
				
			

Trochu jiný zápis proveďte v případě, kdy chcete robotovi umožnit indexovat pouze část obsahu Vašeho webu a jinou naopak striktně zakázat:

				
					User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
				
			

V zápisu výše dáváte robotovi najevo, že se může podívat do složky directory-1 a její obsah smí i indexovat. Složka directory-2 je ale pro něj zakázaná a tedy do této složky by se dívat neměl a její obsah indexovat nesmí. Je nutné abych podotknul, že žádný robot nemusí striktně taková pravidla dodržovat. Jde pouze o seznam instrukcí, jak se má chovat, kam může a kam naopak nesmí. Zda bude tato pravidla dodržovat záleží vždy na vývojářích společnosti, která daného robota vlastní a provozuje.

Z jakých IP adres Vás může GPTBot navštívit?

Seznam IP adres serverů, na kterých je robot provozován uvádí OpenAI na svém webu (https://openai.com/gptbot-ranges.txt). Konkrétně jde o tento seznam IP rozsahů:

				
					20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
				
			

Ip adresy patří všechny do rozsahu Microsoft Azure, kde společnost robota provozuje (díky spolupráci se společností Microsoft, která zároveň poskytuje infrastrukturu pro provoz a také používá Chat GPT 4 ve spolupráci se svým vyhledávačem Bing).

Web je vytvářen s pečlivostí k obsaženým informacím. Snažím se poskytovat kvalitní a užitečný obsah, který ostatním pomáhá, nebo je inspiruje. Pokud jste spokojeni s mou prací a chtěli byste mě podpořit, můžete to udělat prostřednictvím jednoduchých možností.

Byl pro Vás tento článek užitečný?

Klikni na počet hvězd pro hlasování.

Průměrné hodnocení. 0 / 5. Počet hlasování: 0

Zatím nehodnoceno! Buďte první

Jak užitečný vidíte tento článek.

Sledujte mě na sociálních médiích.

Je mi líto, že pro Vás nebyl článek užitečný.

Jak mohu vylepšit článek?

Řekněte mi, jak jej mohu zlepšit.

newsletter

Odebírejte Newsletter

Buďte v obraze! Připojte se k odběru newsletteru a buďte první, kdo získá nejnovější informace přímo do vaší e-mailové schránky. Sledujte aktuality, exkluzivní události a inspirativní obsah, přímo na Vašem e-mailu.  

Odebírat
Upozornit na
guest
0 Komentáře/ů
Vložené zpětné vazby.
Zobrazit všechny komentáře.

Pokud mi chcete napsat rychlou zprávu, využije, prosím, níže uvedený
kontaktní formulář. Děkuji.

Další Kontaktní údaje