AI GPU v roce 2026: dostupnost je strategie, ne nákup

Debata o AI infrastruktuře se často zužuje na otázku, kolik stojí jedna GPU hodina. To je krátkozraké. V roce 2026 je důležitější dostupnost, rezervace, síť, úložiště, energetika, latence, datová lokalita a schopnost škálovat bez výpadků. NVIDIA H200, B200 a celé systémy kolem Blackwellu jsou pro velké modely zásadní, ale pro většinu českých firem není správná otázka, zda si je koupit. Správná otázka je, které workloady mají běžet kde.

H200 a B200 nejsou jen rychlejší čipy

NVIDIA u H200 uvádí 141 GB paměti HBM3e a propustnost 4,8 TB/s. To je významné hlavně pro inference a práci s velkými modely, kde paměť a propustnost často omezují throughput více než čistý počet operací. U Blackwell B200 veřejné materiály výrobců serverů uvádějí 180 GB HBM3e na GPU. Tato čísla vysvětlují, proč se trh přesouvá od jednotlivých karet k celým HGX a rackovým konfiguracím.

Česká firma ale obvykle nepotřebuje začít osmigpu serverem. Potřebuje vědět, zda řeší jednorázové experimenty, pravidelný fine-tuning, interní RAG inference, real-time produktovou funkci nebo citlivý on-premise provoz. Každý scénář má jinou ekonomiku. Experiment snese cloud a přerušitelnost. Kritická inference potřebuje dostupnost a monitoring. Citlivá data mohou vyžadovat evropské nebo lokální zpracování.

Cloud cena je jen první řádek

Veřejné ceníky a GPU indexy v roce 2026 ukazují, že H200 se v cloudu pohybuje v jednotkách dolarů za GPU hodinu, často podle závazku, regionu a typu instance. Přesné ceny se rychle mění a nejsou dobře srovnatelné bez zahrnutí síťových poplatků, úložiště, minimálních rezervací a dostupnosti. U B200 je situace ještě citlivější, protože kapacita bývá přednostně alokovaná velkým zákazníkům a hyperscalerům.

Pro CFO je důležité počítat celkový náklad na workload, ne cenu akcelerátoru. Batch inference může být levnější v noci nebo na rezervované kapacitě. Nízká latence pro zákaznický produkt může ospravedlnit dražší region. Vlastní server může dávat smysl při stabilní vytíženosti, ale jen pokud firma zvládne chlazení, servis, bezpečnost a rychlé nahrazení výpadku.

Lokální datacentra budou řešit inference

V Česku a střední Evropě bude větší poptávka po lokální AI kapacitě hlavně kvůli inferenci nad citlivými daty, ne kvůli trénování základních modelů. Banky, zdravotnictví, průmysl a veřejný sektor budou chtít menší, kontrolovaná prostředí pro RAG, klasifikaci, sumarizaci a interní asistenty. To neznamená, že každý podnik bude mít vlastní B200 cluster. Spíš vzniknou hybridní modely: citlivá inference blízko dat, velké experimenty v globálním cloudu.

Lokální provoz má ale nepříjemnou vlastnost: odhalí všechny neAI problémy infrastruktury. Napájení, chlazení, fyzická bezpečnost, upgrade ovladačů, sledování vytížení, plánování front a dostupnost lidí, kteří rozumí CUDA stacku. GPU server není kancelářský hardware. Je to provozní závazek.

Velké firmy proto začínají řešit i kapacitní governance. Kdo smí spustit drahý job, jak se prioritizuje inference pro zákazníky proti experimentu datového týmu, kdy se používá menší model a kdy špičková GPU, jak se účtuje spotřeba interním týmům. Bez těchto pravidel se cloudový účet stane směsí prototypů, zapomenutých endpointů a produkčních služeb. Hardware strategie je tak zároveň finanční kontrola a produktové rozhodování.

U menších firem dává často větší smysl začít optimalizací než nákupem kapacity. Kvantizace, batching, cache, kratší kontext, menší specializovaný model nebo přesun části úlohy do klasického vyhledávání mohou snížit náklady rychleji než vyjednávání o nové instanci. GPU je drahé řešení problému, který někdy vznikl špatným návrhem aplikace.

To platí zvlášť pro interní asistenty.

Co to znamená

Proč na tom záleží: nedostatek GPU se v roce 2026 nebude projevovat jen tím, že něco nejde koupit. Projeví se tím, že týmy budou navrhovat produkty podle toho, jakou kapacitu mohou reálně garantovat. AI roadmapa bez infra roadmapy je jen seznam přání.

Praktický postup je rozdělit workloady do tří tříd. První: experimenty a prototypy, které mohou běžet v běžném cloudu s limity. Druhá: produkční inference, kde je potřeba SLA, monitoring, cache, batchování a fallback. Třetí: citlivé nebo regulované workloady, kde rozhoduje lokalita dat, audit a kontrola dodavatele. Teprve pak má smysl řešit, zda H200, B200, alternativní GPU nebo specializovaný inference čip.

Hardware strategie pro AI není o tom vlastnit nejnovější kartu. Je o tom neplatit prémiovou cenu za špatně navržený workload. Modely se budou zmenšovat, kvantizovat a specializovat. Poptávka po špičkových GPU ale nezmizí, protože nároky na objem inference porostou. Českým firmám se vyplatí méně sledovat titulky o kapacitě a více měřit vlastní tokeny, latenci, špičky, cache hit rate a cenu jedné užitečné odpovědi.