GK SERVIS
+420 775 026 983 Nezávazná konzultace
← Zpět na GK SERVIS

Privátní LLM cluster: Bilionové modely, nulová závislost na cloudu

Někteří zákazníci nemohou posílat data do OpenAI nebo Anthropic. Postavili jsme 4-uzlový Mac Studio cluster s Thunderbolt 5 RDMA, který provozuje bilionové modely lokálně — 28 tok/s, plně privátně, žádná data neopouštějí budovu.

4

Mac Studio uzly
(M4 Ultra)

1 TB

Sdílená paměť
(poolovaná přes RDMA)

28+

Tokenů/sekundu
(Kimi K2, 1T parametrů)

0

Data odeslaná do cloudu
(plně on-premise)

4 Mac Studia namontovaná v racku s Thunderbolt 5 propojením

Problém

Podnikoví zákazníci ve financích, obraně, zdravotnictví a právních službách potřebují schopnosti LLM, ale nemohou posílat proprietární data do cloudových API. Regulatorní požadavky, omezení NDA a bezpečnostní politiky to zakazují. Alternativy — pronájem GPU clusterů nebo nákup Nvidia DGX hardwaru — stojí stovky tisíc a vyžadují specializované DevOps týmy.

Konkrétní výzvy:

  • Datová suverenita — zákaznická data nesmí nikdy opustit on-premise prostředí, ani do EU datového centra
  • Velikost modelu vs. hardware — nejlepší open-weight modely (Kimi K2, DeepSeek V3, Qwen3 235B) vyžadují 500 GB–1 TB+ paměti, kterou žádný jednotlivý stroj nenabízí
  • Cena Nvidia cesty — H100 cluster s ekvivalentní VRAM stojí 5–10× více, potřebuje vodní chlazení a spotřebovává kilowatty
  • Provozní jednoduchost — zákazník potřebuje inferenční endpoint, ne CUDA/Linux administrační projekt

Co jsme postavili

4-uzlový Mac Studio cluster s čipy Apple M4 Ultra, propojený přes Thunderbolt 5 s povoleným RDMA (Remote Direct Memory Access). Cluster sdílí 1 TB unifikované paměti napříč uzly, což umožňuje načítat a provozovat modely, které by žádný jednotlivý stroj nezvládl.

Hardwarová topologie

  • 4× Mac Studio M4 Ultra (256 GB) — inferenční uzly s tensor shardingem
  • Thunderbolt 5 mesh — 50–60 Gbps reálná propustnost, <50µs latence s RDMA
  • 10 GbE Ethernet — správcovská síť a záložní cesta
  • Spotřeba — pod 250 W celkem pro 4 uzly (idle <40 W)
EXO rozhraní distribuované inference zobrazující 4-uzlovou topologii s MLX RDMA

Distribuovaná inference s EXO

Používáme EXO (open-source, Apache 2.0) pro orchestraci distribuované inference. EXO rozděluje vrstvy modelu napříč uzly pomocí tensor paralelismu přes MLX RDMA — každé Mac Studio drží fragment modelu v unifikované paměti a inferenční požadavky procházejí clusterem transparentně.

  • Tensor strategie (MLX RDMA) — váhy modelu jsou rozděleny na úrovni tenzorů, což umožňuje skutečný paralelní výpočet
  • Automatické rozpoznání topologie — EXO detekuje všechny uzly a jejich dostupnou paměť, přiřazuje fragmenty automaticky
  • OpenAI-kompatibilní API — drop-in náhrada pro jakoukoli aplikaci používající OpenAI SDK
  • Webové rozhraní — vestavěný chat s monitoringem vytížení uzlů, teploty a propustnosti v reálném čase

Modely v produkci

Cluster provozuje několik velkých open-weight modelů podle potřeb zákazníků:

  • MiniMax 2.5 — primární produkční model pro zákaznické inferenční úlohy
  • Kimi K2 Thinking (1T parametrů) — 28,3 tok/s, TTFT 570 ms — úlohy náročné na uvažování a komplexní analýzy
  • Qwen3 235B (8-bit) — 26,3 tok/s, TTFT 685 ms — vícejazyčné úlohy, kódování a obecná inference

Architektura clusteru

4× Mac Studio

M4 Ultra · 1 TB

Thunderbolt 5

RDMA · <50µs

EXO + MLX

Tensor paralelismus

OpenAI API

Drop-in kompatibilní

100% on-premise
Bilionové modely
<250 W celková spotřeba

Proč Mac Studio, ne Nvidia?

Rozhodnutí se odvíjí od hustoty paměti na dolar a provozní jednoduchosti. Architektura unifikované paměti Apple znamená, že GPU a CPU sdílejí stejný fond paměti — 256 GB unifikované paměti na jednom Mac Studiu je využitelná VRAM, ne systémová RAM, kterou je třeba kopírovat na oddělenou GPU.

  • Cena — 1 TB využitelné VRAM za ~$30K oproti $200K+ za ekvivalentní Nvidia H100 sestavu
  • Spotřeba — 250 W pro 4 uzly oproti 2 800 W+ pro 4× H100 GPU samotné (bez hostitelských systémů a chlazení)
  • Hluk — Mac Studia jsou tichá, mohou stát v kanceláři. Žádná serverovna ani vodní chlazení
  • Údržba — aktualizace macOS, žádné ladění CUDA ovladačů, žádné problémy s kompatibilitou Linux jádra

Kompromis je surový výkon — Nvidia GPU jsou rychlejší pro trénování a inference s vysokou souběžností. Ale pro jednotenantní privátní inferenci, kde je úzkým hrdlem kapacita paměti (vejít se s modelem), nikoli FLOPS, Mac Studio cluster vyhrává na celkových nákladech na vlastnictví.

Technologický stack

Apple M4 Ultra Thunderbolt 5 RDMA EXO distribuovaná inference Apple MLX MiniMax 2.5 Kimi K2 (1T) Qwen3 235B OpenAI-kompatibilní API 10 GbE Ethernet

Technické detaily

RDMA přes Thunderbolt 5

Standardní TCP síťování přidává 300µs+ latenci na hop — nepřijatelné, když se tensor fragmenty potřebují synchronizovat tisíckrát za jeden inferenční průchod. Thunderbolt 5 RDMA to snižuje pod 50µs obcházením OS síťového stacku. Paměť uzlu A je přímo čitelná uzlem B, jako by byla lokální.

Povolení RDMA na macOS vyžaduje nabootování do recovery módu a spuštění rdma_ctl enable na každém uzlu. Mesh topologie propojuje všechny 4 uzly přímo — žádný switch není potřeba (Thunderbolt 5 switche zatím neexistují).

Tensor paralelismus s MLX

Framework MLX od Apple je optimalizovaný pro architekturu unifikované paměti Apple Silicon. Na rozdíl od PyTorch nebo TensorFlow se MLX vyhýbá zbytečným kopiím paměti mezi CPU a GPU, protože sdílejí stejnou fyzickou paměť. V kombinaci s tensor shardingem EXO je bilionový model rozdělen napříč 4 uzly na úrovni váhových matic, přičemž každý uzel počítá svoji část a vyměňuje si aktivace přes RDMA.

Nasazení a provoz

  • Načtení modelu — stáhnutí z HuggingFace jednou, EXO distribuuje fragmenty na uzly automaticky
  • API endpoint — standardní OpenAI-kompatibilní HTTP endpoint, funguje s jakoukoli klientskou knihovnou
  • Monitoring — webové rozhraní EXO zobrazuje vytížení GPU, teplotu, spotřebu paměti a propustnost v reálném čase
  • Přepínání modelů — výměna modelu během minut, žádná rekompilace ani přestavba kontejnerů

Výsledky

  • 28,3 tok/s na Kimi K2 Thinking (1 bilion parametrů) — konverzační rychlost pro komplexní uvažování
  • 26,3 tok/s na Qwen3 235B (8-bit) — rychlá vícejazyčná inference
  • 570 ms TTFT — čas do prvního tokenu, srovnatelný s latencí cloudových API
  • Nulové riziko úniku dat — modely i data zůstávají on-premise, v případě potřeby i air-gap
  • ~5× levnější než ekvivalentní Nvidia GPU cluster pro paměťově omezené úlohy
  • Vhodný do kanceláře — tichý provoz, standardní zásuvka, žádná serverovna

Klíčové zjištění

Předpoklad, že provozování velkých jazykových modelů vyžaduje drahé Nvidia GPU clustery, je překonaný. Architektura unifikované paměti Apple Silicon v kombinaci s Thunderbolt 5 RDMA a open-source nástroji pro distribuovanou inferenci umožňuje provozovat bilionové modely privátně za zlomek nákladů.

Pro zákazníky, kteří potřebují schopnosti LLM, ale nemohou — nebo nechtějí — posílat data do cloudu, to již není kompromis. Je to konkurenční výhoda: stejná kvalita modelu, stejné API rozhraní, s absolutní kontrolou nad daty.

Potřebujete privátní LLM infrastrukturu?

Navrhujeme a nasazujeme on-premise LLM clustery pro podniky, které potřebují AI bez závislosti na cloudu. Prodiskutujme vaše požadavky.

Nezávazná konzultace

nebo volejte přímo: +420 775 026 983