Kan TEE'er sikre LLM-inferens i multicloud-miljøer?
Chatbotten, der svarer dine kunder på sekunder. Den interne copilot, som kondenserer års arkivdata til handlingsklare indsigter. De automatiserede kodeassistent-pipelines, der løfter produktiviteten til nye højder. Generative sprogmodeller (LLM’er) er i fuld gang med at forandre forretningen - men de skaber også et nyt, sprængfarligt angrebsområde, når de skal køre i skyen.
I virkeligheden kører moderne AI-workloads sjældent ét sted. Multicloud giver fleksibilitet, prisoptimering og adgang til de nyeste GPU-typer, men splitter samtidig din sikkerhedsmodel i flere, ofte konkurrerende, tillidsdomæner. Hvordan forhindrer du, at en nysgerrig cloud-administrator, et hypervisor-escape eller en velplaceret sidekanal lækker dine dyrebare modelvægte og personfølsomme prompts?
Enter Trusted Execution Environments (TEE’er) - krypterede øer af hardware-forankret fortrolighed, som lover at skærme både kode og data, mens de er i brug. Men kan de reelt bære det tunge AI-apparat, og hvordan orkestrerer man dem på tværs af AWS, Azure, Google og on-prem edge-klynger?
I denne artikel udforsker IT Forum Danmark | Din hjælpende hånd på nettet:
- Det nye trusselsbillede for LLM-inferens i multicloud-miljøer
- De TEE-teknologier, du allerede kan leje pr. minut - fra Intel TDX til AWS Nitro Enclaves og de første GPU-TEE’er
- Arkitekturmønstre, der kombinerer CPU- og GPU-fortrolighed uden at kvæle performance
- Praktiske råd om attestation, nøglehåndtering og compliance på tværs af clouds
- Grænserne for nutidens løsninger - og hvad der venter rundt om hjørnet af FHE og zkML
Er du klar til at tage springet fra “toy demo” til enterprise-grade AI - uden at gå på kompromis med sikkerheden? Læs med, og få den komplette guide til, hvordan TEE’er kan blive din nye livline i jagten på fortrolig, regulatorisk compliant og fremtidssikker LLM-inferens.
Hvorfor sikre LLM‑inferens i multicloud? Trusselsbillede og forretningskrav
Store sprogmodeller (LLM’er) kan hurtigt blive det centrale konkurrencemiddel - både som proprietær model, som fin-tuned udgave af en åben model eller som prompt-drevet “agent”. Hvis kode, vægte eller kundedata kompromitteres, risikerer virksomheden:
- Tab af intellektuel ejendomsret: Modelarkitektur, træningsdata og fin-tuning repræsenterer år af FoU-investeringer.
- GDPR-bøder og omdømmeskade: Personhenførbare oplysninger (PII) kan “sive” fra prompts, outputs eller cache. Artikel 32 kræver passende tekniske foranstaltninger.
- Sektorregulering: Finans (EBA, DORA), sundhed (NIS2, ISO 27799) eller offentlig sektor har skærpede krav til datalagring og behandlingssted.
- Supply-chain angreb: En kompromitteret runtime eller container kan manipulere inferensen eller plante bagdøre.
Trusselsbillede i skyen
| Trussel | Angrebsvektor | Konsekvens for LLM-inferens |
|---|---|---|
| Cloud-administratorer | Insideradgang til hypervisor, storage snapshots, debug-konsoller | Aflure modelvægte, prompts og tokens i klartekst RAM eller disk |
| Hypervisor-escape | Sårbarhed i KVM/Xen/Hyper-V | Angriber springer ud af VM og læser hele gæste-hukommelsen |
| Co-tenant sidekanaler | Cache-timing, branch predictor, GPU-SM contention | Udleder tokens, attention-mønstre eller hemmelige nøgler |
| DMA/firmware-angreb | Ond USB/NVMe-device, BMC-malware, GPU-flash | Direkte læsning/skrift i gæstehukommelse, persistente bagdøre |
| Læk via output & cache | Prompt-injektion, overudtømmende generering, log-opsamling | Ustruktureret eksfiltrering af PII eller model-hemmeligheder |
Hvad gør multicloud anderledes?
-
Forskellige tillidsrods
Azure bruger Intel SGX/TDX og AMD SEV-SNP; AWS baserer sig på Nitro Hypervisor + Nitro Enclaves; Google tilbyder AMD SEV og snart TPU-baserede TEE’er. Hver leverandør udsteder egne attestation-certifikater, hvilket komplicerer “chain of trust”. -
Geografiske variationer
Dataresidenskrav kan betyde, at franske HR-data kører i Frankrig (GCP Paris), mens japanske kundedata ligger i Osaka (AWS). Ensartet politik-håndhævelse kræver krypterede images og policy-motorer, der forstår lokal lovgivning. -
Fragmenterede compliance-kontroller
Hver cloud har egne metrikker (Azure Policy, AWS Config, Google Assured Workloads). Cross-cloud regelefterlevelse bliver en disciplin i sig selv. -
Øget angrebsflade
Flere konsoller, flere IAM-systemer og flere netværksbaner = flere muligheder for fejlkonfiguration og phishing. -
Lock-in kontra portabilitet
Virksomheder ønsker at kunne flytte en fortrolig inferens-pipeline mellem clouds - men forskellige TEE-API’er, GPU-drivere og key-management-systemer er sjældent kompatible out-of-the-box.
Opsummeret kræver fortrolig LLM-inferens end-to-end isolation - fra prompt til tensor og tilbage - og en konvergeret sikkerhedsmodel, der kan fungere på tværs af flere skyer uden at tabe fart eller fleksibilitet.
Hvad er TEE’er, og hvilke findes i skyen i dag?
Trusted Execution Environments (TEE’er) er hardware-understøttede, isolationszoner i CPU, GPU eller hypervisor, hvor kode kan afvikles med følgende egenskaber:
- Isolering - data og registrer-tilstand er afskåret fra resten af maskinen, selv for root‐brugere og cloud-administratorer.
- Memory-kryptering - alt der forlader chippen (RAM, interconnect) krypteres med nøglemateriale, som kun eksisterer i silicium.
- Remote attestation - kryptografisk bevis på, at den korrekte software kører i et ægte TEE, før nøgler eller modeller frigives.
Markedsoversigt over tee-teknologier i de store skyer
| Teknologi | Nøgleegenskaber | Cloud-tilgængelighed | Fordele | Ulemper |
|---|---|---|---|---|
| Intel SGX | Per-proces enclaves (op til ~128 GB i seneste Xeon); hardware MACs; ECDSA-baseret attestation | Azure DCsv2/3, IBM Cloud Hyper Protect, on-prem | Moden toolchain, fin-kornet isolering | Begrænset RAM, kun enkelte kerner, kræver kode-modifikation (SDK); ikke understøttet i alle nye CPU’er |
| Intel TDX | Hele VM’er i TEE; side-kanal hærdning; kompatibel med eksisterende apps | Coming på Google Cloud og Azure (preview) | Større hukommelse end SGX; ingen behov for SGX-specifik SDK | Stadig early access; attestation-API’er varierer |
| AMD SEV-SNP | VM-baseret kryptering + integritetsbeskyttelse; SHA-384 root-of-trust | Azure Confidential VMs (DCasv5/ECasv5), Google Confidential VMs, OCI, IBM Cloud | Transparente for de fleste OS’er/kontainere; op til flere TB RAM | Attestation via AMD-broker kræver integration; side-kanaler (cache) stadig forskningsområde |
| AWS Nitro Enclaves | Isoleret VM-slice på Nitro-hypervisor; virtio-vsock I/O; KMS-binding | AWS EC2 på de fleste nyere instance-typer | Enkel konfiguration; stærk integration med AWS KMS/ACM | Fungerer kun på AWS; ingen GPU-understøttelse endnu |
| ARM CCA Realms | Chip-generel “Realm” tilstand; hardware-isoleret fra både EL2 (hypervisor) og EL3 (secure monitor) | Planlagt i kommende Graviton-generationer samt on-prem Neoverse-systemer | Lav overhead; designet til cloud-scale attestation (RMM) | Få implementeringer i produktion; tooling umodent |
| NVIDIA H100 Confidential Computing | GPU-baseret memory-kryptering + attestation af GPU-driver og kernels | Forventes i 2024 hos Azure, GCP & OCI | Beskytter tensor-beregninger og modelvægte direkte på GPU’en | Kun H100-generation; økosystem (Triton, CUDA) kræver udvidelser |
Container- og framework-kompatibilitet
- Confidential Containers (CNCF) gør det muligt at køre OCI-images uændret i SEV-SNP, TDX og fremtidigt CCA. Kubernetes-integrationen leveres via CRI-plugin + pod-annotations.
- Gramine, Occlum, Graphene og andre “library OS”-projekter oversætter POSIX-kald til SGX, så Python/Go/Node-apps kan køre i enclaves uden store code-refactors.
- Frameworks som PyTorch, TensorFlow, ONNX Runtime har konfidentielle builds, der bruger Intel SGX orv Gramine, samt SEV-SNP med kørsel i fortrolige VM’er.
- Triton Inference Server implementerer nu eksperimentel support til Nitro Enclaves og SEV-SNP gennem vsock-transport.
Multicloud-portabilitet
Selvom alle leverandører lover “confidential compute”, er root-of-trust, attestation-formater og nøgle-API’er forskellige:
- Intel baserer sig på EPID/ECDSA; AMD bruger ARK/ASK/VMPL; AWS Nitro har egen PCR-model; ARM CCA definerer Realm Attestation Token.
- IETF RATS og OASIS CCA-X.509 profiler er på vej til at standardisere attestations-tokens, så et Key Broker Service kan validere på tværs af clouds.
- Projekter som Enarx, ParagonIE Biscuit og SPIFFE/SPIRE tilbyder abstraheret identitet, så samme image kan køre i SGX lokalt og SEV-SNP i skyen.
For LLM-inferens betyder det, at modelvægte, tokenizer og KV-cache kan holdes fortrolige - men DevOps-holdet skal vælge den laveste fællesnævner på tværs af clouds eller indbygge adaptere for attestationsformat. De fleste organisationer starter derfor med én primær cloud-TEE og bygger et key brokering-lag, der senere kan udvides til flere leverandører.
Arkitekturmønstre for fortrolig LLM‑inferens på tværs af clouds
Den mest robuste måde at indkapsle en LLM-pipeline i et multicloud-miljø er at kombinere en fortrolig container i et CPU-baseret TEE (fx Intel TDX eller AMD SEV-SNP) med en dedikeret GPU-TEE (AWS Nitro TPU, NVIDIA H100 Confidential Computing, m.fl.).
- Indgående kald landet i en API-gateway, som terminerer mTLS og videresender krypterede protobuf-payloads.
-
Tokenizer-/controller-containeren kører som en Confidential Pod i Kubernetes. Den:
- verificerer brugertokens (OIDC/JWT)
- udfører prompt-sanitering & tokenizer-step
- styrer batch-/kvantiseringsparametre pr. session
- Modelvægt-dechifrering foregår kun efter vellykket remote attestation. Vægtene ligger krypteret i et virksomheds-KMS og hentes ved behov via Key Broker Service (KBS).
- Tensorberegningerne køres inde i GPU-TEE’en, som eksponerer et “fortroligt MIG-slot” til hver pod. Memory-kryptering sikrer både vægte og KV-cache, mens DMA-blokkering stanser værts-inspektion.
- Streamet inferens leverer tokens løbende via gRPC-streaming med end-to-end-krypteret datapipeline, så ingen plaintext forlader enclaven - heller ikke midlertidige logits.
Fortrolig rag-pipeline
Retrieval-Augmented Generation (RAG) stiller yderligere krav:
- Embeddings genereres i CPU-TEE’en og sendes krypteret til en fortrolig vektordatabank (Milvus + SGX, Pinecone Confidential, el.lign.).
- Selve søgeforespørgslen sker in-enclave, så udtrukne kontekster aldrig persisteres åbent.
- Top-k-resultaterne svejses sammen med brugerprompten og sendes videre til GPU-TEE-inferens uden at bryde fortroligheden.
Data- og nøglestrømme
| Trin | Kanal | Krypteringsstatus | Politik-kontrol |
|---|---|---|---|
| 1. API-kald | mTLS/HTTP2 | E2E | OPA Policy: Geo-check |
| 2. Modelvægt pull | KBS + TEE-DH | Envelope-crypto | Attestation hash-match |
| 3. Embedding storage | gRPC over QUIC | E2E + Disk-AES-GCM | Row-level GDPR-tags |
| 4. KV-cache spill | GPU HBM | On-die AES-XTS | Runtime quota |
| 5. Streamet svar | mTLS/gRPC | E2E | Logging: Hash-only |
Stateless vs. Stateful beskyttelse
En vigtig designbeslutning er, om KV-cache og session-state skal
- holde sig fuldt in-memory i GPU-TEE’en (lav latenstid, høj pris)
- eller spille ud til et krypteret, transient NVMe-drev (billigere, men side-channel-risiko).
Flere teams vælger en hybrid, hvor de første N tokens forbliver in-enclave, mens resterende cache krypteres med nøgle rullet pr. request.
Multicloud-policy for dataresidens og modelversionering
Forskellige clouds har ofte separate root-of-trust-kæder. En praktisk governance-model kan skitseres sådan:
- Cross-cloud SPIFFE identiteter binder pod-attestationer til organisationens PKI.
-
OPA/Gatekeeper injicerer policies ved deploy-tid:
-
residens: vægte med “EU-ONLY” tag må kun dekrypteres på clusters label’et
region=eu -
versionering: produktion må kun køre signed images med
semver.patch % 2 == 0
-
residens: vægte med “EU-ONLY” tag må kun dekrypteres på clusters label’et
- SBOM-koppling sikrer, at model-artefakter i hver cloud matcher en centralt publiceret checksum.
Streaming uden læk
Selv om tokens afleveres fortløbende, skal man gardere sig mod timing-/traffic-analyse. Populære teknikker:
- padding af gRPC-frames til fast størrelse
- randomiseret inter-token delay (under 5 ms jitter) for høj-sikkerheds workloads
- kombineret rate-limiter & detokenizer på klient-siden for at hindre model-replay.
Opsummering
Ved at koble CPU- og GPU-baserede TEE-teknologier, orkestrere dem med fortrolige containere og disciplinere data-/nøglestrømme med attestation og policy, kan organisationer opnå ende-til-ende fortrolighed for LLM-inferens på tværs af mange skyudbydere. Løsningen er ikke gratis - hver ekstra isolationslag koster latency, RAM og GPU-kvoter - men giver en realistisk vej til at møde både IP-beskyttelse, sektorregulering og kommende EU-AI-lovgivning uden at ofre multicloud-fleksibilitet.
Attestation, nøgler og orkestrering i praksis
Når en LLM-workload skal køre fortroligt på tværs af flere skyer, bliver attestation-workflowet selve navlestrengen mellem en beskyttet runtime og de hemmeligheder, den har brug for. Nedenfor gennemgår vi de vigtigste byggeklodser - fra måling af kode til udstedelse af nøgler, orkestrering, audit og politik.
- Remote attestation som adgangsbillet
- Hver TEE - hvad enten det er en AMD SEV-SNP-VM, en Nitro Enclave eller en Intel TDX-guest - udstiller en målbar firmware-rapport (PCR-hashes, chip-certifikater m.m.).
- Rapporten sendes til en attestation-service (Azure Attestation, AWS Nitro Attestation,
veraisonon-prem) som validerer signaturen op mod producentens CA. - Når målingen matcher en godkendt policy hash, udstedes et signed Evidence Consumption Token (EAT JWT eller COSE-signeret) som bevis for at koden kører i en godkendt TEE.
- Nøgleudlevering via KMS/Key Broker
Komponent Rolle KMS (AWS KMS, Azure Key Vault, GCP KMS) Opbevarer krypterede model- og API-nøgler Key Broker Service (KBS) Verificerer EAT, udpakker policy claims og udleverer dekrypteringsnøgler til korrekt TEE-instans Tenant Policy Definerer *hvilke* TEEs (målinger, region, cloud) der må få adgang til *hvilke* nøgler Først når attestation er godkendt, får Pod’en en short-lived data-key, der dekrypterer modelvægte, RAG-vektorer eller prompt-cache.
- Supply-chain-sikring før første byte
- Signerede images: Cosign/Notary v2 signaturer kontrolleres af admissions-kontrol, før Pod’en schedule’s.
- SBOM: CycloneDX- eller SPDX-manifest følger containeren og matches op mod CVE-feeds.
- SLSA Level 2-4: GitHub Actions, Tekton Pipelines eller GitLab CI udsteder provenance-attester (in-toto) som del af build’en.
- Kubernetes-orkestrering med Confidential Containers
- Kata Containers eller CC Runtime kører hver Pod i sin egen SNP-/TDX-VM.
- En
RuntimeClass(fxconfidential-guest) styrer schedulering på noder med TEE-støtte. -
initContainershenter model-artefakter via KBS, hvorefter main container starter inferens-serveren (vLLM, TensorRT-LLM m.fl.).
- Identitetslag med SPIFFE/SPIRE
- Pod’en præsenterer sin TEE-attestation til SPIRE Server.
- Serveren udsteder en X.509- eller JWT-SVID (
spiffe://org/llm-service/pod-123), der bruges til mTLS mellem microservices - også på tværs af clouds.
- IETF RATS/EAT end-to-end flow
- Evidence (TEE-rapport) → Verifier (cloud attestation-service)
- Verifier sender et Attestation Result (EAT) til Relying Party (KBS/KMS).
- Relying Party udleverer nøgler & politikker baseret på claims (hash, region, tenant-id).
Dermed taler CPU- og GPU-TEE’er samme sprog - uanset om de kører i AWS eller GCP.
- Audit-logning & politikhåndhævelse
- OPA Gatekeeper validerer, at Pods kun kører i godkendte regioner og med signeret kode.
- Attestation-resultater sendes til SIEM (Elastic, Splunk, Azure Sentinel) samt immutabel log (Sigstore Rekor, AWS Audit Manager).
- Mønstre for cross-cloud trust
- Federeret nøgle-broker: Central KBS udsteder nøgler til edge-KBS’er i hver cloud - least privilege via tenant-scopes.
- Policy as Code: Samme Rego-politikker versioneres i Git og pushes til Gatekeeper-instanser i alle skyer.
- Mesh-gateway: Istio + SPIFFE forbinder TEE-workloads over private links med automatisk cert-rotation.
Med dette setup opnås en kæde af tillid fra firmware til applikation, hvor hver komponent kan bevises og revokeres individuelt - en forudsætning for at drifte fortrolig LLM-inferens i et ægte multicloud-landskab.
Begrænsninger, omkostninger og vejen frem
Fortrolig inferens er dyrere end almindelig cloud-drift - både i kroner, watt og ventetid.
- GPU-tilgængelighed: Konfidentielle GPU-instanser (fx NVIDIA H100 CC eller AMD-kort med SEV-SNP) er endnu kun forhåndstilgængelige i få regioner. Multicloud-strategien må derfor tage højde for capacity busting og køsystemer. Mange teams kombinerer CPU-TEE’er til tokenizer/kv-cache og lejer ufortrolige GPU’er til “kolde” batch-jobs - en afvejning af fortrolighed vs. throughput.
- Overhead: Kryptering af hukommelse og kontekstskift mellem TEE-world og normal-world koster typisk
2-8 %CPU og5-15 %GPU-ydelse. Ved streamet generering kan latens stige yderligere pga. krypteret I/O. - Hukommelsesgrænser: Enclaves har ofte
<1 TBfysisk adresserum og kan være begrænset til 64-256 GB on-package krypteret RAM. Store sprogmodeller (70B+) kræver derfor tensor-parallel eller offload til delt, men krypteret, VRAM - et område hvor GPU-TEE-teknologien stadig modnes.
Sidekanaler og prompt-baseret datalæk
Selv om hukommelsen er krypteret, kan angribere aflure data via tidsmålinger, energiforbrug og model-output:
- Microarchitectural leaks: Cache-evictions, branch predictor eller DMP. Løsninger: frekvenspinning, page-lock randomisering og dataparallel “noisy” padding.
- Co-tenant sidekanaler: Isolér GPU’er pr. tenant og brug IOMMU + DMA-beskyttelse. In-flight re-encryption mellem CPU- og GPU-TEE begrænser DMA-høsting.
- Prompt injection & training data leaks: Kombinér policy-styret
input-output filter(Rego/OPA) med RAG-tjek (red teaming) og watermarking af output.
Driftsmæssig kompleksitet
Attestationstrin, nøglehåndtering og specialiseret hardware skaber nye “run books”:
| Udfordring | Mulige afbødelser |
|---|---|
| Pod-schedulering på tværs af clouds | Kubernetes med RuntimeClass=cc-runtime og topology-aware scheduling. |
| Nuuva-attestationsflow | Brug IETF RATS + SPIFFE/SPIRE - én identitet pr. enclave, uafhængig af cloud-leverandør. |
| Fejlsøgning | Skaf out-of-band logging via sidecar, signér logs og send til SIEM gennem krypteret side-channel. |
Standarder og økosystem
Der er lys for enden af siloen:
- Confidential Computing Consortium (CCC) driver referenceimplementeringer af
cc-runtime,Key Broker Serviceog det nye Enarx-projekt. - OCCP søger at normalisere attestation-tokens over Intel TDX, AMD SEV-SNP og ARM CCA.
- Cloud-udbydere publicerer attestation evidence format converters, så en Azure TEE kan attesteres fra en AWS KMS og omvendt.
Fremtidige spor
- ZK-beviser & zkML: Giver kryptografisk garanti for korrekt inferens uden læk af vægte. Egnet til mindre modeller pga. tunge provers (
O(n log n)). - Fuld homomorf kryptering (FHE): Intet leaker, men million-gange langsommere på GPT-skala. Tidlig anvendelse: privat sentiment-analyse eller embedding-beregninger.
- Hybrid-tiltag: TEE til stateful kontekst + FHE til små, følsomme felter; ZK-beviser til audit af outputintegritet.
Praktisk roadmap til gradvis multicloud-adoption
- Step 1: Pilotér CPU-baseret TEE for tokenizer og KV-cache i én cloud. Mål latens og nøgleflow.
- Step 2: Introducér bring-your-own-GPU med delt nøglebroker. Evaluér om modelsplit (encoder i CPU, decoder i GPU) er nok til at opfylde regulatoriske krav.
-
Step 3: Standardisér build-pipeline med SBOM + SLSA
level 3-4, og håndhæv RATS-baseret policy i OPA/Gatekeeper. - Step 4: Udrul cross-cloud DR med identiske container-images, replikér KMS-nøgler via HSM-backed escrow.
- Step 5: Eksperimentér med zkML/FHE på afgrænsede, højsikre workloads - fx finansiel risikomodellering - og brug erfaringerne til at justere cost-/risk-balancen.
Med andre ord: Start småt, mål alt, og lad formålet - ikke hardware-hypen - styre hvor, hvornår og hvor dybt fortrolig computing integreres i multicloud-strategien.
Indholdsfortegnelse
- Hvorfor sikre LLM‑inferens i multicloud? Trusselsbillede og forretningskrav
- Hvad er TEE’er, og hvilke findes i skyen i dag?
- Markedsoversigt over tee-teknologier i de store skyer
- Container- og framework-kompatibilitet
- Multicloud-portabilitet
- Arkitekturmønstre for fortrolig LLM‑inferens på tværs af clouds
- Fortrolig rag-pipeline
- Data- og nøglestrømme
- Stateless vs. Stateful beskyttelse
- Multicloud-policy for dataresidens og modelversionering
- Streaming uden læk
- Opsummering
- Attestation, nøgler og orkestrering i praksis
- Begrænsninger, omkostninger og vejen frem