Kan TEE'er sikre LLM-inferens i multicloud-miljøer?

Chatbotten, der svarer dine kunder på sekunder. Den interne copilot, som kondenserer års arkivdata til handlingsklare indsigter. De automatiserede kodeassistent-pipelines, der løfter produktiviteten til nye højder. Generative sprogmodeller (LLM’er) er i fuld gang med at forandre forretningen - men de skaber også et nyt, sprængfarligt angrebsområde, når de skal køre i skyen.

I virkeligheden kører moderne AI-workloads sjældent ét sted. Multicloud giver fleksibilitet, prisoptimering og adgang til de nyeste GPU-typer, men splitter samtidig din sikkerhedsmodel i flere, ofte konkurrerende, tillidsdomæner. Hvordan forhindrer du, at en nysgerrig cloud-administrator, et hypervisor-escape eller en velplaceret sidekanal lækker dine dyrebare modelvægte og personfølsomme prompts?

Enter Trusted Execution Environments (TEE’er) - krypterede øer af hardware-forankret fortrolighed, som lover at skærme både kode og data, mens de er i brug. Men kan de reelt bære det tunge AI-apparat, og hvordan orkestrerer man dem på tværs af AWS, Azure, Google og on-prem edge-klynger?

I denne artikel udforsker IT Forum Danmark | Din hjælpende hånd på nettet:

Det nye trusselsbillede for LLM-inferens i multicloud-miljøer
De TEE-teknologier, du allerede kan leje pr. minut - fra Intel TDX til AWS Nitro Enclaves og de første GPU-TEE’er
Arkitekturmønstre, der kombinerer CPU- og GPU-fortrolighed uden at kvæle performance
Praktiske råd om attestation, nøglehåndtering og compliance på tværs af clouds
Grænserne for nutidens løsninger - og hvad der venter rundt om hjørnet af FHE og zkML

Er du klar til at tage springet fra “toy demo” til enterprise-grade AI - uden at gå på kompromis med sikkerheden? Læs med, og få den komplette guide til, hvordan TEE’er kan blive din nye livline i jagten på fortrolig, regulatorisk compliant og fremtidssikker LLM-inferens.

Hvorfor sikre LLM‑inferens i multicloud? Trusselsbillede og forretningskrav

Store sprogmodeller (LLM’er) kan hurtigt blive det centrale konkurrencemiddel - både som proprietær model, som fin-tuned udgave af en åben model eller som prompt-drevet “agent”. Hvis kode, vægte eller kundedata kompromitteres, risikerer virksomheden:

Tab af intellektuel ejendomsret: Modelarkitektur, træningsdata og fin-tuning repræsenterer år af FoU-investeringer.
GDPR-bøder og omdømmeskade: Personhenførbare oplysninger (PII) kan “sive” fra prompts, outputs eller cache. Artikel 32 kræver passende tekniske foranstaltninger.
Sektorregulering: Finans (EBA, DORA), sundhed (NIS2, ISO 27799) eller offentlig sektor har skærpede krav til datalagring og behandlingssted.
Supply-chain angreb: En kompromitteret runtime eller container kan manipulere inferensen eller plante bagdøre.

Trusselsbillede i skyen

Trussel	Angrebsvektor	Konsekvens for LLM-inferens
Cloud-administratorer	Insideradgang til hypervisor, storage snapshots, debug-konsoller	Aflure modelvægte, prompts og tokens i klartekst RAM eller disk
Hypervisor-escape	Sårbarhed i KVM/Xen/Hyper-V	Angriber springer ud af VM og læser hele gæste-hukommelsen
Co-tenant sidekanaler	Cache-timing, branch predictor, GPU-SM contention	Udleder tokens, attention-mønstre eller hemmelige nøgler
DMA/firmware-angreb	Ond USB/NVMe-device, BMC-malware, GPU-flash	Direkte læsning/skrift i gæstehukommelse, persistente bagdøre
Læk via output & cache	Prompt-injektion, overudtømmende generering, log-opsamling	Ustruktureret eksfiltrering af PII eller model-hemmeligheder

Hvad gør multicloud anderledes?

Forskellige tillidsrods
Azure bruger Intel SGX/TDX og AMD SEV-SNP; AWS baserer sig på Nitro Hypervisor + Nitro Enclaves; Google tilbyder AMD SEV og snart TPU-baserede TEE’er. Hver leverandør udsteder egne attestation-certifikater, hvilket komplicerer “chain of trust”.
Geografiske variationer
Dataresidenskrav kan betyde, at franske HR-data kører i Frankrig (GCP Paris), mens japanske kundedata ligger i Osaka (AWS). Ensartet politik-håndhævelse kræver krypterede images og policy-motorer, der forstår lokal lovgivning.
Fragmenterede compliance-kontroller
Hver cloud har egne metrikker (Azure Policy, AWS Config, Google Assured Workloads). Cross-cloud regelefterlevelse bliver en disciplin i sig selv.
Øget angrebsflade
Flere konsoller, flere IAM-systemer og flere netværksbaner = flere muligheder for fejlkonfiguration og phishing.
Lock-in kontra portabilitet
Virksomheder ønsker at kunne flytte en fortrolig inferens-pipeline mellem clouds - men forskellige TEE-API’er, GPU-drivere og key-management-systemer er sjældent kompatible out-of-the-box.

Opsummeret kræver fortrolig LLM-inferens end-to-end isolation - fra prompt til tensor og tilbage - og en konvergeret sikkerhedsmodel, der kan fungere på tværs af flere skyer uden at tabe fart eller fleksibilitet.

Hvad er TEE’er, og hvilke findes i skyen i dag?

Trusted Execution Environments (TEE’er) er hardware-understøttede, isolationszoner i CPU, GPU eller hypervisor, hvor kode kan afvikles med følgende egenskaber:

Isolering - data og registrer-tilstand er afskåret fra resten af maskinen, selv for root‐brugere og cloud-administratorer.
Memory-kryptering - alt der forlader chippen (RAM, interconnect) krypteres med nøglemateriale, som kun eksisterer i silicium.
Remote attestation - kryptografisk bevis på, at den korrekte software kører i et ægte TEE, før nøgler eller modeller frigives.

Markedsoversigt over tee-teknologier i de store skyer

Teknologi	Nøgleegenskaber	Cloud-tilgængelighed	Fordele	Ulemper
Intel SGX	Per-proces enclaves (op til ~128 GB i seneste Xeon); hardware MACs; ECDSA-baseret attestation	Azure DCsv2/3, IBM Cloud Hyper Protect, on-prem	Moden toolchain, fin-kornet isolering	Begrænset RAM, kun enkelte kerner, kræver kode-modifikation (SDK); ikke understøttet i alle nye CPU’er
Intel TDX	Hele VM’er i TEE; side-kanal hærdning; kompatibel med eksisterende apps	Coming på Google Cloud og Azure (preview)	Større hukommelse end SGX; ingen behov for SGX-specifik SDK	Stadig early access; attestation-API’er varierer
AMD SEV-SNP	VM-baseret kryptering + integritetsbeskyttelse; SHA-384 root-of-trust	Azure Confidential VMs (DCasv5/ECasv5), Google Confidential VMs, OCI, IBM Cloud	Transparente for de fleste OS’er/kontainere; op til flere TB RAM	Attestation via AMD-broker kræver integration; side-kanaler (cache) stadig forskningsområde
AWS Nitro Enclaves	Isoleret VM-slice på Nitro-hypervisor; virtio-vsock I/O; KMS-binding	AWS EC2 på de fleste nyere instance-typer	Enkel konfiguration; stærk integration med AWS KMS/ACM	Fungerer kun på AWS; ingen GPU-understøttelse endnu
ARM CCA Realms	Chip-generel “Realm” tilstand; hardware-isoleret fra både EL2 (hypervisor) og EL3 (secure monitor)	Planlagt i kommende Graviton-generationer samt on-prem Neoverse-systemer	Lav overhead; designet til cloud-scale attestation (RMM)	Få implementeringer i produktion; tooling umodent
NVIDIA H100 Confidential Computing	GPU-baseret memory-kryptering + attestation af GPU-driver og kernels	Forventes i 2024 hos Azure, GCP & OCI	Beskytter tensor-beregninger og modelvægte direkte på GPU’en	Kun H100-generation; økosystem (Triton, CUDA) kræver udvidelser

Container- og framework-kompatibilitet

Confidential Containers (CNCF) gør det muligt at køre OCI-images uændret i SEV-SNP, TDX og fremtidigt CCA. Kubernetes-integrationen leveres via CRI-plugin + pod-annotations.
Gramine, Occlum, Graphene og andre “library OS”-projekter oversætter POSIX-kald til SGX, så Python/Go/Node-apps kan køre i enclaves uden store code-refactors.
Frameworks som PyTorch, TensorFlow, ONNX Runtime har konfidentielle builds, der bruger Intel SGX orv Gramine, samt SEV-SNP med kørsel i fortrolige VM’er.
Triton Inference Server implementerer nu eksperimentel support til Nitro Enclaves og SEV-SNP gennem vsock-transport.

Multicloud-portabilitet

Selvom alle leverandører lover “confidential compute”, er root-of-trust, attestation-formater og nøgle-API’er forskellige:

Intel baserer sig på EPID/ECDSA; AMD bruger ARK/ASK/VMPL; AWS Nitro har egen PCR-model; ARM CCA definerer Realm Attestation Token.
IETF RATS og OASIS CCA-X.509 profiler er på vej til at standardisere attestations-tokens, så et Key Broker Service kan validere på tværs af clouds.
Projekter som Enarx, ParagonIE Biscuit og SPIFFE/SPIRE tilbyder abstraheret identitet, så samme image kan køre i SGX lokalt og SEV-SNP i skyen.

For LLM-inferens betyder det, at modelvægte, tokenizer og KV-cache kan holdes fortrolige - men DevOps-holdet skal vælge den laveste fællesnævner på tværs af clouds eller indbygge adaptere for attestationsformat. De fleste organisationer starter derfor med én primær cloud-TEE og bygger et key brokering-lag, der senere kan udvides til flere leverandører.

Arkitekturmønstre for fortrolig LLM‑inferens på tværs af clouds

Den mest robuste måde at indkapsle en LLM-pipeline i et multicloud-miljø er at kombinere en fortrolig container i et CPU-baseret TEE (fx Intel TDX eller AMD SEV-SNP) med en dedikeret GPU-TEE (AWS Nitro TPU, NVIDIA H100 Confidential Computing, m.fl.).

Indgående kald landet i en API-gateway, som terminerer mTLS og videresender krypterede protobuf-payloads.
Tokenizer-/controller-containeren kører som en Confidential Pod i Kubernetes. Den:
- verificerer brugertokens (OIDC/JWT)
- udfører prompt-sanitering & tokenizer-step
- styrer batch-/kvantiseringsparametre pr. session
Modelvægt-dechifrering foregår kun efter vellykket remote attestation. Vægtene ligger krypteret i et virksomheds-KMS og hentes ved behov via Key Broker Service (KBS).
Tensorberegningerne køres inde i GPU-TEE’en, som eksponerer et “fortroligt MIG-slot” til hver pod. Memory-kryptering sikrer både vægte og KV-cache, mens DMA-blokkering stanser værts-inspektion.
Streamet inferens leverer tokens løbende via gRPC-streaming med end-to-end-krypteret datapipeline, så ingen plaintext forlader enclaven - heller ikke midlertidige logits.

Fortrolig rag-pipeline

Retrieval-Augmented Generation (RAG) stiller yderligere krav:

Embeddings genereres i CPU-TEE’en og sendes krypteret til en fortrolig vektordatabank (Milvus + SGX, Pinecone Confidential, el.lign.).
Selve søgeforespørgslen sker in-enclave, så udtrukne kontekster aldrig persisteres åbent.
Top-k-resultaterne svejses sammen med brugerprompten og sendes videre til GPU-TEE-inferens uden at bryde fortroligheden.

Data- og nøglestrømme

Trin	Kanal	Krypteringsstatus	Politik-kontrol
1. API-kald	mTLS/HTTP2	E2E	OPA Policy: Geo-check
2. Modelvægt pull	KBS + TEE-DH	Envelope-crypto	Attestation hash-match
3. Embedding storage	gRPC over QUIC	E2E + Disk-AES-GCM	Row-level GDPR-tags
4. KV-cache spill	GPU HBM	On-die AES-XTS	Runtime quota
5. Streamet svar	mTLS/gRPC	E2E	Logging: Hash-only

Stateless vs. Stateful beskyttelse

En vigtig designbeslutning er, om KV-cache og session-state skal

holde sig fuldt in-memory i GPU-TEE’en (lav latenstid, høj pris)
eller spille ud til et krypteret, transient NVMe-drev (billigere, men side-channel-risiko).

Flere teams vælger en hybrid, hvor de første N tokens forbliver in-enclave, mens resterende cache krypteres med nøgle rullet pr. request.

Multicloud-policy for dataresidens og modelversionering

Forskellige clouds har ofte separate root-of-trust-kæder. En praktisk governance-model kan skitseres sådan:

Cross-cloud SPIFFE identiteter binder pod-attestationer til organisationens PKI.
OPA/Gatekeeper injicerer policies ved deploy-tid:
- residens: vægte med “EU-ONLY” tag må kun dekrypteres på clusters label’et region=eu
- versionering: produktion må kun køre signed images med semver.patch % 2 == 0
SBOM-koppling sikrer, at model-artefakter i hver cloud matcher en centralt publiceret checksum.

Streaming uden læk

Selv om tokens afleveres fortløbende, skal man gardere sig mod timing-/traffic-analyse. Populære teknikker:

padding af gRPC-frames til fast størrelse
randomiseret inter-token delay (under 5 ms jitter) for høj-sikkerheds workloads
kombineret rate-limiter & detokenizer på klient-siden for at hindre model-replay.

Opsummering

Ved at koble CPU- og GPU-baserede TEE-teknologier, orkestrere dem med fortrolige containere og disciplinere data-/nøglestrømme med attestation og policy, kan organisationer opnå ende-til-ende fortrolighed for LLM-inferens på tværs af mange skyudbydere. Løsningen er ikke gratis - hver ekstra isolationslag koster latency, RAM og GPU-kvoter - men giver en realistisk vej til at møde både IP-beskyttelse, sektorregulering og kommende EU-AI-lovgivning uden at ofre multicloud-fleksibilitet.

Attestation, nøgler og orkestrering i praksis

Når en LLM-workload skal køre fortroligt på tværs af flere skyer, bliver attestation-workflowet selve navlestrengen mellem en beskyttet runtime og de hemmeligheder, den har brug for. Nedenfor gennemgår vi de vigtigste byggeklodser - fra måling af kode til udstedelse af nøgler, orkestrering, audit og politik.

Remote attestation som adgangsbillet
- Hver TEE - hvad enten det er en AMD SEV-SNP-VM, en Nitro Enclave eller en Intel TDX-guest - udstiller en målbar firmware-rapport (PCR-hashes, chip-certifikater m.m.).
- Rapporten sendes til en attestation-service (Azure Attestation, AWS Nitro Attestation, veraison on-prem) som validerer signaturen op mod producentens CA.
- Når målingen matcher en godkendt policy hash, udstedes et signed Evidence Consumption Token (EAT JWT eller COSE-signeret) som bevis for at koden kører i en godkendt TEE.

Nøgleudlevering via KMS/Key Broker

Komponent	Rolle
KMS (AWS KMS, Azure Key Vault, GCP KMS)	Opbevarer krypterede model- og API-nøgler
Key Broker Service (KBS)	Verificerer EAT, udpakker policy claims og udleverer dekrypteringsnøgler til korrekt TEE-instans
Tenant Policy	Definerer hvilke TEEs (målinger, region, cloud) der må få adgang til hvilke nøgler

Først når attestation er godkendt, får Pod’en en short-lived data-key, der dekrypterer modelvægte, RAG-vektorer eller prompt-cache.

Supply-chain-sikring før første byte
- Signerede images: Cosign/Notary v2 signaturer kontrolleres af admissions-kontrol, før Pod’en schedule’s.
- SBOM: CycloneDX- eller SPDX-manifest følger containeren og matches op mod CVE-feeds.
- SLSA Level 2-4: GitHub Actions, Tekton Pipelines eller GitLab CI udsteder provenance-attester (in-toto) som del af build’en.
Kubernetes-orkestrering med Confidential Containers
- Kata Containers eller CC Runtime kører hver Pod i sin egen SNP-/TDX-VM.
- En RuntimeClass (fx confidential-guest) styrer schedulering på noder med TEE-støtte.
- initContainers henter model-artefakter via KBS, hvorefter main container starter inferens-serveren (vLLM, TensorRT-LLM m.fl.).
Identitetslag med SPIFFE/SPIRE
- Pod’en præsenterer sin TEE-attestation til SPIRE Server.
- Serveren udsteder en X.509- eller JWT-SVID (spiffe://org/llm-service/pod-123), der bruges til mTLS mellem microservices - også på tværs af clouds.
IETF RATS/EAT end-to-end flow
1. Evidence (TEE-rapport) → Verifier (cloud attestation-service)
2. Verifier sender et Attestation Result (EAT) til Relying Party (KBS/KMS).
3. Relying Party udleverer nøgler & politikker baseret på claims (hash, region, tenant-id).
Dermed taler CPU- og GPU-TEE’er samme sprog - uanset om de kører i AWS eller GCP.
Audit-logning & politikhåndhævelse
- OPA Gatekeeper validerer, at Pods kun kører i godkendte regioner og med signeret kode.
- Attestation-resultater sendes til SIEM (Elastic, Splunk, Azure Sentinel) samt immutabel log (Sigstore Rekor, AWS Audit Manager).
Mønstre for cross-cloud trust
- Federeret nøgle-broker: Central KBS udsteder nøgler til edge-KBS’er i hver cloud - least privilege via tenant-scopes.
- Policy as Code: Samme Rego-politikker versioneres i Git og pushes til Gatekeeper-instanser i alle skyer.
- Mesh-gateway: Istio + SPIFFE forbinder TEE-workloads over private links med automatisk cert-rotation.

Med dette setup opnås en kæde af tillid fra firmware til applikation, hvor hver komponent kan bevises og revokeres individuelt - en forudsætning for at drifte fortrolig LLM-inferens i et ægte multicloud-landskab.

Begrænsninger, omkostninger og vejen frem

Fortrolig inferens er dyrere end almindelig cloud-drift - både i kroner, watt og ventetid.

GPU-tilgængelighed: Konfidentielle GPU-instanser (fx NVIDIA H100 CC eller AMD-kort med SEV-SNP) er endnu kun forhåndstilgængelige i få regioner. Multicloud-strategien må derfor tage højde for capacity busting og køsystemer. Mange teams kombinerer CPU-TEE’er til tokenizer/kv-cache og lejer ufortrolige GPU’er til “kolde” batch-jobs - en afvejning af fortrolighed vs. throughput.
Overhead: Kryptering af hukommelse og kontekstskift mellem TEE-world og normal-world koster typisk 2-8 % CPU og 5-15 % GPU-ydelse. Ved streamet generering kan latens stige yderligere pga. krypteret I/O.
Hukommelsesgrænser: Enclaves har ofte <1 TB fysisk adresserum og kan være begrænset til 64-256 GB on-package krypteret RAM. Store sprogmodeller (70B+) kræver derfor tensor-parallel eller offload til delt, men krypteret, VRAM - et område hvor GPU-TEE-teknologien stadig modnes.

Sidekanaler og prompt-baseret datalæk

Selv om hukommelsen er krypteret, kan angribere aflure data via tidsmålinger, energiforbrug og model-output:

Microarchitectural leaks: Cache-evictions, branch predictor eller DMP. Løsninger: frekvenspinning, page-lock randomisering og dataparallel “noisy” padding.
Co-tenant sidekanaler: Isolér GPU’er pr. tenant og brug IOMMU + DMA-beskyttelse. In-flight re-encryption mellem CPU- og GPU-TEE begrænser DMA-høsting.
Prompt injection & training data leaks: Kombinér policy-styret input-output filter (Rego/OPA) med RAG-tjek (red teaming) og watermarking af output.

Driftsmæssig kompleksitet

Attestationstrin, nøglehåndtering og specialiseret hardware skaber nye “run books”:

Udfordring	Mulige afbødelser
Pod-schedulering på tværs af clouds	Kubernetes med `RuntimeClass=cc-runtime` og topology-aware scheduling.
Nuuva-attestationsflow	Brug IETF RATS + SPIFFE/SPIRE - én identitet pr. enclave, uafhængig af cloud-leverandør.
Fejlsøgning	Skaf out-of-band logging via sidecar, signér logs og send til SIEM gennem krypteret side-channel.

Standarder og økosystem

Der er lys for enden af siloen:

Confidential Computing Consortium (CCC) driver referenceimplementeringer af cc-runtime, Key Broker Service og det nye Enarx-projekt.
OCCP søger at normalisere attestation-tokens over Intel TDX, AMD SEV-SNP og ARM CCA.
Cloud-udbydere publicerer attestation evidence format converters, så en Azure TEE kan attesteres fra en AWS KMS og omvendt.

Fremtidige spor

ZK-beviser & zkML: Giver kryptografisk garanti for korrekt inferens uden læk af vægte. Egnet til mindre modeller pga. tunge provers (O(n log n)).
Fuld homomorf kryptering (FHE): Intet leaker, men million-gange langsommere på GPT-skala. Tidlig anvendelse: privat sentiment-analyse eller embedding-beregninger.
Hybrid-tiltag: TEE til stateful kontekst + FHE til små, følsomme felter; ZK-beviser til audit af outputintegritet.

Praktisk roadmap til gradvis multicloud-adoption

Step 1: Pilotér CPU-baseret TEE for tokenizer og KV-cache i én cloud. Mål latens og nøgleflow.
Step 2: Introducér bring-your-own-GPU med delt nøglebroker. Evaluér om modelsplit (encoder i CPU, decoder i GPU) er nok til at opfylde regulatoriske krav.
Step 3: Standardisér build-pipeline med SBOM + SLSA level 3-4, og håndhæv RATS-baseret policy i OPA/Gatekeeper.
Step 4: Udrul cross-cloud DR med identiske container-images, replikér KMS-nøgler via HSM-backed escrow.
Step 5: Eksperimentér med zkML/FHE på afgrænsede, højsikre workloads - fx finansiel risikomodellering - og brug erfaringerne til at justere cost-/risk-balancen.

Med andre ord: Start småt, mål alt, og lad formålet - ikke hardware-hypen - styre hvor, hvornår og hvor dybt fortrolig computing integreres i multicloud-strategien.