Kan TEE'er sikre LLM-inferens i multicloud-miljøer?

Kan TEE'er sikre LLM-inferens i multicloud-miljøer?

Chatbotten, der svarer dine kunder på sekunder. Den interne copilot, som kondenserer års arkivdata til handlingsklare indsigter. De automatiserede kodeassistent-pipelines, der løfter produktiviteten til nye højder. Generative sprogmodeller (LLM’er) er i fuld gang med at forandre forretningen - men de skaber også et nyt, sprængfarligt angrebsområde, når de skal køre i skyen.

I virkeligheden kører moderne AI-workloads sjældent ét sted. Multicloud giver fleksibilitet, prisoptimering og adgang til de nyeste GPU-typer, men splitter samtidig din sikkerhedsmodel i flere, ofte konkurrerende, tillidsdomæner. Hvordan forhindrer du, at en nysgerrig cloud-administrator, et hypervisor-escape eller en velplaceret sidekanal lækker dine dyrebare modelvægte og personfølsomme prompts?

Enter Trusted Execution Environments (TEE’er) - krypterede øer af hardware-forankret fortrolighed, som lover at skærme både kode og data, mens de er i brug. Men kan de reelt bære det tunge AI-apparat, og hvordan orkestrerer man dem på tværs af AWS, Azure, Google og on-prem edge-klynger?

I denne artikel udforsker IT Forum Danmark | Din hjælpende hånd på nettet:

  • Det nye trusselsbillede for LLM-inferens i multicloud-miljøer
  • De TEE-teknologier, du allerede kan leje pr. minut - fra Intel TDX til AWS Nitro Enclaves og de første GPU-TEE’er
  • Arkitekturmønstre, der kombinerer CPU- og GPU-fortrolighed uden at kvæle performance
  • Praktiske råd om attestation, nøglehåndtering og compliance på tværs af clouds
  • Grænserne for nutidens løsninger - og hvad der venter rundt om hjørnet af FHE og zkML

Er du klar til at tage springet fra “toy demo” til enterprise-grade AI - uden at gå på kompromis med sikkerheden? Læs med, og få den komplette guide til, hvordan TEE’er kan blive din nye livline i jagten på fortrolig, regulatorisk compliant og fremtidssikker LLM-inferens.


Hvorfor sikre LLM‑inferens i multicloud? Trusselsbillede og forretningskrav

Store sprogmodeller (LLM’er) kan hurtigt blive det centrale konkurrencemiddel - både som proprietær model, som fin-tuned udgave af en åben model eller som prompt-drevet “agent”. Hvis kode, vægte eller kundedata kompromitteres, risikerer virksomheden:

  • Tab af intellektuel ejendomsret: Modelarkitektur, træningsdata og fin-tuning repræsenterer år af FoU-investeringer.
  • GDPR-bøder og omdømmeskade: Personhenførbare oplysninger (PII) kan “siv­e” fra prompts, outputs eller cache. Artikel 32 kræver passende tekniske foranstaltninger.
  • Sektorregulering: Finans (EBA, DORA), sundhed (NIS2, ISO 27799) eller offentlig sektor har skærpede krav til datalagring og behandlingssted.
  • Supply-chain angreb: En kompromitteret runtime eller container kan manipulere inferensen eller plante bagdøre.

Trusselsbillede i skyen

Trussel Angrebsvektor Konsekvens for LLM-inferens
Cloud-administratorer Insider­adgang til hypervisor, storage snapshots, debug-konsoller Aflure modelvægte, prompts og tokens i klartekst RAM eller disk
Hypervisor-escape Sårbarhed i KVM/Xen/Hyper-V Angriber springer ud af VM og læser hele gæste-hukommelsen
Co-tenant sidekanaler Cache-timing, branch predictor, GPU-SM contention Udleder tokens, attention-mønstre eller hemmelige nøgler
DMA/firmware-angreb Ond USB/NVMe-device, BMC-malware, GPU-flash Direkte læsning/skrift i gæstehukommelse, persistente bagdøre
Læk via output & cache Prompt-injektion, overudtømmende generering, log-opsamling Ustruktureret eksfiltrering af PII eller model-hemmeligheder

Hvad gør multicloud anderledes?

  1. Forskellige tillidsrods
    Azure bruger Intel SGX/TDX og AMD SEV-SNP; AWS baserer sig på Nitro Hypervisor + Nitro Enclaves; Google tilbyder AMD SEV og snart TPU-baserede TEE’er. Hver leverandør udsteder egne attestation-certifikater, hvilket komplicerer “chain of trust”.
  2. Geografiske variationer
    Dataresidenskrav kan betyde, at franske HR-data kører i Frankrig (GCP Paris), mens japanske kundedata ligger i Osaka (AWS). Ensartet politik-håndhævelse kræver krypterede images og policy-motorer, der forstår lokal lovgivning.
  3. Fragmenterede compliance-kontroller
    Hver cloud har egne metrikker (Azure Policy, AWS Config, Google Assured Workloads). Cross-cloud regelefterlevelse bliver en disciplin i sig selv.
  4. Øget angrebsflade
    Flere konsoller, flere IAM-systemer og flere netværksbaner = flere muligheder for fejlkonfiguration og phishing.
  5. Lock-in kontra portabilitet
    Virksomheder ønsker at kunne flytte en fortrolig inferens-pipeline mellem clouds - men forskellige TEE-API’er, GPU-drivere og key-management-systemer er sjældent kompatible out-of-the-box.

Opsummeret kræver fortrolig LLM-inferens end-to-end isolation - fra prompt til tensor og tilbage - og en konvergeret sikkerhedsmodel, der kan fungere på tværs af flere skyer uden at tabe fart eller fleksibilitet.


Hvad er TEE’er, og hvilke findes i skyen i dag?

Trusted Execution Environments (TEE’er) er hardware-understøttede, isolationszoner i CPU, GPU eller hypervisor, hvor kode kan afvikles med følgende egenskaber:

  1. Isolering - data og registrer-tilstand er afskåret fra resten af maskinen, selv for root‐brugere og cloud-administratorer.
  2. Memory-kryptering - alt der forlader chippen (RAM, interconnect) krypteres med nøglemateriale, som kun eksisterer i silicium.
  3. Remote attestation - kryptografisk bevis på, at den korrekte software kører i et ægte TEE, før nøgler eller modeller frigives.

Markedsoversigt over tee-teknologier i de store skyer

Teknologi Nøgleegenskaber Cloud-tilgængelighed Fordele Ulemper
Intel SGX Per-proces enclaves (op til ~128 GB i seneste Xeon); hardware MACs; ECDSA-baseret attestation Azure DCsv2/3, IBM Cloud Hyper Protect, on-prem Moden toolchain, fin-kornet isolering Begrænset RAM, kun enkelte kerner, kræver kode-modifikation (SDK); ikke understøttet i alle nye CPU’er
Intel TDX Hele VM’er i TEE; side-kanal hærdning; kompatibel med eksisterende apps Coming på Google Cloud og Azure (preview) Større hukommelse end SGX; ingen behov for SGX-specifik SDK Stadig early access; attestation-API’er varierer
AMD SEV-SNP VM-baseret kryptering + integritetsbeskyttelse; SHA-384 root-of-trust Azure Confidential VMs (DCasv5/ECasv5), Google Confidential VMs, OCI, IBM Cloud Transparente for de fleste OS’er/kontainere; op til flere TB RAM Attestation via AMD-broker kræver integration; side-kanaler (cache) stadig forskningsområde
AWS Nitro Enclaves Isoleret VM-slice på Nitro-hypervisor; virtio-vsock I/O; KMS-binding AWS EC2 på de fleste nyere instance-typer Enkel konfiguration; stærk integration med AWS KMS/ACM Fungerer kun på AWS; ingen GPU-understøttelse endnu
ARM CCA Realms Chip-generel “Realm” tilstand; hardware-isoleret fra både EL2 (hypervisor) og EL3 (secure monitor) Planlagt i kommende Graviton-generationer samt on-prem Neoverse-systemer Lav overhead; designet til cloud-scale attestation (RMM) Få implementeringer i produktion; tooling umodent
NVIDIA H100 Confidential Computing GPU-baseret memory-kryptering + attestation af GPU-driver og kernels Forventes i 2024 hos Azure, GCP & OCI Beskytter tensor-beregninger og modelvægte direkte på GPU’en Kun H100-generation; økosystem (Triton, CUDA) kræver udvidelser

Container- og framework-kompatibilitet

  • Confidential Containers (CNCF) gør det muligt at køre OCI-images uændret i SEV-SNP, TDX og fremtidigt CCA. Kubernetes-integrationen leveres via CRI-plugin + pod-annotations.
  • Gramine, Occlum, Graphene og andre “library OS”-projekter oversætter POSIX-kald til SGX, så Python/Go/Node-apps kan køre i enclaves uden store code-refactors.
  • Frameworks som PyTorch, TensorFlow, ONNX Runtime har konfidentielle builds, der bruger Intel SGX orv Gramine, samt SEV-SNP med kørsel i fortrolige VM’er.
  • Triton Inference Server implementerer nu eksperimentel support til Nitro Enclaves og SEV-SNP gennem vsock-transport.

Multicloud-portabilitet

Selvom alle leverandører lover “confidential compute”, er root-of-trust, attestation-formater og nøgle-API’er forskellige:

  • Intel baserer sig på EPID/ECDSA; AMD bruger ARK/ASK/VMPL; AWS Nitro har egen PCR-model; ARM CCA definerer Realm Attestation Token.
  • IETF RATS og OASIS CCA-X.509 profiler er på vej til at standardisere attestations-tokens, så et Key Broker Service kan validere på tværs af clouds.
  • Projekter som Enarx, ParagonIE Biscuit og SPIFFE/SPIRE tilbyder abstraheret identitet, så samme image kan køre i SGX lokalt og SEV-SNP i skyen.

For LLM-inferens betyder det, at modelvægte, tokenizer og KV-cache kan holdes fortrolige - men DevOps-holdet skal vælge den laveste fællesnævner på tværs af clouds eller indbygge adaptere for attestationsformat. De fleste organisationer starter derfor med én primær cloud-TEE og bygger et key brokering-lag, der senere kan udvides til flere leverandører.


Arkitekturmønstre for fortrolig LLM‑inferens på tværs af clouds

Den mest robuste måde at indkapsle en LLM-pipeline i et multicloud-miljø er at kombinere en fortrolig container i et CPU-baseret TEE (fx Intel TDX eller AMD SEV-SNP) med en dedikeret GPU-TEE (AWS Nitro TPU, NVIDIA H100 Confidential Computing, m.fl.).

  1. Indgående kald landet i en API-gateway, som terminerer mTLS og videresender krypterede protobuf-payloads.
  2. Tokenizer-/controller-containeren kører som en Confidential Pod i Kubernetes. Den:
    • verificerer brugertokens (OIDC/JWT)
    • udfører prompt-sanitering & tokenizer-step
    • styrer batch-/kvantiseringsparametre pr. session
  3. Modelvægt-dechifrering foregår kun efter vellykket remote attestation. Vægtene ligger krypteret i et virksomheds-KMS og hentes ved behov via Key Broker Service (KBS).
  4. Tensorberegningerne køres inde i GPU-TEE’en, som eksponerer et “fortroligt MIG-slot” til hver pod. Memory-kryptering sikrer både vægte og KV-cache, mens DMA-blokkering stanser værts-inspektion.
  5. Streamet inferens leverer tokens løbende via gRPC-streaming med end-to-end-krypteret datapipeline, så ingen plaintext forlader enclaven - heller ikke midlertidige logits.

Fortrolig rag-pipeline

Retrieval-Augmented Generation (RAG) stiller yderligere krav:

  • Embeddings genereres i CPU-TEE’en og sendes krypteret til en fortrolig vektordatabank (Milvus + SGX, Pinecone Confidential, el.lign.).
  • Selve søgeforespørgslen sker in-enclave, så udtrukne kontekster aldrig persisteres åbent.
  • Top-k-resultaterne svejses sammen med brugerprompten og sendes videre til GPU-TEE-inferens uden at bryde fortroligheden.

Data- og nøglestrømme

Trin Kanal Krypteringsstatus Politik-kontrol
1. API-kald mTLS/HTTP2 E2E OPA Policy: Geo-check
2. Modelvægt pull KBS + TEE-DH Envelope-crypto Attestation hash-match
3. Embedding storage gRPC over QUIC E2E + Disk-AES-GCM Row-level GDPR-tags
4. KV-cache spill GPU HBM On-die AES-XTS Runtime quota
5. Streamet svar mTLS/gRPC E2E Logging: Hash-only

Stateless vs. Stateful beskyttelse

En vigtig designbeslutning er, om KV-cache og session-state skal

  • holde sig fuldt in-memory i GPU-TEE’en (lav latenstid, høj pris)
  • eller spille ud til et krypteret, transient NVMe-drev (billigere, men side-channel-risiko).

Flere teams vælger en hybrid, hvor de første N tokens forbliver in-enclave, mens resterende cache krypteres med nøgle rullet pr. request.

Multicloud-policy for dataresidens og modelversionering

Forskellige clouds har ofte separate root-of-trust-kæder. En praktisk governance-model kan skitseres sådan:

  1. Cross-cloud SPIFFE identiteter binder pod-attestationer til organisationens PKI.
  2. OPA/Gatekeeper injicerer policies ved deploy-tid:
    • residens: vægte med “EU-ONLY” tag må kun dekrypteres på clusters label’et region=eu
    • versionering: produktion må kun køre signed images med semver.patch % 2 == 0
  3. SBOM-koppling sikrer, at model-artefakter i hver cloud matcher en centralt publiceret checksum.

Streaming uden læk

Selv om tokens afleveres fortløbende, skal man gardere sig mod timing-/traffic-analyse. Populære teknikker:

  • padding af gRPC-frames til fast størrelse
  • randomiseret inter-token delay (under 5 ms jitter) for høj-sikkerheds workloads
  • kombineret rate-limiter & detokenizer på klient-siden for at hindre model-replay.

Opsummering

Ved at koble CPU- og GPU-baserede TEE-teknologier, orkestrere dem med fortrolige containere og disciplinere data-/nøglestrømme med attestation og policy, kan organisationer opnå ende-til-ende fortrolighed for LLM-inferens på tværs af mange skyudbydere. Løsningen er ikke gratis - hver ekstra isolationslag koster latency, RAM og GPU-kvoter - men giver en realistisk vej til at møde både IP-beskyttelse, sektorregulering og kommende EU-AI-lovgivning uden at ofre multicloud-fleksibilitet.


Attestation, nøgler og orkestrering i praksis

Når en LLM-workload skal køre fortroligt på tværs af flere skyer, bliver attestation-workflowet selve navlestrengen mellem en beskyttet runtime og de hemmeligheder, den har brug for. Nedenfor gennemgår vi de vigtigste byggeklodser - fra måling af kode til udstedelse af nøgler, orkestrering, audit og politik.

  1. Remote attestation som adgangsbillet
    • Hver TEE - hvad enten det er en AMD SEV-SNP-VM, en Nitro Enclave eller en Intel TDX-guest - udstiller en målbar firmware-rapport (PCR-hashes, chip-certifikater m.m.).
    • Rapporten sendes til en attestation-service (Azure Attestation, AWS Nitro Attestation, veraison on-prem) som validerer signaturen op mod producentens CA.
    • Når målingen matcher en godkendt policy hash, udstedes et signed Evidence Consumption Token (EAT JWT eller COSE-signeret) som bevis for at koden kører i en godkendt TEE.
  2. Nøgleudlevering via KMS/Key Broker
    Komponent Rolle
    KMS (AWS KMS, Azure Key Vault, GCP KMS) Opbevarer krypterede model- og API-nøgler
    Key Broker Service (KBS) Verificerer EAT, udpakker policy claims og udleverer dekrypteringsnøgler til korrekt TEE-instans
    Tenant Policy Definerer *hvilke* TEEs (målinger, region, cloud) der må få adgang til *hvilke* nøgler

    Først når attestation er godkendt, får Pod’en en short-lived data-key, der dekrypterer modelvægte, RAG-vektorer eller prompt-cache.

  3. Supply-chain-sikring før første byte
    • Signerede images: Cosign/Notary v2 signaturer kontrolleres af admissions-kontrol, før Pod’en schedule’s.
    • SBOM: CycloneDX- eller SPDX-manifest følger containeren og matches op mod CVE-feeds.
    • SLSA Level 2-4: GitHub Actions, Tekton Pipelines eller GitLab CI udsteder provenance-attester (in-toto) som del af build’en.
  4. Kubernetes-orkestrering med Confidential Containers
    • Kata Containers eller CC Runtime kører hver Pod i sin egen SNP-/TDX-VM.
    • En RuntimeClass (fx confidential-guest) styrer schedulering på noder med TEE-støtte.
    • initContainers henter model-artefakter via KBS, hvorefter main container starter inferens-serveren (vLLM, TensorRT-LLM m.fl.).
  5. Identitetslag med SPIFFE/SPIRE
    • Pod’en præsenterer sin TEE-attestation til SPIRE Server.
    • Serveren udsteder en X.509- eller JWT-SVID (spiffe://org/llm-service/pod-123), der bruges til mTLS mellem microservices - også på tværs af clouds.
  6. IETF RATS/EAT end-to-end flow
    1. Evidence (TEE-rapport) → Verifier (cloud attestation-service)
    2. Verifier sender et Attestation Result (EAT) til Relying Party (KBS/KMS).
    3. Relying Party udleverer nøgler & politikker baseret på claims (hash, region, tenant-id).

    Dermed taler CPU- og GPU-TEE’er samme sprog - uanset om de kører i AWS eller GCP.

  7. Audit-logning & politikhåndhævelse
    • OPA Gatekeeper validerer, at Pods kun kører i godkendte regioner og med signeret kode.
    • Attestation-resultater sendes til SIEM (Elastic, Splunk, Azure Sentinel) samt immutabel log (Sigstore Rekor, AWS Audit Manager).
  8. Mønstre for cross-cloud trust
    • Federeret nøgle-broker: Central KBS udsteder nøgler til edge-KBS’er i hver cloud - least privilege via tenant-scopes.
    • Policy as Code: Samme Rego-politikker versioneres i Git og pushes til Gatekeeper-instanser i alle skyer.
    • Mesh-gateway: Istio + SPIFFE forbinder TEE-workloads over private links med automatisk cert-rotation.

Med dette setup opnås en kæde af tillid fra firmware til applikation, hvor hver komponent kan bevises og revokeres individuelt - en forudsætning for at drifte fortrolig LLM-inferens i et ægte multicloud-landskab.


Begrænsninger, omkostninger og vejen frem

Fortrolig inferens er dyrere end almindelig cloud-drift - både i kroner, watt og ventetid.

  1. GPU-tilgængelighed: Konfidentielle GPU-instanser (fx NVIDIA H100 CC eller AMD-kort med SEV-SNP) er endnu kun forhånds­tilgængelige i få regioner. Multicloud-strategien må derfor tage højde for capacity busting og køsystemer. Mange teams kombinerer CPU-TEE’er til tokenizer/kv-cache og lejer ufortrolige GPU’er til “kolde” batch-jobs - en afvejning af fortrolighed vs. throughput.
  2. Overhead: Kryptering af hukommelse og kontekstskift mellem TEE-world og normal-world koster typisk 2-8 % CPU og 5-15 % GPU-ydelse. Ved streamet generering kan latens stige yderligere pga. krypteret I/O.
  3. Hukommelsesgrænser: Enclaves har ofte <1 TB fysisk adresse­rum og kan være begrænset til 64-256 GB on-package krypteret RAM. Store sprogmodeller (70B+) kræver derfor tensor-parallel eller offload til delt, men krypteret, VRAM - et område hvor GPU-TEE-teknologien stadig modnes.

Sidekanaler og prompt-baseret datalæk

Selv om hukommelsen er krypteret, kan angribere aflure data via tidsmålinger, energiforbrug og model-output:

  • Microarchitectural leaks: Cache-evictions, branch predictor eller DMP. Løsninger: frekvenspinning, page-lock randomisering og dataparallel “noisy” padding.
  • Co-tenant sidekanaler: Isolér GPU’er pr. tenant og brug IOMMU + DMA-beskyttelse. In-flight re-encryption mellem CPU- og GPU-TEE begrænser DMA-høsting.
  • Prompt injection & training data leaks: Kombinér policy-styret input-output filter (Rego/OPA) med RAG-tjek (red teaming) og watermarking af output.

Driftsmæssig kompleksitet

Attestationstrin, nøglehåndtering og specialiseret hardware skaber nye “run books”:

Udfordring Mulige afbødelser
Pod-schedulering på tværs af clouds Kubernetes med RuntimeClass=cc-runtime og topology-aware scheduling.
Nuuva-attestationsflow Brug IETF RATS + SPIFFE/SPIRE - én identitet pr. enclave, uafhængig af cloud-leverandør.
Fejlsøgning Skaf out-of-band logging via sidecar, signér logs og send til SIEM gennem krypteret side-channel.

Standarder og økosystem

Der er lys for enden af siloen:

  • Confidential Computing Consortium (CCC) driver reference­implementeringer af cc-runtime, Key Broker Service og det nye Enarx-projekt.
  • OCCP søger at normalisere attestation-tokens over Intel TDX, AMD SEV-SNP og ARM CCA.
  • Cloud-udbydere publicerer attestation evidence format converters, så en Azure TEE kan attesteres fra en AWS KMS og omvendt.

Fremtidige spor

  1. ZK-beviser & zkML: Giver kryptografisk garanti for korrekt inferens uden læk af vægte. Egnet til mindre modeller pga. tunge provers (O(n log n)).
  2. Fuld homomorf kryptering (FHE): Intet leaker, men million-gange langsommere på GPT-skala. Tidlig anvendelse: privat sentiment-analyse eller embedding-beregninger.
  3. Hybrid-tiltag: TEE til stateful kontekst + FHE til små, følsomme felter; ZK-beviser til audit af outputintegritet.

Praktisk roadmap til gradvis multicloud-adoption

  • Step 1: Pilotér CPU-baseret TEE for tokenizer og KV-cache i én cloud. Mål latens og nøgleflow.
  • Step 2: Introducér bring-your-own-GPU med delt nøglebroker. Evaluér om model­split (encoder i CPU, decoder i GPU) er nok til at opfylde regulatoriske krav.
  • Step 3: Standardisér build-pipeline med SBOM + SLSA level 3-4, og håndhæv RATS-baseret policy i OPA/Gatekeeper.
  • Step 4: Udrul cross-cloud DR med identiske container-images, replikér KMS-nøgler via HSM-backed escrow.
  • Step 5: Eksperimentér med zkML/FHE på afgrænsede, højsikre workloads - fx finansiel risikomodellering - og brug erfaringerne til at justere cost-/risk-balancen.

Med andre ord: Start småt, mål alt, og lad formålet - ikke hardware-hypen - styre hvor, hvornår og hvor dybt fortrolig computing integreres i multicloud-strategien.