9 chiplet-trends, der ændrer AI-inferens i datacentre

De næste gennembrud inden for kunstig intelligens sker ikke kun i algoritmens abstrakte univers men i selve siliciummet, der driver den. I takt med at GPT-modeller, multimodale assistenter og realtime-anbefalingsmotorer æder sig ind i hver eneste serverrack, står datacenterarkitekter over for et paradoks: Flere tera-operationer pr

sekund er ikke nok, hvis man ikke samtidig kan levere den nødvendige båndbredde, latency og energieffektivitet til batch = 1-inferens.

Løsningen? Chiplets - små, specialiserede byggeklodser, der samles som Lego under et fælles pakketag. Fra modulære NPU-kerner med dedikeret HBM til optiske I/O-brikker, der skyder fotoner direkte ud af pakken, er chiplet-revolutionen i fuld gang og vender op og ned på hele AI-stakken.

I denne artikel tager IT Forum Danmark dig med på en tur gennem ni banebrydende tendenser, der omformer alt fra silicium og strømforsyning til software og sikkerhed i moderne datacentre. Vi zoomer ind på:

Hvordan overgang fra monolitiske SoC’er til fleksible chiplet-designs åbner for lynhurtige produktcyklusser - og knækker Moore’s Law-krisen.
Hvorfor standardiserede die-til-die-interconnects som UCIe bliver AI-branchens svar på USB, og hvad det betyder for mix-and-match mellem leverandører.
Hvordan 2.5D/3D-pakning, hukommelsesnære arkitekturer og co-packaged optics skubber grænserne for performance-pr-watt.

Så spænd sikkerhedsbæltet: Om få minutter vil du have overblik over de teknologiske strømninger, der bestemmer, hvordan fremtidens AI-modeller bliver infereret-og hvordan du som arkitekt, udvikler eller indkøber kan udnytte dem strategisk. Velkommen til “9 chiplet-trends, der ændrer AI-inferens i datacentre” - din guidede rundtur i det nye silicium-økosystem.

9 chiplet-trends, der ændrer AI-inferens i datacentre

Fra monolitiske SoC’er til modulære chiplets i AI-acceleratorer

AI-modeller vokser i et tempo, som selv de mest avancerede monolitiske SoC-designs har svært ved at følge med til. Samtidig presser 5 nm- og 3 nm-noderne prisen pr. mm² i vejret, og retikelgrænsen på ~850 mm² sætter en hård stopper for, hvor store enkelt-dies kan blive. Derfor vender hyperscalere og enterprise-datacentre blikket mod chiplet-arkitekturer, hvor flere mindre “lego-klodser” af silicium samles i én pakke og opfører sig som én logisk accelerator.

Hurtigere innovationskadence

Når kernekomponenter - compute, cache, I/O og strømstyring - ligger på separate chiplets, kan hver blok opgraderes i sit eget tempo. Et nyt N7-baseret matrix-core-chiplet kan eksempelvis parres med et mere modent N16-I/O-chiplet, uden at hele designet skal tapes ud på ny. Det forkorter udviklingscyklussen fra år til kvartaler og giver leverandørerne mulighed for at respondere hurtigere på nye modelarkitekturer som Llama-3 eller Mamba-2.

Omgåelse af retikelgrænsen

En monolitisk 1000 mm² AI-die er fysisk umulig at fremstille; fotomasken kan ganske enkelt ikke belyse et så stort stykke silicium i ét skud. Ved at dele chippen op i f.eks. fire compute-chiplets og et centralt cache-chiplet kan man skalere kerner, SRAM og HBM-interfaces ud over retikelarealet og nå petaflop-klassens inferenskapacitet uden ny litografiteknologi.

Bedre yield via known-good-die (kgd)

Store monolitter lider under, at én enkelt defekt i waferen kasserer hele die’en.
Små chiplets har lavere absolut defektsandsynlighed, hvilket hæver den gennemsnitlige yield markant.
Efter wafer-test kan kun de fejlfrie dies populere interposeren; defekte enheder skrottes tidligt og billigt.

Resultatet er lavere stykpris pr. fungerende TOPS og færre “ghost lines” i supply-kæden under tape-out-kriser.

Fleksible inferens-sku’er

Chiplet-modularitet giver OEM’er et nyt SKU-knobsæt at skrue på. Behov for høj batchgennemstrømning? - Stak flere compute-chiplets pr. pakke. Fokus på token-latenstid til realtime-GPT? - Skift et compute-chiplet ud med et større SRAM-chiplet. Selv strømprofilen kan tilpasses ved at tilbyde “lite”-varianter med færre aktive dies til edge-racks med 3 kW-loft.

Datacenterperspektivet

For cloud-operatører betyder ovenstående tre ting:

Tids-til-marked: Nye AI-instanser kan lanceres hurtigere, hvilket øger platformens attraktionskraft over for modeludviklere.
CapEx-optimering: Bedre yield og graduering mellem SKU’er presser $/TOPS nedad.
Fremtidssikring: Infrastruktur kan opgraderes inkrementelt - man skifter chiplet-generation, ikke hele serverkort.

Sammenlagt er chiplet-paradigmet derfor ikke blot en ingeniørmæssig nødvendig respons på de fysiske grænser, men en strategisk accelerator for AI-forretningen i moderne datacentre.

Standardiserede die‑til‑die‑interconnects (UCIe m.fl.) åbner økosystemet

Den største flaskehals, når man splitter et monolitisk AI-accelerator-die op i flere chiplets, er at bevare en virtuel monolit set fra softwaren: data skal flyde imellem kerner, SRAM-slice og HBM-controller så hurtigt, at batch-størrelsen kan holdes nede på 1 uden at SLO’er (Service Level Objectives) ryger i rødt. Her kommer standardiserede die-til-die-interconnects som UCIe (Universal Chiplet Interconnect Express), BoW (Bunch of Wires) og ODSA-familien ind i billedet.

UCIe 1.0 blev lanceret i 2022 og samler tre fysiske lag (Short-Reach, Medium-Reach og Long-Reach), der hver især balancerer pitch, båndbredde og energi pr. bit:

SR (Silicium-interposer / hybrid bonding): op til 1 Tb/s/mm med <2 ns hop-latenstid og <0,5 pJ/bit.
MR (organisk substrate, fan-out): 16-32 Gb/s per lane, ~5 ns latenstid, ~1 pJ/bit.
LR (på tværs af pakker): mere end 28 Gb/s serdes-lignende, dog stadig lavere end PCIe-energi.

I praksis betyder det, at en NPU-chiplet kan holde sin MAC-array kørende uden at vente på aktiver, mens en separat HBM-controller-chiplet streamer weights i konstant takt - lige så gnidningsfrit, som hvis alt sad på ét stykke silicium.

BoW, som oprindeligt kom fra ODSA-konsortiet, fokuserer på simpel, CMOS-venlig signaling via brede parallelle busser (f.eks. 16 eller 32 bits) på korte afstande. Dets styrke er ekstremt lav kompleksitet, hvilket gør det attraktivt i cost-følsomme inferens-SKU’er, hvor man stakker flere billige 16 nm-dies under et avanceret I/O-die bygget i 5 nm.

At standarderne er åbne giver tre gevinster, der er særligt vigtige i datacentre:

Mix-and-match mellem leverandører. En cloud-udbyder kan bestille et NPU-chiplet fra en kinesisk designhus, kombinere det med et koreansk HBM-chiplet og parre det med et amerikansk PCIe/CXL gateway-die på samme pakke - alle taler UCIe.
Hurtigere innovationstakt. Nye DSP- eller sparsity-chiplets kan introduceres uden at vente på, at et monolitisk SoC rev. B er taped-out.
Sensitiv performance garanteres. Da alle overholder samme latency-/båndbredderammer, kan en modeloptimering baseret på batch=1 målinger flytte til næste generations hardware uden at blive re-tunet.

På protokolsiden lægger UCIe et fladt transportlag over fysisk link, som kan tunnelere PCIe/CXL, AXI eller pure streaming. Dermed kan et inferens-runtime lægge aktiver i en CXL-shared HBM-chiplet og lade tensor-streams gå direkte til MAC-arrays via STREAM-mode, alt sammen over samme nodering.

Økosystemet flytter sig hurtigt: Intel, TSMC, Samsung, ASE, Qualcomm, AMD, Arm, Meta og Microsoft er allerede i UCIe-konsortiets styringsgruppe, og både TSMC CoWoS-L og Samsung I-Cube-X vil fra 2024 levere referencepakker med indbygget UCIe-router. Samtidig arbejder OCP (Open Compute Project) på open-source verificerings-IP, så hyperscalere kan selv-certificere deres chiplets før de loddes i.

For datacenter-drift betyder den standardiserede tilgang:

Lettere second-sourcing og lavere capex-risiko på grund af known-good-die og multi-vendor kontrakter.
Færre proprietære drivere: ét UCIe-kompatibelt runtime kan orkestrere hele rackets chiplet-pools.
Bedre telemetri: UCIe-linket eksponerer fejl-tællere og thermal trip-events per lane, hvilket hjælper SRE-teams med at holde SLO’en på <10 ms p95 latenstid.

Konklusionen er klar: Mens proprietære links som NVLink og Infinity Fabric stadig dominerer in-package-AI i dag, er det sandsynligvis UCIe-kompatible mix-and-match-pakker, der giver næste spring i inferens-ydelse pr. krone - nøjagtigt det hyperscalere jagter i deres evige kamp mod modelstørrelse og energibudget.

Avanceret 2.5D/3D‑pakning: interposere, hybrid bonding og retikel‑skalering

Datacentrenes hunger efter højere TOPS/W og lavere inferens-latenser har gjort avancerede pakningsteknikker til et strategisk våben. Ved at flytte flere transistorer tættere sammen i den tredje dimension kan man bryde med retikelgrænsen, skære energi pr. bit dramatisk ned og fastholde effektforbruget inden for rackets termiske budget.

Silicium-interposere: Bred, flad motorvej til hbm og compute-chiplets

CoWoS & Co-WoS-R: TSMC’s interposer giver over 1000 mm² routing-areal, nok til at lænke 8-12 HBM-stakke til et halvt dusin AI-chiplets med >3 TB/s samlet båndbredde.
Kortere ledere, lavere energi: Afstanden mellem dø bliver 100-200 µm mod centimeter på et traditionelt kort. Det sænker I/O-energien fra 4-5 pJ/bit (PCIe/SerDes) til ~0,3 pJ/bit.
Yield-fordel: I stedet for én gigantisk 850 mm² monolit får man 6-8 mindre KGD’er. Ét defekt område skrotter ikke hele pakken.

Emib: Brosten i stedet for motorvej

Intels Embedded Multi-die Interconnect Bridge indsætter kun silicium dér, hvor banebredde er påkrævet. Resultatet er billigere end en fuld interposer og kan stadig levere >2 TB/s mellem dies via ultra-tætte mikrobumper.

Foveros & hybrid bonding: Fra 2.5d til ægte 3d

Logic-on-Logic stacking: Med Foveros Direct presses kobber-til-kobber kontakter ned til <10 µm pitch. Det giver <1 ns hop-latenser mellem compute-lag og muliggør finere granularitet end chiplets på interposer.
Memory-on-Logic: SRAM- eller HBM-dyner lægges ovenpå compute, så vægt- og aktiveringsdata kan hives ind med terabyte-bandbredde uden off-package adgang.
Backside power delivery: Ved at føre strøm ind bagfra frigøres forsiden til signal-vias, hvilket øger kanal-tætheden og reducerer IR-drop.

Retikel-skalering og “virtual mega-dies”

Masksteppere sætter en fysisk grænse på ~850 mm² pr. die. Med 2.5D/3D kan flere sådanne stykker syes sammen internt på pakken:

Nvidia Grace Hopper: CPU- og GPU-dy kan ligge over flere retikler, men opfører sig som én sammenhængende SOC med NVLink-C2C.
AMD Instinct MI300: Ni 5 nm compute-chiplets sidder oven på fire 6 nm I/O-dies-alligevel præsenteres én enhed til softwaren.

Termik: Den uundgåelige bagside

Vertikal stabling komprimerer watts pr. mm². Derfor ser vi:

Integrated vapor chambers i interposeren for at sprede varmen sideværts.
TSVs udelukkende til varmeafledning (“thermal TSVs”).
Real-time sensornetværk, som throttler specifikke lag i stedet for hele pakken.

Effekten på ai-inferens

	PCIe Gen5 kort	2.5D interposer	3D stack
Latenstid pr. hop	~50 ns	4-6 ns	<1 ns
Energi pr. bit	4-5 pJ	0,3-0,5 pJ	<0,1 pJ
TOPS/W forbedring	ref.	1,45-1,6×	1,8-2,2×

Ved batch = 1-inferens, hvor datatilgang er dominerende, omsættes disse tal direkte i flere tokens pr. sekund og bedre SLO-overholdelse på sprog- og multimodale modeller.

Fremtidsroaden

TSMC SoIC-X, Samsung X-Cube og Intel Foveros Omni lover pitches under 5 µm og stapling af 16-lag logic inden 2026. Samtidig forventes HBM4 at krydse 50 GB/s pr. lag, hvilket gør hukommelses-båndbredde til en gratis gevinst i 3D-arkitekturen.

Konklusionen er klar: 2.5D/3D-pakning er ikke blot kreative forsyningskæde-øvelser, men et nødvendigt svar på AI-inferensens eksponentielle databehov. De datacentre, der tidligst mestrer interposer, hybrid bonding og retikel-skalering, får ikke bare højere ydelse - de vinder også på energibudget og TCO.

Hukommelsesnære designs: HBM3E/HBM4 og memory‑chiplets

For at holde trit med eksponentielt voksende sprog- og multimodale modeller er hukommelsesbåndbredde blevet den primære flaskehals - ikke selve MATRIX-TOPS. Chiplet-arkitekturer angriber problemet ad to veje: tættere integration af HBM-stakke og dedikerede memory-chiplets, der flytter SRAM/cachelageret helt ind på pakken.

Hbm3e i dag - Hbm4 i horisonten

Moderne accelerator-pakker rummer op til 8-12 HBM3E-stakke à 12-16 GB, hvilket giver >1,5 TB/s båndbredde pr. package ved 8 Gbps per pin.
HBM4 (forventet sampling 2025) fordobler pinhastigheden (~16 Gbps) og går fra 1024- til 2048-bit I/O, så én enkelt stak kan levere >1 TB/s.
Sammen med 2.5D-interposere eller hybrid bonding holdes trace-længden under få millimeter, hvilket skærer både latency og energiforbrug pr. bit ned med op til 35 % i forhold til off-package DDR5.

Memory-chiplets som “mellemlager”

Selv med HBM er token-latens for sekventielle workloads (fx streaming-ASR) kritisk. Leverandører som AMD, Tenstorrent og Microsoft Athena eksperimenterer derfor med SRAM- og eDRAM-chiplets midt mellem compute-dies og HBM:

SRAM-scratchpads (32-128 MB) pr. compute-cluster holder aktiver og weights, der genbruges flere gange per token, tæt på ALU’erne.
Cache-chiplets (L3/L4, 512 MB-2 GB) fungerer som delt modelbuffer for hele pakken og reducerer antallet af HBM-adgange med 30-50 %.
Composable memory-tiles kan udskiftes eller bin-skaleres uafhængigt af compute, så kunden kan vælge “high-TOPS, low-cache” eller omvendt afhængigt af workload-mix.

Konkrete gevinster i datacentret

Metrik	SoC med DDR5	Chiplet + HBM3E/SRAM
Båndbredde pr. watt	~0,4 GB/s/W	2-3 GB/s/W
1-token latency (GPT-J)	8,2 ms	4,7 ms
Tokens/s/watt (batch = 1)	18	42

Den lavere latency betyder hurtigere “tid-til-første-byte” i chatbots, mens den højere throughput giver bedre serverudnyttelse i batchede anbefalingssystemer.

Designudfordringer

Termik: HBM-stakke genererer op til 10 W hver; at placere dem oven på compute-dies i 3D kræver indbyggede heat-spreader-lag og liquid cold plates.
Signalintegritet: Ved 16 Gbps/pin i HBM4 bliver crosstalk på interposeren en show-stopper uden micro-bump pitch under 40 µm.
Coherency: At holde flere cache-chiplets konsistente kræver nye chiplet-mesh-protokoller og QoS-aware arbiterlogik.

Fremadrettede vektor

Når HBM4/5 krydser 2 TB/s per stak, begynder man at overveje in-memory compute til softmax og GEMM-acceleration direkte i DRAM-bankene. Samtidig spirer et økosystem af “universal memory-chiplets”, som kan kobles via UCIe til både CPU- og GPU-dies, så datacentre kan opgradere deres hukommelseslag uden at re-spin’e hele acceleratoren.

Resultatet er klart: Jo tættere vi kan bringe hukommelsen på matrisemotoren - og jo mere fleksibelt vi kan sammensætte den - desto hurtigere falder både token-latenser og $-pr.-inferens. Det er hér, kampen om næste generations AI-datacentre står.

Heterogen integration: NPU/DPU/FPGA‑chiplets til skræddersyet inferens

Når silicium bygges som legoklodser i stedet for ét stort monolitisk die, bliver det pludseligt muligt at sammensætte den præcise kombination af motorer, som den enkelte AI-workload har brug for. Den filosofi kaldes heterogen integration, og den gør det muligt at lægge specialiserede NPU-, DPU- og FPGA-chiplets helt tæt på hinanden på samme interposer frem for at lade trafikken løbe ud over et langsomt PCIe-bus. Resultatet er markant lavere latenstid og færre watts pr. token - en kritisk faktor, når sprog- og billedegenerering i dag ofte kører med batch=1.

Sådan opdeles inferens-pipen internt i pakken

Delopgave	Typisk chiplet	Fordel ved on-package
Matrix-multiply & attention-kjerner	NPU / systolisk array	Høj TOPS/W, lav sub-ns latenstid
Sparsitet & pruned weights	Mask-/zeroskipping-accelerator	Op til 4× færre MAC-operationer
Aktiv komprimering / dekomprimering	DPU med codec-motorer	50-70 % lavere off-package memory-BW
Pre-/post-processing (tokenization, JPEG-decode, etc.)	Rekonfigurerbar FPGA-chiplet	Tilpasning til skiftende modeller uden ny tape-out

Tre nøglemekanismer, der driver gevinsten

Ultralav latenstid mellem chiplets.
De interne die-til-die-links (UCIe, BoW) leverer båndbredde i multi-TB/s-klassen med <3 pJ/bit, så datastrømmen mellem NPU- og memory-chiplets aldrig rammer flaskehalse.
Sparsitet og mixed-precision direkte i datapathen.
Ved at placere specialiserede sparsity-filtere som egne chiplets kan man skippe nulværdier allerede inden de rammer NPU’en, hvilket både sparer DRAM-båndbredde og cycles på compute-arrays.
Offload af ”ikke-AI” arbejde.
FPGA- eller DPU-moduler kan afkode video, kryptere trafik eller håndtere RDMA-netværk inden i pakken. Det aflaster CPU’en og fjerner yderligere hop fra den samlede inferens-sti.

Konkrete designmønstre, vi allerede ser i felten

Transformer-bricks: ASIC-chiplets med 32K-dimensionelle systoliske arrays og integreret HBM spiller sammen med små FPGA-containere til dynamisk positionel kodning.
Sparsity-gateways: Tynde 7 nm-chiplets, der kun laver non-zero gather, sidder som mellemstation mellem HBM-stack og compute-array.
Smart-NIC-in-package: En DPU-chiplet med 400 GbE-MAC og RoCE v2 får direkte adgang til samme cache-koherente interconnect som NPU’erne, så resultater streames til backend-lager uden at runde system-CPU’en.

Software er limen der får det til at hænge sammen

Heterogen hardware giver først værdi, når kompilator, runtime og observabilitet forstår topologien:

Graph-partitionsalgoritmer vælger automatisk hvilke transformer-lag der kan køre på sparsity-optimerede chiplets versus general-purpose NPU’er.
Unified memory-API’er (ex. CXL 3.0) skjuler, at data hopper mellem SRAM-cache chiplet, HBM-stack og eksterne DDR-noder.
Fine-grain telemetri på tværs af chiplets fodrer orkestratorer som Kubernetes med TDP-, temperatur- og fejlstatistikker, så workloads kan flyttes proaktivt før en termisk throttling opstår.

I takt med, at AI-modeller bliver mere komplekse og mangfoldige, er det usandsynligt, at én ”superchip” kan levere optimal ydelse til alle scenarier. Heterogen integration giver leverandører og cloud-operatører en modulær værktøjskasse, der kan skræddersys til alt fra ultra-hurtig viralt meme-generering til tung BERT-lignende question-answering - uden at skulle sende hver eneste ny idé hele vejen gennem en dyr 3 nm tape-out-cyklus.

Strøm og termik på pakken: PDN‑chiplets, backside‑power og nye køleløsninger

AI-acceleratorer med 50-100 milliarder transistorer på ét substrat sluger hundredvis af watt, og når flere chiplets skal fodres og køles side om side, bliver både effektlevering og termisk styring afgørende for ydelsen. De seneste pakke-generationer flytter derfor strømforsyning og køling helt ind på pakken i stedet for at stole på bundkortet og serverchassiset.

Pdn-chiplets: Point-of-load vrm på selve interposeren

Traditionelle VRM’er på bundkortet lider under IR-drop og lang ledningsvej; hver 10 mΩ koster flere volt, når strømmen rammer 1.000 A+.
Små PDN-chiplets - ofte baseret på integrerede gallium-nitride-switches - placeres få millimeter fra NPU-/GPU-dies og leverer flere hundrede ampere med <1 ns spændingstransienter.
Resultatet er lavere spændings-margin, hvilket direkte sænker effektforbruget og frigiver termisk budget til højere TOPS.

Backside-power: Strøm og signal adskilt i 3d

Nyere procesnoder (TSMC N3P, Intel 20A m.fl.) introducerer backside-power delivery network, hvor strøm-TSV’er bores bagfra, mens signaltræer forbliver på forsiden. Fordele:

Mindre koblingsstøj - færre droops under bursty inferens.
Flere signallag - pladsen, strømførende metal tidligere optog, frigives til ekstra interconnect mellem kerner og HBM-controller.
Lavere parasitics - tykkere power-metallag og kortere vej til transistoren reducerer ohmsk modstand.

Integrerede køleløsninger: Fra cold plates til mikrofluidik

Cold-plate-in-package: Producenter som AMD og Tenstorrent placerer tynde kobberplader direkte under top-liddet. Væske passerer igennem, så varme fjernes lokalt fra hotspots i transformer-MAC-kernerne.
Mikrokanal-køling: I 3D-stablerede designs fræses microfluidic channels i interposer eller silicium-mellemplader. Vandglykol pumpes igennem ved <1 l/min og kan dissipere >1 kW pr. pakke.
Phase-change TIM: Smeltende indiumlegeringer udjævner overfladerughed og sænker grænseflademodstanden til <0,02 K/W.

Sensornetværk og adaptiv power management

Hver chiplet får et net af termiske dioder, shunt-modstande og T_j/V_droop-telemetri. Data streames til en on-packagePMC, der med reinforcement learning justerer:

Spændingsrail pr. chiplet (DVS).
Frekvenskurver ved lav batch-størrelse.
Pumpehastighed og fan-curve i CPO-kølere.

Dette finmaskede feedback-loop giver 5-10 % højere sustained TOPS/W i lange inferens-jobs sammenlignet med statiske profiler.

Hvad betyder det for datacentret?

Tættere pakker = mindre hyldemeter pr. TOPS.
Lavere PUE, fordi varm luft (eller væske) fjernes tidligt, så CRAC-systemet arbejder mere effektivt.
Forudsigelig QoS; færre clock-droops giver stabile latens-SLO’er selv under spidsbelastning.

Kort sagt: Når strømforsyning, termik og telemetri flytter ind i chiplet-pakken, bliver effekt og køling endnu en modulær byggeklods i fremtidens AI-infrastruktur - og en vigtig faktor for at få hver watt til at arbejde hårdere i datacentret.

Optisk I/O og co‑packaged optics skalerer båndbredde ud af pakken

Den eksplosive vækst i modelstørrelser og batch-latency-krav presser de traditionelle kobber-baserede serdes-links i AI-acceleratorer til det yderste. Ved datarater over 112 Gbps/lanes stiger energy-per-bit (EPB) typisk til 15-20 pJ, og rækkevidden begrænses til få centimeter på package-substratet. Optiske I/O-chiplets og co-packaged optics (CPO) bryder denne mur ved at flytte elektro-optisk konvertering helt ind på interposer- eller substrate-niveau og skalerer dermed båndbredden ud af pakken uden de tunge signal-integritetsomkostninger, der kendes fra lange kobbertraces.

Energibesparelse og båndbredde i tal

Teknologi	Data-rate pr. lane	Typisk rækkevidde	Energy/bit
PAM4 Copper (112G)	112 Gbps	<0,05 m	15-20 pJ
Pluggable Optics (800G SR8)	106 Gbps	<2 m OM4	8-10 pJ
Co-packaged Silicon Photonics	>112 Gbps	>2 m OM4	1,5-3 pJ

Lavere EPB frigiver 10-20 W pr. accelerator, som i stedet kan bruges til ekstra MAC-units eller HBM-kanaler - en direkte gevinst i TOPS/W for inferens-workloads. Samtidig muliggør linklængder på flere meter, at man kan forbinde flere GPU/NPU-kort i rack-scale topologier uden behov for dyre mellemstage-switches.

Fra pluggable til fuldt integreret

On-package laser-kilder: Indpumpede “external cavity lasers” eller distributed feedback (DFB)-arrays flyttes til et separat optisk chiplet for at reducere varme over compute-kernen.
Silicon-photonic modulator-/detektor-arrays: Microring eller Mach-Zehnder modulatorer produceres i 300 mm fotonik-processer (Ayar Labs, Intel) og bondes direkte til compute-interposeren via hybrid-bonding.
Passive fiber-attach: MPO- eller SN-konnektorer monteres på selve kølepladen; hos Broadcom og Cisco ser vi allerede CPO-switch-ASIC’er med 51,2 Tbps aggregate.

Datacenter-arkitekturer der drager nytte af cpo

Disaggregated accelerator pools: GPU-blade kan nu placeres i dedikerede racks og forbindes via optiske PCIe/CXL- eller proprietære NVLink-over-fiber-protokoller.
Memory fabric over optics: Ensemble-baserede inferens-systemer kan dele HBM-kapacitet eller DDR-tiered NVDIMM-pooling uden at sprænge latenstidsbudgettet (<2 µs RTT).
AI-cluster fabrics: Optiske dragonfly eller flattened-butterfly topologier giver 100-200 Tbps non-blocking båndbredde til model-parallel og pipeline-parallel inferens.

Nye designudfordringer

Selv om CPO lover meget, er der stadig udfordringer:

Thermal co-design: Lasereffektivitet falder med temperaturen; derfor arbejder både NVIDIA og AMD på integrated cold plates og micro-channel køling.
Reliability & field replaceability: COBO-konsortiets blind-mate løsninger adresserer serviceability, men standarder for laser safety og modul-identifikation (EEPROM/PUF) er stadig i udvikling.
Packaging yield: Kombinationen af fotonik-die, pump-lasere og high-yield logic-die kræver mere sofistikerede KGD-screenings og burn-in.

Fremadrettet standardisering

OIF’s 224 Gbps-CEI roadmap, IEEE’s 802.3dj samt CW-WDM MSA adresserer de fysiske lag, mens CXL 3.0 påtænker optical extension profiles over >50 GTS. Når disse lag integreres med UCIe-protokoller til chiplet-intern kommunikation, kan datacentre opbygge fuldt heterogene, optisk sammenkoblede compute-tæpper med millisekunds-resilience og mikrosekunds-latenser - præcis hvad fremtidens batch=1-inferens kræver.

Softwarestakken til multi‑die: kompilatorer, planlæggere og observabilitet

Hvis selve silikonen er hjertet i fremtidens AI-acceleratorer, er softwarestakken blodårerne, der får det hele til at pumpe. En multi-die-pakke kan teoretisk levere enorme TOPS/W, men uden en topologi-bevidst compiler, snedig runtime-planlægning og dyb observabilitet forspildes gevinsten på overflødige hop, cache-misses og ubalanceret strømstyring.

1. Topologi-bevidst partitionering

Graph-kompilatorer med chiplet-anotering
Moderne ML-kompilatorer (f.eks. MLIR, TVM, XLA) udvides med beskrivelse af fysiske “zoner”:
- Hver zone repræsenterer et NPU-, SRAM- eller HBM-chiplet samt båndbredder og latens til naboer.
- Partitionerings-algoritmer vægter B/f (Bytes per flop) imod hop-latens for at minimere datatrafik over UCIe-links.
- Særlige fusion passes samler små kernels, så de kan eksekveres på samme die og dermed undgå dyre kryds-chiplet kald.
Model-beskyttende opdeling
I multitenante datacentre kan følsomme modeller splittes, så vægte ligger på sikrede “trust-chiplets”, mens generiske embed-beregninger kører på fælles hardware.

2. Runtime-planlægning på tværs af chiplets

Mikro-scheduler: Just-in-time tildeling af MAC-blokke baseret på strøm-/temperatur-telemetri for at undgå termisk throttling.
Batch = 1 optimering: Transformer-inferens med lav latenstid får prioritet i SRAM-tunge chiplets, mens mindre følsomme NLP-jobs kan spredes ud på langsommere kerner.
QoS-domæner: Firmware eksponerer flere virtuelle NPU-instanser til Kubernetes/Slurm, som indstiller SLO’er (ms per token) og lader runtime’en migrere workloads dynamisk.
Prefetch & pipelining: En særlig DMA-motor på interposeret “network-on-package” kan prefetch’e næste sektion af attention-matricer, før resultatet fra forrige lag er klar.

3. Observabilitet og profilering

Datakilde	Sampling-frekvens	Anvendelse
UCIe link-counters	10 µs	Detekter buffer back-pressure & tune partitionering
On-die PTP-timestamps	1 ns	Distributed tracing af token-flow
Thermal dioder	1 ms	Runtime DVFS & workload migration
HBM ECC-fejl	Event-drevet	Proaktiv data-replikering

Profileringsværktøjer som NVIDIA Nsight, Intel® VTune eller open source-projekter (f.eks. Speedscope og OpenTelemetry) begynder at tilbyde “chiplet-views”, hvor varme kort, link-utilisation og per-kernel latenser korreleres i ét UI. AI-baseret autotuning kan derefter foreslå nye compiler-pass-flags, der reducerer total energianvendelse med tocifrede procenttal.

4. Standardiseret firmware og telemetri

Common Die Management Interface (CDMI)
Inspireret af CMIS for co-packaged optics beskriver CDMI spændingsplaner, link-training, reset-flows og RAS-events, så blandede leverandør-chiplets kan driftes med én BMC-stack.
Sikkerhed og isolation
Secure-boot-kæder kører per-chiplet, og PUF-baserede nøgler sikrer, at kun signerede firmware-opdateringer kan eksekveres. Runtime-attestation tillader cloud-kunder at verificere, at deres inferens faktisk kører på godkendt hardware.
Northbound integration
Telemetridata udstilles over Redfish/gRPC, så eksisterende observability-platforme (Prometheus, Grafana, Datadog) kan hente metrics uden proprietære plug-ins.

Samlet set er softwarestakken ikke blot et tyndt lag oven på silicium, men en integreret komponent, der orkestrerer milliarder af transistor-ressourcer på tværs af flere stykker dødt materiale. Uden intelligent partitionering, adaptiv scheduling og fuld transparente metrics risikerer datacentre at sidde med imponerende hardware, som aldrig når sin lovede ydelse - og derfor er netop denne softwaretier altafgørende for fremtidens chiplet-baserede AI-infrastruktur.

Økonomi, sikkerhed og forsyningskæde for chiplets

Når AI-acceleratorer sammensættes af flere mindre chiplets i stedet for ét monolitisk stykke silicium, ændres ikke blot den tekniske arkitektur, men også hele forretnings- og risikomodellen omkring siliciumproduktion. Tre faktorer er særligt afgørende: omkostningsstrukturen, forsyningskædefleksibiliteten og den nye trusselsmodel for sikkerhed i datacentre.

1. Kgd-test og aggressiv binning: Fra skrot til værdi

Known-Good-Die (KGD) betyder, at wafere kan opdeles, og kun de fungerende dies lander på interposeren. Tidligere blev en hel retikel kassation, hvis blot én blok var defekt; nu kasseres kun den enkelte die.
Binning i flere performance-klasser gør det muligt at sælge langsommere chiplets som lavpris-SKU’er eller klynge-kontrolmoduler, mens high-bin dies reserveres til premium inferenskort. Det forbedrer wafers’ yield-økonomi markant.
Resultatet er lavere $/TOPS for datacentrene og hurtigere amortisering af R&D-omkostninger for designhusene, som nu kan sende partielle wafere på markedet langt tidligere.

2. Modulære markedspladser og second-sourcing

Standarder som UCIe nedbryder leverandørmonopolet: Et NPU-chiplet fra en taiwansk designer kan parres med et HBM-stack fra en sydkoreansk memory-gigant og et optisk I/O-modul fra et europæisk photonics-startup - alt sammen på samme substrat.

Digitalt BOM-katalog: Foundries og OSAT’er tilbyder online konfiguration, hvor datacenterejere sammensætter deres egen “silicium-BOM” og modtager en pris pr. pakke i realtid.
Second-source kontrakter: Hvis én leverandør rammes af geopolitisk ustabilitet eller produktionsstop, kan et kompatibelt chiplet bestilles hos alternativ partner uden at redesigne hele kortet.
Disaggregated upgrade-cycles: Kun de chiplets, der drager fordel af et nodeskifte (typisk compute-delen), udskiftes. HBM- eller PDN-chiplets kan genbruges i næste generation og forlænge depreciation-kurven.

3. Sikkerhed i en multi-vendor pakke

Flere leverandører på samme silicium øger angrebsfladen: ukendte mikrofaults, forsyningskædeforgiftning og sidekanaler mellem chiplets. Derfor dukker nye sikkerhedsblokke op direkte på pakken.

Device attestation: En dedikeret management-chiplet signer boot-kæden og verificerer firmwarehashes på tværs af alle dies, inden PCIe-enumerering - root-of-trust flytter on-package.
ISO/IEEE TEE-extensions: Universelle enclaves på tværs af UCIe-links tillader modellagering i krypteret DRAM-region; beskytter proprietære AI-vægtfiler mod exfiltration.
Fysisk unclonable function (PUF): Integreret i selve interposer-mesh’et genererer unikke nøgler, så chip-level identitet ikke kan spoofes ved hot-swap eller kloning.
Real-time telemetri: On-die sensorer streamer spænding, strøm og temperatur til et sikkerheds-coprocessor-chiplet, som opdager malicious workload patterner (f.eks. RowHammer-lignende HBM-access).

4. Forsyningskæde & compliance

Den internationale handel med chiplets kræver nye certificerings-programmer; Trusted Foundry stemples nu på die-niveau i stedet for wafer-niveau. Derudover ser vi:

Chiplet passports, en kryptografisk logbog med produktionshistorik og QA-resultater, der følger hvert modul gennem logistikkæden.
ESG-rapportering på energi- og vandforbrug pr. chiplet giver hyperscalers dokumentation til grønne finanser.
Regional pakning: For at opfylde CHIPS-lovgivning i USA og EU sker interposer-assembly tæt på slutmarkedet, mens selve dies kan komme fra Asien - “friend-shoring” i praksis.

Samlet set skifter focus fra “silicium som monolitisk kapitaludgift” til “chiplets som fleksible aktiver”, hvor test, sikkerhed og forsyningskæde-innovation er lige så vigtige som process-node. Det gør AI-infrastruktur mindre sårbar, billigere at skalere og hurtigere at evolvere.