Er fotoniske chips klar til AI-inferens i stor skala?

Grafikkortene er udsolgt, energipriserne stiger, og efterspørgslen på kunstig intelligens eksploderer. Midt i denne perfekte storm banker en ny teknologi på døren til datacentrene: fotoniske chips - processorer, der ikke beregner med elektroner, men med lys.

Lovning­erne er svimlende: terabit-båndbredde, nanosekund-latenser og en brøkdel af strømforbruget sammenlignet med klassiske GPU’er

Men er det bare laboratorie­magien, der glimter, eller står vi reelt foran et paradigmeskift, hvor AI-inferens flytter fra siliciumbaner til bølgeleder­netværk?

I denne artikel dykker vi ned i fotonikkens nuværende formåen og fremtidige potentiale. Vi ser på teknologien anno 2025, tester løfterne mod virkeligheden og spørger, hvornår - og om - fotoniske chips bliver det næste store i skaleret AI-drift.

Læn dig tilbage, skru op for nysgerrigheden, og lad lyset vise vej gennem fem nedslag - fra arkitektur og software til økonomi og bæredygtighed. Er fotoniske chips klar til AI-inferens i stor skala? Lad os finde svaret.

Er fotoniske chips klar til AI-inferens i stor skala?

Fotoniske chips: Hvad, hvorfor og hvordan?

Forestil dig et neuralt netværk, hvor matrix-multiplikationer ikke rejser gennem kobberelektroner, men flyder som lysbølger gennem mikroskopiske bølgelædere. Det er essensen af fotoniske chips - integrerede kredsløb, der udfører aritmetiske operationer med fotoner i stedet for elektroner. Hvor konventionelle GPU’er og TPU’er benytter CMOS-transistorer til at skifte strømtilstande, udnytter fotonik interferens, fase-skift og absorption for at repræsentere og transformere information.

Hvordan regner man med lys?

  1. Kodning af data: Værdier konverteres til lysintensiteter eller fasedrejninger via digital-til-analog-modulatorer (DAC’er).
  2. Lineære operationer: Optiske interferometer-netværk (MZI’er), ringresonatorer eller bølgeleder-krydsfelter realiserer matrix-vektor-multiplikation (MVM) i ét enkelt pass. Lysbølgerne “summeres” automatisk via superposition - ingen clock-synkronisering er nødvendig.
  3. Ikke-linearitet: ReLU, GELU m.fl. implementeres enten elektronisk (post-A/D-konvertering) eller med emerging materialer som saturable absorbers.
  4. Læse resultaterne: Fotodetektorer omdanner den interfererede lysstyrke tilbage til spændingsniveauer for videre digital behandling.

Hvad adskiller fotonik fra gpu/tpu-arkitekturer?

Parameter GPU/TPU (elektronisk) Fotonisk accelerator
Energiforbrug pr. MAC ≈ 10-30 pJ < 1 pJ (teoretisk < 0.1 pJ)
Interconnect-båndbredde Begrænset af kobbertraces, < 2 Tb/s per retning WDM > 10 Tb/s på samme fiber/bølgeleder
Latenstid Clock-cyklusser (ns) Lysets transit (ps)
Skaleringslov Moore/Koomley, mod 3 nm-grænser Waveguide-densitet & antallet af farvekanaler (WDM)
Varmeudvikling Joule-varme proportional med I2R Minimal - kun modulatorer/detektorer varmer

Hvorfor er det interessant for ai-inferens?

  • Massiv parallelitet uden ekstra energi: En optisk matrix af størrelse N×N udfører N² MAC’s i samme tidsenhed som én MAC - lysets superposition gør arbejdet “gratis”.
  • Ekstrem båndbredde: Flere bølgelængder (WDM) kan propagere samtidigt i samme bølgeleder, hvilket giver multi-terabit datapipelines mellem chiplets eller rack-niveau.
  • Lav latenstid: For real-time applikationer (voice bots, AR/VR-rendering) kan sub-nanosekund responstid være afgørende. Fotonik reducerer “memory-wall” ved at kombinere beregning og kommunikation.
  • Bedre energieffektivitet (TOPS/W): Demonstrationer i laboratoriet viser >20 TOPS/W, og roadmap-mål er 100 TOPS/W+, hvilket er 10-20× bedre end cutting-edge GPU’er i 2025.
  • Skalerbarhed til hyperscale: Co-packaged optics kan forbinde tusinder af fotoniske tile’s uden SerDes-strømafhængige bottlenecks.

Dermed supplerer fotoniske chips snarere end erstatter elektroniske accelerators. Digitale enheder håndterer kontrolflow, hukommelse og ikke-lineariteter, mens lysbaseret hardware afvikler de tunge lineære kernels. Kombinationen kan blive nøglen til at drive næste bølge af generativ AI-infrastruktur under stadig strammere energibudgetter.


Teknologisk status i 2025

I 2025 er fotoniske AI-acceleratorer rykket fra laboratorieopsætninger til engineering samples og de første betalte pilotinstallationer i hyperskala-datacentre. Nedenfor følger et overblik over den teknologiske modenhed, de dominerende arkitekturer og de mest citerede præstations­tal.

Arkitektur-landskabet

  1. Interferometer-netværk (MZI-mesh)
    En sammenkædning af Mach-Zehnder-interferometre, som implementerer matrix-multiplikation via fasejusteringer. Fordelen er lineær skalerbarhed i chipareal; ulempen er behovet for præcis kalibrering af hver enkelt fase-skifter.
  2. Ringresonator-baserede vægte
    Her koder man vægte i resonansfrekvensen af små mikroringe. Giver høj tæthed, men lider af temperatur-drift på få milligrad, hvorfor aktiv temperaturstyring eller loop-back-kontrol er obligatorisk.
  3. Bølgeleder-matrixer & Scatter-elementer
    Vinklet mod “coherent free-propagation” hvor hele matrix-operationen realiseres som et enkelt diffraktivt netværk. Ekstremt lav latenstid (<5 ns) men foreløbig kun vist på 8-bit ekvivalente præcisioner.

Typiske nøgletal (2025-generation)

Parameter State-of-the-art Lab-demo Pilot-silicium (sampling) Kommentar
Effektivitet (analog OPS/W) 5.000-10.000 TOPS/W 1.000-2.500 TOPS/W Tal inkluderer ikke A/D-, laser- eller memory-forbrug
End-to-end effektivitet (inkl. I/O) 150-300 TOPS/W 80-200 TOPS/W Stadig 3-10× bedre end cutting-edge CUDA-GPUer
On-chip båndbredde >20 TB/s (WDM, 64λ × 320 Gb/s) 4-10 TB/s Spørgsmålet er, om host-linket kan følge med
Latenstid for 1K×1K GEMM 6-10 ns 15-40 ns Ingen clock-flops; begrænses af fotonisk rejsetid
Beregnings-præcision W = 6-8 bit, A = 8-10 bit W = 4-8 bit, A = 8 bit Støjniveau kræver kvantisering og stochastisk rounding
Technological Readiness Level (TRL) 6 7-8 (mål 2026-27) TRL 9 forventes tidligst 2028

Arbejdende demonstrationer og pilots

  • Lightmatter “Envise” - 2. gener. 6 nm siliciumfotonik med 180×180 MZI-mesh; kører BERT-Base inferens på under 15 W ved <1 ms batch-1.
  • Luminous Computing “Iris-600” - ringresonator-arkitektur sam­plende til tre hyperscaler-partnere. Måler 1.4 PETAOPS analog brutto.
  • Celestial AI “Photonic Fabric” - fokuserer på chip-to-memory-link; 512-kanals WDM demonstreret i samarbejde med Micron HBM-photonic prototype.
  • Microsoft Project “SilicaLight” - intern pilot i Azure-datacenter, co-packaged med Broadcom Tomahawk-5 switch til distributed transformer-inferens.
  • EU-konsortiet PHOENICS - 8-site testbed der bruger bølgeleder-matrix til streaming-anbefaling (OTT-video). Mål: 30 % energireduktion mod GPU-baseline.
  • Tencent VideoEdge - edge-deploy af 100 TOPS fotoniske PCIe-kort til real-time transkoding; interessant case for temperaturrobusthed.

Modenheds­vurdering

Samlet set er der sket et skift fra proof-of-concept til proof-of-value. De fleste leverandører reklamerer med >1 PETAOPS analog ydeevne pr. chip, men realiseret software-tilgængelig sparsom throughput er typisk en størrelsesorden lavere. De kritiske milepæle frem mod fuld produktion er:

  • Integration af co-packaged lasers for at fjerne eksterne fiberbundter.
  • 16-bit TDC-baserede ADC’er under 50 fJ/konvertering for at holde energifordele.
  • Design-flows hvor PyTorch-grafer automatisk kvantiseres og mappes til MZI-mesh uden manuel tuning.
  • Standardiserede optiske interface-moduler (O-CXL?) til at forbinde fotoniske dies med eksisterende CPU/GPU-hosts.

Hvis de ovennævnte punkter krydses af inden 2027, anser flere analysehusene (Gartner, Omdia) teknologien for klar til niche-skala (<5 % af datacenter-AI-klynger). Den brede udrulning vil dog først følge, når fotoniske chips kan leveres som drop-in alternativer til PCIe/CXL-kort med dokumenteret drift over 100.000 timer.


Styrker og begrænsninger for AI-inferens i stor skala

Når man vurderer fotoniske chips til stor­skala AI-inferens, er det afgørende at skelne mellem de opgaver, hvor teknologien brillerer, og de områder, hvor den stadig er på hælene i forhold til modne elektronikbaserede acceleratorer.

Hvor passer fotonik naturligt ind?

  • Matrix-multiplikation i lineære lag
    Optiske interferometer- eller ringresonator-netværk kan udføre M×N-matrixer næsten energifrit, fordi lysets intensitet interfererer analogt. Dette matcher de matmul-tunge dele af transformer-arkitekturen (Q-K-V-projektioner, feed-forward-lag) og klassiske fully-connected lag.
  • Batchløs, strømmet inferens
    I scenarier som online-søgning eller anbefalingsmotorer, hvor latenstid er vigtigere end gennemløb, udnytter fotonik sin ekstremt lave propagationstid (<1 ps pr. millimeter bølgeleder).
  • Edge-use cases med stram energibudget
    Når DAC/ADC-resourcen kan deles mellem få kanaler (fx tinyML-modeller), kan det totale forbrug presses ned i sub-watt-klassen og slå MCU-baserede alternativer.

Når fotonik møder virkeligheden: Begrænsninger

Udfordring Praktisk betydning Typiske metoder til afhjælpning
A/D-D/A-overhead Hver optisk beregning kræver digitale data ind via DAC og analoge signaler ud via ADC. På 4-8 bit opløsning dominerer konverteringen stadig det samlede effektbudget (>60 % i flere demonstratorer). • Delt DAC/ADC pr. flere optiske kerner
• Hybridarkitektur hvor kun tunge matmul-lag køres optisk
• Optiske in-memory-løsninger der reducerer I/O-frekvens
Præcision & kvantisering Fotonik arbejder analogt og er følsom for fasedrift. 4-6 bit effektiv opløsning er realistisk i 2025, mens mange LLM-varianter kræver 8 bit eller mere for akkuratitet uden retræning. • Post-training kvantisering til 4 bit (GPT-Q, AWQ)
• Støj-robuste aktiveringsfunktioner
• Kombineret optisk-digital fejlkorrektion
Temperaturdrift & kalibrering Ringresonatorers bølgelængde kan flytte sig >100 pm/°C, hvilket ændrer matrix-vægtene. Aktiv opvarmning/køling spiser energigevinsten. • Indbygget thermo-electric tuning
• Periodisk selvkalibrering via pilot-toner
• Brug af mindre temperaturfølsomme interferometertyper
Routing & skalerbarhed At integrere tusinder af kerner kræver komplicerede krydsende bølgeledere. Tab og krydstale vokser superlineært med chiparealet. • 3D-integration (electronic-photonic IC)
• WDM-multiplexing frem for fysisk fan-out
• Tile-baseret ”chiplets med lyslinks”-arkitektur
Hukommelse & I/O-flaskehals Parameter-lageret ligger stadig i SRAM/HBM på den elektriske side. Den optiske kerne kan udføre en GEMM hurtigere end data kan leveres. • Co-packaged optics direkte til HBM-stakken
• Komprimeret vægtstrøm (sparseness, prunerede modeller)
• Pipeline-parallelitet mellem fotoniske og digitale blokke

Sammenfatning

Fotoniske chips kan levere enestående TOPS/W på rene matrixoperationer og give sub-ns latenstid, men gevinsten realiseres kun, hvis hele stakken - fra model­kvantisering til system-routing - designes med lys som første­klasses borger. De næste par år vil derfor sandsynligvis se hybrider, hvor optiske kerner accelererer udvalgte lag, mens resten håndteres af GPU/TPU’er. Før konverteringsoverhead, præcisionskrav og termisk robusthed er løst, er fuldt fotoniske datacentre næppe realistiske; men til niche-områder som latency-kritisk inferens, specialiserede edge-enheder og grønne datacentre ser vi allerede nu, at lyset er tændt.


Software, værktøjer og integrationsvejen

I takt med at fotoniske acceleratorer bevæger sig fra laboratoriet til pilotklynger, er den største flaskehals sjældent selve lyset - men softwaren, der skal få det til at skinne. Nedenfor opsummeres status på værktøjs­kæden og de integrationslag, der skal falde på plads, før fotonik kan blive en førsteklasses borgere i den moderne AI-stak.

1. Compilere og front-ends

  • Model-optag: De fleste leverandører accepterer i dag PyTorch eller ONNX. Herefter omsættes IR’en til et domænespecifikt graf-DSL, typisk baseret på MLIR.
  • Eksempler på toolchains:
    1. Lightmatter Luminary - udvider LLVM/MLIR med “photon” dialekt; understøtter automatisk differ­entiering og mixed-precision.
    2. Lightelligence Hummingbird - graph-level optimizer der matcher matmul-blokke til interferometer-arrays.
    3. Morgan ROQ (open source, akademisk) - prototype-backend til TVM/Relax for ring-resonator topologier.
  • Mapping og kalibrering: Efter layout skal vægtene kvantiseres (ofte 6-8 bit signifikans) og omsættes til fasedrejninger. En closed-loop kalibrering kompenserer for temperatur- og proces­variationer - typisk via LUT’er, der opdateres in-situ med få minutters interval.

2. Runtime, scheduler og fejltolerance

Lag Rolle Nuværende modenhed
Host-runtime Orkestrerer A/D-overførsel, batch-deling, varme styring Beta - proprietære C++/Rust-SDK’er, enkelte Kubernetes-operators
Photon Execution Engine Microscheduler, der placerer optiske MAC-træf i tids-/rumsdomæne Alfa - mangler endnu pre-emption og QoS-isolation
Monitorering Eksport af temperatur, laser-drive, BER, link-health Proof-of-concept - Prometheus-exporters og Grafana-dashboards

Fejlhåndtering er en akilleshæl, da en enkelt ude-af-tolerance ring­resonator kan korrumpere hele dot-produktet. De mest fremskredne systemer har real-time fallback til GPU, hvis SNR falder under en tærskel.

3. Hybrid-partitionering (cpu/gpu + fotonik)

  • Typisk lægges matrix-tunge blokke (attention, MLP) på fotonik, mens ikke-lineariteter og kontrolflow bliver på GPU/CPU.
  • Partitioneringen foregår via omkostningsmodeller, der afvejer:
    • Energi vs. PCIe/Optical I/O-budget
    • AD/DA-latens (~5-15 ns pr. hop)
    • Precision loss (post-quantization accuracy drop)
  • Praktisk anvendes extensions til TorchDynamo og XLA, hvor fotonik eksponeres som en egen “device type”. Nogle leverandører tilbyder også triton-photon kernels.

4. Datacenter­integration

For at udnytte de fotoniske modulers fulde båndbredde (ofte 6-12 Tb/s per chip) rykker man mod co-packaged optics (CPO), hvor elektrisk og optisk I/O deles i samme package. Dette har fem konsekvenser:

  1. Netværk: Fabrics på 800 G-1,6 T Ethernet eller Infiniband NDR200 er nødvendige for at undgå I/O-stagnering.
  2. Strøm & køling: Laser-drivers afsætter 10-15 W; væskekøling til chassis bliver hurtigt et krav.
  3. Rack-layout: Nogle designs monteres i OCP-OAM sleds, andre som PCIe/PCIe-Gen6 halv-højde kort.
  4. Orkestrering: Kubernetes CRD’er til fotonik er på vej (f.eks. PhotonNode og PhotonJob), men integration med Slurm og Ray er længere fremme.
  5. Observabilitet: Ud over klassiske metrics skal lysstyrke, TE-kontroller og ber-målinger streames til AIOps-systemer for proaktiv vedligehold.

Samlet set er software-økosystemet to-tre år bagud i forhold til GPU-verdenen, men fremdriften i open-source-projekter og konkurrence mellem fire-fem start-ups accelererer tempoet. Indtil fotonik har en stabil compiler-ABI og Kubernetes-naturlige drivere, vil store udrulninger dog kræve tæt samarbejde mellem hardware-leverandør, ML-ingeniører og datacenter-drift.


Økonomi, forsyningskæde og fremtidsudsigter

Selv om fotoniske acceleratorer endnu befinder sig i pilotfasen, er de økonomiske briller allerede sat på i hyperscale-verdenen. Et typisk regnestykke inddrager fire cost-drivers:

Cost-driver GPU-baseret inferens (2025) Fotonisk prototype (2025) Fotonisk generation 1 (est. 2027)
Silicium-die + packaging ≈ 3.000 USD ≈ 4.500 USD ≈ 2.500 USD (ved 300 mm CMOS-linjer)
Board + co-packaged optics ≈ 800 USD ≈ 600 USD ≈ 400 USD
Drift (strøm + køling pr. år) ≈ 1.200 USD ≈ 300 USD ≈ 250 USD
Licenser + software-support ≈ 15 % af CAPEX ≈ 25 % af CAPEX (pionértakst) ≈ 10 % af CAPEX

I det totale ejerperspektiv over 3 år ligger fotoniske løsninger derfor allerede inden for ±10 % af high-end GPU-clusters, forudsat at yield og serviceaftaler rammer forventningerne i 2027-2028.

Produktion: Siliciumfotonik, yield og packaging

  1. Siliciumfotonik på standard CMOS-linjer
    Ved at bruge 300 mm linjer på 90-45 nm kan foundries genbruge eksisterende værktøjer. Udfordringen er integration af III-V-materialer til on-chip lasere, hvor hetero-epitaksi endnu giver ~55 % yield.
  2. Hermetisk packaging
    Fotoniske die skal beskyttes mod partikler og fugt. Nyeste “glass-on-silicon”-kapper reducerer tab til 0,2 dB, men trækker 10-15 % ekstra på materialebudgettet.
  3. Co-packaged optics (CPO)
    At integrere transceiver-moduler i samme package fjerner traditionelle pladeruter, men kræver 3D-integration og chiplet-interposer. Først når CPO når >70 % attach-rate, forventes prisparitet med discrete optics.

Standarder og interoperabilitet

  • OIF-CEI-XSR — Electrical die-to-die: holder elektriske hop under 2 pJ/bit og er afgørende for hybrid GPU + fotonik-boards.
  • OpenLight PDK: fælles fotonik-bibliotek (ringresonatorer, modulators, T-splittere) som flere foundries nu adopterer.
  • ONNX-Photon Dialect (forslag): tidlig arbejdsgruppe under LF AI til at udvide ONNX med interferometer-operatorer (phMatMul, phFFT).

Bæredygtighedsprofil

Med <1 pJ/MAC er fotonik blandt de mest energieffektive beregningsplatforme pr. i dag. Følgende KPI'er anvendes af datacentres ESG-afdelinger:

  • Power Usage Effectiveness (PUE)-impact: Estimeret PUE-forbedring på 0,05-0,08 point ift. GPU-racks.
  • Scope 2 CO2-reduktion: ~400 t CO2/MW pr. år ved overgang af én GPU-poded line-card til fotonik.
  • Vandforbrug: 25 % lavere kølevand ift. væskekølede GPU-pods.

Lovende use cases

  1. Søgning i real-tid: in-memory vector search ned til <100 µs p99 med multimodale embeddings.
  2. Anbefalingssystemer: Dense feature interactions fylder matrix-multiply-delen; passer perfekt til interferometer-arrays.
  3. Streaming-inferens (video-undertekster, transskription): Lave W/stream-metrics giver 3-4× højere kanal-tæthed; latency-loftet på 10 ms er realistisk.
  4. Edge-datacentre: Telecom-knudepunkter kan integrere fotoniske inferens-moduler direkte i ROADM-chassis, dvs. nul konvertering fra optisk linje til elektrisk rack.

Milepæle mod storskala udrulning

  • 2025 Q4: Demonstration af 8-chip fotonisk “blade” med 3D WDM-routing til 25 Tb/s.
  • 2026 H2: Første common PDK accepteret af tre store foundries; ONNX-Photon preview.
  • 2027 Q2: End-to-end genkommende produktionsyield >80 %; TCO krysser under GPU ved 20 MW-skala.
  • 2028: Hyperscalers (3 ud af 5) har fotoniske pods i produktion til search ranking.
  • 2030: Edge-certificeret modul på <50 W lanceres; markedet for fotonisk inferens når 5 mia. USD.

Til den tid vil spørgsmålet næppe være om fotoniske chips er klar til skala, men snarere hvordan man designer de næste netværk, hvor datatransporten er lige så fotonisk som selve beregningen.