Quantum World Models (QWM)

Quantum World Models (QWM) markieren den nächsten Evolutionsschritt im modellbasierten Reinforcement Learning: Statt die Welt ausschließlich als klassisches, oft hochdimensionales Dynamiksystem zu approximieren, wird die Modellierung selbst als quanteninspiriertes oder direkt quantenmechanisches Repräsentations- und Simulationsproblem verstanden. Der Kern dieser Idee ist ebenso schlicht wie radikal: Wenn komplexe Umwelten durch latente Zustände, Übergänge und Unsicherheiten geprägt sind, warum sollten wir diese Struktur nicht in einem formalismus abbilden, der Superposition, Interferenz und Verschränkung als natürliche Werkzeuge bereitstellt?

Modellbasierte RL-Methoden wurden populär, weil sie durch Lernen eines Weltmodells Planung, Imagination und daten-effiziente Politikoptimierung ermöglichen. Doch genau dort liegen auch die Engpässe: Realistische Umwelten sind nicht nur groß, sondern auch partiell beobachtbar, nichtstationär, stark stochastisch und voller verdeckter Kausalitäten. Klassische World Models geraten dann in einen Zielkonflikt zwischen Modellkapazität, Trainingsstabilität und zuverlässiger Unsicherheitsquantifizierung. QWM setzen an dieser Stelle an und schlagen vor, latente Zustände und Dynamiken so zu kodieren, dass komplexe Abhängigkeiten kompakter und strukturierter erfasst werden können. In einem idealisierten Szenario kann ein quantenbasiertes Weltmodell nicht nur mehrere plausible Zukunftshypothesen parallel repräsentieren, sondern diese Hypothesen auch durch Interferenzmechanismen selektiv verstärken oder abschwächen.

Die Vision ist nicht, klassische Methoden zu ersetzen, sondern eine neue Rechen- und Repräsentationsschicht zu erschließen: Hybridmodelle, in denen klassische Encoder Beobachtungen verdichten, quantenparametrisierte Dynamikmodule Übergänge modellieren, und klassische Decoder wieder handhabbare Vorhersagen liefern. Dadurch entsteht ein System, das Planung und Lernen enger verzahnt, Unsicherheiten expliziter behandelt und möglicherweise neue Kompromisse zwischen Expressivität und Sample-Effizienz ermöglicht. Diese Abhandlung zielt darauf ab, QWM begrifflich zu schärfen, architektonisch einzuordnen und forschungspraktisch zu diskutieren: Wo liegen reale Chancen, wo bloß elegante Metaphern, und welche Kriterien entscheiden, ob QWM tatsächlich einen substantiellen Mehrwert im Quantum Reinforcement Learning liefern?

Kontext: Von klassischen World Models zu Quantum World Models

Klassische World Models entstehen aus der Einsicht, dass ein Agent nicht jede Entscheidung nur reaktiv anhand aktueller Beobachtungen treffen sollte. Stattdessen lernt er ein internes Modell der Umwelt, das Zustände, Übergänge und Belohnungen approximiert. In vielen modernen Ansätzen wird dafür ein latenter Zustand \(z_t\) gelernt, der Beobachtungen \(o_t\) verdichtet und die Dynamik über ein Übergangsmodell \(p_\theta(z_{t+1} \mid z_t, a_t)\) beschreibt. Planung wird dann zu einer Suche in diesem latenten Raum: Der Agent imaginiert Rollouts, bewertet Handlungssequenzen und optimiert seine Politik, ohne die echte Umwelt für jeden Schritt befragen zu müssen.

Quantum World Models übernehmen diese Grundidee, erweitern sie aber in Richtung quantenmechanischer Repräsentationen. Statt latente Zustände ausschließlich als Vektoren in \(\mathbb{R}^d\) zu verstehen, wird ein latenter Zustand als Quantenstatus aufgefasst, z.B. als Zustandsvektor \(\lvert \psi_t \rangle\) oder allgemeiner als Dichtematrix \(\rho_t\). Übergänge lassen sich dann nicht nur als klassische stochastische Kernel, sondern als Quantenkanäle formulieren, etwa als vollständig positive, spurtreue Abbildungen \(\mathcal{E}_\theta(\rho_t, a_t)\). In dieser Sichtweise ist Unsicherheit nicht nur eine externe Zusatzgröße, sondern eng mit der Zustandsbeschreibung verwoben: Ein QWM kann mehrere mögliche latente Konfigurationen in einer Superposition tragen und durch Messung oder Projektion in konkrete Vorhersagen überführen.

Wichtig ist dabei die realistische Einordnung: In der NISQ-Ära wird QWM oft hybrid implementiert. Klassische Komponenten übernehmen Feature-Extraktion, Stabilisierung und Skalierung; quantenbasierte Module werden dort eingesetzt, wo man einen strukturellen Vorteil vermutet, etwa bei der kompakten Darstellung hochgradig korrelierter latenter Faktoren oder bei der Generierung komplexer Verteilungen. Der Kontext von QWM ist daher ein Kontinuum: von quanteninspirierten Repräsentationen über hybride Variational-Circuit-World-Models bis hin zu vollständig quantenmechanischen Weltmodellen in speziellen Domänen wie quantenphysikalischen Umwelten.

Grenzen klassischer modellbasierter RL-Ansätze (Datenhunger, Skalierung, Unsicherheit)

Modellbasierte RL-Ansätze versprechen Sample-Effizienz, doch in der Praxis bezahlen sie diesen Vorteil häufig mit empfindlichen Fehlerketten. Ein Weltmodell, das die Dynamik nur leicht falsch erfasst, kann in imaginären Rollouts systematisch abdriften. Dieser Effekt verstärkt sich mit der Rollout-Länge: Schon kleine Modellfehler akkumulieren zu gravierenden Verzerrungen, wodurch Planung in falsche Regionen des Zustandsraums gelenkt wird. Formal zeigt sich das als wachsende Diskrepanz zwischen wahrer Übergangsdynamik \(p(s_{t+1}\mid s_t,a_t)\) und modellierter Dynamik \(\hat{p}\theta(s{t+1}\mid s_t,a_t)\), deren Fehler in Mehrschritt-Prognosen nicht linear, sondern häufig superlinear wirkt.

Datenhunger entsteht paradoxerweise gerade dann, wenn Modelle sehr flexibel sind. Hochkapazitive Weltmodelle benötigen viele diverse Trajektorien, um die relevanten Dynamikmodi abzudecken. Gleichzeitig ist Exploration schwierig, weil man für gutes Modelllernen Zustände besuchen muss, die der Agent ohne Modellwissen nicht gezielt ansteuern kann. Das führt zu einem klassischen Henne-Ei-Problem: Ohne gutes Modell keine gute Exploration, ohne Exploration kein gutes Modell.

Skalierung ist eine zweite zentrale Grenze. Reale Umwelten erzeugen Beobachtungen in enormen Dimensionen, und der relevante Zustandsraum kann Kombinatorik enthalten: Objektinteraktionen, lange Zeithorizonte, nichtstationäre Regeln. Klassische latente Modelle komprimieren zwar, aber die Kompression muss die gesamte Planungsrelevanz erhalten. Das ist schwierig, weil Planung nicht nur Rekonstruktion, sondern kausale Vorhersage benötigt. Ein latenter Raum \(z_t\) kann visuell plausibel rekonstruieren und dennoch planungsblind sein, wenn entscheidungsrelevante Faktoren unterdrückt werden.

Die dritte Grenze ist Unsicherheit. In der Weltmodellierung ist entscheidend, zwischen aleatorischer Unsicherheit (echte Stochastik) und epistemischer Unsicherheit (Wissenslücken des Modells) zu unterscheiden. Viele klassische Modelle approximieren Unsicherheit unzureichend oder inkonsistent. Ensemble-Methoden oder Bayes-Ansätze helfen, sind aber teuer und oft schwer stabil zu trainieren. In Planungsszenarien führt falsche Unsicherheit zu riskantem Overconfidence-Planning oder zu übervorsichtigem Verhalten. Genau hier entsteht ein Motivationsraum für QWM: Wenn Unsicherheit und Korrelationen in einer quantenähnlichen Repräsentationsform natürlicher kodierbar sind, könnte die Modellierung robuster und die Planung zuverlässiger werden.

Quantenvorteile: Superposition, Verschränkung, probabilistische Repräsentationen

Der potenzielle Mehrwert von QWM lässt sich als Repräsentations- und Simulationsvorteil formulieren. Superposition erlaubt, mehrere latente Hypothesen gleichzeitig zu tragen. Statt eine einzelne latente Schätzung \(z_t\) zu propagieren, kann ein QWM eine Überlagerung \(\lvert \psi_t \rangle = \sum_i \alpha_i \lvert i \rangle\) darstellen, wobei die Amplituden \(\alpha_i\) unterschiedliche plausible latente Weltzustände gewichten. In einem idealisierten Setting entspricht dies einer parallelen Hypothesenführung, bei der Planung nicht nur einen Mittelwert verfolgt, sondern mehrere Zukunftsstränge strukturiert mitführt.

Verschränkung ist der zweite Hebel. In klassischen latenten Vektorräumen müssen Korrelationen oft explizit durch hohe Dimensionalität oder komplexe Kopplungsschichten gelernt werden. Quantenmechanisch können Korrelationen zwischen Subsystemen intrinsisch durch verschränkte Zustände kodiert sein. Ein Zustand \(\lvert \psi \rangle\) kann nicht als Produktzustand \(\lvert \phi \rangle \otimes \lvert \chi \rangle\) zerlegt werden und trägt damit nichttriviale Abhängigkeiten kompakt. Für World Models ist das attraktiv, weil Umwelten häufig aus interagierenden Komponenten bestehen: Objekte, Agenten, Ressourcen. Ein QWM könnte solche Interdependenzen in einer strukturierten, kompakten Form repräsentieren.

Probabilistische Repräsentationen erhalten in QWM eine doppelte Bedeutung: Einerseits sind Quantenmodelle intrinsisch probabilistisch durch Messung. Andererseits lassen sich komplexe Verteilungen über Beobachtungen, latente Zustände und Zukunftsrollouts als Sampling aus Messstatistiken interpretieren. Ein QWM kann Vorhersagen als Mess-Erwartungswerte liefern, z.B. \(\mathbb{E}[f] = \mathrm{Tr}(\rho , O_f)\) für einen geeigneten Observablenoperator \(O_f\). Dadurch entsteht eine Brücke zwischen quantenparametrischen Modellen und klassischer probabilistischer Inferenz.

Allerdings ist der Begriff Quantenvorteil hier vorsichtig zu lesen: In der NISQ-Realität sind Rauschen, begrenzte Qubit-Zahlen und begrenzte Schaltungstiefen harte Constraints. Der praktische Vorteil liegt daher oft nicht in einem asymptotischen Speedup, sondern in einer anderen Bias-Struktur des Modells: Andere Hypothesenräume, andere Regularisierungseigenschaften, potenziell bessere Approximation bestimmter korrelierter Dynamiken bei begrenztem Parameterbudget. QWM sind daher weniger als Wunderwaffe zu verstehen, sondern als ein neues Designparadigma für Weltmodelle unter hybriden Rechenressourcen.

Zielsetzung der Abhandlung und zentrale Forschungsfragen

Diese Abhandlung verfolgt drei Ziele: Erstens eine klare begriffliche und formale Einordnung von Quantum World Models im Spektrum zwischen klassischem World Modeling, quanteninspiriertem Lernen und echter Quantenmodellierung. Zweitens eine systematische Darstellung typischer QWM-Architekturen und Trainingsmethoden, inklusive hybrider Designs, die auf NISQ-Hardware plausibel sind. Drittens eine kritische Bewertung: Unter welchen Bedingungen liefern QWM einen messbaren Mehrwert für Planung, Sample-Effizienz und Robustheit?

Daraus ergeben sich zentrale Forschungsfragen:

  • Repräsentation: Welche Arten latenter Zustandsrepräsentationen sind für QWM sinnvoll, und wie mappt man Beobachtungen \(o_t\) robust auf Quantenrepräsentationen wie \(\lvert \psi_t \rangle\) oder \(\rho_t\)?
  • Dynamiklernen: Wie modelliert man Übergänge als Quantenkanäle \(\mathcal{E}_\theta\), und wie koppelt man Aktionen \(a_t\) konsistent in die Dynamik?
  • Planung: Wie werden imaginäre Rollouts in QWM formalisiert, und wie nutzt man Messungen, Erwartungswerte oder Sampling, um Handlungssequenzen zu bewerten?
  • Unsicherheit: Kann QWM epistemische und aleatorische Unsicherheit besser trennen oder praktikabler nutzbar machen als klassische Ensembles und Bayes-Methoden?
  • Benchmarking: Welche Aufgaben, Metriken und Ablations sind geeignet, um QWM fair gegen klassische World Models zu testen, insbesondere unter Hardwarebeschränkungen?
  • Praxisreife: Welche hybriden Architekturen sind heute realistisch, und welche theoretischen Versprechen bleiben bis zur Fehlerkorrektur spekulativ?

Mit dieser Fragenstruktur wird der rote Faden der Abhandlung definiert: QWM nicht nur als faszinierende Idee, sondern als überprüfbaren, architektonisch greifbaren Ansatz im Quantum Model-Based Reinforcement Learning.

Grundlagen des Reinforcement Learning und World Models

Reinforcement Learning bildet das methodische Fundament für Quantum World Models. Um den quantenmechanischen Erweiterungen gerecht zu werden, ist es notwendig, die klassischen Konzepte präzise zu verorten und ihre strukturellen Grenzen zu verstehen. Dieses Kapitel etabliert die begrifflichen und formalen Grundlagen, auf denen World Models und ihre quantenbasierten Weiterentwicklungen aufbauen.

Kurzüberblick Reinforcement Learning

Im klassischen Reinforcement Learning interagiert ein Agent mit einer Umwelt in diskreten Zeitschritten. Zu jedem Zeitpunkt \(t\) befindet sich der Agent in einem Zustand \(s_t\), wählt eine Aktion \(a_t\) und erhält daraufhin eine Belohnung \(r_t\) sowie einen Folgezustand \(s_{t+1}\). Ziel des Agenten ist es, eine Politik \(\pi(a \mid s)\) zu lernen, die den erwarteten kumulativen Ertrag maximiert, typischerweise definiert als

\(G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}\)

mit dem Diskontfaktor \(\gamma \in [0,1]\).

Die Umwelt wird häufig als Markov-Entscheidungsprozess modelliert, beschrieben durch das Tupel \((\mathcal{S}, \mathcal{A}, P, R)\), wobei \(P(s_{t+1} \mid s_t, a_t)\) die Übergangsdynamik und \(R(s_t, a_t)\) die Belohnungsfunktion darstellt. In vielen realen Anwendungen ist der wahre Zustand jedoch nicht direkt beobachtbar. Stattdessen erhält der Agent Beobachtungen \(o_t\), was zu partiell beobachtbaren Modellen führt.

Ein zentraler Unterschied im Reinforcement Learning besteht zwischen modellfreien und modellbasierten Ansätzen. Modellfreie Verfahren, etwa Q-Learning oder Policy-Gradient-Methoden, lernen direkt Wertfunktionen \(V(s)\), Aktionswertfunktionen \(Q(s,a)\) oder Politiken \(\pi_\theta\), ohne explizit ein Modell der Umwelt zu konstruieren. Modellbasierte Verfahren hingegen versuchen, die Dynamik \(P\) und oft auch die Belohnungsfunktion zu approximieren, um Planung, Simulation und daten-effizientes Lernen zu ermöglichen. World Models gehören explizit zu dieser zweiten Kategorie.

Klassische World Models

Klassische World Models zielen darauf ab, die Umwelt in einer komprimierten, latenten Form darzustellen. Anstatt direkt im hochdimensionalen Beobachtungsraum zu planen, wird ein latenter Zustandsraum \(z_t\) eingeführt, der die entscheidungsrelevanten Aspekte der Umwelt kodiert. Die grundlegende Idee ist die Faktorisierung in drei Komponenten: einen Encoder \(q_\phi(z_t \mid o_t)\), ein Dynamikmodell \(p_\theta(z_{t+1} \mid z_t, a_t)\) und optional einen Decoder \(p_\psi(o_t \mid z_t)\).

Zustandsraum-Abstraktion ist dabei essenziell. Ein guter latenter Raum reduziert Redundanz, erhält aber kausale und zeitliche Struktur. Dynamikmodelle erlauben Prädiktion und Imagination: Der Agent kann hypothetische Aktionssequenzen durch das Modell rollen lassen und ihre Konsequenzen abschätzen, ohne reale Interaktion mit der Umwelt.

Zur Realisierung solcher Modelle werden häufig Variational Autoencoder eingesetzt, bei denen der latente Zustand als Zufallsvariable mit approximativer Posteriorverteilung modelliert wird. Recurrent Neural Networks (RNNs) erweitern diese Idee, indem sie zeitliche Abhängigkeiten explizit erfassen. Besonders verbreitet sind rekurrente State-Space-Modelle, bei denen deterministische und stochastische latente Komponenten kombiniert werden, um sowohl Gedächtnis als auch Unsicherheit abzubilden. Formal entsteht ein dynamisches System im latenten Raum, das als Ersatz für die reale Umwelt dient.

Grenzen klassischer World Models

Trotz ihrer Erfolge stoßen klassische World Models an fundamentale Grenzen. Eine zentrale Schwierigkeit ist das exponentielle Wachstum relevanter Zustandskombinationen. Selbst wenn der latente Raum niedrigdimensional erscheint, kann die zugrunde liegende Dynamik hochgradig nichtlinear und kombinatorisch sein. Das Modell muss implizit eine enorme Vielfalt möglicher Zukunftsverläufe approximieren.

Partielle Beobachtbarkeit verschärft dieses Problem. Wenn Beobachtungen \(o_t\) nur indirekt auf den wahren Zustand schließen lassen, muss das Weltmodell Gedächtnis und Unsicherheit integrieren. Fehler in der Zustandsinferenz propagieren sich unmittelbar in die Dynamikvorhersage und damit in die Planung.

Die Unsicherheitsmodellierung stellt eine weitere Grenze dar. Viele klassische World Models liefern punktuelle Vorhersagen oder approximieren Unsicherheit nur grob. Eine saubere Trennung zwischen epistemischer Unsicherheit über das Modell und aleatorischer Unsicherheit der Umwelt ist schwer umzusetzen. In längeren imaginären Rollouts führt dies häufig zu Overconfidence oder systematischem Drift. Diese strukturellen Schwächen motivieren die Suche nach alternativen Repräsentationsformen – und bilden den direkten Übergang zur Idee der Quantum World Models.

Quantenmechanische Grundlagen für QWM

Quantum World Models bauen nicht nur metaphorisch, sondern formal auf Konzepten der Quantenmechanik und Quanteninformation auf. Dieses Kapitel führt jene quantenmechanischen Grundlagen ein, die für das Verständnis und die Konstruktion von QWM zentral sind. Der Fokus liegt dabei nicht auf physikalischer Vollständigkeit, sondern auf den Aspekten, die als Repräsentations- und Rechenressourcen für modellbasiertes Lernen nutzbar sind.

Qubits und Superposition

Das fundamentale Informationsträgerkonzept der Quantenmechanik ist das Qubit. Im Gegensatz zum klassischen Bit, das entweder den Wert null oder eins annimmt, kann ein Qubit in einer Superposition beider Basiszustände existieren. Formal wird ein reiner Qubitzustand als

\(\lvert \psi \rangle = \alpha \lvert 0 \rangle + \beta \lvert 1 \rangle\)

beschrieben, wobei die komplexen Amplituden \(\alpha\) und \(\beta\) die Normierungsbedingung \(|\alpha|^2 + |\beta|^2 = 1\) erfüllen. Für ein System aus \(n\) Qubits wächst der Zustandsraum exponentiell auf eine Dimension von \(2^n\).

Für QWM ist diese Eigenschaft von besonderer Bedeutung. Ein latenter Zustand kann nicht nur als einzelner Punkt im Raum interpretiert werden, sondern als Überlagerung vieler möglicher Konfigurationen. In der Sprache der World Models entspricht dies der gleichzeitigen Repräsentation mehrerer plausibler Umweltzustände oder Zukunftshypothesen. Superposition wird damit zu einer natürlichen Form der Unsicherheits- und Multimodalitätsdarstellung im latenten Raum.

Verschränkung als Ressource für Zustandsrepräsentation

Während Superposition die Parallelität einzelner Zustände ermöglicht, beschreibt Verschränkung nichtklassische Korrelationen zwischen mehreren Qubits. Ein verschränkter Zustand lässt sich nicht als Produkt einzelner Subsystemzustände schreiben. Ein einfaches Beispiel ist ein Zweiqubit-Zustand der Form

\(\lvert \psi \rangle = \frac{1}{\sqrt{2}}(\lvert 00 \rangle + \lvert 11 \rangle)\)

In diesem Zustand sind die Subsysteme nicht unabhängig, sondern tief korreliert, unabhängig von ihrer räumlichen Trennung. Für QWM ist Verschränkung besonders attraktiv, da reale Umwelten häufig aus stark interagierenden Komponenten bestehen. Klassische latente Vektoren müssen solche Abhängigkeiten explizit modellieren, etwa durch hochdimensionale Repräsentationen oder komplexe Kopplungsterme.

Ein quantenmechanischer latenter Zustand kann Korrelationen kompakt und strukturell kodieren. In einem QWM könnten etwa Objektzustände, Agenteninteraktionen oder gekoppelte physikalische Variablen verschränkt repräsentiert werden. Diese Verschränkung wirkt wie eine eingebaute Strukturannahme über die Umwelt: Nicht alle Faktoren sind unabhängig, sondern viele entwickeln sich gemeinsam. Damit wird Verschränkung zu einer Ressource für effiziente Zustandsrepräsentation und potenziell für bessere Generalisierung.

Quantenmessung und probabilistische Interpretation

Ein zentrales Merkmal quantenmechanischer Systeme ist, dass Informationen erst durch Messung in klassischer Form zugänglich werden. Die Messung eines Zustands \(\lvert \psi \rangle\) in einer gegebenen Basis liefert ein zufälliges Ergebnis, dessen Wahrscheinlichkeit durch die Betragsquadrate der Amplituden bestimmt ist. Allgemeiner wird die Messung durch Operatoren \({M_k}\) beschrieben, wobei die Wahrscheinlichkeit für das Ergebnis \(k\) gegeben ist durch

\(p(k) = \langle \psi \rvert M_k^\dagger M_k \lvert \psi \rangle\)

und der Zustand nach der Messung entsprechend kollabiert.

Für QWM ist diese probabilistische Natur kein Nachteil, sondern ein zentrales Feature. Vorhersagen eines Weltmodells müssen ohnehin probabilistisch interpretiert werden. In einem QWM können Rollouts, Zustandsvorhersagen oder Belohnungsschätzungen als Ergebnisse von Messungen aufgefasst werden. Erwartungswerte lassen sich über Dichtematrizen \(\rho\) und Observablen \(O\) berechnen, etwa als

\(\mathbb{E}[O] = \mathrm{Tr}(\rho O)\)

Damit entsteht eine enge Verbindung zwischen quantenmechanischer Messstatistik und klassischer probabilistischer Inferenz. Unterschiedliche Messbasen entsprechen unterschiedlichen Abfragen des Weltmodells und erlauben flexible, aufgabenspezifische Auswertung der latenten Quantenzustände.

Quantenschaltkreise als parametrische Modelle

Quantenschaltkreise bilden das operative Rückgrat praktisch realisierbarer QWM. Ein parametrischer Quantenschaltkreis besteht aus einer Abfolge von Quantengattern, von denen ein Teil durch trainierbare Parameter \(\theta\) gesteuert wird. Formal lässt sich ein solcher Schaltkreis als unitäre Transformation

\(U(\theta)\)

auffassen, die auf einen Eingabezustand angewendet wird. In Lernanwendungen werden diese Schaltkreise oft variational eingesetzt: Die Parameter werden so optimiert, dass ein definiertes Kostenfunktional minimiert wird, das aus Messungen resultiert.

In QWM übernehmen solche Schaltkreise die Rolle des Dynamikmodells oder von Teilen des latenten Zustandsübergangs. Aktionen \(a_t\) können beispielsweise als zusätzliche Parameter oder als kontrollierende Gatter in den Schaltkreis integriert werden. Der resultierende Quantenzustand kodiert dann den nächsten latenten Zustand der Umwelt. Diese Sichtweise macht Quantenschaltkreise zu direkten Analogien neuronaler Netze, allerdings mit fundamental anderen Rechen- und Repräsentationseigenschaften.

Noisy Intermediate-Scale Quantum (NISQ) Geräte – Chancen und Restriktionen

Aktuelle Quantenhardware befindet sich in der sogenannten Noisy Intermediate-Scale Quantum (NISQ)-Phase. Systeme verfügen über Dutzende bis wenige Hundert Qubits, sind jedoch stark durch Rauschen, begrenzte Kohärenzzeiten und eingeschränkte Schaltungstiefen limitiert. Fehlerkorrektur ist noch nicht in vollem Umfang verfügbar, was lange, komplexe Berechnungen unmöglich macht.

Für QWM bedeutet dies eine klare Einschränkung, aber auch eine Richtungsweisung. Vollständig quantenmechanische, tief verschränkte Weltmodelle bleiben vorerst theoretisch. Realistisch sind hybride Ansätze, bei denen kurze, flache Quantenschaltkreise gezielt eingesetzt werden, um bestimmte Teilaufgaben zu übernehmen, etwa die Modellierung hochkorrelierter latenter Übergänge. Die Herausforderung besteht darin, Architekturen zu entwerfen, die mit wenigen Qubits und begrenzter Tiefe einen strukturellen Mehrwert liefern. QWM sind damit untrennbar mit der NISQ-Realität verknüpft: Sie müssen nicht nur physikalisch möglich, sondern auch lern- und planungspraktisch sinnvoll sein.

Quantum Reinforcement Learning – Überblick

Quantum Reinforcement Learning (QRL) bildet den übergeordneten methodischen Rahmen, in dem Quantum World Models verortet sind. Während klassische RL-Methoden auf deterministischen oder stochastischen Übergängen in klassisch beschriebenen Umwelten operieren, erweitert Quantum RL diese Sichtweise, indem entweder der Agent, die Umwelt oder beide quantenmechanisch beschrieben werden. Dieses Kapitel gibt einen systematischen Überblick über die zentralen Kategorien und Lernparadigmen.

Klassifikation von Quantum RL

Quantum Reinforcement Learning lässt sich entlang der Frage klassifizieren, welche Komponenten des RL-Zyklus quantenmechanisch realisiert sind. Eine erste Kategorie ist das Szenario eines klassischen Agenten in einer Quantenumwelt. Hier interagiert ein klassischer Entscheidungsprozess mit einer Umwelt, deren Dynamik durch Quantenprozesse bestimmt ist. Beispiele finden sich in der Steuerung quantenphysikalischer Systeme, bei denen Aktionen klassische Kontrollparameter darstellen und Zustandsübergänge durch Quantenkanäle beschrieben werden. Der Agent erhält Messergebnisse, die intrinsisch probabilistisch sind, und muss daraus eine optimale Strategie ableiten.

Die zweite Kategorie umfasst Quantenagenten in klassischen Umwelten. In diesem Fall bleibt die Umwelt klassisch beschrieben, während der Agent interne Repräsentationen, Politiken oder Wertfunktionen auf quantenmechanischer Hardware implementiert. Der Vorteil liegt potenziell in einer kompakteren Repräsentation komplexer Entscheidungsstrategien oder in einer effizienteren Approximation bestimmter Funktionen. Aktionen \(a_t\) werden klassisch ausgeführt, doch ihre Auswahl basiert auf Messungen eines quantenparametrischen Modells.

Die dritte und konzeptionell weitreichendste Kategorie sind vollständig quantenmechanische Szenarien. Hier sind sowohl Agent als auch Umwelt durch Quantenzustände beschrieben, und ihre Interaktion erfolgt über quantenmechanische Operationen. Zustände werden als Dichtematrizen \(\rho_t\) modelliert, Aktionen als kontrollierte Quantenoperationen, und Belohnungen können als Erwartungswerte bestimmter Observablen interpretiert werden. Diese Szenarien sind derzeit weitgehend theoretisch, liefern aber wichtige Einsichten für die formale Struktur von Quantum RL und für die Entwicklung von QWM in quantenphysikalischen Umgebungen.

Quantum Policy Learning

Quantum Policy Learning befasst sich mit der direkten Optimierung von Politiken, die durch quantenmechanische Modelle repräsentiert sind. Eine Politik kann beispielsweise als parametrischer Quantenschaltkreis \(U_\theta\) implementiert werden, dessen Messstatistiken eine Wahrscheinlichkeitsverteilung über Aktionen erzeugen. Formal ergibt sich eine Politik der Form \(\pi_\theta(a \mid s)\), wobei der Zustand \(s\) klassisch kodiert oder in einen Quantenzustand eingebettet wird.

Das Lernen erfolgt typischerweise variational. Ein Ziel ist die Maximierung des erwarteten Returns

\(J(\theta) = \mathbb{E}{\pi\theta}\left[\sum_{t=0}^\infty \gamma^t r_t\right]\)

wobei Gradienten durch spezielle Parameter-Shifts oder stochastische Schätzungen gewonnen werden. Der Reiz quantenbasierter Politiken liegt weniger in einem garantierten Speedup, sondern in der Möglichkeit, komplexe, hochkorrelierte Entscheidungsstrukturen mit relativ wenigen Parametern zu repräsentieren. Gleichzeitig stellen Rauschen und Messvarianz erhebliche Herausforderungen für stabile Politikoptimierung dar.

Quantum Value Estimation

Neben der direkten Politikoptimierung spielt die Schätzung von Wertfunktionen eine zentrale Rolle. Quantum Value Estimation versucht, Funktionen wie \(V(s)\) oder \(Q(s,a)\) mit quantenparametrischen Modellen zu approximieren. Hierbei kann ein Quantenschaltkreis so trainiert werden, dass der Erwartungswert einer Messung den geschätzten Wert repräsentiert, etwa

\(Q_\theta(s,a) \approx \langle O \rangle_{\rho_\theta(s,a)}\)

wobei \(O\) ein geeigneter Observablenoperator ist. Diese Formulierung verbindet klassische Bellman-Gleichungen mit quantenmechanischer Erwartungswertrechnung. In iterativen Verfahren kann der Bellman-Fehler als Kostenfunktion dienen, die durch Anpassung der Schaltkreisparameter minimiert wird.

Quantum Value Estimation ist besonders relevant für QWM, da Wertschätzungen häufig in der Planung über imaginäre Rollouts verwendet werden. Die Qualität der Wertapproximation bestimmt direkt die Effektivität modellbasierter Entscheidungsprozesse.

Rolle von modellbasierten Ansätzen im Quantum RL

Modellbasierte Ansätze nehmen im Quantum RL eine Schlüsselrolle ein. Quantenhardware ist teuer, verrauscht und nur begrenzt skalierbar, was direkte, modellfreie Exploration unattraktiv macht. Ein gelerntes Weltmodell erlaubt es, reale Interaktionen zu minimieren und Planung in einem internen, kontrollierbaren Raum durchzuführen.

Quantum World Models fungieren in diesem Kontext als Bindeglied zwischen Quantum RL und modellbasierter Planung. Sie ermöglichen Imagination, Unsicherheitsabschätzung und strategische Vorausplanung unter Nutzung quantenmechanischer Repräsentationen. Damit sind QWM nicht nur ein weiteres Werkzeug im Quantum RL, sondern ein strukturelles Element, um die Stärken quantenbasierter Repräsentationen dort einzusetzen, wo sie den größten Hebel besitzen: bei der Modellierung komplexer Dynamiken und Unsicherheiten.

Konzeptuelle Definition von Quantum World Models

Quantum World Models stellen den konzeptionellen Kern dieser Abhandlung dar. Während klassische World Models bereits einen internen Simulationsraum für Planung und Lernen schaffen, erweitern QWM dieses Prinzip um quantenmechanische Repräsentationen und Transformationen. Ziel dieses Kapitels ist es, den Begriff präzise zu definieren, klar von bestehenden Ansätzen abzugrenzen und die zentralen strukturellen Bausteine herauszuarbeiten.

Was ist ein Quantum World Model?

Ein Quantum World Model ist ein modellbasiertes Reinforcement-Learning-System, in dem zentrale Komponenten des Weltmodells durch quantenmechanische Zustände und Operationen beschrieben werden. Insbesondere wird der latente Zustand der Umwelt nicht ausschließlich als klassischer Vektor modelliert, sondern als Quantenzustand, etwa als Zustandsvektor \(\lvert \psi_t \rangle\) oder als Dichtematrix \(\rho_t\). Übergänge zwischen Zuständen werden durch quantenmechanische Transformationen beschrieben, die von Aktionen des Agenten abhängen.

Formal kann ein QWM als Abbildung verstanden werden, die Beobachtungen \(o_t\) in einen quantenlatenten Zustand überführt, diesen Zustand unter Berücksichtigung von Aktionen \(a_t\) weiterentwickelt und aus dem resultierenden Quantenzustand Vorhersagen über zukünftige Beobachtungen oder Belohnungen ableitet. Planung erfolgt durch wiederholte Anwendung dieser quantenmechanischen Dynamik, gefolgt von Messungen, die klassische Entscheidungsgrößen liefern.

Wesentlich ist, dass ein QWM nicht zwingend vollständig auf Quantenhardware implementiert sein muss. Entscheidend ist die Nutzung quantenmechanischer Prinzipien als Repräsentations- und Transformationsmechanismus im Weltmodell. Damit umfasst der Begriff sowohl hybride als auch vollständig quantenmechanische Realisierungen.

Abgrenzung zu klassischen World Models

Die Abgrenzung zu klassischen World Models liegt primär in der Art der latenten Repräsentation und der Dynamikmodellierung. Klassische World Models beschreiben latente Zustände als Elemente eines Vektorraums, oft mit einer impliziten Annahme über Glattheit, Linearität oder lokal begrenzte Nichtlinearität. Unsicherheit wird meist als additive Varianz oder als Ensemble-Effekt modelliert.

QWM ersetzen diesen Vektorraum nicht einfach durch einen größeren, sondern durch einen strukturell anderen Zustandsraum. Ein Quantenzustand trägt Amplituden, Phasen und potenziell Verschränkung, was eine andere Geometrie des Hypothesenraums impliziert. Während klassische Modelle häufig einen einzelnen wahrscheinlichsten latenten Zustand propagieren, kann ein QWM eine Überlagerung mehrerer konsistenter Weltzustände darstellen.

Ein weiterer Unterschied betrifft die Dynamik. Klassische Übergangsmodelle approximieren Wahrscheinlichkeitsverteilungen der Form \(p(z_{t+1} \mid z_t, a_t)\). QWM hingegen beschreiben Dynamik als Transformation eines Quantenzustands, typischerweise durch einen quantenmechanischen Kanal. Diese Sichtweise integriert Stochastik, Korrelationen und Unsicherheit direkt in den Zustandsformalismus, anstatt sie als zusätzliche Modellkomponenten zu behandeln.

QWM als quantenmechanische Generative Models

Quantum World Models lassen sich konzeptionell als quantenmechanische generative Modelle auffassen. In klassischen generativen Modellen wird eine latente Variable \(z\) aus einer Priorverteilung gezogen und anschließend in beobachtbare Daten transformiert. In einem QWM übernimmt ein Quantenzustand diese Rolle. Der generative Prozess entspricht dann einer Abfolge von Quantentransformationen und Messungen.

Ein QWM generiert Vorhersagen nicht deterministisch, sondern als Messstatistik. Beispielsweise kann die Vorhersage einer Beobachtung \(\hat{o}_{t+1}\) als Stichprobe aus einer Messverteilung interpretiert werden, die durch den aktuellen Quantenzustand definiert ist. Erwartungswerte liefern Mittelwerte, während einzelne Messungen plausible Einzelrealisierungen darstellen.

Diese generative Perspektive ist besonders relevant für Planung und Imagination. Ein Agent kann mehrere mögliche Zukunftsverläufe erzeugen, indem er wiederholt Messungen durchführt oder unterschiedliche Messbasen wählt. Damit wird das Weltmodell zu einer kontrollierbaren Quelle strukturierter Unsicherheit, anstatt zu einer rein punktuellen Vorhersagemaschine.

Latente Quantenzustände als Umweltrepräsentation

Im Zentrum jedes QWM steht der latente Quantenzustand als Repräsentation der Umwelt. Dieser Zustand kodiert sowohl Wissen als auch Unsicherheit über den aktuellen Umweltzustand. Reine Zustände \(\lvert \psi_t \rangle\) eignen sich für idealisierte, gut bekannte Szenarien, während gemischte Zustände \(\rho_t\) epistemische Unsicherheit und unvollständige Information explizit abbilden können.

Die Wahl der Repräsentation beeinflusst direkt die Lern- und Planungseigenschaften. Ein dichter verschränkter Zustand kann komplexe Abhängigkeiten zwischen Umweltfaktoren kompakt darstellen, während separable Zustände eher unabhängige Teilaspekte repräsentieren. Aktionen des Agenten wirken als kontrollierte Transformationen auf diesen Quantenzustand und verändern seine Struktur im Zeitverlauf.

Damit wird der latente Quantenzustand zu einem dynamischen Wissensspeicher, der Beobachtungen integriert, Vorhersagen generiert und Unsicherheit fortschreibt. Im Unterschied zu klassischen Hidden States ist dieser Speicher nicht nur eine numerische Zusammenfassung, sondern ein Objekt mit klar definierter physikalisch-mathematischer Struktur.

Dynamiklernen mit Quantenkanälen

Die zeitliche Entwicklung eines QWM wird durch Quantenkanäle beschrieben. Ein Quantenkanal ist eine vollständig positive, spurtreue Abbildung, die einen Quantenzustand auf einen neuen abbildet. Formal kann ein Übergang als

\(\rho_{t+1} = \mathcal{E}_{\theta,a_t}(\rho_t)\)

geschrieben werden, wobei die Abbildung sowohl von trainierbaren Parametern als auch von der gewählten Aktion abhängt. Solche Kanäle können unitäre Dynamik, Rauschen und irreversible Prozesse gleichzeitig modellieren.

Das Lernen der Dynamik besteht darin, die Parameter dieser Kanäle so anzupassen, dass die resultierenden Vorhersagen mit beobachteten Übergängen konsistent sind. In hybriden QWM geschieht dies häufig indirekt: Klassische Beobachtungsfehler werden über Messstatistiken in Gradienteninformationen übersetzt, die zur Optimierung der quantenmechanischen Parameter dienen.

Die Beschreibung der Umwelt als Abfolge von Quantenkanälen eröffnet eine neue Perspektive auf Weltmodellierung. Dynamik ist nicht länger nur eine stochastische Funktion, sondern eine Transformation eines strukturierten Zustandsraums. Genau diese Perspektive bildet die Grundlage für Planung, Imagination und Kontrolle in Quantum World Models.

Architekturen von Quantum World Models

Die Architektur eines Quantum World Models bestimmt, wie Beobachtungen in quantenmechanische Repräsentationen überführt werden, wie Dynamik modelliert wird und wie Vorhersagen wieder in klassische Größen übersetzt werden. Anders als bei klassischen World Models existiert kein einzelnes dominantes Architekturparadigma. Stattdessen hat sich ein Spektrum an Entwürfen herausgebildet, das von stark quantenorientierten Latent-Space-Modellen bis hin zu pragmatischen hybriden Ansätzen reicht. Dieses Kapitel systematisiert diese Architekturen und ordnet ihre Stärken und Schwächen ein.

Quantum Latent Space Models

Quantum Latent Space Models sind die direkteste quantenmechanische Entsprechung klassischer latenter Weltmodelle. Ziel ist es, Beobachtungen in einen quantenmechanischen Zustandsraum einzubetten, der als latente Repräsentation der Umwelt dient. Die Herausforderung besteht darin, hochdimensionale klassische Daten effizient in einen begrenzten Quantenraum zu kodieren und dabei planungsrelevante Information zu erhalten.

Quanten-Autoencoder spielen in diesem Kontext eine zentrale Rolle. Analog zu klassischen Autoencodern lernen sie eine Kompression von Eingabedaten in einen niedrigdimensionalen latenten Raum, allerdings in Form eines Quantenzustands. Formal lässt sich ein solcher Encoder als Abbildung

\(o_t \mapsto \lvert \psi_t \rangle\)

auffassen, realisiert durch einen parametrischen Quantenschaltkreis. Der Decoder ist implizit durch eine Messung oder durch eine inverse Transformation gegeben, die klassische Rekonstruktionen ermöglicht. Der Trainingsprozess zielt darauf ab, die Rekonstruktionsabweichung zwischen ursprünglicher Beobachtung und rekonstruierter Ausgabe zu minimieren.

Eine zentrale Designentscheidung betrifft das Encoding. Beim Amplituden-Encoding werden klassische Daten direkt in die Amplituden eines Quantenzustands eingebettet, sodass ein Vektor \(x \in \mathbb{R}^d\) in einem Zustand der Form \(\lvert \psi_x \rangle = \sum_i x_i \lvert i \rangle\) repräsentiert wird, unter geeigneter Normierung. Dieses Encoding ist speichereffizient, erfordert jedoch aufwendige Initialisierungsprozeduren. Phasen-Encoding nutzt dagegen die Phasen von Amplituden zur Informationskodierung, was robustere Schaltungen erlaubt, aber oft geringere Ausdruckskraft besitzt.

Quantum Latent Space Models sind konzeptionell elegant, stoßen jedoch in der Praxis auf Hardware-Limitierungen. Die Anzahl verfügbarer Qubits begrenzt die Dimensionalität des latenten Raums, und tiefe Schaltkreise zur Datenkodierung sind anfällig für Rauschen. Dennoch liefern diese Modelle wichtige Einsichten in die Struktur quantenbasierter Repräsentationen und dienen als Referenzarchitekturen für QWM.

Quantum State-Space Models

Quantum State-Space Models verlagern den Fokus von der reinen Repräsentation hin zur expliziten Modellierung der zeitlichen Dynamik. Analog zu klassischen State-Space-Modellen wird der latente Zustand der Umwelt durch eine dynamische Gleichung fortgeschrieben, allerdings in quantenmechanischer Form. Der Zustand wird als Dichtematrix \(\rho_t\) modelliert, was eine natürliche Einbettung von Unsicherheit und gemischten Zuständen erlaubt.

Quantisierte Zustandsübergänge werden durch Quantenkanäle beschrieben, die sowohl deterministische als auch stochastische Effekte integrieren. Eine allgemeine Darstellung erfolgt über Kraus-Operatoren \({K_i}\), sodass der Übergang die Form

\(\rho_{t+1} = \sum_i K_i(a_t), \rho_t, K_i(a_t)^\dagger\)

annimmt. Diese Darstellung garantiert, dass die Abbildung vollständig positiv und spurtreu ist, also physikalisch konsistente Zustände erzeugt. Aktionen des Agenten können dabei als Parameter der Kraus-Operatoren oder als Auswahl zwischen unterschiedlichen Kanälen modelliert werden.

Quantum State-Space Models besitzen eine hohe Ausdruckskraft. Sie können irreversible Prozesse, Rauschen und Kopplungen zwischen Subsystemen explizit abbilden. Gleichzeitig ist ihr Training anspruchsvoll, da die Anzahl der Freiheitsgrade schnell wächst und Gradientenabschätzungen auf realer Hardware teuer sind. In QWM werden solche Modelle häufig in vereinfachter oder approximierter Form eingesetzt, etwa mit eingeschränkten Operatorfamilien oder stark regularisierten Parametrisierungen.

Hybrid Quantum-Classical World Models

Hybrid Quantum-Classical World Models stellen derzeit den praktikabelsten Ansatz dar. Sie kombinieren die Stärken klassischer Deep-Learning-Modelle mit ausgewählten quantenmechanischen Komponenten. Typischerweise folgt die Architektur dem Schema: klassischer Encoder – quantenmechanische Dynamik – klassischer Decoder.

Der klassische Encoder transformiert Beobachtungen \(o_t\) in eine kompakte Repräsentation, die entweder direkt in einen Quantenzustand eingebettet oder als Steuerparameter für einen Quantenschaltkreis genutzt wird. Die quantenmechanische Komponente modelliert dann die latente Dynamik oder komplexe Korrelationen zwischen Zustandsfaktoren. Der Decoder übersetzt die Ergebnisse der Messungen wieder in klassische Größen wie vorhergesagte Beobachtungen, Belohnungen oder Wertschätzungen.

Variational Quantum Circuits (VQCs) spielen hierbei eine Schlüsselrolle. Sie dienen als trainierbare Module, deren Parameter durch klassische Optimierungsverfahren angepasst werden. Ein typischer VQC implementiert eine Transformation

\(\lvert \psi_{t+1} \rangle = U_\theta(a_t), \lvert \psi_t \rangle\)

wobei Aktionen explizit in die Schaltkreisstruktur integriert sind. Der hybride Aufbau erlaubt es, die quantenmechanische Tiefe gering zu halten und dennoch strukturelle Vorteile wie Verschränkung oder nichtklassische Korrelationen zu nutzen.

Diese Architekturen sind besonders attraktiv für NISQ-Hardware, da sie flexibel skalieren und Fehlertoleranz durch klassische Komponenten erreichen können. Gleichzeitig entsteht ein neues Designproblem: Die Schnittstelle zwischen klassischer und quantenmechanischer Repräsentation muss sorgfältig gewählt werden, um Informationsverlust und Trainingsinstabilität zu vermeiden.

Vergleich unterschiedlicher QWM-Architekturen

Der Vergleich von QWM-Architekturen lässt sich entlang mehrerer Dimensionen strukturieren: Ausdruckskraft, Skalierbarkeit, Trainingsstabilität und Hardware-Kompatibilität. Quantum Latent Space Models bieten eine saubere, konzeptionell klare Umsetzung quantenmechanischer Repräsentationen, sind jedoch stark durch Qubit-Zahl und Rauschen limitiert. Quantum State-Space Models sind theoretisch sehr mächtig, aber praktisch schwer zu trainieren und zu skalieren.

Hybride Architekturen stellen einen pragmatischen Mittelweg dar. Sie opfern einen Teil der quantenmechanischen Reinheit zugunsten robuster Lernbarkeit und besserer Integration in bestehende RL-Pipelines. Für die absehbare Zukunft des Quantum Reinforcement Learning gelten sie als die vielversprechendste Architekturklasse für Quantum World Models.

Entscheidend ist, dass keine Architektur universell überlegen ist. Die Wahl hängt von der Zielanwendung, der verfügbaren Hardware und der Art der Umwelt ab. QWM sind weniger als festes Modell zu verstehen, sondern als Architekturfamilie, deren Mitglieder unterschiedliche Kompromisse zwischen quantenmechanischer Ausdruckskraft und praktischer Umsetzbarkeit eingehen.

Lernen und Optimierung von QWM

Das Lernen von Quantum World Models verbindet klassische Optimierungsprinzipien mit den Besonderheiten quantenmechanischer Parametrisierung und Messung. Während Ziel und Motivation dem klassischen World-Model-Training ähneln, verändern sich Verlustfunktionen, Gradientenberechnung und Stabilitätsfragen durch die quantenmechanische Natur der latenten Zustände. Dieses Kapitel beschreibt die zentralen Lernmechanismen und ihre praktischen Implikationen.

Trainingsziele und Loss-Funktionen

Das primäre Trainingsziel eines QWM besteht darin, die Dynamik und Beobachtungsstruktur der Umwelt möglichst konsistent im quantenlatenten Raum abzubilden. Typischerweise wird eine Verlustfunktion definiert, die die Abweichung zwischen modellierten Vorhersagen und realen Beobachtungen misst. In einem hybriden Setup kann dies als klassische Rekonstruktions- oder Prädiktionsabweichung formuliert werden, etwa als

\(\mathcal{L}{\text{pred}} = \mathbb{E}\left[\lVert o{t+1} – \hat{o}_{t+1} \rVert^2\right]\)

wobei die Vorhersage \(\hat{o}_{t+1}\) aus Messungen des Quantenzustands abgeleitet wird.

In probabilistischen QWM treten zusätzlich Divergenzmaße auf, die Verteilungen vergleichen. Wird der latente Quantenzustand als Dichtematrix \(\rho_t\) interpretiert, können informations-theoretische Größen wie die quantenmechanische relative Entropie als Regularisierer dienen. Belohnungsmodelle oder Wertfunktionen können ebenfalls integriert werden, sodass das Weltmodell nicht nur beobachtungsgetreu, sondern auch planungsrelevant lernt.

Wichtig ist, dass Verlustfunktionen letztlich klassische Skalare sein müssen, da Optimierungsalgorithmen auf klassischen Rechnern operieren. Die Herausforderung besteht darin, diese Skalare konsistent aus quantenmechanischen Messstatistiken zu extrahieren.

Variational Quantum Learning

Variational Quantum Learning bildet das methodische Rückgrat der Optimierung von QWM. Ein variationales Modell wird durch einen parametrischen Quantenschaltkreis \(U(\theta)\) definiert, dessen Parameter iterativ angepasst werden. Der Trainingsprozess folgt dem klassischen Muster: Initialisierung, Auswertung der Kostenfunktion, Gradientenberechnung, Parameterupdate.

Formal wird ein Kostenfunktional

\(\mathcal{L}(\theta) = \langle O \rangle_{\rho(\theta)}\)

definiert, wobei \(O\) ein Observablenoperator ist, dessen Erwartungswert über Messungen geschätzt wird. Durch Variation der Parameter \(\theta\) wird die Kostenfunktion minimiert. In QWM entspricht dieser Prozess dem Anpassen der quantenmechanischen Dynamik an beobachtete Übergänge und Strukturen der Umwelt.

Ein wesentlicher Unterschied zu klassischem Deep Learning liegt in der Natur der Hypothesenklasse. Variationale Quantenschaltkreise besitzen eine andere Bias-Struktur als neuronale Netze, was sich sowohl positiv als auch negativ auf die Lernfähigkeit auswirken kann. Die Wahl der Schaltkreisarchitektur ist daher nicht nur eine technische, sondern eine statistische Designentscheidung.

Gradientenschätzung auf Quantenhardware

Die Berechnung von Gradienten ist eine der größten praktischen Herausforderungen beim Lernen von QWM. Direkte Ableitungen der Kostenfunktion nach den Schaltkreisparametern sind nicht zugänglich, da Messungen nur stochastische Ergebnisse liefern. Stattdessen werden spezielle Verfahren eingesetzt, die den Gradienten aus wiederholten Auswertungen schätzen.

Ein verbreiteter Ansatz ist die Parameter-Shift-Regel. Für bestimmte Klassen parametrischer Gatter kann der Gradient einer Erwartungswertfunktion exakt als Differenz zweier Messungen berechnet werden, etwa in der Form

\(\frac{\partial \mathcal{L}}{\partial \theta_i} = \frac{1}{2}\left(\mathcal{L}(\theta_i + \frac{\pi}{2}) – \mathcal{L}(\theta_i – \frac{\pi}{2})\right)\)

Diese Methode ist theoretisch elegant, aber praktisch teuer, da jede Gradientenkomponente mehrere Schaltungsauswertungen erfordert. In QWM mit vielen Parametern kann dies zu erheblichem Messaufwand führen.

Zusätzlich treten Probleme wie Barren-Plateaus auf, bei denen der Gradient im Mittel gegen null geht und das Training stagnieren kann. Die Architektur des Schaltkreises und eine gezielte Initialisierung spielen daher eine entscheidende Rolle für erfolgreiche Optimierung.

Sample-Effizienz und Komplexitätsbetrachtungen

Ein zentrales Versprechen von QWM ist verbesserte Sample-Effizienz. Durch ein gelerntes Weltmodell kann Planung im internen Modell stattfinden, wodurch reale Interaktionen mit der Umwelt reduziert werden. Allerdings verschiebt sich die Komplexität teilweise auf die Quantenhardware: Jede Trainingsiteration erfordert viele Messungen, um Erwartungswerte und Gradienten mit ausreichender Genauigkeit zu schätzen.

Die effektive Sample-Effizienz hängt daher von einem Zusammenspiel klassischer und quantenmechanischer Ressourcen ab. QWM sind besonders dann attraktiv, wenn wenige, strukturierte Quantenschaltungen einen disproportional großen Repräsentationsgewinn liefern. In hochrauschbehafteten oder sehr großen Modellen kann dieser Vorteil jedoch durch Messkosten neutralisiert werden.

Stabilität und Generalisierung

Stabilität ist ein zentrales Qualitätskriterium für QWM. Rauschen, Messvarianz und approximative Gradienten können zu instabilem Training führen. Hybride Architekturen nutzen häufig klassische Regularisierungstechniken, frühes Stoppen oder Ensemble-Ideen, um die Lernprozesse zu stabilisieren.

Generalisierung bezieht sich darauf, ob ein QWM sinnvolle Vorhersagen für bisher ungesehene Zustände liefert. Die quantenmechanische Repräsentation kann hier als implizite Regularisierung wirken, indem sie den Hypothesenraum strukturiert einschränkt. Ob und wann dies zu systematisch besserer Generalisierung führt, ist eine offene Forschungsfrage, die eng mit der Architekturwahl und der Trainingsdynamik verknüpft ist.

Planung, Simulation und Imagination mit QWM

Der eigentliche Nutzen von World Models entfaltet sich in der Planung und Imagination. Quantum World Models erweitern diese Fähigkeit, indem sie Planung nicht nur als wiederholte Anwendung eines stochastischen Übergangsmodells verstehen, sondern als kontrollierte Evolution eines quantenmechanischen Zustandsraums. Dieses Kapitel beschreibt, wie QWM für Rollouts, prädiktive Kontrolle und Unsicherheitsfortpflanzung genutzt werden.

Quantenbasierte Rollouts im latenten Raum

In klassischen World Models bestehen Rollouts aus der iterativen Anwendung eines Übergangsmodells auf einen latenten Zustand. In QWM wird dieser Prozess durch die sukzessive Anwendung von Quantenkanälen oder parametrischen Quantenschaltkreisen realisiert. Ausgangspunkt ist ein latenter Quantenzustand \(\rho_t\) oder \(\lvert \psi_t \rangle\), der den aktuellen Wissensstand über die Umwelt repräsentiert.

Ein geplanter Rollout über \(H\) Schritte mit einer Aktionssequenz \((a_t, a_{t+1}, \dots, a_{t+H-1})\) entspricht der Komposition mehrerer dynamischer Transformationen:

\(\rho_{t+H} = \mathcal{E}{\theta,a{t+H-1}} \circ \dots \circ \mathcal{E}_{\theta,a_t}(\rho_t)\)

Dieser Prozess erzeugt einen Quantenzustand, der eine Überlagerung möglicher Zukunftszustände enthält. Anstatt jede mögliche Zukunft einzeln zu simulieren, trägt das QWM mehrere Hypothesen parallel im quantenlatenten Raum. Messungen am Ende oder während des Rollouts liefern Vorhersagen über Beobachtungen, Belohnungen oder terminale Zustände.

Quantum Model Predictive Control (Q-MPC)

Quantum Model Predictive Control überträgt das klassische MPC-Prinzip in den quantenmechanischen Kontext. Wie bei klassischem MPC wird in jedem Zeitschritt ein Optimierungsproblem gelöst, bei dem eine endliche Aktionssequenz geplant wird, die einen Zielwert maximiert. Der Unterschied liegt darin, dass die Simulation der Zukunft durch ein QWM erfolgt.

Formal wird eine Zielfunktion betrachtet, die auf Messungen oder Erwartungswerten basiert, etwa

\(J(a_{t:t+H-1}) = \mathbb{E}\left[\sum_{k=0}^{H-1} \gamma^k r_{t+k}\right]\)

wobei die Erwartung aus Messstatistiken des quantenlatenten Rollouts geschätzt wird. Die optimale Aktionssequenz wird iterativ approximiert, und nur die erste Aktion wird ausgeführt. Anschließend wird der Prozess mit aktualisierten Beobachtungen wiederholt.

Q-MPC profitiert besonders von der Fähigkeit von QWM, Unsicherheit explizit im latenten Zustand zu tragen. Anstatt einen einzelnen prognostizierten Verlauf zu optimieren, berücksichtigt der Planungsprozess mehrere mögliche Zukunftsverläufe gleichzeitig. Dies kann zu robusterem Verhalten führen, insbesondere in stochastischen oder schlecht modellierten Umwelten.

Unsicherheitspropagation durch Superposition

Ein zentrales Unterscheidungsmerkmal von QWM ist die Art und Weise, wie Unsicherheit propagiert wird. In klassischen Modellen wird Unsicherheit oft durch Monte-Carlo-Sampling oder Ensemble-Rollouts approximiert. QWM nutzen stattdessen Superposition als Repräsentationsmechanismus.

Ein quantenlatenter Zustand kann mehrere plausible Zustände gleichzeitig repräsentieren, mit Amplituden, die deren relative Plausibilität ausdrücken. Während der zeitlichen Evolution interferieren diese Komponenten, werden verstärkt oder abgeschwächt, abhängig von der Dynamik und den gewählten Aktionen. Unsicherheit wird somit nicht nur weitergereicht, sondern strukturiert transformiert.

Messungen erlauben es, gezielt Informationen aus dieser Superposition zu extrahieren. Erwartungswerte liefern risiko-neutrale Schätzungen, während einzelne Messungen riskantere, konkrete Szenarien repräsentieren können. Damit entsteht ein flexibler Mechanismus, um zwischen explorativem und konservativem Planen zu wechseln, ohne das Weltmodell selbst zu verändern.

Vergleich mit klassischer Imagination

Im Vergleich zur klassischen Imagination bieten QWM einen konzeptionell anderen Zugang zur Zukunftssimulation. Klassische World Models erzeugen typischerweise einzelne oder wenige Rollouts, deren Vielfalt durch Sampling oder Ensembles erhöht wird. Dies skaliert jedoch schlecht mit der Komplexität der Umwelt.

QWM ersetzen explizite Vielzahlsimulation durch implizite Parallelität im quantenlatenten Raum. Der potenzielle Vorteil liegt nicht in schnellerer Berechnung einzelner Rollouts, sondern in einer anderen Struktur der Repräsentation von Zukunftsmöglichkeiten. Ob dieser Vorteil in der Praxis zum Tragen kommt, hängt stark von der Architektur, der Aufgabenstruktur und der Hardware ab.

Insgesamt erweitern QWM das Konzept der Imagination von einer sequenziellen Simulation hin zu einer strukturierten, parallelen Repräsentation von Zukunft. Diese Verschiebung bildet die Grundlage für neuartige Planungs- und Kontrollstrategien im Quantum Reinforcement Learning.

Anwendungsfelder von Quantum World Models

Quantum World Models entfalten ihren Mehrwert besonders in Anwendungsfeldern, in denen hohe Dynamikkomplexität, starke Unsicherheit und langfristige Planung zusammenkommen. Dieses Kapitel skizziert zentrale Domänen, in denen QWM nicht nur theoretisch interessant, sondern potenziell praktisch relevant sind.

Robotik und autonome Systeme

In der Robotik stehen Agenten vor hochdimensionalen, kontinuierlichen und oft nur partiell beobachtbaren Umwelten. Klassische World Models haben hier bereits erhebliche Fortschritte ermöglicht, etwa durch interne Simulation von Bewegungsdynamik oder Kontaktinteraktionen. QWM erweitern diesen Ansatz, indem sie Unsicherheit und Mehrdeutigkeit expliziter im latenten Zustand repräsentieren.

Ein autonomes System kann seinen internen Zustand als Quantenzustand \(\rho_t\) führen, der mehrere plausible Interpretationen der Umgebung trägt. Bei sensornahen Aufgaben, etwa Greifen oder Navigation in unbekanntem Gelände, erlaubt dies robustere Planung unter Unsicherheit. Rollouts im QWM können alternative Bewegungsstrategien parallel berücksichtigen, ohne dass jede Variante separat simuliert werden muss.

Besonders relevant sind hybride QWM, bei denen klassische Wahrnehmungsmodelle mit quantenmechanischer Dynamik kombiniert werden. Die quantenbasierte Komponente übernimmt dabei nicht die gesamte Kontrolle, sondern unterstützt Planung und Risikoabschätzung. Dies macht QWM für sicherheitskritische autonome Systeme konzeptionell attraktiv, auch wenn der praktische Einsatz noch stark von Hardwareentwicklung abhängt.

Quantengestützte Steuerung komplexer physikalischer Prozesse

Ein natürliches Einsatzfeld für QWM ist die Steuerung physikalischer Systeme, deren Dynamik selbst quantenmechanisch oder hochgradig nichtlinear ist. Beispiele reichen von quantenoptischen Experimenten über supraleitende Schaltkreise bis hin zu komplexen thermodynamischen Prozessen.

In solchen Szenarien ist die Umwelt intrinsisch stochastisch, und klassische Modelle stoßen schnell an ihre Grenzen. QWM können die Dynamik als Abfolge von Quantenkanälen modellieren, wodurch Rauschen, Dissipation und Kontrolle in einem einheitlichen Formalismus zusammengeführt werden. Aktionen des Agenten entsprechen physikalischen Kontrollparametern, die die Dynamik gezielt beeinflussen.

Die Planung über ein QWM erlaubt es, Kontrollstrategien zu entwickeln, die nicht nur einen erwarteten Verlauf optimieren, sondern robuste Performance über mehrere mögliche Realisierungen hinweg anstreben. Gerade in der Quantenkontrolle ist dies entscheidend, da Messungen unvermeidlich probabilistisch sind und Rückwirkungen auf den Zustand haben.

Finanzmärkte und stochastische Entscheidungsprobleme

Finanzmärkte sind ein Paradebeispiel für komplexe, nichtstationäre und hochgradig stochastische Umwelten. Klassische modellbasierte Ansätze kämpfen mit der Kombination aus unvollständiger Information, abrupten Regimewechseln und starken Korrelationen zwischen Variablen.

QWM bieten hier eine alternative Sichtweise. Ein quantenlatenter Zustand kann verschiedene Marktszenarien gleichzeitig repräsentieren, etwa unterschiedliche Volatilitätsregime oder makroökonomische Zustände. Superposition erlaubt es, diese Szenarien parallel zu tragen, während Messungen gezielt Informationen für Entscheidungsfindung extrahieren.

Planung über QWM kann als risikosensitive Optimierung interpretiert werden. Erwartungswerte entsprechen risiko-neutralen Strategien, während gezielte Messstrategien stärker auf Extremereignisse reagieren können. Obwohl der Einsatz quantenmechanischer Modelle im Finanzbereich mit Vorsicht zu betrachten ist, liefern QWM eine konzeptionelle Brücke zwischen probabilistischer Modellierung und strategischer Planung unter Unsicherheit.

Molekulare Simulation und Materialdesign

In der molekularen Simulation ist die Komplexität der Zustandsräume extrem hoch, und viele relevante Prozesse sind quantenmechanisch geprägt. Klassische Näherungen stoßen hier schnell an ihre Grenzen. QWM sind besonders geeignet, wenn Reinforcement Learning zur explorativen Steuerung von Simulationen oder zur Optimierung molekularer Strukturen eingesetzt wird.

Ein QWM kann molekulare Konfigurationen und Reaktionspfade als latente Quantenzustände modellieren. Planung entspricht dann der Suche nach Aktionssequenzen, die gewünschte Eigenschaften maximieren, etwa Stabilität oder Reaktivität. Die quantenmechanische Repräsentation erlaubt es, mehrere mögliche Reaktionspfade gleichzeitig zu berücksichtigen.

In diesem Kontext verschwimmt die Grenze zwischen Umwelt und Modell: Das Weltmodell ist nicht nur eine Approximation, sondern Teil einer physikalisch konsistenten Beschreibung. QWM fungieren hier als Bindeglied zwischen maschinellem Lernen und quantenchemischer Simulation.

Multi-Agenten-Systeme und Spieltheorie

Multi-Agenten-Systeme zeichnen sich durch strategische Interdependenz und hohe kombinatorische Komplexität aus. Klassische World Models müssen nicht nur Umweltzustände, sondern auch die Strategien anderer Agenten modellieren. QWM bieten eine alternative Perspektive, indem sie gemeinsame latente Zustände nutzen, die verschränkte Repräsentationen mehrerer Akteure enthalten.

Ein quantenlatenter Zustand kann Abhängigkeiten zwischen Agentenstrategien kodieren, ohne jede Strategie explizit separat zu modellieren. Planung wird damit zu einer Optimierung über verschränkte Zustände, die kooperative oder kompetitive Dynamiken integrieren. In spieltheoretischen Szenarien eröffnet dies neue Möglichkeiten, Gleichgewichte und adaptive Strategien zu analysieren.

Auch hier gilt: Der praktische Nutzen hängt stark von Skalierbarkeit und Implementierbarkeit ab. Dennoch zeigen diese Anwendungsfelder, dass QWM nicht nur ein theoretisches Konstrukt sind, sondern ein breites Spektrum potenzieller Einsatzmöglichkeiten adressieren.

Herausforderungen, Limitationen und offene Forschungsfragen

Trotz ihres konzeptionellen Potenzials stehen Quantum World Models vor erheblichen praktischen und theoretischen Herausforderungen. Diese betreffen nicht nur den Stand der Quantenhardware, sondern auch grundlegende Fragen der Modellierung, Evaluation und Interpretierbarkeit. Dieses Kapitel beleuchtet die zentralen Limitationen und skizziert offene Forschungsrichtungen.

Hardware-Limitierungen und Rauschen

Die aktuell verfügbare Quantenhardware ist durch begrenzte Kohärenzzeiten, Gatterfehler und Messrauschen geprägt. Diese Effekte wirken sich unmittelbar auf QWM aus, da Weltmodelle typischerweise wiederholte Zustandsübergänge und damit tiefe effektive Schaltungen erfordern. Rauschen führt zu einer schleichenden Verzerrung des quantenlatenten Zustands \(\rho_t\), wodurch langfristige Rollouts zunehmend unzuverlässig werden.

Für das Lernen bedeutet dies, dass beobachtete Abweichungen nicht eindeutig dem Modellfehler oder Hardwareeffekten zugeordnet werden können. In der Planung kann Rauschen dazu führen, dass Unsicherheit künstlich aufgebläht oder unterschätzt wird. Aktuelle QWM-Ansätze müssen daher mit stark regularisierten, flachen Schaltungen arbeiten und sich auf kurze Planungshorizonte beschränken.

Skalierbarkeit und Fehlerkorrektur

Ein zentrales Versprechen von QWM liegt in der kompakten Repräsentation komplexer Dynamiken. Dieses Versprechen kollidiert jedoch mit der begrenzten Anzahl verfügbarer Qubits. Mit wachsender Modellkomplexität steigt der Bedarf an Qubits und Parametern, was sowohl das Training als auch die Ausführung erschwert.

Fehlerkorrektur könnte langfristig Abhilfe schaffen, ist jedoch mit erheblichem Overhead verbunden. Ein logisch fehlerkorrigierter Qubit erfordert viele physikalische Qubits, was die effektive Modellgröße stark einschränkt. Eine offene Frage ist daher, ob QWM ihre Vorteile bereits im prä-fehlerkorrigierten Regime ausspielen können oder ob ihr volles Potenzial erst mit skalierbarer Fehlerkorrektur erreichbar ist.

Interpretierbarkeit quantenmechanischer Weltmodelle

Interpretierbarkeit ist bereits bei klassischen World Models eine Herausforderung, verschärft sich jedoch bei QWM erheblich. Latente Quantenzustände sind nicht direkt beobachtbar und tragen Information in Form von Amplituden, Phasen und Verschränkung. Die Frage, welche Umweltfaktoren in welchem Teil des Zustands kodiert sind, ist schwer zu beantworten.

Messungen liefern nur begrenzte, basisabhängige Einblicke. Damit wird es schwierig, Fehlverhalten des Modells zu diagnostizieren oder kausale Zusammenhänge explizit zu analysieren. Die Entwicklung von Analysewerkzeugen, die Struktur und Dynamik quantenlatenter Repräsentationen verständlich machen, ist ein offenes und zentrales Forschungsfeld.

Benchmarking von QWM

Ein weiteres ungelöstes Problem ist das Benchmarking von Quantum World Models. Klassische Metriken wie Vorhersagefehler oder kumulativer Reward erfassen nur bedingt den strukturellen Mehrwert quantenmechanischer Repräsentationen. Zudem ist ein fairer Vergleich schwierig, da klassische und quantenbasierte Modelle unterschiedliche Ressourcen nutzen.

Offen ist insbesondere, welche Aufgabenklassen als aussagekräftige Benchmarks dienen können. Idealerweise sollten diese Umwelten Eigenschaften besitzen, bei denen QWM theoretisch Vorteile erwarten lassen, etwa starke Korrelationen, multimodale Dynamiken oder ausgeprägte Unsicherheit. Die Definition solcher Benchmarks ist entscheidend für den empirischen Fortschritt des Feldes.

Offene theoretische Fragen

Neben praktischen Herausforderungen bestehen grundlegende theoretische Fragen. Unklar ist, welche Klassen von Dynamiken durch QWM effizienter approximiert werden können als durch klassische World Models. Ebenso offen ist die Frage nach formalen Generalisierungsgarantien oder nach einer quantitativen Charakterisierung des Repräsentationsvorteils durch Verschränkung.

Schließlich bleibt zu klären, wie sich klassische Konzepte wie Bellman-Optimalität oder Planungskonvergenz in einem quantenmechanischen Weltmodell formal verhalten. Die Beantwortung dieser Fragen wird darüber entscheiden, ob QWM langfristig als zentrale Methode im Quantum Reinforcement Learning etabliert werden können oder primär ein spezialisiertes Nischenwerkzeug bleiben.

Zukunftsperspektiven und Forschungsausblick

Quantum World Models befinden sich derzeit an der Schnittstelle zwischen theoretischer Vision und experimenteller Machbarkeit. Ihre langfristige Bedeutung hängt maßgeblich davon ab, wie sich Quantenhardware, algorithmische Konzepte und hybride Lernarchitekturen gemeinsam weiterentwickeln. Dieses Kapitel skizziert zentrale Zukunftsperspektiven jenseits des aktuellen Entwicklungsstands.

QWM jenseits der NISQ-Ära

Mit dem Übergang von der NISQ-Phase zu fehlerkorrigierten Quantencomputern verschieben sich die Grenzen dessen, was mit QWM möglich ist. Tiefe Quantenschaltkreise, langfristige Kohärenz und zuverlässige Quantenkanäle würden es erlauben, komplexe, hochdimensionale Weltmodelle vollständig im quantenmechanischen Formalismus zu realisieren. Latente Zustände könnten dann große verschränkte Systeme darstellen, deren Dynamik über viele Planungsschritte hinweg stabil propagiert wird.

In einer solchen Umgebung würden QWM nicht nur als Hilfsmodelle für Planung dienen, sondern als primäre Simulationsinstanzen komplexer Umwelten. Die Trennung zwischen Modell und Umwelt könnte zunehmend verschwimmen, insbesondere in quantenphysikalischen Domänen.

Integration mit Quantum Internet und verteiltem Lernen

Eine weitere Perspektive eröffnet sich durch die Entwicklung eines Quantum Internet. Verteilte Quantensysteme könnten QWM-Zustände über räumliche Distanzen hinweg teilen oder verschränken. Damit würden neue Formen verteilten Lernens möglich, bei denen mehrere Agenten auf gemeinsame quantenlatente Weltmodelle zugreifen.

In einem solchen Szenario könnten lokale Erfahrungen einzelner Agenten in einen globalen Quantenzustand integriert werden, ohne dass alle Informationen klassisch übertragen werden müssen. Planung und Lernen würden damit nicht nur parallel, sondern auch intrinsisch koordiniert stattfinden. QWM könnten zur zentralen Wissensrepräsentation in verteilten quantenintelligenten Systemen werden.

Langfristige Vision: Autonome quantenintelligente Agenten

Langfristig lassen sich QWM als Baustein autonomer quantenintelligenter Agenten verstehen. Solche Agenten würden ihre Umwelt nicht nur beobachten und darauf reagieren, sondern sie in einem internen quantenmechanischen Modell kontinuierlich simulieren, bewerten und antizipieren. Planung, Lernen und Unsicherheitsabschätzung wären tief integriert und würden auf denselben quantenlatenten Repräsentationen operieren.

Diese Vision geht über inkrementelle Leistungsverbesserungen hinaus. Sie impliziert eine neue Form maschineller Intelligenz, bei der Unsicherheit, Parallelität und Korrelation nicht approximiert, sondern nativ genutzt werden.

Bedeutung für KI-Theorie und Physik

Unabhängig von der praktischen Umsetzung besitzen QWM eine konzeptionelle Bedeutung für KI-Theorie und Physik. Sie zwingen dazu, zentrale Begriffe wie Zustand, Modell und Planung neu zu denken und im Kontext quantenmechanischer Informationsverarbeitung zu formulieren. Gleichzeitig liefern sie ein Testfeld, auf dem physikalische Prinzipien in lernenden Systemen operationalisiert werden.

Damit könnten Quantum World Models langfristig nicht nur neue Algorithmen hervorbringen, sondern auch das theoretische Verständnis von Lernen, Vorhersage und Entscheidung unter fundamentaler Unsicherheit vertiefen.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Nachfolgend findest du ein wissenschaftlich fundiertes, professionelles Literaturverzeichnis, das Quantum World Models (QWM) systematisch im Kontext von Quantum Reinforcement Learning, Model-Based RL, Quantum Machine Learning und Quanteninformation abdeckt. Die Auswahl kombiniert kanonische Arbeiten, aktuelle Forschungsartikel, methodische Grundlagen und technische Ressourcen.

Wissenschaftliche Zeitschriften und Artikel

Reinforcement Learning & World Models (klassisch)

Ha, D., & Schmidhuber, J.
World Models
arXiv preprint (2018)
https://arxiv.org/…

Hafner, D., Lillicrap, T., Ba, J., & Norouzi, M.
Dream to Control: Learning Behaviors by Latent Imagination
International Conference on Learning Representations (ICLR, 2020)
https://arxiv.org/…

Hafner, D., et al.
Mastering Atari with Discrete World Models
arXiv preprint (2021)
https://arxiv.org/…

Sutton, R. S., et al.
Integrated architectures for learning, planning, and reacting based on approximating dynamic programming
ICML (1990)
https://www.cs.ualberta.ca/…

Quantum Reinforcement Learning

Dong, D., Chen, C., Li, H., & Tarn, T. J.
Quantum Reinforcement Learning
IEEE Transactions on Systems, Man, and Cybernetics (2008)
https://ieeexplore.ieee.org/…

Dunjko, V., Taylor, J. M., & Briegel, H. J.
Quantum-Enhanced Machine Learning
Physical Review Letters (2016)
https://arxiv.org/…

Jerbi, S., Fiderer, L. J., & Dunjko, V.
Quantum Reinforcement Learning Beyond Speedups
Quantum (2021)
https://quantum-journal.org/…

Paparo, G. D., et al.
Quantum Speedup for Active Learning Agents
Physical Review X (2014)
https://arxiv.org/…

Quantum Machine Learning & Generative Models

Biamonte, J., et al.
Quantum Machine Learning
Nature (2017)
https://www.nature.com/…

Lloyd, S., Mohseni, M., & Rebentrost, P.
Quantum Algorithms for Supervised and Unsupervised Machine Learning
arXiv preprint
https://arxiv.org/…

Killoran, N., et al.
Continuous-Variable Quantum Neural Networks
Physical Review Research (2019)
https://arxiv.org/…

Verdon, G., et al.
Quantum Graph Neural Networks
arXiv preprint
https://arxiv.org/…

Quantenkanäle, Dynamik & offene Systeme

Breuer, H.-P., & Petruccione, F.
The Theory of Open Quantum Systems
Oxford University Press (2002)
https://global.oup.com/…

Nielsen, M. A., & Chuang, I. L.
Quantum Computation and Quantum Information
Cambridge University Press
https://doi.org/…

Wolf, M. M.
Quantum Channels & Operations
Lecture Notes
https://www-m5.ma.tum.de/…

Bücher und Monographien

Reinforcement Learning & Modellbasierte Methoden

Sutton, R. S., & Barto, A. G.
Reinforcement Learning: An Introduction (2nd Edition)
MIT Press
http://incompleteideas.net/…

Deisenroth, M., Neumann, G., & Peters, J.
A Survey on Policy Search for Robotics
Foundations and Trends in Robotics
https://arxiv.org/…

Quantum Computing & Quanteninformation

Preskill, J.
Quantum Computing in the NISQ era and beyond
Quantum (2018)
https://quantum-journal.org/…

Watrous, J.
The Theory of Quantum Information
Cambridge University Press
https://www.cambridge.org/…

Physik, Information & KI

Cover, T. M., & Thomas, J. A.
Elements of Information Theory
Wiley
https://onlinelibrary.wiley.com/…

Friston, K.
The Free-Energy Principle
Nature Reviews Neuroscience
https://www.nature.com/…

Online-Ressourcen und Datenbanken

Preprint-Server & Archive

arXiv – Quantum Physics
https://arxiv.org/…

arXiv – Quantum Machine Learning
https://arxiv.org/…

Frameworks & Forschungsplattformen

IBM Quantum Documentation
https://quantum.ibm.com

Qiskit Machine Learning
https://qiskit.org/…

PennyLane – Hybrid Quantum ML
https://pennylane.ai

Google Quantum AI
https://quantumai.google

Xanadu Quantum Software
https://www.xanadu.ai

Benchmarks & Research Initiatives

Quantum Open Source Foundation
https://qosf.org

Quantum Economic Development Consortium (QED-C)
https://quantumconsortium.org

Abschließende Einordnung

Dieses Literaturverzeichnis ist so aufgebaut, dass es:

  • klassische World-Model-Grundlagen abdeckt
  • Quantum Reinforcement Learning systematisch einbettet
  • QWM als generative, dynamische, quantenmechanische Modelle fundiert stützt
  • sowohl theoretische als auch hardware-nahe Perspektiven integriert