Quantum Options Framework

Reinforcement Learning (RL) hat sich als kraftvolles Paradigma etabliert, um Agenten zu trainieren, die durch Interaktion mit einer Umgebung optimale Handlungsstrategien erlernen. Doch sobald Entscheidungsprobleme realistische Komplexität erreichen, geraten klassische RL-Methoden in ein Spannungsfeld aus Datenhunger, instabiler Optimierung und schlechter Generalisierung. Genau hier setzt das Quantum Options Framework an: Es verbindet die Idee temporaler Abstraktion aus dem Hierarchical Reinforcement Learning mit quantenmechanischen Repräsentationen und Optimierungsmechanismen. Die Vision ist ein Agent, der nicht nur Aktionen wählt, sondern handhabbare, wiederverwendbare Handlungsbausteine auf höherer Ebene – Optionen – lernt und ausführt, wobei Quantenmodelle die Struktur großer Zustands- und Policy-Räume effizienter erfassen sollen.

Im Kern steht die Frage, wie Entscheidungsfindung skaliert, wenn die Umwelt hochdimensional, stochastisch, partiell beobachtbar und langfristig geplant werden muss. Klassische Verfahren verarbeiten diese Anforderungen häufig mit immer größeren Netzwerken, massiver Parallelisierung und Heuristiken. Das kann funktionieren – aber es ist teuer, fragil und oft schwer interpretierbar. Hierarchische Strukturen bringen Ordnung in diese Komplexität, indem sie Planung in Zeitskalen zerlegen: Eine High-Level-Policy entscheidet, welche Option als Nächstes aktiviert wird; eine Low-Level-Policy realisiert die Option als Sequenz von Aktionen bis zur Termination. Das Quantum Options Framework erweitert diese Hierarchie um quantenbasierte Parameterisierungen, die Zustände, Policies oder Wertfunktionen in einem Quantenraum kodieren und durch Messungen probabilistisch in Handlungen übersetzen.

Die Motivation ist dabei nicht „Quantenmagie“, sondern ein präzises Versprechen: Quantenmodelle können bestimmte Strukturen in Datenräumen und Optimierungslandschaften anders ausdrücken als klassische Modelle – etwa durch Superposition als komprimierte Repräsentation vieler Hypothesen, Verschränkung als Modellierung nichttrivialer Abhängigkeiten, und die natürliche Stochastik des Messprozesses als eingebauter Mechanismus für Exploration. In einer Welt, in der RL-Agenten zunehmend in dynamischen Systemen agieren (Robotik, Steuerung, komplexe Planung, Entscheidungsunterstützung), ist es naheliegend, temporale Abstraktion und quantenbasierte Modellierung als komplementäre Werkzeuge zu betrachten.

Diese Abhandlung führt Schritt für Schritt von den Grenzen klassischer RL-Ansätze über die Logik hierarchischer Policies hin zur Einordnung und Zielsetzung des Quantum Options Frameworks. Im Fokus steht, wie Optionen in einem quantenbasierten Setting formalisiert, gelernt und bewertet werden können – und welche offenen Fragen (NISQ-Rauschen, Barren Plateaus, Benchmarking) die Forschung heute prägen.

Grenzen klassischer Reinforcement-Learning-Ansätze bei komplexen Entscheidungsproblemen

Klassisches Reinforcement Learning (RL) leidet bei steigender Problemkomplexität häufig an vier Engpässen: Sample-Ineffizienz, schwieriges Credit Assignment, instabile Optimierung und schwache Generalisierung. Sample-Ineffizienz bedeutet, dass Agenten sehr viele Interaktionen benötigen, bevor sie robuste Strategien entwickeln. In realen Systemen sind Interaktionen teuer, langsam oder riskant. Gleichzeitig wird Credit Assignment – die Zuordnung von späteren Belohnungen zu früheren Entscheidungen – bei langen Zeithorizonten zunehmend diffus. Der Agent muss erkennen, welche frühe Aktion eine spätere Verbesserung verursacht hat, obwohl viele zufällige Ereignisse dazwischenliegen.

Ein drittes Problem ist die Optimierungsinstabilität, besonders in Deep Reinforcement Learning (DRL). Kleine Änderungen in Policy oder Wertfunktion können große Verhaltenssprünge erzeugen, Replay-Mechanismen und Bootstrapping verstärken Fehler, und Exploration kann entweder zu zaghaft oder destruktiv sein. Viertens ist Generalisierung schwierig: Agenten lernen oft sehr spezifische Strategien für eine Trainingsumgebung und brechen bei Verteilungsverschiebungen ein. In hochdimensionalen Zustandsräumen verschärft sich das, weil relevante Struktur nicht automatisch gefunden wird.

Komplexe Entscheidungsprobleme sind zudem häufig hierarchisch: Menschen lösen sie nicht als flache Sequenz einzelner Aktionen, sondern als verschachtelte Pläne und Routinen. Klassisches RL ohne Hierarchie muss diese Struktur implizit lernen – was möglich ist, aber ineffizient und anfällig dafür, dass der Agent lokale Muster überbetont statt übergeordnete Strategien zu entdecken.

Hierarchisches Reinforcement Learning als Antwort auf Skalierungsprobleme

Hierarchisches Reinforcement Learning (HRL) adressiert genau diese Engpässe durch temporale und strukturelle Abstraktion. Statt jede Entscheidung auf der niedrigsten Aktionsebene zu treffen, organisiert HRL Verhalten in wiederverwendbaren Modulen. Optionen sind dabei ein besonders klarer Formalismus: Eine Option besteht aus einem Initiation Set (wann sie gestartet werden darf), einer intra-option Policy (was sie tut) und einer Termination Condition (wann sie endet). Eine High-Level-Policy wählt Optionen, die Low-Level-Policy der Option erzeugt Aktionen über mehrere Zeitschritte.

Diese Zerlegung wirkt wie eine Kompression des Entscheidungsraums: Der Agent plant in größeren Zeitschritten, wodurch der effektive Horizont sinkt und Credit Assignment leichter wird. Zudem entsteht Wiederverwendbarkeit: Eine Option wie „Tür öffnen“ oder „Objekt greifen“ kann in vielen Aufgaben auftauchen. HRL kann dadurch Sample-Effizienz steigern, weil gelernte Subroutinen transferiert werden. Außerdem stabilisiert es die Optimierung, weil das Verhalten weniger erratisch ist: Optionen glätten die Policy über Zeit, da sie kohärente Aktionssequenzen bündeln.

Wichtig ist, dass HRL nicht nur ein Engineering-Trick ist, sondern eine strukturelle Hypothese über die Welt: Viele Umgebungen sind tatsächlich mehrskalig. Entscheidungen auf hoher Ebene (Zielwahl, Strategie) und auf niedriger Ebene (Motorik, Detailsteuerung) folgen unterschiedlichen Dynamiken. HRL spiegelt diese Realität in der Architektur wider.

Warum Quantenmechanik? Potenziale quantenbasierter Entscheidungsmodelle

Quantenmechanik wird im Kontext von RL relevant, weil sie alternative Repräsentations- und Optimierungsräume eröffnet. Ein quantenbasiertes Modell kann Information in Zuständen eines Quantenregisters kodieren. In einem idealisierten Setting kann ein Register mit n Qubits eine Zustandsbeschreibung in einem Hilbertraum der Dimension \(2^n\) tragen. Das bedeutet nicht automatisch „Exponentieller Vorteil“, aber es zeigt, dass die Ausdrucksform eines Modells grundsätzlich anders sein kann als bei rein klassischen Parametrisierungen.

Superposition kann als komprimierte Darstellung vieler latenter Hypothesen verstanden werden: Der Agent „trägt“ mehrere mögliche Interpretationen eines Zustands oder mehrere Policy-Varianten in einer einzigen quantenmechanischen Beschreibung. Verschränkung kann Abhängigkeiten modellieren, die sich nicht als einfache Produktstruktur faktorisieren lassen. Und der Messprozess liefert stochastische Ausgaben, was Exploration als inhärenten Bestandteil der Entscheidungsfindung attraktiv macht: Statt künstlicher Rauschprozesse kann stochastisches Verhalten direkt aus der Modellphysik kommen.

In der Praxis bedeutet Quantum Reinforcement Learning meist hybrid-quantum-klassische Systeme: Ein klassischer Trainingsloop aktualisiert Parameter, während ein parametrischer Quanten-Schaltkreis als Funktionsapproximator dient, etwa für Policies, Wertfunktionen oder Options-Policies. Das Potenzial liegt dann in drei Bereichen: (1) neue Feature-Maps und Repräsentationen, (2) veränderte Optimierungsgeometrie, (3) mögliche Vorteile bei bestimmten strukturierten Problemen, etwa wenn Zustände, Übergänge oder Zielstrukturen quantennah beschrieben werden können.

Einordnung des Quantum Options Frameworks im Kontext von Quantum Hierarchical RL

Das Quantum Options Framework ist die natürliche Schnittstelle zwischen zwei Ideen: HRL als Lösung für temporale Abstraktion und Quantum RL als Erweiterung des Modellraums. Während Quantum RL oft auf „flache“ Policies fokussiert, stellt Quantum Hierarchical RL (Q-HRL) die Frage, wie Hierarchie in quantenbasierten Agenten aussieht: Welche Komponenten sind quantenbasiert, welche bleiben klassisch, und wie interagieren beide Ebenen?

Im Quantum Options Framework werden Optionen nicht nur als klassische Module betrachtet, sondern als quantenparametrisierte Entscheidungsbausteine. Die intra-option Policy kann durch einen parametrischen Quanten-Schaltkreis realisiert werden, der aus einer Zustandskodierung eine Aktionsverteilung generiert. Die Termination Condition kann ebenfalls quantenbasiert sein, etwa als Messentscheidung, die eine Abbruchwahrscheinlichkeit liefert. Die High-Level-Policy kann klassisch oder quantenbasiert sein; entscheidend ist die Kopplung: Die High-Level-Policy entscheidet über die Auswahl von Optionen, während die Option selbst kohärentes Verhalten über mehrere Zeitschritte erzeugt.

Damit entsteht eine zweistufige Lern- und Kontrollarchitektur, in der Quantenmodelle dort eingesetzt werden, wo sie besonders plausibel Vorteile bringen: bei der Darstellung komplexer Policy-Formen und bei der Modellierung nichttrivialer Abhängigkeiten innerhalb einer Option. Gleichzeitig bleibt Raum für robuste klassische Komponenten, etwa für Replay, Logging, Stabilisierung und Safety-Constraints.

Zielsetzung, Forschungsfragen und Aufbau der Abhandlung

Ziel dieser Abhandlung ist es, das Quantum Options Framework als präzises Konzept in Quantum Hierarchical RL zu formulieren, seine Lernmechanismen zu strukturieren und seine Chancen sowie Grenzen realistisch einzuordnen. Im Mittelpunkt stehen folgende Leitfragen:

  • Wie lassen sich Optionen in einem quantenbasierten Setting formal definieren, insbesondere Initiation, intra-option Policy und Termination?
  • Welche Trainingsverfahren eignen sich für quantenparametrisierte Options-Policies, und wie beeinflussen Messstochastik und Rauschen die Lernstabilität?
  • In welchen Problemklassen ist temporale Abstraktion in Kombination mit Quantenrepräsentationen plausibel vorteilhaft?
  • Welche Benchmarks und Metriken sind geeignet, um „Vorteil“ fair zu messen (Sample-Effizienz, Robustheit, Transfer, Rechenkosten)?
  • Welche technischen Hürden (NISQ-Limits, Barren Plateaus, Fehlertoleranz) bestimmen den aktuellen Forschungskorridor?

Der Aufbau der Abhandlung folgt einer klaren Dramaturgie: Zunächst werden klassische RL- und Options-Grundlagen gelegt, danach die quantenmechanischen Bausteine für Quantum RL. Anschließend wird Q-HRL als Brücke etabliert, bevor das Quantum Options Framework konzeptionell und algorithmisch ausgearbeitet wird. Abschließend werden Use-Cases, Limitationen und Forschungsperspektiven verdichtet, um ein Gesamtbild zu liefern, das sowohl theoretisch sauber als auch praktisch anschlussfähig ist.

Grundlagen des Reinforcement Learning und der Options-Theorie

Reinforcement Learning bildet das algorithmische Fundament für lernende Agenten, die durch Interaktion mit einer Umwelt Entscheidungen treffen und aus Erfahrung optimieren. Um das Quantum Options Framework präzise zu verstehen, ist es notwendig, die klassischen Konzepte von RL, hierarchischer Strukturierung und der Options-Theorie sauber herzuleiten. Dieses Kapitel etabliert die formalen Grundlagen, auf denen spätere quantenbasierte Erweiterungen aufbauen.

Markov-Entscheidungsprozesse (MDPs) und Partially Observable MDPs

Der klassische Rahmen des Reinforcement Learning ist der Markov Decision Processes (MDPs). Ein MDP wird definiert durch das Tupel \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\), wobei \(\mathcal{S}\) die Menge der Zustände, \(\mathcal{A}\) die Menge der Aktionen, \(P(s‘ \mid s, a)\) die Übergangswahrscheinlichkeit, \(R(s,a)\) die Belohnungsfunktion und \(\gamma \in [0,1]\) der Diskontfaktor ist. Die Markov-Eigenschaft verlangt, dass der nächste Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt.

In vielen realistischen Szenarien ist diese Annahme zu stark. Agenten haben keinen vollständigen Zugriff auf den Zustand der Umwelt, sondern erhalten lediglich Beobachtungen. Dies führt zum Konzept der Partially Observable Markov Decision Processes (POMDPs), beschrieben durch \((\mathcal{S}, \mathcal{A}, P, R, \mathcal{O}, O, \gamma)\). Hierbei ist \(\mathcal{O}\) der Beobachtungsraum und \(O(o \mid s)\) das Beobachtungsmodell. Der Agent muss aus der Historie seiner Beobachtungen und Aktionen implizit einen Glaubenszustand rekonstruieren, was die Entscheidungsfindung erheblich erschwert und die Relevanz strukturierter, hierarchischer Strategien verstärkt.

Policy, Value Function, Reward und Exploration

Zentrales Objekt im RL ist die Policy \(\pi(a \mid s)\), die eine Wahrscheinlichkeitsverteilung über Aktionen gegeben einen Zustand beschreibt. Ziel des Lernprozesses ist es, eine Policy zu finden, die den erwarteten kumulierten Reward maximiert. Dieser wird typischerweise als Return definiert durch
\(G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}\).

Zur Bewertung von Policies dienen Wertfunktionen. Die Zustandswertfunktion ist gegeben durch
\(V^{\pi}(s) = \mathbb{E}{\pi}[G_t \mid S_t = s]\),
während die Aktionswertfunktion
\(Q^{\pi}(s,a) = \mathbb{E}{\pi}[G_t \mid S_t = s, A_t = a]\)
den erwarteten Return bei Wahl einer bestimmten Aktion beschreibt.

Ein zentrales Spannungsfeld im RL ist Exploration versus Exploitation. Der Agent muss bekannte, gute Strategien ausnutzen, gleichzeitig aber neue Aktionen ausprobieren, um bessere Lösungen zu entdecken. Klassische Methoden wie \(\epsilon\)-greedy oder Boltzmann-Exploration versuchen, dieses Dilemma heuristisch zu balancieren. Mit wachsender Komplexität der Umgebung wird Exploration jedoch zunehmend ineffizient, da relevante Aktionssequenzen selten und schwer auffindbar sind.

Hierarchisches Reinforcement Learning: Motivation und formale Struktur

Hierarchisches Reinforcement Learning (HRL) adressiert diese Problematik, indem es Entscheidungen auf mehreren Zeitskalen organisiert. Statt auf jeder Zeitebene primitive Aktionen zu wählen, trifft der Agent Entscheidungen über abstrakte Handlungseinheiten. Formal lässt sich HRL als Erweiterung eines MDP verstehen, bei dem Aktionen selbst wieder Policies sind, die über mehrere Schritte ausgeführt werden.

Die Motivation ist zweifach: Erstens reduziert sich der effektive Planungshorizont, da High-Level-Entscheidungen länger gültig bleiben. Zweitens wird Wiederverwendbarkeit ermöglicht, da einmal gelernte Subroutinen in unterschiedlichen Kontexten eingesetzt werden können. HRL spiegelt damit die Struktur menschlicher Problemlösung wider, bei der komplexe Aufgaben in überschaubare Teilprobleme zerlegt werden.

Klassisches Options Framework (Sutton, Precup, Singh)

Das Options Framework ist eine der einflussreichsten formalen Realisierungen von HRL. Es führt Optionen als temporale Abstraktionen ein, die sich wie erweiterte Aktionen verhalten.

Optionen als temporale Abstraktionen

Eine Option ist eine Policy, die nicht nur einen einzelnen Zeitschritt abdeckt, sondern eine variable Anzahl von Schritten. Wird eine Option aktiviert, generiert sie eine Sequenz von Aktionen, bis eine Abbruchbedingung erfüllt ist. Aus Sicht der High-Level-Policy verhält sich eine Option wie eine Aktion mit stochastischer Dauer.

Mathematisch kann der Entscheidungsprozess dadurch als Semi-Markov Decision Process (SMDP) beschrieben werden, bei dem Übergänge und Rewards über mehrere Zeitschritte akkumuliert werden.

Initiation Set, Policy und Termination Condition

Formal ist eine Option \(\omega\) definiert als Tripel
\(\omega = (\mathcal{I}{\omega}, \pi{\omega}, \beta_{\omega})\).

Das Initiation Set \(\mathcal{I}{\omega} \subseteq \mathcal{S}\) beschreibt, in welchen Zuständen die Option gestartet werden darf. Die intra-option Policy \(\pi{\omega}(a \mid s)\) steuert das Verhalten während der Ausführung. Die Termination Condition \(\beta_{\omega}(s)\) gibt die Wahrscheinlichkeit an, dass die Option im Zustand \(s\) beendet wird. Diese klare Struktur erlaubt es, Optionen systematisch zu lernen, zu kombinieren und zu evaluieren.

Grenzen klassischer Options-Modelle bei hochdimensionalen Zustandsräumen

Trotz ihrer konzeptionellen Eleganz stoßen klassische Options-Modelle in hochdimensionalen oder kontinuierlichen Zustandsräumen an Grenzen. Die Definition geeigneter Initiation Sets und Termination Conditions ist nicht trivial und erfordert häufig starke Induktionsannahmen. Zudem werden intra-option Policies meist mit klassischen Funktionsapproximatoren modelliert, die bei komplexen Abhängigkeiten und langen Zeithorizonten instabil werden können.

Ein weiteres Problem ist die Skalierung der Optionsauswahl: Mit wachsender Anzahl von Optionen wird die High-Level-Policy selbst zu einem hochdimensionalen Entscheidungsproblem. Schließlich bleibt Exploration auf Optionsebene schwierig, da falsche Optionen über lange Zeiträume suboptimales Verhalten erzwingen können.

Diese Limitierungen bilden den Ausgangspunkt für quantenbasierte Erweiterungen. Das Quantum Options Framework zielt darauf ab, genau hier anzusetzen, indem es Repräsentation, Exploration und Optimierung innerhalb von Optionen durch quantenmechanische Modelle neu denkt.

Quantenmechanische Grundlagen für Quantum Reinforcement Learning

Quantum Reinforcement Learning erweitert das klassische RL-Paradigma um Konzepte der Quantenmechanik. Ziel ist nicht, klassische Methoden pauschal zu ersetzen, sondern den Modellraum zu vergrößern, in dem Policies, Wertfunktionen und Entscheidungsstrategien repräsentiert und optimiert werden können. Um das Quantum Options Framework fundiert zu verstehen, müssen die zentralen quantenmechanischen Bausteine klar eingeordnet werden.

Qubits, Superposition und Verschränkung

Das grundlegende Informationsträgerelement eines Quantencomputers ist das Qubit. Im Gegensatz zum klassischen Bit, das entweder den Zustand \(0\) oder \(1\) annimmt, kann ein Qubit in einer Superposition beider Basiszustände existieren. Formal wird ein Qubit-Zustand beschrieben als
\(|\psi\rangle = \alpha |0\rangle + \beta |1\rangle\),
wobei \(\alpha, \beta \in \mathbb{C}\) und \(|\alpha|^2 + |\beta|^2 = 1\) gilt.

Mehrere Qubits spannen gemeinsam einen Hilbertraum auf, dessen Dimension mit der Anzahl der Qubits exponentiell wächst. Besonders relevant ist dabei das Phänomen der Verschränkung. Ein Zustand mehrerer Qubits ist verschränkt, wenn er sich nicht als Produkt einzelner Qubit-Zustände schreiben lässt. Verschränkung erlaubt es, Korrelationen zwischen Variablen zu modellieren, die über klassische Faktorisierungen hinausgehen. Für Entscheidungsmodelle bedeutet das, dass komplexe Abhängigkeiten zwischen Zustandskomponenten oder Aktionsentscheidungen in einer kompakten Form repräsentiert werden können.

Messprozesse und probabilistische Entscheidungsfindung

Quantenmechanische Zustände sind nicht direkt beobachtbar. Informationen werden durch Messungen gewonnen, die den Zustand auf einen klassischen Wert projizieren. Bei der Messung eines Qubits im Basiszustand \({|0\rangle, |1\rangle}\) erhält man das Ergebnis \(0\) mit Wahrscheinlichkeit \(|\alpha|^2\) und \(1\) mit Wahrscheinlichkeit \(|\beta|^2\).

Für Reinforcement Learning ist dieser Messprozess besonders interessant, da er eine natürliche Quelle probabilistischer Entscheidungsfindung darstellt. Statt deterministischer Aktionsauswahl oder explizit hinzugefügten Zufallsrauschens entsteht Stochastik direkt aus der physikalischen Struktur des Modells. Eine Policy kann somit als Messprozess eines parametrisierten Quantenzustands interpretiert werden, dessen Wahrscheinlichkeitsverteilung über Aktionen durch die Schaltkreisparameter kontrolliert wird.

Gleichzeitig ist Messung destruktiv: Nach der Messung kollabiert der Quantenzustand. In praktischen Lernalgorithmen wird dieses Problem durch wiederholte Schaltkreisausführung und statistische Auswertung umgangen. Der Agent beobachtet nicht einen einzelnen Messwert, sondern schätzt Wahrscheinlichkeiten aus vielen Durchläufen.

Quanten-Gates, Quanten-Schaltkreise und parametrische Quantenmodelle

Quanten-Gates sind unitäre Operationen, die Quantenzustände transformieren. Einfache Beispiele sind das Hadamard-Gate, das Superposition erzeugt, oder Rotationsgates, die den Zustand eines Qubits kontinuierlich verändern. Ein parametrisches Rotationsgate kann etwa als
\(R_y(\theta) = \exp\left(-i \frac{\theta}{2} \sigma_y \right)\)
geschrieben werden, wobei \(\sigma_y\) eine Pauli-Matrix ist.

Quanten-Schaltkreise bestehen aus einer Abfolge solcher Gates und definieren eine deterministische Transformation eines Eingabezustands. Parametrische Quantenmodelle, häufig als Variational Quantum Circuits (VQCs) bezeichnet, enthalten trainierbare Parameter \(\boldsymbol{\theta}\). Diese Parameter werden so angepasst, dass das Messergebnis des Schaltkreises eine gewünschte Zielfunktion optimiert.

In Quantum Reinforcement Learning fungieren VQCs als Funktionsapproximatoren. Sie können Policies, Wertfunktionen oder Komponenten einer Options-Policy darstellen. Der Lernprozess besteht darin, die Parameter \(\boldsymbol{\theta}\) über einen klassischen Optimierer zu aktualisieren, basierend auf gemessenen Rewards oder Gradientenabschätzungen.

Hybrid-quantum-klassische Architekturen (VQC, QNNs)

In der aktuellen NISQ-Ära sind vollständig quantenbasierte Lernsysteme unrealistisch. Stattdessen dominieren hybrid-quantum-klassische Architekturen. In solchen Systemen übernimmt der Quantenprozessor eine spezifische Rechenkomponente, während Training, Speicher und Steuerlogik klassisch realisiert werden.

Ein typisches Setup ist ein klassischer RL-Agent, der Zustände vorverarbeitet, Parameter an einen VQC übergibt und aus den Messergebnissen eine Aktionsverteilung ableitet. Die Parameter werden anschließend durch klassische Optimierungsverfahren angepasst. Quantum Neural Networks (QNNs) bezeichnen dabei konzeptionell ähnliche Strukturen, bei denen VQCs die Rolle neuronaler Netzwerke übernehmen.

Diese Hybridarchitektur ist besonders kompatibel mit hierarchischen Ansätzen. Einzelne Optionen oder Subpolicies können quantenbasiert sein, während die übergeordnete Steuerung klassisch bleibt. Dadurch lassen sich Vorteile quantenmechanischer Repräsentationen gezielt nutzen, ohne das gesamte System zu destabilisieren.

Vorteile quantenmechanischer Repräsentationen für RL

Der Einsatz von Quantenmodellen im RL ist motiviert durch mehrere potenzielle Vorteile, die sich aus der Struktur des Quantenraums ergeben.

Exponentielle Zustandskodierung

Ein Register aus \(n\) Qubits beschreibt einen Zustand in einem Raum der Dimension \(2^n\). Diese Eigenschaft erlaubt es, hochdimensionale Zustände oder Feature-Maps kompakt zu kodieren. Für RL bedeutet dies, dass komplexe Zustandsrepräsentationen mit relativ wenigen physikalischen Ressourcen modelliert werden können, zumindest auf konzeptioneller Ebene.

Quantenparallelismus und Exploration

Durch Superposition kann ein Quanten-Schaltkreis mehrere Rechenpfade gleichzeitig repräsentieren. In RL-Kontexten wird dies häufig als Quantenparallelismus interpretiert. Auch wenn Messung nur ein Ergebnis liefert, können Trainingsverfahren die zugrundeliegende Wahrscheinlichkeitsstruktur nutzen. Für Exploration bedeutet das, dass mehrere Aktionshypothesen gleichzeitig in einer Policy kodiert sein können, anstatt sequentiell ausprobiert zu werden.

Stochastik als inhärente Eigenschaft

Während klassische RL-Algorithmen Exploration meist durch explizites Rauschen implementieren, ist Stochastik in Quantenmodellen fundamental. Jede Messung erzeugt ein zufälliges, aber kontrollierbares Ergebnis. Diese Eigenschaft passt hervorragend zum probabilistischen Charakter von Entscheidungsfindung und eröffnet neue Wege, Exploration und Unsicherheit elegant in die Policy-Architektur zu integrieren.

Zusammen bilden diese Eigenschaften die physikalische und algorithmische Grundlage für Quantum Reinforcement Learning. Sie schaffen den Raum, in dem das Quantum Options Framework später angesiedelt wird: als hierarchische Struktur, die quantenmechanische Repräsentationen gezielt dort einsetzt, wo klassische Modelle an ihre Grenzen stoßen.

Quantum Reinforcement Learning: Stand der Forschung

Quantum Reinforcement Learning (QRL) ist ein junges, aber dynamisch wachsendes Forschungsfeld, das klassische RL-Algorithmen mit quantenmechanischen Repräsentationen und Optimierungsprinzipien kombiniert. Ziel ist es, bekannte Lernparadigmen in einen erweiterten Funktionsraum zu überführen und zu untersuchen, ob sich daraus qualitative oder quantitative Vorteile ergeben. Der aktuelle Forschungsstand ist geprägt von konzeptionellen Modellen, hybriden Architekturen und ersten empirischen Demonstrationen auf NISQ-Hardware und Simulatoren.

Quantum Policy Gradient Methoden

Policy-Gradient-Methoden gehören zu den am häufigsten untersuchten Ansätzen im QRL. Die Grundidee besteht darin, eine Policy direkt zu parametrisieren und deren Parameter so zu optimieren, dass der erwartete Return maximiert wird. In einem quantenbasierten Setting wird die Policy durch einen parametrischen Quanten-Schaltkreis beschrieben, dessen Messausgänge eine Wahrscheinlichkeitsverteilung über Aktionen definieren.

Der Optimierungsprozess zielt darauf ab, die Parameter \(\boldsymbol{\theta}\) des Schaltkreises so zu aktualisieren, dass der Erwartungswert des Returns
\(J(\boldsymbol{\theta}) = \mathbb{E}{\pi{\boldsymbol{\theta}}}[G]\)
maximiert wird. Gradienten können über spezielle Techniken wie das Parameter-Shift-Verfahren geschätzt werden, bei dem der Gradient einer Messwahrscheinlichkeit durch Differenzen zweier leicht verschobener Schaltkreisparameter berechnet wird.

Quantum Policy Gradient Methoden sind besonders attraktiv, da sie nahtlos mit stochastischen Policies harmonieren. Die Messstochastik des Quantenmodells ersetzt oder ergänzt klassische Explorationsmechanismen. Gleichzeitig zeigen Studien, dass die Varianz der Gradientenabschätzung ein zentrales Problem darstellt, insbesondere bei tieferen Schaltkreisen.

Quantum Q-Learning und amplitudenbasierte Wertfunktionen

Neben Policy-Gradient-Ansätzen existieren quantenbasierte Varianten wertbasierter Methoden. Quantum Q-Learning zielt darauf ab, die Aktionswertfunktion \(Q(s,a)\) durch ein Quantenmodell zu approximieren. Ein Ansatz besteht darin, Zustände und Aktionen amplitudenbasiert zu kodieren und den Erwartungswert eines Messoperators als Wertschätzung zu interpretieren.

Formal kann ein quantenbasierter Wertansatz etwa als
\(Q_{\boldsymbol{\theta}}(s,a) = \langle \psi(s,a;\boldsymbol{\theta}) | \hat{O} | \psi(s,a;\boldsymbol{\theta}) \rangle\)
formuliert werden, wobei \(\hat{O}\) ein Observablenoperator ist. Das Training folgt analog zum klassischen Q-Learning dem Bellman-Fehler, ersetzt jedoch neuronale Netze durch parametrische Quantenmodelle.

In der Praxis ist Quantum Q-Learning schwieriger zu stabilisieren als Policy-Gradient-Ansätze, da Bootstrapping und Messrauschen miteinander interagieren. Dennoch ist dieser Forschungszweig wichtig, da Wertfunktionen eine zentrale Rolle in hierarchischen und optionsbasierten Methoden spielen.

Variational Quantum Reinforcement Learning

Variational Quantum Reinforcement Learning (VQRL) bildet den methodischen Kern vieler aktueller Arbeiten. Hier werden Variational Quantum Circuits als universelle Funktionsapproximatoren eingesetzt, deren Parameter durch klassische Optimierer angepasst werden. Der Lernprozess ist iterativ und hybrid: Ein klassischer Controller generiert Trainingsdaten, der Quanten-Schaltkreis verarbeitet Eingaben, und Messungen liefern Signale für das Update der Parameter.

VQRL ist besonders flexibel, da es unterschiedliche RL-Paradigmen integrieren kann: Policy Gradients, Actor-Critic-Strukturen oder auch wertbasierte Ansätze. Die zentrale Annahme ist, dass der induzierte Funktionsraum eines VQC für bestimmte Problemklassen günstige Eigenschaften besitzt, etwa eine andere Glattheit oder bessere Ausdrucksstärke bei begrenzter Parameterzahl.

Empirische Ergebnisse zeigen, dass VQRL-Modelle auf kleinen Benchmark-Problemen konkurrenzfähig sein können. Gleichzeitig wird deutlich, dass ihre Leistungsfähigkeit stark von der Wahl der Schaltkreisarchitektur, der Initialisierung und der Optimierungsstrategie abhängt.

Quantum-Assisted Exploration und Reward Shaping

Ein weiteres aktives Forschungsfeld ist die Nutzung quantenmechanischer Effekte zur Unterstützung von Exploration und Reward Shaping. Durch gezielte Gestaltung von Messoperatoren oder Schaltkreisparametern lassen sich Aktionsverteilungen erzeugen, die bestimmte Regionen des Aktionsraums bevorzugt oder systematisch abtasten.

Quantum-Assisted Exploration nutzt dabei die inhärente Zufälligkeit der Messung, um diversifizierte Verhaltensmuster zu erzeugen, ohne explizite Zufallstermen hinzuzufügen. Reward Shaping kann quantenbasiert erfolgen, indem zusätzliche Observablen definiert werden, deren Erwartungswerte als Hilfsbelohnungen dienen. Diese Hilfssignale können den Lernprozess strukturieren, insbesondere in frühen Trainingsphasen.

Im Kontext hierarchischer Modelle ist dieser Ansatz besonders interessant, da Exploration auf Optionsebene gezielt gefördert werden kann, ohne das Verhalten auf Aktionsebene vollständig zu destabilisieren.

Herausforderungen: NISQ-Ära, Rauschen, Barren Plateaus

Trotz vielversprechender Konzepte steht QRL vor erheblichen Herausforderungen. Aktuelle Quantenhardware befindet sich in der NISQ-Ära, gekennzeichnet durch begrenzte Qubit-Zahlen, kurze Kohärenzzeiten und signifikantes Rauschen. Diese Faktoren schränken die Tiefe und Komplexität praktikabler Schaltkreise stark ein.

Ein weiteres zentrales Problem sind Barren Plateaus. Dabei handelt es sich um Regionen im Parameterraum, in denen Gradienten exponentiell klein werden. In solchen Zonen stagniert das Training, da Optimierungsverfahren kaum noch verwertbare Signale erhalten. Dieses Phänomen tritt besonders häufig bei tiefen oder unstrukturierten Schaltkreisen auf.

Schließlich stellt sich die Frage nach fairer Vergleichbarkeit. Klassische RL-Methoden sind ausgereift und hochoptimiert. Potenzielle Vorteile quantenbasierter Ansätze müssen daher sorgfältig gegen Overhead, Rauschen und hybride Komplexität abgewogen werden.

Der aktuelle Stand der Forschung zeigt somit ein ambivalentes Bild: Quantum Reinforcement Learning ist konzeptionell reich und eröffnet neue Perspektiven, steht jedoch noch am Anfang seiner praktischen Reife. Genau an dieser Schnittstelle positioniert sich das Quantum Options Framework, das versucht, quantenmechanische Modelle gezielt in strukturierte, hierarchische Entscheidungsarchitekturen einzubetten.

Quantum Hierarchical Reinforcement Learning (Q-HRL)

Quantum Hierarchical Reinforcement Learning (Q-HRL) verbindet zwei komplementäre Ideen: die strukturelle Entlastung komplexer Entscheidungsprobleme durch Hierarchien und die erweiterte Repräsentationskraft quantenmechanischer Modelle. Während Quantum Reinforcement Learning bislang häufig flache Agentenarchitekturen betrachtet, rückt Q-HRL die Frage in den Mittelpunkt, wie zeitliche, funktionale und semantische Abstraktion in quantenbasierten Lernsystemen systematisch umgesetzt werden kann.

Motivation für Hierarchien im Quantum RL

Die Motivation für Hierarchien im Quantum RL ist stärker ausgeprägt als im klassischen Fall. Quantenmodelle sind teuer, sowohl rechnerisch als auch hardwareseitig. Jeder zusätzliche Qubit, jedes weitere Gate und jede tiefere Schaltkreisstruktur erhöhen die Fehleranfälligkeit und erschweren das Training. Eine hierarchische Zerlegung erlaubt es, Quantenressourcen gezielt dort einzusetzen, wo sie den größten Mehrwert versprechen.

Zudem sind viele Entscheidungsprobleme intrinsisch mehrstufig. Strategische Entscheidungen entfalten ihre Wirkung über lange Zeithorizonte, während operative Entscheidungen schnelle, lokale Anpassungen erfordern. Ein flacher Quantum-RL-Agent müsste diese unterschiedlichen Dynamiken in einem einzigen Schaltkreis modellieren, was schnell unübersichtlich wird. Hierarchien erlauben es, unterschiedliche zeitliche Skalen auf verschiedene Ebenen zu verteilen und so die Komplexität pro Ebene zu reduzieren.

Ein weiterer Aspekt ist die Lernstabilität. Quantenbasierte Optimierung ist anfällig für Rauschen und flache Gradientenlandschaften. Durch Hierarchisierung können Lernsignale lokaler und strukturierter gehalten werden, was die Konvergenz verbessert und das Risiko von Barren Plateaus reduziert.

Struktur mehrstufiger quantenbasierter Agenten

Ein Q-HRL-Agent besteht typischerweise aus mehreren Entscheidungsebenen, die unterschiedliche Rollen übernehmen. Auf oberster Ebene befindet sich eine High-Level-Policy, die grobe Handlungsentscheidungen trifft, etwa Zielwahl oder Auswahl einer Option. Darunter liegen eine oder mehrere Ebenen von Subpolicies, die diese Entscheidungen in konkretes Verhalten übersetzen.

Formal lässt sich eine zweistufige Q-HRL-Architektur als verschachtelte Entscheidungsprozesse beschreiben. Die High-Level-Policy operiert auf einem abstrahierten Zustandsraum \(\mathcal{S}^{(H)}\) und wählt aus einer Menge von Subpolicies oder Optionen \(\Omega\). Die Low-Level-Policy \(\pi^{(L)}\) agiert auf dem ursprünglichen Zustandsraum \(\mathcal{S}\) und generiert primitive Aktionen.

Quantenbasierte Komponenten können auf unterschiedlichen Ebenen platziert werden. In minimalistischen Architekturen ist nur die Low-Level-Policy quantenbasiert, während die High-Level-Policy klassisch bleibt. In stärker integrierten Ansätzen sind beide Ebenen durch parametrische Quantenmodelle realisiert, die über klassische Schnittstellen kommunizieren.

Trennung von High-Level- und Low-Level-Policies

Die explizite Trennung von High-Level- und Low-Level-Policies ist ein zentrales Designprinzip von Q-HRL. Die High-Level-Policy ist primär für langfristige Planung und Strukturierung verantwortlich. Sie operiert auf einer langsameren Zeitskala und wird seltener aktualisiert. Die Low-Level-Policy hingegen reagiert auf kurzfristige Umweltveränderungen und setzt abstrakte Entscheidungen operativ um.

Diese Trennung ist besonders wichtig im quantenbasierten Kontext. High-Level-Entscheidungen profitieren oft weniger von feingranularer Stochastik und komplexen Quantenkorrelationen als Low-Level-Kontrollaufgaben. Daher ist es sinnvoll, Quantenmodelle gezielt dort einzusetzen, wo sie für kontinuierliche Steuerung, komplexe Abhängigkeiten oder reichhaltige Aktionsverteilungen benötigt werden.

Mathematisch lässt sich diese Struktur als Komposition zweier Policies ausdrücken. Die Gesamthandlungsverteilung ergibt sich aus
\(\pi(a \mid s) = \sum_{\omega \in \Omega} \pi^{(H)}(\omega \mid s) , \pi^{(L)}_{\omega}(a \mid s)\).
Diese Faktorisierung verdeutlicht, wie Hierarchie die Entscheidungsfindung strukturiert und zugleich modulare Lernprozesse erlaubt.

Quantenbasierte Subpolicy-Komposition

Ein besonderes Merkmal von Q-HRL ist die Möglichkeit, Subpolicies nicht nur klassisch zu kombinieren, sondern quantenmechanisch zu verschränken. In quantenbasierten Subpolicies können Zustandsinformationen, Aktionspräferenzen oder sogar Terminationsentscheidungen gemeinsam in einem verschränkten Zustand repräsentiert werden.

Quantenbasierte Subpolicy-Komposition erlaubt es, mehrere Verhaltensmuster gleichzeitig in Superposition zu halten. Eine Option kann dadurch nicht als starres Modul, sondern als flexibles Verhaltensbündel verstanden werden, dessen konkrete Ausprägung erst durch Messung bestimmt wird. Diese Eigenschaft ist besonders attraktiv für unsichere oder dynamische Umgebungen, in denen starre Subroutinen schnell suboptimal werden.

Darüber hinaus eröffnet Verschränkung neue Formen der Koordination zwischen Subpolicies. Abhängigkeiten zwischen Optionen können direkt im Quantenraum modelliert werden, ohne explizite Kopplungsparameter im klassischen Sinne einzuführen.

Vergleich: Klassisches HRL vs. Quantum HRL

Der Vergleich zwischen klassischem HRL und Q-HRL zeigt sowohl strukturelle Parallelen als auch fundamentale Unterschiede. Beide Ansätze nutzen Hierarchien, um Komplexität zu reduzieren und Lernprozesse zu stabilisieren. In beiden Fällen spielen Optionen oder Subpolicies eine zentrale Rolle.

Der Unterschied liegt in der Repräsentation und im Lernraum. Klassisches HRL arbeitet mit deterministischen oder stochastischen Policies, die explizit parametrisiert sind. Q-HRL erweitert diesen Raum um quantenmechanische Zustände, deren Parameter nicht direkt Wahrscheinlichkeiten, sondern Amplituden kontrollieren. Dadurch entstehen andere Optimierungslandschaften und potenziell reichhaltigere Abhängigkeitsstrukturen.

Gleichzeitig ist Q-HRL mit zusätzlichem Overhead verbunden: Messrauschen, Hardware-Limitierungen und komplexere Trainingsloops. Der Mehrwert quantenbasierter Hierarchien muss daher problemabhängig bewertet werden. In Szenarien mit klarer hierarchischer Struktur und komplexen Abhängigkeiten zwischen Subentscheidungen erscheint Q-HRL besonders vielversprechend.

Diese Überlegungen bilden die konzeptionelle Brücke zum Quantum Options Framework, das im nächsten Kapitel als konkrete Ausprägung von Q-HRL eingeführt wird.

Das Quantum Options Framework: Konzeptionelle Grundlagen

Das Quantum Options Framework stellt die zentrale konzeptionelle Erweiterung klassischer Options-Theorie in den quantenbasierten Reinforcement-Learning-Kontext dar. Es verbindet temporale Abstraktion mit quantenmechanischer Repräsentation und schafft damit eine Architektur, in der Optionen nicht nur sequenzielle Handlungsbausteine sind, sondern quantenparametrisierte Entscheidungsprozesse mit inhärenter Stochastik, Verschränkung und adaptiver Struktur.

Definition einer Quantum Option

Eine Quantum Option ist die quantenmechanische Verallgemeinerung der klassischen Option. Während klassische Optionen vollständig durch klassische Funktionen definiert sind, enthält eine Quantum Option explizit quantenbasierte Komponenten. Formal kann eine Quantum Option \(\omega_q\) als Tupel beschrieben werden:
\(\omega_q = (\mathcal{I}q, \mathcal{U}{\omega}, \mathcal{M}_{\omega})\).

Dabei bezeichnet \(\mathcal{I}q\) das Quantum Initiation Set, \(\mathcal{U}{\omega}\) eine parametrische Quantenoperation (oder einen Schaltkreis), der die intra-option Policy implementiert, und \(\mathcal{M}_{\omega}\) eine Menge von Messoperatoren, die sowohl Aktionsselektion als auch Termination steuern. Eine Quantum Option ist somit kein statischer Entscheidungsbaustein, sondern ein dynamischer quantenmechanischer Prozess, der bei Aktivierung einen Quantenzustand vorbereitet, transformiert und wiederholt misst.

Quantum Initiation Sets als Zustands-Superpositionen

In klassischen Options-Modellen ist das Initiation Set eine Teilmenge des Zustandsraums. Eine Option darf nur in bestimmten Zuständen gestartet werden. Im Quantum Options Framework wird dieses Konzept verallgemeinert. Ein Quantum Initiation Set ist keine harte Zustandsmenge, sondern eine Superposition über zulässige Zustände.

Formal kann ein Initiation-Zustand als
\(|\phi_{\mathcal{I}}\rangle = \sum_{s \in \mathcal{S}} \alpha_s |s\rangle\)
beschrieben werden, wobei die Amplituden \(\alpha_s\) kodieren, mit welcher Gewichtung ein Zustand zur Aktivierung der Option beiträgt. Statt einer binären Entscheidung „Option erlaubt oder nicht“ entsteht ein weiches, amplitudenbasiertes Aktivierungsschema.

Diese Darstellung ist besonders vorteilhaft in kontinuierlichen oder unsicheren Umgebungen. Der Agent muss nicht exakt entscheiden, ob ein Zustand zu einem Initiation Set gehört, sondern kann Übergangsbereiche modellieren. Die Aktivierungswahrscheinlichkeit einer Option ergibt sich dann aus einer Messung oder aus der Überlappung des aktuellen Zustands mit dem Initiationszustand im Hilbertraum.

Quantum Intra-Option Policies

Die intra-option Policy beschreibt das Verhalten einer Option während ihrer Ausführung. Im Quantum Options Framework wird sie durch einen parametrischen Quanten-Schaltkreis realisiert, der Zustandsinformationen verarbeitet und Aktionsverteilungen erzeugt.

Parametrische Quanten-Schaltkreise als Options-Policies

Ein parametrischer Quanten-Schaltkreis \(U_{\omega}(\boldsymbol{\theta})\) übernimmt die Rolle der Options-Policy. Der Eingabezustand kodiert den aktuellen Umweltzustand, beispielsweise durch Amplituden- oder Winkelkodierung. Der Schaltkreis transformiert diesen Zustand in einen Aktionszustand
\(|\psi_{\omega}(s)\rangle = U_{\omega}(\boldsymbol{\theta}) |\phi(s)\rangle\).

Die Parameter \(\boldsymbol{\theta}\) werden während des Lernens angepasst. Im Gegensatz zu klassischen Policies steuern diese Parameter nicht direkt Wahrscheinlichkeiten, sondern die Struktur des Quantenzustands. Dadurch können komplexe, nichtlineare Abhängigkeiten zwischen Zustandskomponenten und Aktionspräferenzen entstehen, selbst bei relativ flachen Schaltkreisen.

Ein wesentlicher Vorteil dieser Darstellung ist die modulare Wiederverwendbarkeit. Derselbe Schaltkreis kann in unterschiedlichen Kontexten eingesetzt werden, wobei nur die Zustandskodierung variiert.

Messbasierte Aktionsselektion

Die Aktionsselektion erfolgt durch Messung des Aktionszustands. Ein Satz von Messoperatoren \({M_a}\) definiert, wie Messergebnisse auf Aktionen abgebildet werden. Die Wahrscheinlichkeit, Aktion \(a\) zu wählen, ergibt sich als
\(P(a \mid s, \omega) = \langle \psi_{\omega}(s) | M_a | \psi_{\omega}(s) \rangle\).

Diese Form der Aktionswahl ist inhärent stochastisch und ersetzt klassische Softmax- oder \(\epsilon\)-greedy-Mechanismen. Exploration entsteht natürlich aus der quantenmechanischen Struktur, während Exploitation durch die Anpassung der Schaltkreisparameter realisiert wird.

Quantum Termination Conditions

Neben der Aktionsgenerierung ist die Termination einer Option ein zentrales Element. Im Quantum Options Framework wird auch dieser Aspekt quantenbasiert modelliert.

Messoperatoren und Abbruchwahrscheinlichkeiten

Die Termination Condition einer Quantum Option wird durch spezielle Messoperatoren beschrieben. Ein Operator \(M_{\text{term}}\) definiert die Wahrscheinlichkeit, dass eine Option im aktuellen Zustand beendet wird. Diese Wahrscheinlichkeit ergibt sich aus
\(\beta_{\omega}(s) = \langle \psi_{\omega}(s) | M_{\text{term}} | \psi_{\omega}(s) \rangle\).

Dadurch wird Abbruch nicht als deterministische Regel implementiert, sondern als probabilistischer Prozess, der vom internen Quantenzustand abhängt. Optionen können somit flexibel auf Umweltveränderungen reagieren, ohne explizite Schwellenwerte oder Regeln zu benötigen.

Adaptive Termination durch Quantenfeedback

Ein besonders leistungsfähiger Aspekt ist adaptive Termination. Hierbei wird der Quantenzustand der Option durch Feedback aus vorherigen Messungen oder Belohnungen beeinflusst. Der Schaltkreisparameter \(\boldsymbol{\theta}\) wird so angepasst, dass Abbruchwahrscheinlichkeiten kontextabhängig steigen oder fallen.

Diese Rückkopplung erlaubt es Optionen, ihre eigene zeitliche Ausdehnung zu lernen. Eine Option kann sich verlängern, wenn sie effektiv ist, oder schneller terminieren, wenn sie keinen Mehrwert liefert. Adaptive Termination ist damit ein zentraler Mechanismus für effiziente temporale Abstraktion.

Temporale Abstraktion im Quantenraum

Temporale Abstraktion im Quantum Options Framework findet nicht nur auf der Ebene von Zeitschritten statt, sondern im Quantenraum selbst. Eine Option entspricht einer kohärenten Transformation über mehrere Umweltinteraktionen hinweg. Der Quantenzustand trägt implizit Information über vergangene Zustände, Aktionen und Belohnungen, solange die Option aktiv ist.

Statt jede Entscheidung isoliert zu treffen, operiert die Option als zusammenhängender quantenmechanischer Prozess. Dies ermöglicht eine neue Sicht auf Zeit im Reinforcement Learning: Zeit wird nicht nur als diskrete Abfolge von Schritten betrachtet, sondern als kontinuierliche Evolution eines Zustands im Hilbertraum.

Diese Perspektive macht deutlich, warum das Quantum Options Framework mehr ist als eine technische Modifikation. Es ist ein konzeptioneller Schritt hin zu Agenten, die temporale Struktur, Unsicherheit und Entscheidungsfindung in einem einheitlichen quantenmechanischen Modell integrieren.

Lernalgorithmen im Quantum Options Framework

Das Quantum Options Framework entfaltet sein volles Potenzial erst durch geeignete Lernalgorithmen, die sowohl die hierarchische Struktur als auch die quantenmechanischen Komponenten berücksichtigen. Dieses Kapitel beschreibt zentrale algorithmische Konzepte, mit denen Quantum Options effizient trainiert, stabilisiert und evaluiert werden können. Im Fokus stehen gradientenbasierte Verfahren, hybride Trainingsschleifen und Mechanismen zur sauberen Zuordnung von Belohnungen über Zeit und Hierarchieebenen hinweg.

Quantum Option-Critic Architecture

Die Quantum Option-Critic Architecture ist die direkte Verallgemeinerung der klassischen Option-Critic-Struktur auf den quantenbasierten Kontext. Sie kombiniert drei lernende Komponenten: eine High-Level-Policy über Optionen, quantenbasierte intra-option Policies und quantenbasierte Termination-Modelle.

Formal optimiert die Architektur den erwarteten Return
\(J = \mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t R_t \right]\),
wobei Entscheidungen sowohl auf Options- als auch auf Aktionsebene getroffen werden. Die High-Level-Policy \(\pi^{(H)}(\omega \mid s)\) wählt eine Quantum Option \(\omega_q\), deren Ausführung durch einen parametrischen Quanten-Schaltkreis gesteuert wird.

Im Unterschied zur klassischen Option-Critic Architecture ist die intra-option Policy kein explizites Wahrscheinlichkeitsmodell, sondern ein Messprozess eines Quantenzustands. Ebenso ist die Termination keine separate logistische Funktion, sondern das Ergebnis eines Messoperators. Dennoch lassen sich die Lernziele formal analog definieren: Die Parameter der Options-Policies und Termination-Operatoren werden so angepasst, dass sie den langfristigen Return maximieren, während die High-Level-Policy die Auswahl der Optionen optimiert.

Gradientenschätzung in quantenbasierten Options-Policies

Die zentrale Herausforderung beim Training quantenbasierter Options-Policies ist die Gradientenschätzung. Da Quanten-Schaltkreise unitäre Transformationen implementieren, sind klassische Backpropagation-Methoden nicht direkt anwendbar. Stattdessen werden spezielle Techniken verwendet, die Gradienten aus Messstatistiken ableiten.

Ein gängiger Ansatz ist das Parameter-Shift-Verfahren. Für einen Schaltkreisparameter \(\theta_i\) kann der Gradient eines Erwartungswerts \(f(\boldsymbol{\theta})\) berechnet werden als
\(\frac{\partial f}{\partial \theta_i} = \frac{1}{2}\left[f(\boldsymbol{\theta}_i^+) – f(\boldsymbol{\theta}_i^-)\right]\),
wobei \(\boldsymbol{\theta}_i^{\pm}\) den Parametervektor mit einer Verschiebung von \(\pm \frac{\pi}{2}\) in der \(i\)-ten Komponente bezeichnet.

Im Kontext von Quantum Options bedeutet dies, dass sowohl Aktionswahrscheinlichkeiten als auch Termination-Wahrscheinlichkeiten differenzierbar gemacht werden können. Allerdings steigt der Messaufwand linear mit der Anzahl der Parameter, was Sample-Effizienz und Laufzeit beeinflusst. Daher ist die Wahl kompakter Schaltkreisarchitekturen entscheidend.

Credit Assignment über verschränkte Zeiträume

Credit Assignment ist im Quantum Options Framework besonders anspruchsvoll, da Entscheidungen nicht nur über mehrere Zeitschritte, sondern auch über verschränkte Quantenzustände hinweg wirken. Eine Belohnung kann das Ergebnis einer gesamten Optionsausführung sein, deren interne Entscheidungen nur indirekt beobachtbar sind.

Formal muss der Gradient des Returns in Bezug auf die Options-Parameter über die Dauer der Option akkumuliert werden. Dies kann als Erwartungswert über einen verschränkten Trajektorienraum formuliert werden:
\(\nabla_{\boldsymbol{\theta}} J = \mathbb{E}\left[\sum_{t \in \omega} \nabla_{\boldsymbol{\theta}} \log P(a_t, \beta_t \mid s_t, \boldsymbol{\theta}) , G_t \right]\).

Hierbei umfasst \(P(a_t, \beta_t \mid s_t, \boldsymbol{\theta})\) sowohl Aktions- als auch Terminationsentscheidungen. Die Verschränkung der Zustände innerhalb einer Option bedeutet, dass frühe Parameterentscheidungen die gesamte spätere Trajektorie beeinflussen können. Praktisch wird dieses Problem durch Advantage-Schätzungen und Baselines entschärft, die die Varianz der Gradienten reduzieren.

Hybrid Learning Loops (klassisch–quantum)

In der Praxis werden Quantum Options in hybriden Lernschleifen trainiert. Der klassische Teil übernimmt Datensammlung, Zustandsvorverarbeitung, Reward-Berechnung und Parameter-Updates. Der Quantenprozessor wird als differenzierbarer Funktionsblock aufgerufen, der Aktions- und Terminationswahrscheinlichkeiten liefert.

Ein typischer Hybrid Learning Loop verläuft wie folgt:

  • Der Agent beobachtet einen Zustand \(s_t\).
  • Die High-Level-Policy wählt eine Option \(\omega_q\).
  • Der quantenbasierte Options-Schaltkreis wird ausgeführt und gemessen.
  • Eine Aktion \(a_t\) wird ausgeführt, ein Reward \(R_t\) beobachtet.
  • Parameter werden klassisch aktualisiert, basierend auf den gemessenen Gradienten.

Diese Architektur erlaubt es, Quantenmodelle modular in bestehende RL-Frameworks zu integrieren. Gleichzeitig macht sie deutlich, dass der größte Teil der Rechenarbeit weiterhin klassisch erfolgt. Der Quantenanteil ist gezielt auf jene Komponenten beschränkt, in denen neue Repräsentations- oder Explorationsvorteile erwartet werden.

Stabilität, Konvergenz und Sample-Effizienz

Die Stabilität des Lernprozesses ist eine der zentralen offenen Fragen im Quantum Options Framework. Messrauschen, begrenzte Schaltkreistiefe und stochastische Termination können zu hoher Varianz in den Gradienten führen. Hierarchische Struktur wirkt diesem Problem entgegen, da sie Entscheidungen glättet und Lernsignale auf mehrere Zeitschritte verteilt.

Konvergenzanalysen sind komplex, da klassische Annahmen über glatte Funktionsräume und exakte Gradienten nicht mehr gelten. Dennoch lassen sich unter vereinfachten Bedingungen Analogien zu klassischen Option-Critic-Verfahren ziehen. Empirisch zeigt sich, dass Sample-Effizienz insbesondere dann steigt, wenn Optionen sinnvoll vorstrukturiert oder vortrainiert sind.

Zusammenfassend bilden diese Lernalgorithmen das operative Rückgrat des Quantum Options Framework. Sie zeigen, dass quantenbasierte temporale Abstraktion nicht nur konzeptionell möglich, sondern algorithmisch umsetzbar ist – allerdings unter der Voraussetzung sorgfältiger Architektur- und Trainingsentscheidungen.

Anwendungsfelder und Use-Cases

Das Quantum Options Framework ist kein rein theoretisches Konstrukt, sondern adressiert konkrete Klassen von Entscheidungsproblemen, bei denen klassische Reinforcement-Learning-Ansätze an strukturelle oder rechnerische Grenzen stoßen. Besonders dort, wo komplexe Dynamiken, lange Zeithorizonte und Unsicherheit zusammentreffen, eröffnet die Kombination aus temporaler Abstraktion und quantenmechanischer Repräsentation neue Perspektiven.

Quantenrobotik und autonome Systeme

In der Robotik und bei autonomen Systemen müssen Entscheidungen auf unterschiedlichen Zeitskalen getroffen werden. Strategische Planung, Navigation, Objektmanipulation und Feinmotorik folgen jeweils eigenen Dynamiken. Das Quantum Options Framework erlaubt es, diese Ebenen explizit zu trennen. High-Level-Optionen können Aufgaben wie „Ziel erreichen“ oder „Manipulationssequenz starten“ abbilden, während quantenbasierte intra-option Policies die kontinuierliche Steuerung übernehmen.

Quantenmechanische Repräsentationen sind hier besonders attraktiv, da sensorische Zustände hochdimensional und stark korreliert sind. Verschränkte Zustandskodierungen können Abhängigkeiten zwischen Sensoren und Aktuatoren effizient erfassen. Die inhärente Stochastik der Messung unterstützt robuste Exploration, etwa in unbekannten oder dynamischen Umgebungen, ohne zusätzliches künstliches Rauschen einzuführen.

Quantum Control und Model Predictive Control

Quantum Control befasst sich mit der optimalen Steuerung quantenmechanischer Systeme, etwa in der Quantenoptik oder beim Betrieb von Quantenhardware selbst. Diese Aufgaben sind von Natur aus sequentiell, hochdimensional und empfindlich gegenüber Rauschen. Das Quantum Options Framework bietet hier eine natürliche Hierarchie: Optionen können als Steuerprotokolle über mehrere Zeitschritte interpretiert werden, die bestimmte Zielzustände oder Dynamiken anstreben.

In Model Predictive Control (MPC) werden Entscheidungen auf Basis eines Modells der Systemdynamik getroffen, wobei regelmäßig neu geplant wird. Quantum Options können als wiederverwendbare Planungsbausteine fungieren, die quantenbasierte Vorhersagemodelle nutzen. Die temporale Abstraktion reduziert den Rechenaufwand, während quantenbasierte Policies komplexe Steuerlandschaften effizient approximieren.

Finanzmärkte: Hierarchisches Quantum Decision Making

Finanzmärkte sind ein prototypisches Beispiel für komplexe, stochastische Entscheidungsumgebungen mit mehreren Zeitskalen. Kurzfristiges Trading, mittelfristige Positionsverwaltung und langfristige Portfolioallokation interagieren miteinander. Klassische RL-Ansätze haben Schwierigkeiten, diese Ebenen konsistent zu integrieren.

Das Quantum Options Framework erlaubt eine klare Hierarchisierung: High-Level-Optionen steuern strategische Allokationsentscheidungen, während quantenbasierte intra-option Policies kurzfristige Handelsaktionen ausführen. Quantenmechanische Modelle können dabei Korrelationen zwischen Märkten, Instrumenten und Zeiträumen in einer verschränkten Darstellung abbilden. Die probabilistische Aktionsauswahl ist besonders geeignet, um Unsicherheit und Risiko explizit in die Entscheidungsfindung einzubeziehen.

Quantum Game Playing und Multi-Agent-Systeme

In Spielen und Multi-Agent-Systemen treffen mehrere lernende Akteure aufeinander, deren Strategien sich gegenseitig beeinflussen. Hierarchische Strukturen sind essenziell, um taktische Entscheidungen von strategischen Zielen zu trennen. Das Quantum Options Framework kann Optionen als taktische Module modellieren, die innerhalb einer übergeordneten Strategie aktiviert werden.

Quantenbasierte Subpolicies eröffnen neue Möglichkeiten der Koordination und Antizipation. Verschränkte Zustände können implizite Abhängigkeiten zwischen Agenten kodieren, ohne explizite Kommunikationskanäle zu benötigen. In kompetitiven Szenarien erlaubt die stochastische Natur der Messung schwer vorhersehbare Strategien, während kooperative Agenten durch geteilte quantenmechanische Repräsentationen synchronisiert werden können.

Wissenschaftliche Simulationen und adaptive Experimente

In wissenschaftlichen Experimenten und Simulationen müssen Entscheidungen oft adaptiv getroffen werden: Welche Parameter sollen als Nächstes getestet werden, welche Messung ist am informativsten? Diese Probleme lassen sich als sequentielle Entscheidungsprozesse formulieren, bei denen langfristige Erkenntnisgewinne optimiert werden.

Das Quantum Options Framework ermöglicht es, experimentelle Strategien als Optionen zu modellieren, die über mehrere Messzyklen hinweg wirken. Quantenbasierte Policies können Unsicherheit explizit repräsentieren und Exploration gezielt steuern. Besonders in der Quantenphysik selbst, etwa bei der Optimierung von Experimentdesigns, schließt sich hier der Kreis: Quantenmechanische Systeme werden genutzt, um Entscheidungen über Quantenexperimente zu treffen.

Insgesamt zeigen diese Use-Cases, dass das Quantum Options Framework überall dort relevant wird, wo Struktur, Unsicherheit und Komplexität zusammentreffen. Es bietet kein universelles Allheilmittel, aber ein leistungsfähiges Werkzeug für spezifische Klassen anspruchsvoller Entscheidungsprobleme.

Herausforderungen, Limitationen und offene Forschungsfragen

Trotz seines konzeptionellen Reichtums steht das Quantum Options Framework vor einer Reihe grundlegender Herausforderungen. Diese betreffen sowohl technische Limitationen aktueller Quantenhardware als auch methodische, theoretische und evaluative Fragen. Eine realistische Einordnung dieser Aspekte ist entscheidend, um den tatsächlichen Mehrwert quantenbasierter hierarchischer Lernarchitekturen fundiert beurteilen zu können.

Hardware-Limitationen und Skalierbarkeit

Die derzeit verfügbare Quantenhardware befindet sich in der NISQ-Ära. Begrenzte Qubit-Zahlen, kurze Kohärenzzeiten und signifikantes Rauschen setzen enge Grenzen für die Tiefe und Komplexität parametrischer Quanten-Schaltkreise. Für das Quantum Options Framework bedeutet dies, dass nur relativ kleine Options-Policies vollständig quantenbasiert realisierbar sind.

Skalierbarkeit ist dabei nicht nur eine Frage der Qubit-Anzahl, sondern auch der Messkosten. Gradientenschätzung erfordert viele Schaltkreisausführungen, wodurch der Sample-Bedarf stark ansteigt. Ohne Fortschritte in Fehlerminderung oder fehlertoleranter Quantenhardware bleibt der praktische Einsatz auf hybride, stark vereinfachte Szenarien beschränkt.

Interpretierbarkeit quantenbasierter Optionen

Ein zentrales offenes Problem ist die Interpretierbarkeit quantenbasierter Entscheidungen. Klassische Optionen lassen sich häufig als nachvollziehbare Subroutinen beschreiben. Bei Quantum Options ist die Entscheidungslogik jedoch in Amplituden, Phasen und Verschränkungen kodiert, die sich nicht direkt auf semantische Regeln abbilden lassen.

Diese mangelnde Transparenz erschwert Debugging, Vertrauensbildung und sicherheitskritische Anwendungen. Die Frage, wie quantenbasierte Optionen erklärbar gemacht werden können, etwa durch Projektionen auf klassische Repräsentationen oder durch gezielte Messstrategien, ist bislang weitgehend unbeantwortet.

Vergleichbarkeit mit klassischen HRL-Methoden

Ein weiteres Problemfeld ist die faire Vergleichbarkeit mit klassischen HRL-Ansätzen. Klassische Methoden sind hochoptimiert, gut verstanden und profitieren von jahrzehntelanger Forschung. Quantenbasierte Ansätze haben zusätzlichen Overhead durch hybride Architekturen, Messrauschen und begrenzte Hardware.

Daher ist es schwierig zu beurteilen, ob beobachtete Leistungsunterschiede auf echte Repräsentationsvorteile oder auf Artefakte des Trainingsprozesses zurückzuführen sind. Ohne sorgfältig kontrollierte Experimente besteht die Gefahr, quantenbasierte Modelle entweder zu überschätzen oder vorschnell abzuschreiben.

Benchmarking und Evaluationsmetriken

Eng verbunden mit der Vergleichbarkeit ist die Frage nach geeigneten Benchmarks und Metriken. Klassische RL-Benchmarks sind oft nicht darauf ausgelegt, potenzielle Vorteile quantenmechanischer Repräsentationen sichtbar zu machen. Gleichzeitig sind viele quantennahe Probleme zu spezialisiert, um als allgemeiner Maßstab zu dienen.

Für das Quantum Options Framework sind Metriken erforderlich, die nicht nur Endperformance messen, sondern auch Sample-Effizienz, Robustheit, Transferfähigkeit von Optionen und Stabilität des Lernprozesses berücksichtigen. Die Entwicklung solcher Benchmarks ist eine offene Aufgabe der Community.

Theoretische Offenheiten und ungelöste Fragen

Schließlich bestehen erhebliche theoretische Unsicherheiten. Es ist bislang nicht klar, unter welchen Bedingungen Quantum Options tatsächlich einen asymptotischen oder praktischen Vorteil gegenüber klassischen Optionen bieten. Auch Konvergenzgarantien sind schwer zu formulieren, da klassische Annahmen über glatte Zielfunktionen und exakte Gradienten nicht gelten.

Offene Fragen betreffen zudem die optimale Gestaltung von Schaltkreisarchitekturen, die Rolle von Verschränkung in hierarchischen Entscheidungsprozessen und die Wechselwirkung zwischen Quantenrauschen und Exploration. Diese theoretischen Lücken markieren kein Scheitern, sondern ein aktives Forschungsfeld.

Insgesamt zeigt sich, dass das Quantum Options Framework großes Potenzial besitzt, zugleich aber eine ehrliche Auseinandersetzung mit seinen Limitationen erfordert. Nur durch systematische Forschung an diesen offenen Fragen kann aus einem konzeptionellen Ansatz eine belastbare Methode werden.

Zukunftsperspektiven und Ausblick

Das Quantum Options Framework markiert einen frühen, aber konzeptionell wichtigen Schritt in Richtung strukturierter quantenbasierter Entscheidungsarchitekturen. Sein langfristiges Potenzial entfaltet sich jedoch erst im Zusammenspiel mit technologischen Fortschritten, theoretischer Konsolidierung und der Integration weiterer quantenbasierter Lernparadigmen.

Fehlertolerante Quantencomputer und ihre Bedeutung

Der Übergang von der NISQ-Ära zu fehlertoleranten Quantencomputern wird einen qualitativen Sprung für das Quantum Options Framework bedeuten. Längere Kohärenzzeiten und stabilere Gate-Operationen ermöglichen tiefere Schaltkreise und komplexere Options-Policies. Dadurch können Hierarchien nicht nur flacher, sondern auch reicher strukturiert werden, ohne dass Rauschen den Lernprozess dominiert.

Fehlertoleranz wird zudem präzisere Gradientenschätzungen erlauben, was die Trainingsstabilität erhöht und Barren-Plateau-Probleme abschwächt. Erst unter diesen Bedingungen kann sich zeigen, ob quantenbasierte temporale Abstraktion über reine Machbarkeitsstudien hinausgeht und systematische Vorteile liefert.

Kombination mit Quantum World Models und Quantum Planning

Ein besonders vielversprechender Entwicklungspfad liegt in der Kombination des Quantum Options Frameworks mit Quantum World Models und quantenbasierten Planungsverfahren. World Models erlauben es, die Dynamik der Umwelt intern zu simulieren. Werden diese Modelle quantenmechanisch realisiert, können Zustandsunsicherheit, Mehrdeutigkeit und langfristige Abhängigkeiten in einer einheitlichen Repräsentation verarbeitet werden.

Quantum Options könnten in diesem Kontext als wiederverwendbare Planungsprimitive dienen, die innerhalb eines quantenbasierten Simulationsraums evaluiert und optimiert werden. Planung, Lernen und Ausführung würden damit enger zusammenrücken, als es in klassischen Architekturen möglich ist.

Autonome hierarchische Quantenagenten

Langfristig eröffnet das Quantum Options Framework die Perspektive autonomer, hierarchisch organisierter Quantenagenten. Solche Agenten würden nicht nur Optionen ausführen, sondern ihre eigene Hierarchie adaptiv reorganisieren. Neue Optionen könnten entstehen, bestehende verfeinert oder verworfen werden, abhängig von ihrer langfristigen Nützlichkeit.

Quantenmechanische Repräsentationen erlauben es dabei, mehrere Hypothesen über Umweltstruktur und Strategie gleichzeitig zu tragen. Autonomie bedeutet hier nicht bloß Selbststeuerung, sondern die Fähigkeit, Struktur auf unterschiedlichen Abstraktionsebenen dynamisch zu lernen.

Langfristige Implikationen für KI und Entscheidungsforschung

Über den technischen Rahmen hinaus hat das Quantum Options Framework tiefgreifende Implikationen für die Entscheidungsforschung. Es stellt die Frage, ob klassische, rein probabilistische Modelle ausreichend sind, um komplexe, mehrskalige Entscheidungsprozesse zu beschreiben, oder ob quantenmechanische Konzepte eine natürlichere formale Sprache bieten.

Für die KI-Forschung bedeutet dies eine Erweiterung des Denkraums. Temporale Abstraktion, Unsicherheit und Entscheidungsfindung werden nicht länger getrennt modelliert, sondern als Aspekte eines einheitlichen dynamischen Systems betrachtet. Auch wenn praktische Durchbrüche noch ausstehen, legt das Quantum Options Framework damit einen theoretischen Grundstein für eine neue Generation lernender Agenten, die Struktur und Komplexität nicht nur bewältigen, sondern explizit nutzen.

Fazit

Das Quantum Options Framework vereint zwei der wirkungsvollsten Ideen moderner Entscheidungsforschung: temporale Abstraktion durch hierarchische Strukturen und erweiterte Repräsentationsräume durch quantenmechanische Modelle. In dieser Abhandlung wurde gezeigt, dass diese Kombination nicht als exotische Randidee zu verstehen ist, sondern als logisch konsequente Weiterentwicklung von Reinforcement Learning unter wachsender Problemkomplexität.

Klassische RL-Methoden stoßen bei langen Zeithorizonten, hochdimensionalen Zustandsräumen und unsicherer Dynamik an strukturelle Grenzen. Hierarchisches Reinforcement Learning mildert diese Probleme, indem es Entscheidungen auf mehrere Ebenen verteilt. Das Quantum Options Framework geht einen Schritt weiter, indem es diese Hierarchie in einen quantenmechanischen Funktionsraum hebt. Optionen werden nicht nur als modulare Subroutinen verstanden, sondern als kohärente, quantenparametrisierte Entscheidungsprozesse mit inhärenter Stochastik, adaptiver Dauer und reicher interner Struktur.

Die Analyse der Lernalgorithmen zeigt, dass quantenbasierte Optionen trotz technischer Hürden trainierbar sind, insbesondere in hybriden klassisch–quantum Architekturen. Gleichzeitig machen die diskutierten Herausforderungen deutlich, dass der aktuelle Mehrwert weniger in unmittelbarer Überlegenheit gegenüber klassischen Methoden liegt, sondern in neuen konzeptionellen Möglichkeiten: andere Formen von Exploration, alternative Repräsentationen von Unsicherheit und neue Wege, zeitliche Abhängigkeiten zu modellieren.

Die betrachteten Anwendungsfelder verdeutlichen, dass das Quantum Options Framework besonders dort relevant ist, wo Struktur, Unsicherheit und Langfristigkeit zusammenkommen – von autonomen Systemen über Finanzmärkte bis hin zu wissenschaftlichen Experimenten. Langfristig könnte es dazu beitragen, Entscheidungsfindung nicht nur effizienter, sondern auch konzeptionell tiefer zu verstehen.

Zusammenfassend lässt sich sagen: Das Quantum Options Framework ist kein fertiges Werkzeug, sondern ein Forschungsprogramm. Es eröffnet einen neuen Denkraum für hierarchische Entscheidungsprozesse und legt einen theoretischen Grundstein für zukünftige KI-Systeme, die Komplexität nicht umgehen, sondern systematisch ausnutzen.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Das folgende Literaturverzeichnis ist thematisch strukturiert und deckt klassisches Reinforcement Learning, Hierarchical RL & Options, Quantum Computing, Quantum Reinforcement Learning sowie aktuelle Forschungsrichtungen rund um Quantum Hierarchical RL ab. Die Auswahl kombiniert kanonische Grundlagenliteratur mit aktuellen Forschungsarbeiten, die für das Quantum Options Framework unmittelbar relevant sind.

Wissenschaftliche Zeitschriften und Artikel

Reinforcement Learning & Hierarchical RL (klassisch)

  • Sutton, R. S., Precup, D., Singh, S.
    Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning
    Artificial Intelligence, 112(1–2), 1999
    https://www.sciencedirect.com/…
  • Sutton, R. S., Barto, A. G.
    Reinforcement Learning: An Introduction (Kapitel zu Options & HRL)
    https://incompleteideas.net/…
  • Bacon, P.-L., Harb, J., Precup, D.
    The Option-Critic Architecture
    Proceedings of the AAAI Conference on Artificial Intelligence, 2017
    https://arxiv.org/…
  • Kulkarni, T. D., Narasimhan, K., Saeedi, A., Tenenbaum, J.
    Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation
    NeurIPS 2016
    https://arxiv.org/…

Grundlagen der Quantenmechanik und Quanteninformation

Quantum Reinforcement Learning

  • Dong, D., Chen, C., Li, H., Tarn, T.-J.
    Quantum Reinforcement Learning
    IEEE Transactions on Systems, Man, and Cybernetics, 2008
    https://ieeexplore.ieee.org/…
  • Chen, S. Y.-C., Yang, C.-H. H., Qi, J., et al.
    Variational Quantum Reinforcement Learning
    Quantum Information Processing, 2020
    https://arxiv.org/…
  • Skolik, A., Jerbi, S., Dunjko, V., Briegel, H. J., Decker, S.
    Quantum agents in the Gym: A variational quantum algorithm for deep Q-learning
    Quantum Machine Intelligence, 2021
    https://arxiv.org/…
  • Lockwood, O., Siopsis, G.
    Reinforcement Learning with Quantum Variational Circuits
    https://arxiv.org/….

Quantum Policy Gradients & Variational Circuits

  • Schuld, M., Bergholm, V., Gogolin, C., Izaac, J., Killoran, N.
    Evaluating analytic gradients on quantum hardware
    Physical Review A, 2019
    https://arxiv.org/…
  • Mitarai, K., Negoro, M., Kitagawa, M., Fujii, K.
    Quantum Circuit Learning
    Physical Review A, 2018
    https://arxiv.org/…
  • McClean, J. R., Boixo, S., Smelyanskiy, V. N., Babbush, R., Neven, H.
    Barren plateaus in quantum neural network training landscapes
    Nature Communications, 2018
    https://www.nature.com/…

Quantum Control, Planning & Hierarchien

  • Bukov, M., Day, A. G. R., Sels, D., et al.
    Reinforcement Learning in Different Phases of Quantum Control
    Physical Review X, 2018
    https://arxiv.org/…
  • Dunjko, V., Briegel, H. J.
    Machine learning & artificial intelligence in the quantum domain
    Reports on Progress in Physics, 2018
    https://arxiv.org/…
  • Fosel, T., Tighineanu, P., Weiss, T., Marquardt, F.
    Reinforcement Learning with Neural Networks for Quantum Feedback
    Physical Review X, 2018
    https://arxiv.org/…

Bücher und Monographien

Online-Ressourcen und Datenbanken

Forschungsplattformen & Preprint-Archive

Quanten-Frameworks & Open-Source-Ressourcen

Benchmarking & RL-Umgebungen

Abschließende Einordnung

Dieses Literaturverzeichnis deckt die gesamte konzeptionelle Kette des Quantum Options Frameworks ab: von klassischer temporaler Abstraktion über Quantenmechanik und Variational Circuits bis hin zu Quantum Hierarchical Reinforcement Learning.