Quantum Sub-Policy Learning

Quantum Sub-Policy Learning steht an einer spannenden Schnittstelle: Es verbindet die praktische Schlagkraft hierarchischer Entscheidungsarchitekturen mit den physikalischen Freiheitsgraden quantenmechanischer Informationsverarbeitung. Reinforcement Learning ist längst nicht mehr nur ein Werkzeug für Spiele oder Robotik-Labore, sondern ein allgemeines Paradigma zur Optimierung sequentieller Entscheidungen unter Unsicherheit. Gleichzeitig verschiebt die Quanteninformationstheorie die Grenze dessen, was als effiziente Repräsentation, Suche und Optimierung überhaupt möglich erscheint. In dieser Konstellation wird Hierarchical Reinforcement Learning zu mehr als „nur“ einem Skalierungs-Trick: Hierarchie wird zur Sprache, um komplexe Aufgaben in robuste, wiederverwendbare Sub-Policies zu zerlegen. Und genau hier setzt Quantum Sub-Policy Learning an: Sub-Policies werden nicht nur als modulare Entscheidungsbausteine gedacht, sondern als quantenmechanische Objekte, die Superposition, Verschränkung und Interferenz aktiv nutzen können, um Suchräume anders zu strukturieren, Exploration anders zu gestalten und Generalisierung anders zu erreichen.

Diese Abhandlung verfolgt eine klare Leitidee: Wenn wir Entscheidungsprobleme in wiederverwendbare Teilkompetenzen zerlegen, dann sollte die Repräsentation dieser Teilkompetenzen die stärksten Ausdrucksmittel der zugrunde liegenden Rechenplattform nutzen. In klassischen Systemen sind das Funktionsapproximatoren und stochastische Policies; im Quantenkontext kommen Zustände im Hilbertraum, unitäre Transformationen und Messprozesse hinzu. Daraus entsteht eine neue Designfrage: Wie definiert, lernt und komponiert man Sub-Policies so, dass sie in einer quantenmechanischen Policy-Repräsentation stabil trainierbar sind, unter realistischen NISQ-Bedingungen funktionieren und dennoch hierarchische Vorteile wie Modularität, Transfer und zeitliche Abstraktion liefern?

Die Motivation ist sowohl konzeptionell als auch praktisch. Konzeptionell fordert der Quantenblick auf RL unser Verständnis heraus: Was bedeutet eine Policy, wenn Handlungsauswahl über Messstatistiken erfolgt? Wie sieht temporale Abstraktion aus, wenn Option-Termination über Observablen modelliert wird? Praktisch drängt die Frage nach Skalierung: Schon klassisches Deep RL leidet unter Sample-Ineffizienz, instabilen Gradienten und fragilem Transfer; in der Quantenwelt kommen Rauschen, begrenzte Qubit-Zahlen und Messkosten hinzu. Sub-Policy Learning ist hier ein natürlicher Hebel: Es reduziert die effektive Lernkomplexität, ermöglicht Wiederverwendung und isoliert Fehlerquellen in Module. Im Idealfall entsteht ein Baukastensystem quantenfähiger Teilkompetenzen, das komplexe Aufgaben nicht „von Null“ lernt, sondern aus trainierten Sub-Policies zusammensetzt.

Einordnung von Reinforcement Learning im Zeitalter der Quanteninformation

Reinforcement Learning beschreibt das Lernen durch Interaktion: Ein Agent beobachtet Zustände, wählt Aktionen und erhält Belohnungen, um langfristig kumulative Rückflüsse zu maximieren. In der klassischen Formulierung ist dies häufig als Markov Decision Process (MDP) modelliert, mit Zustandsraum, Aktionsraum, Übergangsdynamik und Reward-Funktion. Diese Abstraktion ist mächtig, weil sie sowohl Planung als auch Lernen umfasst: Entweder wird die Dynamik genutzt, um Entscheidungen zu berechnen, oder sie wird über Erfahrung implizit approximiert.

Im Zeitalter der Quanteninformation verändert sich diese Perspektive auf zwei Ebenen. Erstens: Repräsentation. Informationen können als quantenmechanische Zustände kodiert werden, also als Vektoren im Hilbertraum, deren Komponenten nicht einfach „Werte“ sind, sondern Amplituden, die interferieren können. Zweitens: Transformation. Operationen werden durch unitäre Prozesse, Kanäle und Messungen beschrieben. Das führt zu einer zentralen Verschiebung: Entscheidungsfindung kann nicht nur auf klassischen Wahrscheinlichkeiten beruhen, sondern auf Messstatistiken, die aus einem zuvor interferierenden Prozess resultieren.

Für RL bedeutet das: Eine Policy kann als parametrisierte Quantenschaltung verstanden werden, die aus einer Zustandskodierung eine messbare Aktionsverteilung erzeugt. Formal entspricht das oft einer Abbildung, bei der eine Parameterfamilie \(U(\theta)\) auf einen Eingabezuzstand wirkt, und die Aktion durch Messung eines oder mehrerer Qubits entschieden wird. Eine prototypische Sicht ist: Der Agent erzeugt einen quantenmechanischen Zustand \(|\psi(s;\theta)\rangle\), misst in einer geeigneten Basis und interpretiert das Messergebnis als Aktion \(a\). Die entstehende Policy ist dann nicht nur stochastisch, weil wir „Rauschen hinzufügen“, sondern weil Messungen intrinsisch probabilistisch sind.

Damit wird RL im Quantenzeitalter nicht automatisch schneller oder „besser“, aber anders: Suchräume werden anders strukturiert, Exploration kann durch kohärente Überlagerungen erfolgen, und Lernsignale können über Parameter-Shift-Gradienten oder hybride Optimierer in die Schaltungsparameter zurückgeführt werden. Gleichzeitig entstehen neue Engpässe: Messkosten, Barren Plateaus, Dekohärenz und die Frage, welche Aufgaben überhaupt quantenmechanisch so kodierbar sind, dass ein echter Vorteil entsteht. In diesem Spannungsfeld wird Quantum Sub-Policy Learning interessant: Es bringt eine zusätzliche Strukturebene ein, die Komplexität nicht nur in Parametern, sondern in wiederverwendbaren Entscheidungsmodulen organisiert.

Grenzen klassischer Hierarchical Reinforcement Learning (HRL) Ansätze

Hierarchical Reinforcement Learning adressiert ein Kernproblem: Komplexe Aufgaben sind selten direkt lernbar, weil die relevanten Belohnungen oft verzögert, die Suchräume riesig und die Trajektorien lang sind. HRL führt daher Hierarchien ein, typischerweise in Form von Optionen, Skills oder Sub-Policies. Ein Meta-Controller wählt eine Option, die über mehrere Zeitschritte eine interne Policy ausführt, bis eine Terminationsbedingung erfüllt ist. Diese zeitliche Abstraktion verkürzt effektive Horizonte und macht Lernen beherrschbarer.

Trotzdem sind klassische HRL-Ansätze nicht frei von strukturellen Grenzen. Eine erste Grenze ist die Skill-Discovery: Welche Sub-Policies sind überhaupt sinnvoll? Viele Verfahren erzeugen Skills entweder durch Heuristiken, Clustering, Intrinsic Motivation oder aufgabenspezifische Zerlegung. Das ist oft fragil: Falsche Zerlegung führt zu redundanten oder konflikthaften Sub-Policies, die die Hierarchie eher verkomplizieren als vereinfachen.

Eine zweite Grenze ist das Credit Assignment über Ebenen. Wenn eine Option über viele Zeitschritte wirkt, ist es schwer, Belohnungen sauber dem Meta-Controller versus der Sub-Policy zuzuschreiben. Klassische Verfahren nutzen dafür Advantage-Schätzungen, Options-Critic-Updates oder separate Lernraten, doch Instabilität bleibt häufig: Sub-Policies driften, Meta-Controller overfitten, und End-to-End-Training kann degenerieren.

Eine dritte Grenze betrifft Generalisierung und Transfer. Sub-Policies versprechen Wiederverwendbarkeit, aber in der Praxis sind sie oft stark an Zustandsrepräsentationen oder Umgebungsdynamiken gebunden. Wenn sich die Umgebung ändert, bricht Transfer. Besonders problematisch ist dies, wenn Sub-Policies nicht als wirklich modulare, kompositionale Einheiten gelernt werden, sondern als implizite Muster in einem großen Netz.

Schließlich gibt es eine Grenzenklasse, die mit Suchraumstruktur zusammenhängt: Klassische HRL reduziert zwar den zeitlichen Horizont, aber nicht zwangsläufig die kombinatorische Vielfalt der Zustands-Aktions-Konfigurationen. Sub-Policies sind oft weiterhin hochdimensional, und die Meta-Entscheidung „welche Sub-Policy wann“ kann selbst ein schwieriges RL-Problem sein. Genau hier eröffnet der Quantenblick eine alternative Hoffnung: Wenn Sub-Policy-Auswahl und Sub-Policy-Ausführung quantenmechanisch so kodiert werden, dass Interferenz und Verschränkung die Suche strukturieren, könnte die Hierarchie nicht nur zeitlich, sondern auch repräsentational entlasten. Quantum Sub-Policy Learning ist damit nicht einfach ein HRL-Add-on, sondern ein Versuch, die Art der Komposition und Auswahl von Sub-Policies neu zu denken.

Warum Sub-Policies entscheidend für Skalierbarkeit und Generalisierung sind

Sub-Policies sind die Arbeitstiere hierarchischer Agenten. Sie bündeln wiederkehrende Entscheidungsmuster zu Skills: navigiere zum Ziel, greife ein Objekt, stabilisiere ein System, führe eine Sequenz von Mikroaktionen aus. Diese Bündelung ist deshalb so wirksam, weil sie Komplexität auf mehreren Ebenen reduziert.

Erstens reduzieren Sub-Policies den effektiven Entscheidungshorizont. Anstatt auf jeder Zeitschritt-Ebene die gesamte Aktion zu optimieren, delegiert der Meta-Controller ganze Sequenzen. Das macht Langfristplanung einfacher und stabiler, weil temporale Abstraktion die Variabilität einzelner Schritte glättet.

Zweitens schaffen Sub-Policies modulare Repräsentationen. Lernen wird zu „Komposition“ statt „Monolith“: Neue Aufgaben können als Kombination bereits gelernter Sub-Policies gelöst werden. Das ist ein direkter Weg zu Sample Efficiency, weil Erfahrung nicht jedes Mal neu gesammelt werden muss.

Drittens stützen Sub-Policies Generalisierung. Generalisierung im RL ist oft schwierig, weil Policies an konkrete Trajektorien oder Reward-Details gebunden sind. Sub-Policies hingegen können eine semantische Ebene bilden: „öffne Tür“, „balanciere“, „ausweichen“. Wenn diese Skills robust gelernt werden, generalisieren sie über Situationen und Ziele hinweg.

Im Quantenkontext gewinnen diese Punkte zusätzliche Schärfe. Quantenmodelle sind durch Hardware-Restriktionen begrenzt: Anzahl der Qubits, Circuit Depth, Messbudget, Rauschen. Ein monolithischer Quantenagent, der alles in einem großen VQC abbildet, skaliert schnell schlecht. Sub-Policies ermöglichen, Quantenressourcen gezielt einzusetzen: kleine, spezialisierte Schaltungen statt einer einzigen, tiefen Schaltung. Zudem kann man Sub-Policies als Bausteine betrachten, die jeweils auf bestimmte Observablen oder Teilräume optimiert sind. Das schafft nicht nur Effizienz, sondern auch Interpretierbarkeit: Man kann messen, welche Sub-Policy welche Rolle spielt, und Fehler lassen sich besser lokalisieren.

Kurz: Ohne Sub-Policies bleibt RL häufig ein Kampf gegen exponentielle Kombinatorik und fragile Lernsignale. Mit Sub-Policies wird RL zu einem Systembau: Skills werden gelernt, gespeichert, ausgewählt und kombiniert. Quantum Sub-Policy Learning verschiebt diesen Systembau in den Hilbertraum und fragt, ob die quantenmechanische Struktur selbst als Kompositionsmedium genutzt werden kann.

Quantenvorteil durch Superposition, Verschränkung und Interferenz

Der Begriff Quantenvorteil ist verführerisch, aber er sollte präzise verstanden werden. Im Kontext von Quantum Sub-Policy Learning geht es nicht um „magische Beschleunigung“, sondern um potenziell günstigere Repräsentationen und Suchdynamiken. Drei Konzepte sind dabei zentral: Superposition, Verschränkung und Interferenz.

Superposition erlaubt, viele Kandidatenzustände gleichzeitig zu repräsentieren. In einem Policy-Kontext kann dies bedeuten, dass ein Agent nicht nur eine einzelne Aktionshypothese verfolgt, sondern kohärent eine Überlagerung von Aktionspräferenzen erzeugt. Nach der Messung bleibt zwar nur ein Ergebnis, doch der Weg dahin kann durch Interferenz so gestaltet werden, dass erwünschte Aktionen konstruktiv verstärkt werden.

Verschränkung erweitert die Ausdruckskraft: Abhängigkeiten zwischen Variablen können nicht nur als klassische Korrelationen, sondern als nichttriviale quantenmechanische Korrelationen kodiert werden. Für Sub-Policies kann dies bedeuten, dass die Auswahl oder Parametrisierung einer Sub-Policy mit Kontextmerkmalen des Zustands verschränkt wird, sodass die Sub-Policy „situationssensitiv“ wird, ohne dass man dafür explizit große klassische Netze benötigt.

Interferenz ist der eigentliche Formgeber. Sie erlaubt, Amplituden gezielt zu addieren oder zu löschen. In Lernsystemen kann das als Mechanismus verstanden werden, um Suchräume zu strukturieren: gute Pfade werden verstärkt, schlechte Pfade unterdrückt. In einem idealisierten Bild entsteht eine Art amplitudenbasierte Selektion. Im Rahmen variationaler Methoden passiert das nicht automatisch, sondern muss durch Schaltungsdesign und Optimierung realisiert werden. Aber genau hier liegt der Reiz: Sub-Policies können so konstruiert werden, dass ihre Kombination nicht nur „Mischen“ ist, sondern kohärente Überlagerung, in der Interferenz zur Entscheidungslogik beiträgt.

Ob daraus ein echter Vorteil entsteht, hängt von vielen Bedingungen ab: Kodierung, Schaltungstiefe, Rauschmodell, Lernalgorithmus, Problemstruktur. Doch selbst ohne garantierten Vorteil kann die quantenmechanische Sicht produktiv sein, weil sie neue Architekturideen liefert: Sub-Policies als unitäre Module, Meta-Controller als Mess- oder Steuerlogik, Termination als Observable, und Komposition als kontrollierte Operationen. Quantum Sub-Policy Learning wird damit zu einem Designraum, der klassische HRL-Ideen nicht ersetzt, sondern erweitert.

Zielsetzung und Aufbau der Abhandlung

Diese Abhandlung verfolgt drei Ziele. Erstens soll Quantum Sub-Policy Learning begrifflich und formal klar gefasst werden: Was ist eine Sub-Policy im Quantenkontext, wie wird sie repräsentiert, wie wird sie ausgewählt, und wie wird ihre Ausführung modelliert? Zweitens sollen lernbare Architekturprinzipien beschrieben werden, die unter realistischen Bedingungen funktionieren: variational, hybrid, modular, robust gegen Rauschen. Drittens soll die Position dieses Ansatzes im größeren Feld verankert werden: gegenüber klassischem HRL, gegenüber allgemeinen QRL-Ansätzen, und gegenüber verwandten Konzepten wie Quantum Options, Quantum World Models und quantum-assisted Planning.

Der Aufbau folgt einer logischen Progression. Nach dieser Einleitung werden zunächst die theoretischen Grundlagen gelegt: klassisches RL, HRL und QRL, inklusive der notwendigen Bausteine wie MDPs, Options Framework und variationalen Quantenschaltungen. Darauf aufbauend wird Quantum Sub-Policy Learning als Konzept eingeführt und anschließend mathematisch formuliert: Sub-Policies als unitäre Operatoren \(U_i(\theta_i)\), Meta-Entscheidungen als Auswahlmechanismen, Rewards als Observablen und Lernen als Optimierung von Messstatistiken. Im weiteren Verlauf stehen Architektur- und Trainingsfragen im Mittelpunkt: Stabilität, Exploration, Credit Assignment, sowie NISQ-Beschränkungen. Abschließend werden Anwendungsfälle, Vergleiche und offene Forschungsfragen diskutiert, um das Thema sowohl praktisch als auch wissenschaftlich einzuordnen.

Damit ist die Bühne gesetzt: Quantum Sub-Policy Learning wird in dieser Abhandlung nicht als abstraktes Schlagwort behandelt, sondern als konkrete Forschungsrichtung mit klaren Bausteinen, klaren Herausforderungen und einem klaren Versprechen: Hierarchie und Quantenmechanik gemeinsam zu nutzen, um lernende Agenten modularer, skalierbarer und potenziell effizienter zu machen.

Theoretische Grundlagen

Die theoretischen Grundlagen von Quantum Sub-Policy Learning liegen an der Schnittstelle dreier Felder: klassisches Reinforcement Learning, hierarchisches Reinforcement Learning und Quantum Reinforcement Learning. Dieses Kapitel schafft das notwendige Fundament, um spätere Konzepte präzise einordnen zu können. Ziel ist nicht Vollständigkeit, sondern konzeptionelle Klarheit: Welche formalen Bausteine werden benötigt, und wie verändern sie sich, sobald Quanteninformation ins Spiel kommt?

Klassisches Reinforcement Learning – Kurzüberblick

Reinforcement Learning modelliert Entscheidungsprobleme, bei denen ein Agent durch Interaktion mit einer Umwelt lernt, eine optimale Handlungsstrategie zu entwickeln. Die klassische mathematische Grundlage ist der Markov Decision Process.

Markov Decision Processes (MDPs)

Ein Markov Decision Process ist definiert durch ein Tupel \((\mathcal{S}, \mathcal{A}, P, R, \gamma)\). Dabei bezeichnet \(\mathcal{S}\) den Zustandsraum, \(\mathcal{A}\) den Aktionsraum, \(P(s’|s,a)\) die Übergangswahrscheinlichkeiten, \(R(s,a)\) die Reward-Funktion und \(\gamma \in [0,1)\) den Diskontfaktor. Die Markov-Eigenschaft besagt, dass der nächste Zustand nur vom aktuellen Zustand und der aktuellen Aktion abhängt, nicht von der gesamten Vergangenheit.

Der Agent interagiert iterativ mit der Umwelt, erzeugt Trajektorien \((s_0, a_0, r_0, s_1, a_1, r_1, \dots)\) und versucht, den erwarteten kumulativen Reward zu maximieren. Formal ist das Ziel, den Erwartungswert

\(
\mathbb{E}\left[\sum_{t=0}^{\infty} \gamma^t r_t \right]
\)

zu optimieren. Diese Formulierung bildet die Basis nahezu aller klassischen RL-Verfahren.

Policies, Value-Funktionen und Bellman-Gleichungen

Eine Policy \(\pi(a|s)\) beschreibt die Entscheidungsstrategie des Agenten, also die Wahrscheinlichkeit, in Zustand \(s\) die Aktion \(a\) auszuführen. Policies können deterministisch oder stochastisch sein und werden häufig durch parametrisierte Funktionsapproximatoren dargestellt.

Zentral für das Lernen sind Value-Funktionen. Die Zustandswertfunktion ist definiert als

\(
V^\pi(s) = \mathbb{E}\pi \left[ \sum{t=0}^{\infty} \gamma^t r_t \mid s_0 = s \right],
\)

während die Aktionswertfunktion lautet

\(
Q^\pi(s,a) = \mathbb{E}\pi \left[ \sum{t=0}^{\infty} \gamma^t r_t \mid s_0 = s, a_0 = a \right].
\)

Diese Funktionen erfüllen rekursive Beziehungen, die sogenannten Bellman-Gleichungen. Für die optimale Aktionswertfunktion gilt

\(
Q^*(s,a) = R(s,a) + \gamma \sum_{s‘} P(s’|s,a) \max_{a‘} Q^*(s‘,a‘).
\)

Bellman-Gleichungen sind der Kern vieler RL-Algorithmen, da sie Lernen als Fixpunktproblem formulieren. Gleichzeitig zeigen sie eine Schwäche klassischer RL-Ansätze: Die Rekursion über alle Zustände und Aktionen skaliert schlecht mit wachsender Problemgröße. Genau hier setzen hierarchische Methoden an.

Hierarchical Reinforcement Learning (HRL)

Hierarchical Reinforcement Learning erweitert das klassische Paradigma um explizite Strukturebenen. Anstatt jede Aktion isoliert zu optimieren, werden temporale und semantische Abstraktionen eingeführt.

Options Framework

Das Options Framework ist eine der einflussreichsten formalen Beschreibungen von HRL. Eine Option ist definiert als ein Tripel \((\mathcal{I}, \pi_o, \beta)\), wobei \(\mathcal{I}\) die Initiationsmenge, \(\pi_o\) die interne Policy und \(\beta(s)\) die Terminationswahrscheinlichkeit ist. Eine Option kann über mehrere Zeitschritte aktiv bleiben und erzeugt damit eine temporale Abstraktion.

Formal erweitert sich der MDP zu einem Semi-Markov Decision Process, da Entscheidungen nun über variable Zeitintervalle wirken. Die Bellman-Gleichungen werden entsprechend angepasst, indem die erwartete Dauer und die akkumulierten Rewards einer Option berücksichtigt werden.

Temporally Extended Actions

Temporally Extended Actions sind der praktische Kern von HRL. Sie erlauben es dem Agenten, auf einer höheren Ebene Entscheidungen zu treffen, während Details der Ausführung an Sub-Policies delegiert werden. Dadurch reduziert sich der effektive Planungshorizont erheblich.

Diese Abstraktion ist besonders wichtig für Probleme mit langen Trajektorien und spärlichen Belohnungen. Allerdings bringt sie neue Herausforderungen mit sich, insbesondere im Hinblick auf Credit Assignment: Belohnungen müssen sinnvoll auf Meta-Entscheidungen und Sub-Policies verteilt werden.

Sub-Policies als modulare Entscheidungsbausteine

Sub-Policies sind die funktionalen Einheiten von HRL. Sie kapseln wiederkehrende Verhaltensmuster und machen Lernen modular. Idealerweise sind Sub-Policies wiederverwendbar, transferierbar und stabil lernbar. In der Praxis hängt ihre Qualität stark von der gewählten Repräsentation und der Lernarchitektur ab.

Klassische Sub-Policies sind meist neuronale Netzwerke, die auf einem Teilraum des Zustands operieren. Ihre Modularität ist jedoch oft begrenzt, da sie implizit an die globale Zustandsrepräsentation gekoppelt bleiben. Diese Beobachtung motiviert die Suche nach alternativen Repräsentationsformen, insbesondere im Quantenkontext.

Grundlagen des Quantum Reinforcement Learning (QRL)

Quantum Reinforcement Learning überträgt das RL-Paradigma in eine quantenmechanische Rechenumgebung. Dabei verändern sich sowohl Repräsentation als auch Dynamik der Lernprozesse.

Quantum States als Policy-Repräsentationen

Im QRL werden Policies häufig durch Quantenzustände repräsentiert. Ein Zustandsinput wird in einen quantenmechanischen Zustand \(|\psi(s)\rangle\) kodiert, der anschließend durch parametrisierte unitäre Operationen transformiert wird. Die Policy ergibt sich aus Messstatistiken dieses Zustands.

Eine typische Abbildung ist

\(
|\psi(s;\theta)\rangle = U(\theta) |\phi(s)\rangle,
\)

wobei \(|\phi(s)\rangle\) die Zustandskodierung und \(U(\theta)\) eine parametrisierte Quantenschaltung ist. Die Wahrscheinlichkeit, eine Aktion \(a\) zu wählen, ergibt sich aus

\(
\pi(a|s) = \langle \psi(s;\theta) | M_a | \psi(s;\theta) \rangle,
\)

wobei \(M_a\) ein Messoperator ist.

Quantum Channels und Measurements

Neben unitären Operationen spielen Quantum Channels eine wichtige Rolle, insbesondere zur Modellierung von Rauschen, offenen Systemen und nicht-unitären Prozessen. Ein Quantum Channel ist eine vollständig positive, spurtreue Abbildung, die den Zustand eines Systems transformiert.

Measurements sind im QRL nicht nur ein Ausleseschritt, sondern ein integraler Bestandteil der Entscheidungsfindung. Sie erzeugen intrinsische Stochastizität und koppeln den quantenmechanischen Zustand an klassische Aktionssignale.

Variational Quantum Circuits (VQCs) im RL-Kontext

Variational Quantum Circuits bilden das Rückgrat heutiger QRL-Ansätze. Sie kombinieren parametrisierte Quantenschaltungen mit klassischen Optimierern. Das Lernen erfolgt durch Minimierung oder Maximierung einer Zielfunktion, typischerweise des erwarteten Rewards.

Gradienten werden häufig über die Parameter-Shift-Regel berechnet, die es erlaubt, Ableitungen von Erwartungswerten als Differenzen von Messungen auszudrücken. Damit entsteht ein hybrider Lernkreislauf: Quantenhardware erzeugt Messstatistiken, klassische Rechner aktualisieren die Parameter.

Diese Architektur ist besonders relevant für Quantum Sub-Policy Learning. Sub-Policies können als eigenständige VQCs modelliert werden, die modular trainiert, kombiniert und wiederverwendet werden. Damit schließt sich der Kreis zwischen HRL und QRL und bereitet den Boden für die formale Einführung von Quantum Sub-Policies in den folgenden Kapiteln.

Konzeptuelle Einführung: Quantum Sub-Policy Learning

Quantum Sub-Policy Learning erweitert das Paradigma des Hierarchical Reinforcement Learning in eine genuin quantenmechanische Richtung. Während klassische HRL-Ansätze Hierarchien vor allem als algorithmische Strukturierung verstehen, wird im Quantenkontext die Hierarchie selbst zu einem Teil der physikalischen Repräsentation. Sub-Policies sind hier nicht länger nur Funktionen oder Netzwerke, sondern quantenmechanische Transformationen, die auf Zustände im Hilbertraum wirken. Dieses Kapitel führt das Konzept auf einer begrifflichen Ebene ein und klärt, wie sich Quantum Sub-Policies von ihren klassischen Pendants unterscheiden, wie sie in mehrstufige Entscheidungsarchitekturen eingebettet werden und warum gerade im Quantenraum eine Zerlegung in Sub-Policies besonders sinnvoll ist.

Definition von Quantum Sub-Policies

Eine Quantum Sub-Policy ist eine wiederverwendbare, parametrisierte Entscheidungsroutine, die als quantenmechanischer Operator modelliert wird. Sie übernimmt die Rolle einer temporär ausgedehnten Handlung, deren interne Logik nicht klassisch, sondern quantenmechanisch realisiert ist.

Sub-Policies als quantenmechanische Operatoren

Formal kann eine Quantum Sub-Policy als unitäre Transformation \(U_i(\theta_i)\) aufgefasst werden, die auf einen quantenmechanischen Zustandsraum wirkt. Dieser Zustandsraum repräsentiert entweder den aktuellen Umweltzustand, eine latente Kodierung oder eine Kombination aus beidem. Die Ausführung einer Sub-Policy entspricht der Anwendung dieses Operators auf einen Eingabezuzstand \(|\psi\rangle\):

\(
|\psi’\rangle = U_i(\theta_i) |\psi\rangle.
\)

Die Entscheidung über konkrete Aktionen erfolgt nicht direkt durch \(U_i\), sondern durch nachgelagerte Messungen. Diese Trennung zwischen kohärenter Transformation und Messung ist zentral: Die Sub-Policy erzeugt eine Struktur im Amplitudenraum, die erst durch Messung in klassische Aktionswahrscheinlichkeiten übersetzt wird.

Sub-Policies können zeitlich ausgedehnt sein, indem ihre Anwendung über mehrere Schritte hinweg erfolgt oder indem sie intern mehrere Schaltungslayer enthalten, die einer temporalen Dynamik entsprechen. In beiden Fällen bleibt die Sub-Policy ein in sich geschlossenes Modul, dessen Parameter unabhängig optimiert und später wiederverwendet werden können.

Unterschied zwischen klassischer und quantenbasierter Sub-Policy

Der Unterschied zwischen klassischen und quantenbasierten Sub-Policies ist fundamental. Klassische Sub-Policies sind Funktionen \(\pi_o(a|s)\), die eine Wahrscheinlichkeitsverteilung über Aktionen erzeugen. Ihre Stochastizität ist explizit modelliert, etwa durch Softmax-Ausgaben oder Rauschmodelle.

Quantenbasierte Sub-Policies hingegen erzeugen keine Wahrscheinlichkeiten direkt, sondern Amplituden. Die resultierende Aktionsverteilung entsteht implizit durch Messung:

\(
\pi(a|s) = \langle \psi | U_i^\dagger M_a U_i | \psi \rangle.
\)

Diese Struktur erlaubt Interferenz: Zwei Sub-Policies, die sequentiell oder kontrolliert angewendet werden, können sich konstruktiv oder destruktiv beeinflussen. Klassische Sub-Policies können lediglich gemischt oder gewichtet werden; quantenmechanische Sub-Policies können kohärent überlagert werden. Damit wird Komposition selbst zu einem lernbaren, physikalischen Prozess.

Ein weiterer Unterschied liegt in der Repräsentationsdichte. Ein quantenmechanischer Operator auf \(n\) Qubits wirkt auf einen Raum der Dimension \(2^n\). Schon kleine Sub-Policies können daher hochkomplexe Abhängigkeiten kodieren, ohne dass explizit große Parameterzahlen benötigt werden. Diese expressive Kompaktheit ist eine der Hauptmotivationen für Quantum Sub-Policy Learning.

Abstraktionsebenen im Quantum HRL

Quantum Sub-Policy Learning ist inhärent hierarchisch. Die Entscheidungsfindung wird über mehrere Abstraktionsebenen verteilt, die jeweils unterschiedliche Rollen im Lernprozess übernehmen.

High-Level Quantum Meta-Controller

Der High-Level Quantum Meta-Controller ist für die Auswahl und Koordination von Sub-Policies verantwortlich. Er operiert auf einer abstrakten Zeitskala und entscheidet, welche Sub-Policy in einer gegebenen Situation aktiviert wird. Diese Auswahl kann selbst quantenmechanisch erfolgen, etwa durch kontrollierte Operationen oder durch Messungen eines Meta-Zustands.

Formal kann der Meta-Controller als eine Abbildung verstanden werden, die aus einem Kontextzustand eine Superposition von Sub-Policy-Labels erzeugt:

\(
|\chi(s)\rangle = \sum_i \alpha_i(s) |i\rangle,
\)

wobei \(|i\rangle\) die Auswahl der Sub-Policy \(U_i\) kodiert. Die tatsächliche Ausführung kann entweder durch Messung oder durch kontrollierte Anwendung erfolgen.

Mid-Level Quantum Sub-Policies

Auf der mittleren Ebene befinden sich die Quantum Sub-Policies selbst. Sie realisieren konkrete Skills oder Entscheidungsroutinen, die über mehrere Schritte hinweg kohärent wirken. Diese Ebene ist der zentrale Fokus dieser Abhandlung.

Mid-Level Sub-Policies sind so entworfen, dass sie unabhängig trainiert, analysiert und wiederverwendet werden können. Sie kapseln nicht nur Aktionen, sondern auch interne Entscheidungslogik im Amplitudenraum. Dadurch entsteht eine klare Trennung zwischen „was soll getan werden“ (Meta-Ebene) und „wie wird es ausgeführt“ (Sub-Policy-Ebene).

Low-Level Quantum Actions

Die unterste Ebene verbindet den quantenmechanischen Entscheidungsprozess mit der klassischen Umwelt. Hier finden Messungen statt, deren Ergebnisse als konkrete Aktionen interpretiert werden. Low-Level Actions sind typischerweise binäre oder diskrete Entscheidungen, die aus Messoperatoren \(M_a\) resultieren.

Diese Ebene ist notwendig, um den quantenmechanischen Agenten in einer klassischen oder hybriden Umwelt zu verankern. Gleichzeitig markiert sie den Punkt, an dem Kohärenz endet und klassische Rückmeldungen, insbesondere Rewards, in den Lernprozess eingespeist werden.

Motivation für Sub-Policy-Zerlegung im Quantenraum

Die Zerlegung in Sub-Policies ist im Quantenkontext nicht nur eine algorithmische Bequemlichkeit, sondern eine strukturelle Notwendigkeit.

Reduktion des Hilbertraum-Wachstums

Quantenmodelle skalieren exponentiell mit der Anzahl der Qubits. Ein monolithischer Ansatz, der alle Entscheidungsaspekte in einer einzigen Quantenschaltung vereint, führt schnell zu unhandhabbaren Hilberträumen und tiefen Schaltungen. Sub-Policy-Zerlegung erlaubt es, den effektiven Hilbertraum pro Modul klein zu halten.

Anstatt eine große Einheit \(U(\theta)\) zu trainieren, werden mehrere kleinere Operatoren \(U_i(\theta_i)\) eingesetzt, die nur bei Bedarf aktiviert werden. Dadurch reduziert sich nicht nur die Schaltungstiefe, sondern auch die Anfälligkeit für Rauschen und Dekohärenz.

Wiederverwendbarkeit quantenmechanischer Entscheidungsroutinen

Ein weiterer zentraler Vorteil ist Wiederverwendbarkeit. Einmal gelernte Quantum Sub-Policies können in neuen Aufgaben oder Umgebungen erneut eingesetzt werden, ohne vollständig neu trainiert zu werden. Dies ist besonders wertvoll im NISQ-Zeitalter, in dem Trainingsläufe teuer und instabil sind.

Wiederverwendbarkeit bedeutet hier mehr als Parameter-Sharing. Sub-Policies werden zu physikalisch realisierbaren Entscheidungsroutinen, die als Bausteine komplexer Agenten dienen. Im Idealfall entsteht ein Repertoire quantenmechanischer Skills, die flexibel kombiniert werden können. Quantum Sub-Policy Learning ist damit nicht nur ein Lernverfahren, sondern ein Architekturprinzip für skalierbare, modulare und zukunftsfähige Quantenagenten.

Mathematische Formulierung von Quantum Sub-Policies

Dieses Kapitel formuliert Quantum Sub-Policy Learning präzise in mathematischer Sprache. Ziel ist es, die konzeptuellen Ideen aus dem vorherigen Kapitel in ein konsistentes formales Gerüst zu überführen, das Analyse, Implementierung und theoretische Erweiterung erlaubt. Dabei wird deutlich, dass viele bekannte Strukturen aus klassischem RL erhalten bleiben, jedoch in quantenmechanisch verallgemeinerter Form auftreten.

Formale Darstellung

Im Quantum Sub-Policy Learning wird die Policy nicht direkt als Wahrscheinlichkeitsfunktion modelliert, sondern implizit über Quantenzustände, unitäre Transformationen und Messungen definiert.

Quantum States |ψ⟩ als Policy-Encoding

Der Ausgangspunkt ist ein quantenmechanischer Zustandsraum \(\mathcal{H}\), typischerweise ein Hilbertraum der Dimension \(2^n\) für \(n\) Qubits. Ein Umweltzustand \(s \in \mathcal{S}\) wird über eine Kodierungsabbildung in einen Quantenzustand überführt:

\(
s \mapsto |\phi(s)\rangle \in \mathcal{H}.
\)

Diese Zustandskodierung kann amplitudenbasiert, winkelbasiert oder hybrid erfolgen. Der kodierte Zustand fungiert als Eingabe für die Policy. Die eigentliche Entscheidungslogik wird durch parametrisierte Transformationen realisiert, sodass der policy-relevante Zustand

\(
|\psi(s;\theta)\rangle = U(\theta) |\phi(s)\rangle
\)

entsteht. Die Policy ist damit nicht explizit gegeben, sondern implizit durch die Messstatistiken von \(|\psi(s;\theta)\rangle\) definiert.

Sub-Policies als unitäre Transformationen Uᵢ

Eine Quantum Sub-Policy wird formal als eigene parametrisierte unitäre Transformation \(U_i(\theta_i)\) modelliert. Jede Sub-Policy wirkt auf denselben oder auf einen projektierten Teilraum des Hilbertraums. Die Anwendung einer Sub-Policy entspricht der Transformation

\(
|\psi’\rangle = U_i(\theta_i) |\psi\rangle.
\)

Die Komposition mehrerer Sub-Policies erfolgt durch das Produkt der entsprechenden Operatoren:

\(
|\psi_{\text{final}}\rangle = U_k(\theta_k) \cdots U_2(\theta_2) U_1(\theta_1) |\phi(s)\rangle.
\)

Diese Darstellung macht deutlich, dass Sub-Policies als modulare, in sich geschlossene Einheiten fungieren. Sie können unabhängig trainiert werden und später sequenziell oder kontrolliert kombiniert werden. Im Unterschied zu klassischen Sub-Policies ist ihre Wirkung nicht additiv oder konvex kombinierend, sondern multiplikativ und kohärent.

Quantum Options Framework

Um Sub-Policies systematisch in eine hierarchische Entscheidungsstruktur einzubetten, wird das klassische Options Framework in den Quantenraum übertragen.

Initiation Sets im Quantenraum

Im klassischen HRL definieren Initiation Sets, in welchen Zuständen eine Option verfügbar ist. Im Quantenkontext wird dieses Konzept verallgemeinert, indem Initiation nicht als harte Zustandsmenge, sondern als Projektionsoperator modelliert wird.

Ein Initiation Set einer Quantum Sub-Policy \(U_i\) kann durch einen Projektor \(P_i\) beschrieben werden, der auf dem Zustandsraum wirkt:

\(
P_i = P_i^\dagger = P_i^2.
\)

Eine Sub-Policy ist aktivierbar, wenn der aktuelle Zustandsvektor eine nichtverschwindende Projektion auf den zugehörigen Teilraum besitzt, formal

\(
\langle \psi | P_i | \psi \rangle > 0.
\)

Diese Definition erlaubt weiche, kontextabhängige Aktivierung und ist kompatibel mit Superpositionen von Zuständen.

Termination Conditions via Measurement Operators

Termination Conditions bestimmen, wann eine Sub-Policy endet. Im Quantum Options Framework werden sie durch Messoperatoren modelliert. Für jede Sub-Policy existiert ein Terminations-Observable \(T_i\), dessen Messung entscheidet, ob die Ausführung fortgesetzt oder beendet wird.

Die Wahrscheinlichkeit der Terminierung ergibt sich aus

\(
\beta_i(s) = \langle \psi | T_i | \psi \rangle.
\)

Im Gegensatz zu klassischen Ansätzen ist Terminierung hier ein intrinsisch probabilistischer Prozess, der aus der Quantenmessung resultiert. Dadurch kann Terminierung selbst lernbar und kontextsensitiv gestaltet werden.

Reward-Signale als Observable

Belohnungen werden im Quantum Sub-Policy Learning als Observablen modelliert. Ein Reward-Operator \(R\) ist ein hermitescher Operator auf \(\mathcal{H}\), dessen Erwartungswert den erhaltenen Reward bestimmt:

\(
r(s,a) = \langle \psi | R | \psi \rangle.
\)

Diese Darstellung erlaubt es, Rewards direkt an quantenmechanische Zustände zu koppeln, anstatt sie nur als externe klassische Signale zu behandeln. Besonders im Sub-Policy-Kontext können unterschiedliche Reward-Observablen für verschiedene Hierarchieebenen definiert werden.

Bellman-Gleichungen für Quantum Sub-Policies

Auch im Quantenkontext bleibt die zentrale Idee des RL erhalten: langfristige Belohnungen werden über rekursive Gleichungen beschrieben. Allerdings müssen Erwartungswerte über Messstatistiken berücksichtigt werden.

Erwartungswerte über Messstatistiken

Die Aktionswahl erfolgt durch Messung eines Operators \(M_a\). Die Wahrscheinlichkeit für Aktion \(a\) ist gegeben durch

\(
\pi(a|s) = \langle \psi(s;\theta) | M_a | \psi(s;\theta) \rangle.
\)

Alle Erwartungswerte in den Bellman-Gleichungen werden über diese messungsinduzierten Wahrscheinlichkeiten gebildet. Der Übergang von \(s\) nach \(s‘\) bleibt klassisch oder hybrid modelliert, abhängig von der Umgebung.

Quantum Value Functions

Die Quantum State-Value-Funktion kann als Erwartungswert des kumulativen Rewards definiert werden:

\(
V^\pi(s) = \mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t \langle \psi_t | R | \psi_t \rangle \mid s_0 = s \right].
\)

Analog ergibt sich eine Quantum Sub-Policy-Value-Funktion für eine Option \(i\):

\(
Q_i^\pi(s) = \mathbb{E}\left[ \sum_{t=0}^{\tau_i – 1} \gamma^t \langle \psi_t | R | \psi_t \rangle + \gamma^{\tau_i} V^\pi(s_{\tau_i}) \right],
\)

wobei \(\tau_i\) die zufällige Terminationszeit der Sub-Policy ist. Diese Gleichung ist die direkte Verallgemeinerung der klassischen Options-Bellman-Gleichung in den Quantenraum.

Gradient-basierte Optimierung

Das Lernen der Parameter \(\theta_i\) erfolgt über gradientenbasierte Optimierung, angepasst an quantenmechanische Erwartungswerte.

Parameter-Shift Rule

Die Parameter-Shift-Regel erlaubt die Berechnung von Gradienten eines Erwartungswertes \(\langle O \rangle\) bezüglich eines Schaltungsparameters \(\theta\) ohne explizite Ableitungen:

\(
\frac{\partial}{\partial \theta} \langle O \rangle =
\frac{1}{2} \left(
\langle O \rangle_{\theta + \frac{\pi}{2}} –
\langle O \rangle_{\theta – \frac{\pi}{2}}
\right).
\)

Diese Regel ist zentral für das Training von Quantum Sub-Policies, da sie direkt auf realer Quantenhardware implementierbar ist.

Quantum Policy Gradients für Sub-Policies

Quantum Policy Gradients ergeben sich aus der Ableitung des erwarteten Returns nach den Sub-Policy-Parametern. Formal kann der Gradient einer Sub-Policy \(U_i(\theta_i)\) geschrieben werden als

\(
\nabla_{\theta_i} J =
\mathbb{E}\left[
\nabla_{\theta_i} \log \pi_i(a|s) , A_i(s,a)
\right],
\)

wobei \(A_i(s,a)\) eine Advantage-Funktion auf Sub-Policy-Ebene ist. Der Term \(\log \pi_i(a|s)\) wird dabei über Messstatistiken und die Parameter-Shift-Regel realisiert.

Diese Formulierung zeigt, dass Quantum Sub-Policy Learning keine Abkehr von bekannten RL-Prinzipien darstellt, sondern deren quantenmechanische Verallgemeinerung. Sub-Policies werden zu lernbaren Operatoren, Bellman-Gleichungen zu Erwartungswertbeziehungen im Hilbertraum, und Optimierung zu einem hybriden Prozess aus Messung und klassischer Anpassung. Damit ist das mathematische Fundament gelegt, auf dem architektonische und algorithmische Fragen im nächsten Kapitel aufbauen.

Lernarchitekturen für Quantum Sub-Policy Learning

Die Leistungsfähigkeit von Quantum Sub-Policy Learning hängt entscheidend von der gewählten Lernarchitektur ab. Während die mathematische Formulierung beschreibt, was gelernt wird, bestimmt die Architektur, wie effizient, stabil und skalierbar dieses Lernen tatsächlich ist. In der Praxis dominieren heute hybride Ansätze, die klassische Steuerlogik mit quantenmechanischen Sub-Policies kombinieren. Dieses Kapitel beschreibt zentrale Architekturprinzipien, die sich für Quantum Sub-Policy Learning als besonders geeignet erweisen.

Variational Quantum Sub-Policy Networks

Variational Quantum Circuits bilden das Herzstück heutiger Quantenlernarchitekturen. Im Kontext von Sub-Policies werden sie zu eigenständigen, modularen Entscheidungsnetzen.

Parametrisierte Quantenschaltkreise

Eine Quantum Sub-Policy wird typischerweise als parametrisierte Quantenschaltung modelliert, bestehend aus einer Abfolge elementarer Gates mit lernbaren Parametern. Formal lässt sich eine solche Schaltung schreiben als

\(
U_i(\theta_i) = \prod_{l=1}^{L_i} U_{i,l}(\theta_{i,l}),
\)

wobei \(L_i\) die Tiefe der Sub-Policy-Schaltung und \(\theta_{i,l}\) die Parameter des jeweiligen Layers sind. Die Gates sind häufig Rotationen und kontrollierte Zwei-Qubit-Operationen, die gezielt Verschränkung erzeugen.

Der Vorteil dieser Darstellung liegt in ihrer Flexibilität: Jede Sub-Policy kann auf die spezifische Struktur ihres Teilproblems zugeschnitten werden. Eine Navigations-Sub-Policy kann andere Verschränkungsmuster nutzen als eine Manipulations-Sub-Policy. Gleichzeitig bleibt die Schaltung kompakt genug, um auf NISQ-Hardware lauffähig zu sein.

Layered Sub-Policy Design

Ein zentrales Architekturprinzip ist das Layered Design. Anstatt eine Sub-Policy als unstrukturierte Gatefolge zu entwerfen, wird sie in funktionale Schichten zerlegt. Typische Layer sind Zustandskodierungs-Layer, Verschränkungs-Layer und Entscheidungs-Layer.

Ein abstraktes Beispiel für eine solche Struktur ist

\(
U_i(\theta_i) = U_{\text{out}}(\theta_i^{(3)}) , U_{\text{ent}}(\theta_i^{(2)}) , U_{\text{enc}}(\theta_i^{(1)}).
\)

Diese Trennung erhöht die Interpretierbarkeit und erleichtert das Training, da einzelne Layer gezielt angepasst oder eingefroren werden können. Für Sub-Policies ist das besonders wichtig, da sie häufig wiederverwendet werden sollen. Ein stabiles, gut strukturiertes Layerdesign reduziert die Gefahr, dass kleine Änderungen im Training zu globalen Verhaltensänderungen führen.

Darüber hinaus erlaubt das Layered Design eine natürliche zeitliche Interpretation: Mehrere Layer können als interne Zeitschritte einer Sub-Policy verstanden werden, wodurch temporale Abstraktion direkt in der Schaltungsarchitektur verankert wird.

Hybrid Quantum–Classical Architectures

Reine Quantenagenten sind unter heutigen Hardwarebedingungen selten praktikabel. Stattdessen setzen sich hybride Architekturen durch, die klassische Rechenlogik mit quantenmechanischen Sub-Policies kombinieren.

Klassischer Meta-Controller

In vielen Architekturen ist der Meta-Controller klassisch implementiert. Er beobachtet den Umweltzustand, aggregiert Informationen über vergangene Rewards und wählt auf dieser Basis eine Sub-Policy aus. Formal realisiert er eine Auswahlregel

\(
i^* = \arg\max_i f(s, i),
\)

wobei \(f\) eine klassisch gelernte Bewertungsfunktion ist. Diese klassische Ebene profitiert von ausgereiften Optimierungsverfahren, stabilen Gradienten und hoher Rechenpräzision.

Der klassische Meta-Controller fungiert als Koordinator: Er entscheidet, wann welche Quantum Sub-Policy aktiviert wird, und integriert deren Ergebnisse in eine konsistente Gesamtstrategie. Dadurch wird die Quantenhardware gezielt dort eingesetzt, wo ihre expressive Stärke den größten Nutzen bringt.

Quantengestützte Sub-Policy-Auswahl

Alternativ oder ergänzend kann auch die Auswahl der Sub-Policy quantenmechanisch erfolgen. In diesem Fall wird die Auswahl selbst als quantenmechanischer Prozess modelliert, beispielsweise durch einen Meta-Zustand

\(
|\chi(s)\rangle = \sum_i \alpha_i(s) |i\rangle,
\)

der mit den Sub-Policy-Registern verschränkt ist. Die tatsächliche Sub-Policy-Ausführung erfolgt dann kontrolliert durch

\(
U = \sum_i |i\rangle\langle i| \otimes U_i(\theta_i).
\)

Diese Architektur erlaubt es, mehrere Sub-Policies kohärent zu überlagern und ihre Effekte interferieren zu lassen. Der potenzielle Vorteil liegt in einer weicheren, kontextsensitiveren Auswahl, bei der Sub-Policies nicht strikt exklusiv sind. Der Preis ist eine höhere Schaltungskomplexität und ein gesteigerter Bedarf an kohärenter Kontrolle.

In der Praxis werden häufig hybride Varianten genutzt, bei denen ein klassischer Meta-Controller grobe Entscheidungen trifft, während quantenmechanische Mechanismen Feinabstimmungen innerhalb einer Sub-Policy oder zwischen wenigen Kandidaten übernehmen.

Modularität und Transfer Learning

Ein zentrales Versprechen von Quantum Sub-Policy Learning ist Modularität. Architekturentscheidungen sollten dieses Versprechen aktiv unterstützen.

Wiederverwendung trainierter Quantum Sub-Policies

Einmal trainierte Quantum Sub-Policies können als feste Module in neuen Agenten eingesetzt werden. Formal bedeutet dies, dass die Parameter \(\theta_i\) einer Sub-Policy eingefroren und in eine neue Gesamtarchitektur integriert werden. Der neue Agent lernt dann lediglich, wann und wie diese Sub-Policy einzusetzen ist.

Diese Wiederverwendung ist besonders wertvoll im Quantenkontext, da Trainingsläufe teuer und fehleranfällig sind. Statt jedes Problem von Grund auf neu zu lernen, entsteht ein wachsendes Repertoire quantenmechanischer Entscheidungsroutinen.

Cross-Task Generalisierung

Modularität eröffnet die Möglichkeit zur Cross-Task Generalisierung. Sub-Policies, die grundlegende Fähigkeiten kodieren, können in unterschiedlichen Aufgaben wiederverwendet werden, selbst wenn sich Reward-Strukturen oder Zieldefinitionen ändern.

Architektonisch wird dies unterstützt, indem Sub-Policies auf abstrakte Zustandsrepräsentationen trainiert werden, etwa auf latente Zustände eines separaten Modells. Dadurch wird verhindert, dass sie zu stark an oberflächliche Details einer einzelnen Umgebung gebunden sind.

Quantum Sub-Policy Learning wird damit zu einem Baukastensystem: Lernarchitekturen bestehen aus kombinierbaren Modulen, deren interne Komplexität im Hilbertraum verborgen liegt, während ihre Schnittstellen klar definiert sind. Diese Trennung von interner Quantendynamik und externer Steuerlogik ist ein entscheidender Schritt hin zu skalierbaren, transferfähigen Quantenagenten.

Training, Stabilität und Skalierung

Training ist der kritische Engpass jedes Quantum Reinforcement Learning Systems. Quantum Sub-Policy Learning verschärft diese Herausforderung zunächst, da mehrere Hierarchieebenen, modulare Parameterblöcke und quantenmechanische Effekte zusammenwirken. Gleichzeitig eröffnet die Struktur von Sub-Policies neue Hebel, um Stabilität zu erhöhen, Exploration effizienter zu gestalten und Skalierung unter NISQ-Bedingungen realistisch zu machen. Dieses Kapitel diskutiert zentrale Trainingsaspekte und zeigt, warum gerade hierarchische Quantensysteme ein pragmatischer Weg nach vorne sind.

Exploration im Quantum Sub-Policy Space

Exploration ist im RL notwendig, um unbekannte Zustands-Aktions-Bereiche zu erschließen. Im Quantenkontext ist Exploration kein Zusatzmechanismus, sondern in der Physik des Systems selbst verankert.

Superposition-basierte Exploration

In klassischen RL-Systemen wird Exploration häufig durch explizite Stochastik realisiert, etwa durch Epsilon-Greedy-Strategien oder Entropieregularisierung. In Quantum Sub-Policy Learning entsteht Exploration natürlicherweise durch Superposition. Ein quantenmechanischer Policy-Zustand

\(
|\psi(s;\theta)\rangle = \sum_a \alpha_a(s;\theta) |a\rangle
\)

kodiert mehrere Aktionshypothesen gleichzeitig. Durch geeignete Schaltungsparameter kann der Agent bewusst „breite“ Superpositionen erzeugen, die mehrere Sub-Policies oder Aktionen gleichwertig berücksichtigen.

Auf Sub-Policy-Ebene bedeutet dies, dass der Meta-Controller nicht zwingend eine einzelne Sub-Policy auswählt, sondern eine kohärente Überlagerung mehrerer Sub-Policies vorbereiten kann. Die resultierende Interferenz wirkt als strukturierte Exploration: Nicht jede Option wird zufällig ausprobiert, sondern Exploration folgt der Amplitudenstruktur des Quantenzustands.

Messrauschen als exploratives Element

Ein weiterer explorativer Faktor ist das Messrauschen. Jede Quantenmessung erzeugt intrinsische Zufälligkeit, selbst bei identischem Eingangszustand. Diese Zufälligkeit ist nicht nur ein Hindernis, sondern kann gezielt genutzt werden.

Im Training bedeutet dies, dass identische Sub-Policy-Ausführungen zu unterschiedlichen Aktionen führen können, ohne dass explizit Rauschparameter hinzugefügt werden müssen. Messrauschen fungiert damit als eingebauter Explorationsterm, der besonders in frühen Trainingsphasen hilfreich ist. Wichtig ist jedoch, diese Stochastik zu kontrollieren, etwa durch Anpassung der Messbasis oder durch Aggregation über mehrere Messungen, um später stabilere Entscheidungen zu ermöglichen.

Credit Assignment über Hierarchieebenen

Credit Assignment ist eine der größten Herausforderungen in hierarchischen Lernsystemen. Quantum Sub-Policy Learning verschärft dieses Problem, da Belohnungen über Messstatistiken und zeitlich ausgedehnte quantenmechanische Prozesse verteilt werden.

Temporal Credit Assignment in quantenmechanischen Optionen

In klassischen HRL-Systemen wird Credit Assignment häufig über Options-Bellman-Gleichungen oder Advantage-Schätzungen gelöst. Im Quantenkontext muss zusätzlich berücksichtigt werden, dass Sub-Policies als kohärente Prozesse über mehrere Schritte wirken.

Formal ergibt sich der Return einer Sub-Policy \(i\) als

\(
G_i = \sum_{t=0}^{\tau_i – 1} \gamma^t \langle \psi_t | R | \psi_t \rangle,
\)

wobei \(\tau_i\) eine zufällige, messungsabhängige Terminationszeit ist. Die Herausforderung besteht darin, diesen Return sinnvoll auf die Parameter \(\theta_i\) zurückzuführen, ohne dabei den Meta-Controller oder andere Sub-Policies falsch zu belasten.

Ein praktikabler Ansatz ist die Trennung der Lernsignale: Sub-Policies erhalten lokale Rewards oder shaping-basierte Rückmeldungen, während der Meta-Controller über aggregierte, verzögerte Belohnungen lernt. Diese Trennung reduziert Interferenzen zwischen Lernprozessen und erhöht die Stabilität.

Reward Decomposition

Reward Decomposition ist ein weiteres zentrales Werkzeug. Anstatt einen einzigen globalen Reward zu verwenden, wird der Reward in mehrere Komponenten zerlegt, die unterschiedlichen Hierarchieebenen zugeordnet sind. Formal kann der Gesamt-Reward als Summe geschrieben werden:

\(
R = \sum_k R_k,
\)

wobei \(R_k\) jeweils als Observable für eine bestimmte Sub-Policy oder Ebene definiert ist. Diese Zerlegung erlaubt es, Sub-Policies gezielt auf ihre jeweilige Funktion hin zu trainieren, ohne dass sie durch globale Zielkonflikte destabilisiert werden.

Im Quantenkontext ist diese Trennung besonders elegant, da unterschiedliche Reward-Observablen parallel gemessen oder in getrennten Trainingsphasen optimiert werden können.

Noise, Decoherence und NISQ-Restriktionen

Reale Quantenhardware ist fehlerbehaftet. Noise und Decoherence sind keine Randerscheinungen, sondern prägende Faktoren des Trainingsprozesses.

Fehlertolerante Sub-Policy-Strukturen

Sub-Policy-Zerlegung ist ein natürlicher Ansatz zur Fehlertoleranz. Kurze, spezialisierte Quantenschaltungen sind robuster als tiefe, monolithische Schaltungen. Jede Sub-Policy kann so entworfen werden, dass sie innerhalb eines begrenzten Kohärenzfensters operiert.

Architektonisch bedeutet dies, Schaltungstiefe zu minimieren und lokale Verschränkung zu bevorzugen. Sub-Policies können zudem redundant trainiert oder in leicht variierter Form vorliegen, um Ausfälle einzelner Module abzufedern.

Robustheit gegenüber Hardware-Rauschen

Robustheit entsteht nicht nur durch Hardwareverbesserungen, sondern auch durch Lernstrategien. Rauschen kann während des Trainings explizit modelliert werden, indem Quantum Channels in die Simulation integriert werden. Dadurch lernen Sub-Policies, unter realistischen Bedingungen stabil zu funktionieren.

Langfristig ist Quantum Sub-Policy Learning besonders gut geeignet für NISQ-Umgebungen, da es die Quantenressourcen auf das Wesentliche fokussiert. Statt „alles quantenmechanisch“ zu machen, wird Quantenlogik gezielt dort eingesetzt, wo sie den größten Mehrwert liefert. Genau diese Fokussierung macht Skalierung trotz heutiger Beschränkungen plausibel.

Anwendungsfälle und Szenarien

Quantum Sub-Policy Learning ist kein rein theoretisches Konstrukt, sondern zielt auf konkrete Anwendungsdomänen, in denen klassische Reinforcement-Learning-Ansätze an strukturelle oder skalierungsbedingte Grenzen stoßen. Die Kombination aus hierarchischer Zerlegung und quantenmechanischer Repräsentation eröffnet insbesondere dort neue Perspektiven, wo komplexe Dynamiken, lange Planungshorizonte oder hochdimensionale Entscheidungsräume dominieren.

Quantum Robotics und autonome Steuerung

In der Robotik sind hierarchische Strukturen seit langem etabliert: Navigation, Manipulation, Balance und Wahrnehmung werden als getrennte, aber koordinierte Fähigkeiten modelliert. Quantum Sub-Policy Learning fügt dieser Struktur eine neue Ebene hinzu, indem einzelne Fähigkeiten als quantenmechanische Sub-Policies realisiert werden.

Eine Navigations-Sub-Policy kann beispielsweise als unitärer Operator entworfen werden, der Sensordaten in eine kohärente Aktionspräferenz überführt. Eine Manipulations-Sub-Policy kann hingegen feinere Verschränkungsmuster nutzen, um präzise Bewegungen zu steuern. Der Meta-Controller wählt diese Sub-Policies kontextabhängig aus und koordiniert ihre Ausführung.

Der Vorteil liegt weniger in roher Rechengeschwindigkeit als in der Strukturierung der Entscheidungsfindung. Superposition-basierte Exploration erlaubt es dem Agenten, mehrere Bewegungsstrategien gleichzeitig zu evaluieren, während Interferenzmechanismen ungünstige Trajektorien unterdrücken. Besonders für autonome Systeme in unsicheren oder dynamischen Umgebungen kann dies zu robusterem Verhalten führen.

Quantum Finance und Portfolio-Optimierung

Finanzmärkte sind geprägt von Unsicherheit, nichtstationären Dynamiken und komplexen Abhängigkeiten. Klassische RL-Ansätze stoßen hier häufig an Grenzen, da sich Strategien schnell überanpassen oder instabil werden. Quantum Sub-Policy Learning bietet eine modulare Alternative.

Einzelne Sub-Policies können auf spezifische Marktregime oder Strategietypen spezialisiert sein, etwa Trendfolge, Risikominimierung oder Arbitrage. Diese Sub-Policies werden als quantenmechanische Operatoren implementiert, die latente Marktinformationen in Aktionspräferenzen übersetzen. Der Meta-Controller entscheidet, welche Strategie in welcher Marktsituation dominiert.

Durch die quantenmechanische Repräsentation können Korrelationen zwischen Assets über Verschränkung modelliert werden, ohne explizit große Kovarianzmatrizen zu lernen. Die Wiederverwendbarkeit von Sub-Policies ist hier besonders wertvoll, da bewährte Strategien in neuen Marktphasen erneut eingesetzt werden können.

Quantum Control von physikalischen Systemen

Quantum Control ist eine natürliche Domäne für Quantum Sub-Policy Learning, da sowohl das zu steuernde System als auch der Agent selbst quantenmechanisch beschrieben werden. Beispiele sind die Steuerung von Qubit-Dynamiken, Laserpuls-Optimierung oder Regelung quantenoptischer Systeme.

Sub-Policies können hier als spezialisierte Kontrollroutinen dienen, etwa zur Vorbereitung eines Zielzustands, zur Fehlerkorrektur oder zur Stabilisierung gegen Rauschen. Jede Sub-Policy wirkt auf einen klar definierten Teilaspekt der Dynamik und kann unabhängig optimiert werden.

Der hierarchische Ansatz erleichtert das Credit Assignment erheblich, da Belohnungen direkt an physikalisch sinnvolle Observablen gekoppelt werden können. Quantum Sub-Policy Learning wird damit zu einem Bindeglied zwischen Control-Theorie und lernbasierten Ansätzen.

Quantum Game Playing und Multi-Agenten-Systeme

Spiele und Multi-Agenten-Umgebungen sind klassische Testfelder für Reinforcement Learning. Im Quantenkontext eröffnen sie zusätzliche Fragestellungen, insbesondere wenn mehrere Agenten quantenmechanisch interagieren.

Sub-Policies können hier taktische oder strategische Rollen übernehmen, etwa Angriff, Verteidigung oder Kooperation. Verschränkung zwischen Agenten erlaubt neue Formen koordinierter Strategien, die klassisch nur schwer realisierbar sind.

Quantum Sub-Policy Learning ermöglicht es, diese Rollen klar zu modularisieren und dennoch kohärent zu koppeln. Dadurch entstehen Multi-Agenten-Systeme, deren kollektives Verhalten nicht nur das Ergebnis expliziter Kommunikation ist, sondern aus quantenmechanischer Korrelation hervorgeht. Dies macht den Ansatz besonders interessant für komplexe Spiel- und Verhandlungsszenarien mit strategischer Tiefe.

Vergleich mit klassischen Sub-Policy-Ansätzen

Ein zentraler Maßstab für die Bewertung von Quantum Sub-Policy Learning ist der Vergleich mit etablierten klassischen Sub-Policy-Ansätzen. Dabei geht es weniger um einen pauschalen Leistungsanspruch, sondern um strukturelle Unterschiede in Repräsentation, Lernverhalten und Skalierung. Dieses Kapitel beleuchtet diese Unterschiede entlang zentraler Kriterien.

Expressivität und Repräsentationsdichte

Klassische Sub-Policies werden typischerweise als neuronale Netzwerke modelliert, deren Expressivität von Architektur, Tiefe und Parameterzahl abhängt. Um komplexe Abhängigkeiten zwischen Zustandsmerkmalen zu erfassen, sind häufig große Netze erforderlich, was zu hohem Speicherbedarf und schwieriger Optimierung führt.

Quantum Sub-Policies hingegen operieren im Hilbertraum. Ein Sub-Policy-Operator auf \(n\) Qubits wirkt auf einen Zustandsraum der Dimension \(2^n\). Dadurch entsteht eine hohe Repräsentationsdichte: Relativ wenige Parameter können hochkomplexe Transformationen realisieren. Verschränkung erlaubt es, nichtlineare Abhängigkeiten zwischen Variablen implizit zu kodieren, ohne explizite Feature-Kombinationen zu lernen.

Diese kompakte Expressivität ist besonders relevant für hierarchische Systeme. Sub-Policies müssen nicht alle Details der Umgebung abbilden, sondern gezielt Entscheidungsstrukturen formen. Quantum Sub-Policy Learning bietet hier eine andere Balance zwischen Modellgröße und Ausdrucksstärke als klassische Methoden.

Lernkomplexität und Sample Efficiency

In klassischen HRL-Systemen ist Sample Efficiency ein zentrales Problem. Zwar reduzieren Sub-Policies den effektiven Planungshorizont, doch das Training bleibt datenhungrig, insbesondere wenn Sub-Policies gemeinsam mit dem Meta-Controller end-to-end gelernt werden.

Quantum Sub-Policy Learning verspricht hier zwei potenzielle Vorteile. Erstens können Sub-Policies durch ihre kompakte Repräsentation schneller auf lokale Strukturen reagieren. Zweitens erlaubt die hierarchische Trennung, Sub-Policies separat zu trainieren und wiederzuverwenden, was den Bedarf an neuen Daten reduziert.

Dem stehen jedoch praktische Herausforderungen gegenüber. Quantenmessungen sind teuer, und die Varianz der Schätzungen kann hoch sein. Der effektive Sample-Begriff verschiebt sich: Weniger Umweltinteraktionen stehen mehr Messwiederholungen gegenüber. Ob dies zu einer Nettoverbesserung führt, ist stark anwendungsabhängig.

Potenzieller Quantenvorteil und aktuelle Limitationen

Der potenzielle Quantenvorteil von Quantum Sub-Policy Learning liegt weniger in asymptotischer Beschleunigung als in struktureller Effizienz. Superposition-basierte Exploration, kohärente Sub-Policy-Komposition und versränkungsbasierte Kontextsensitivität sind Eigenschaften, die klassisch nur approximativ oder mit hohem Aufwand erreichbar sind.

Gleichzeitig sind die Limitationen klar. NISQ-Hardware ist rauschbehaftet, Schaltungstiefen sind begrenzt, und das Training leidet unter Phänomenen wie Barren Plateaus. Viele Vorteile bleiben bislang konzeptionell oder auf kleine Demonstratoren beschränkt.

Der Vergleich zeigt daher ein differenziertes Bild: Quantum Sub-Policy Learning ist kein Ersatz für klassische Sub-Policy-Ansätze, sondern eine Erweiterung des Designraums. Sein Wert liegt vor allem dort, wo modulare Hierarchien auf hochstrukturierte Entscheidungsprobleme treffen und quantenmechanische Repräsentationen diese Struktur effizient abbilden können.

Offene Forschungsfragen und Zukunftsperspektiven

Quantum Sub-Policy Learning befindet sich noch in einem frühen Entwicklungsstadium. Viele der beschriebenen Konzepte sind theoretisch gut motiviert, aber experimentell erst ansatzweise erprobt. Gerade daraus ergeben sich zentrale Forschungsfragen, die zugleich den Blick in eine längerfristige Zukunft quantenbasierter Lernsysteme öffnen.

Skalierung auf fault-tolerante Quantencomputer

Eine der grundlegendsten offenen Fragen betrifft die Skalierung. Die meisten heutigen Ansätze sind auf NISQ-Hardware ausgelegt, mit stark begrenzter Qubit-Zahl, kurzer Kohärenzzeit und nicht vernachlässigbarem Rauschen. Fault-tolerante Quantencomputer würden diese Restriktionen grundlegend verändern.

Für Quantum Sub-Policy Learning stellt sich dabei die Frage, wie Hierarchien in großen, fehlerkorrigierten Systemen organisiert werden sollten. Ist es sinnvoll, Sub-Policies weiterhin als kleine, lokale Module zu gestalten, oder können sie zu größeren, tieferen Strukturen wachsen? Ebenso offen ist, wie Fehlerkorrektur mit hierarchischem Lernen interagiert. Sub-Policies könnten natürliche Einheiten für logische Qubits und geschützte Rechenräume bilden, doch konkrete Architekturen hierfür sind bislang weitgehend unerforscht.

Kombination mit Quantum World Models

Ein besonders vielversprechender Zukunftsweg ist die Kombination von Quantum Sub-Policy Learning mit Quantum World Models. World Models versuchen, die Dynamik der Umwelt explizit zu lernen, um Planung und Simulation im internen Modell zu ermöglichen.

Im Quantenkontext könnten World Models als quantenmechanische Zustandsdynamiken formuliert werden, die Übergänge als unitäre oder kanalbasierte Prozesse abbilden. Sub-Policies könnten dann nicht nur reaktiv handeln, sondern auf Basis interner quantenmechanischer Simulationen planen. Eine zentrale Forschungsfrage ist, wie Sub-Policies und World Models gekoppelt werden sollten: als getrennte Module oder als verschränkte Bestandteile eines gemeinsamen Hilbertraums.

Selbstorganisierende Quantum Sub-Policy Hierarchien

Ein weiteres offenes Feld ist die automatische Entstehung von Hierarchien. Bisher werden Sub-Policies meist manuell definiert oder durch heuristische Verfahren entdeckt. Langfristig wäre es wünschenswert, dass ein Agent selbst lernt, welche Sub-Policies sinnvoll sind und wie sie hierarchisch organisiert werden sollten.

Im Quantenkontext eröffnet sich hier ein neuer Designraum. Verschränkung und Interferenz könnten genutzt werden, um Ähnlichkeiten zwischen Entscheidungsroutinen zu erkennen und Sub-Policies dynamisch zu verschmelzen oder zu trennen. Selbstorganisierende Hierarchien würden Quantum Sub-Policy Learning von einem Architekturkonzept zu einem adaptiven, strukturbildenden Lernprinzip erweitern.

Rolle von Verschränkung zwischen Sub-Policies

Schließlich bleibt die Rolle der Verschränkung zwischen Sub-Policies eine zentrale offene Frage. Während Verschränkung innerhalb einer Sub-Policy bereits als Ressource betrachtet wird, ist weniger klar, wie stark Sub-Policies untereinander verschränkt sein sollten.

Zu viel Verschränkung kann Modularität untergraben und Transfer erschweren; zu wenig Verschränkung reduziert die potenziellen quantenmechanischen Vorteile. Ein besseres Verständnis dieses Spannungsfelds ist entscheidend, um Quantum Sub-Policy Learning gezielt und effizient einsetzen zu können.

Fazit

Zusammenfassung der zentralen Erkenntnisse

Diese Abhandlung hat Quantum Sub-Policy Learning als kohärente Erweiterung des klassischen und hierarchischen Reinforcement Learnings in den Quantenraum eingeführt. Zentrale Erkenntnis ist, dass Sub-Policies im Quantenkontext nicht lediglich funktionale Module sind, sondern physikalisch realisierte Entscheidungsprozesse. Sie werden als unitäre Transformationen im Hilbertraum modelliert, deren Wirkung erst durch Messungen in klassische Aktionen übersetzt wird. Dadurch entstehen neue Formen der Komposition, bei denen Sub-Policies nicht nur sequenziell oder stochastisch kombiniert, sondern kohärent überlagert werden können.

Es wurde gezeigt, dass bekannte RL-Konzepte wie Policies, Value-Funktionen und Bellman-Gleichungen erhalten bleiben, jedoch als Erwartungswerte quantenmechanischer Observablen neu interpretiert werden. Die hierarchische Zerlegung in Quantum Sub-Policies reduziert effektive Komplexität, stabilisiert das Training und ermöglicht Wiederverwendung sowie Transfer über Aufgaben hinweg. Gleichzeitig adressiert dieser Ansatz zentrale praktische Herausforderungen des Quantum Reinforcement Learning, insbesondere im Hinblick auf NISQ-Beschränkungen.

Bedeutung von Quantum Sub-Policy Learning für das zukünftige QRL

Für das zukünftige Quantum Reinforcement Learning besitzt Quantum Sub-Policy Learning strategische Bedeutung. Es liefert ein Architekturprinzip, das Quantenressourcen gezielt einsetzt, anstatt sie in monolithischen, schwer trainierbaren Modellen zu binden. Sub-Policies fungieren als modulare Träger quantenmechanischer Expressivität, während klassische oder hybride Meta-Controller für Stabilität und Skalierbarkeit sorgen. Damit entsteht ein realistischer Pfad, um quantenbasierte Lernagenten schrittweise leistungsfähiger zu machen.

Ausblick auf autonome quantenintelligente Systeme

Langfristig weist Quantum Sub-Policy Learning über heutige Anwendungen hinaus. In Kombination mit fault-toleranter Hardware, Quantum World Models und selbstorganisierenden Hierarchien könnten Lernsysteme entstehen, die nicht nur handeln, sondern abstrahieren, planen und Wissen übertragen. Der Weg zu autonomen quantenintelligenten Systemen führt nicht über maximale Quantifizierung, sondern über strukturierte, hierarchische Nutzung quantenmechanischer Prinzipien. Quantum Sub-Policy Learning markiert hierfür einen entscheidenden konzeptionellen Meilenstein.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Das folgende Literaturverzeichnis ist thematisch strukturiert und deckt klassisches Reinforcement Learning, Hierarchical RL, Quantum Reinforcement Learning, Variational Quantum Algorithms sowie quantennahe Zukunftsthemen ab. Es kombiniert Grundlagenwerke, hochzitierte Fachartikel und zentrale Online-Ressourcen, die für Forschung zu Quantum Sub-Policy Learning besonders relevant sind.

Wissenschaftliche Zeitschriften und Artikel

Klassisches Reinforcement Learning & Hierarchical RL

Quantum Reinforcement Learning (QRL)

  • Dong, D., Chen, C., Li, H., & Tarn, T.-J.
    Quantum Reinforcement Learning
    IEEE Transactions on Systems, Man, and Cybernetics, 2008
    https://ieeexplore.ieee.org/…
  • Paparo, G. D., Dunjko, V., Makmal, A., Martin-Delgado, M. A., & Briegel, H. J.
    Quantum Speedup for Active Learning Agents
    Physical Review X, 2014
    https://journals.aps.org/…
  • Saggio, V., Asproni, M., et al.
    Experimental Quantum Speed-Up in Reinforcement Learning Agents
    Nature, 2021
    https://www.nature.com/…

Variational Quantum Algorithms & Quantum ML

  • Schuld, M., Sinayskiy, I., & Petruccione, F.
    An Introduction to Quantum Machine Learning
    Contemporary Physics, 2015
    https://arxiv.org/…
  • Benedetti, M., Lloyd, E., Sack, S., & Fiorentini, M.
    Parameterized Quantum Circuits as Machine Learning Models
    Quantum Science and Technology, 2019
    https://arxiv.org/…
  • McClean, J. R., Boixo, S., Smelyanskiy, V. N., Babbush, R., & Neven, H.
    Barren Plateaus in Quantum Neural Network Training Landscapes
    Nature Communications, 2018
    https://www.nature.com/…

Quantum Control & Quantum Decision Processes

  • Wiseman, H. M., & Milburn, G. J.
    Quantum Measurement and Control
    Physical Review Letters / Cambridge University Press
    https://doi.org/…
  • Lloyd, S., & Slotine, J.-J. E.
    Quantum Feedback with Weak Measurements
    Physical Review A, 2000
    https://journals.aps.org/…

Bücher und Monographien

Reinforcement Learning & Hierarchie

  • Sutton, R. S., & Barto, A. G.
    Reinforcement Learning: An Introduction (2. Auflage)
    MIT Press
    https://mitpress.mit.edu/…
  • Kaelbling, L. P., Littman, M. L., & Moore, A. W.
    Reinforcement Learning: A Survey
    Journal of Artificial Intelligence Research
    https://www.jair.org/…

Quanteninformation & Quantenalgorithmen

Quantum Machine Learning

Online-Ressourcen und Datenbanken

Preprint-Server & Forschungsdatenbanken

Software-Frameworks & Dokumentationen

Forschungsprogramme & Institute

Abschließende Einordnung

Dieses Literaturverzeichnis bildet eine wissenschaftlich belastbare Basis für eine Abhandlung auf Forschungsniveau. Es erlaubt:

  • saubere theoretische Verankerung (RL, HRL, QRL),
  • Anschlussfähigkeit an aktuelle Quantum-ML-Forschung,
  • und eine klare Positionierung von Quantum Sub-Policy Learning als eigenständige, zukunftsrelevante Forschungsrichtung.