Quantum Policy Gradient for Continuous Actions

Kontinuierliche Aktionsräume sind das natürliche Spielfeld vieler realer Steuerungs- und Entscheidungsprobleme: Robotergelenke bewegen sich nicht in diskreten Sprüngen, Antriebsdrehmomente sind stetig, Dosierungen in der Medizin sind kontinuierlich, und Portfolio-Gewichte in der Finanzoptimierung sind reelle Zahlen mit Nebenbedingungen. Reinforcement Learning für kontinuierliche Aktionen ist deshalb nicht nur ein Spezialfall, sondern oft der eigentliche Standardfall. Genau hier entfalten Policy-Gradient-Verfahren ihre Stärke: Sie optimieren Politiken direkt, ohne auf diskrete Aktionstabellen angewiesen zu sein, und erlauben stochastische Exploration in hochdimensionalen Räumen.

Gleichzeitig zeigt sich gerade im Continuous Control die fragile Seite klassischer Policy-Gradient-Methoden. Die Optimierung ist oft empfindlich gegenüber Hyperparametern, Datenrauschen und approximativen Wertfunktionen. Die Verteilung, aus der Aktionen gesampelt werden, muss kontinuierlich und differenzierbar sein; die Gradienten, die aus Trajektorien geschätzt werden, können hohe Varianz besitzen; und bei komplexen Dynamiken drohen instabile Lernprozesse. In den letzten Jahren hat die klassische Forschung beachtliche Stabilitätsgewinne erzielt, doch diese Verbesserungen sind häufig mit höherer Rechenlast, komplexerer Algorithmik oder strengen Annahmen verbunden.

Quantum Reinforcement Learning setzt an dieser Stelle an: Nicht als magischer Ersatz für bewährte RL-Grundprinzipien, sondern als Erweiterung des Modellraums, der Repräsentationskraft und möglicherweise der Stichprobeneffizienz. Parameterisierte Quantenschaltkreise bieten eine neue Klasse von Funktionsapproximatoren. Sie erzeugen Wahrscheinlichkeitsverteilungen durch Messprozesse, koppeln Variablen über Verschränkung und erlauben Interferenzmuster, die sich in klassischen Modellen nur indirekt und oft mit hoher Komplexität nachbilden lassen. Die Hoffnung ist klar: Wenn Politikfamilien durch quantenmechanische Strukturen ausdrucksstärker werden, könnten sie komplexe kontinuierliche Strategien kompakter repräsentieren oder Exploration und Generalisierung in bislang schwer zugänglichen Regionen des Zustands-Aktions-Raums verbessern.

Diese Abhandlung fokussiert deshalb auf Quantum Policy Gradient für kontinuierliche Aktionen: Wie lässt sich eine quantenparametrisierte Politik in einem Continuous-Control-Setting definieren? Wie werden Gradienten geschätzt, wenn die Politik nicht als klassisches neuronales Netz, sondern als Messverteilung eines Quantenschaltkreises vorliegt? Welche algorithmischen Anpassungen sind nötig, damit das Training unter NISQ-Bedingungen mit Messrauschen, begrenzten Schaltkreistiefen und möglicherweise problematischen Gradientenlandschaften stabil bleibt? Und vor allem: Unter welchen Bedingungen ist ein quantenbasierter Ansatz mehr als eine elegante Umformulierung, nämlich ein realistischer Kandidat für bessere Leistung, Robustheit oder Ressourceneffizienz?

Die Einleitung schafft dafür den Rahmen: Zuerst werden die Grenzen klassischer Policy-Gradient-Ansätze im kontinuierlichen Aktionsraum präzisiert. Danach wird die Motivation für Quantum Reinforcement Learning in Bezug auf Repräsentation, Optimierung und Exploration herausgearbeitet. Anschließend wird die Diskret-vs.-Kontinuierlich-Problematik als Kernschwierigkeit formuliert, bevor Zielsetzung, Forschungsfragen und die Struktur der Abhandlung klar festgelegt werden.

Ausgangslage: Grenzen klassischer Policy-Gradient-Verfahren bei kontinuierlichen Aktionsräumen

Policy-Gradient-Methoden optimieren eine parametrisierte Politik \(\pi_\theta(a \mid s)\) direkt, indem sie den Erwartungswert des Returns maximieren. Im kontinuierlichen Aktionsraum ist \(a \in \mathbb{R}^d\), und \(\pi_\theta(a \mid s)\) ist eine Wahrscheinlichkeitsdichte, häufig modelliert als Gauß-Verteilung mit zustandsabhängigem Mittelwert und Varianz. Die klassische Zielfunktion lautet typischerweise:

\(J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left[\sum_{t=0}^{T-1}\gamma^t r(s_t, a_t)\right]\)

Der zentrale Vorteil ist die Differenzierbarkeit der Politik. Der Preis ist die Qualität der Gradienten, die aus endlichen Stichproben geschätzt werden müssen. Ein prototypischer stochastischer Policy-Gradient-Schätzer ist:

\(\nabla_\theta J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left[\sum_{t=0}^{T-1}\nabla_\theta \log \pi_\theta(a_t \mid s_t), G_t\right]\)

mit \(G_t\) als Return ab Zeitpunkt \(t\). In Continuous-Control-Problemen treten drei strukturelle Grenzen besonders deutlich hervor:

Erstens die hohe Varianz der Gradienten. Kontinuierliche Aktionen führen zu Dichten, deren Log-Likelihood-Gradienten stark streuen können, insbesondere wenn die Politikexploration breit ist oder die Dynamik chaotisch reagiert. Zwar helfen Baselines und Advantage-Funktionen, doch die Varianz bleibt ein dominanter Stabilitätsfaktor, vor allem in frühen Lernphasen.

Zweitens die Empfindlichkeit gegenüber Approximationsfehlern. Praktische Algorithmen nutzen fast immer Funktionsapproximatoren für \(V^\pi(s)\) oder \(Q^\pi(s,a)\). Fehler im Critic verzerren Advantage-Schätzungen und können zu systematischen Fehlupdates des Actors führen. In kontinuierlichen Räumen verschärft sich das, weil der Critic eine glatte, aber hochdimensionale Funktion über latex[/latex] approximieren muss.

Drittens die fragile Balance zwischen Exploration und Stabilität. Breite Exploration ist nötig, um in stetigen Räumen sinnvolle Regionen zu entdecken. Gleichzeitig kann zu große Varianz der Aktionen oder zu aggressives Policy-Update zu Instabilität, Divergenz oder suboptimaler „Versteinerung“ der Politik führen. Verfahren wie TRPO oder PPO adressieren dies über Trust-Region- oder Clipping-Mechanismen, doch sie erhöhen algorithmische Komplexität und verschieben das Problem oft auf die Hyperparameterwahl.

In Summe entsteht ein Bild: Klassische Policy-Gradient-Ansätze sind leistungsfähig, aber in kontinuierlichen Aktionsräumen häufig trainingssensitiv, sample-intensiv und anfällig für Gradientenrauschen. Genau an diesen Reibungsflächen setzen quantenbasierte Politiken als alternative Repräsentations- und Sampling-Mechanismen an.

Warum Quantenmechanik? Motivation für Quantum Reinforcement Learning (QRL)

Quantum Reinforcement Learning ist motiviert durch die Aussicht, Lernkomponenten durch quantenmechanische Ressourcen zu erweitern: Superposition für parallele Repräsentation, Interferenz für strukturierte Gewichtung von Pfaden und Verschränkung für nichttriviale Korrelationen zwischen Variablen. In praktischen QRL-Ansätzen steht meist nicht „rein quantenmechanisches Lernen“ im Vordergrund, sondern hybride Systeme, in denen ein parameterisierter Quantenschaltkreis als Politik- oder Wertfunktionsmodul dient, während das Training durch klassische Optimierer gesteuert wird.

Die zentrale Intuition für Quantum Policy Gradients lautet: Eine Politik ist im Kern eine bedingte Verteilung \(\pi(a \mid s)\). Quantenschaltkreise erzeugen Verteilungen über Messergebnisse, deren Form durch Parameter kontrollierbar ist. Diese Verteilungen können, abhängig von Kodierung und Schaltkreisdesign, hochgradig nichtlinear und global korreliert sein. Für kontinuierliche Aktionen ist besonders interessant, dass quantenmechanische Modelle als kompakte Generatoren komplexer Verteilungen wirken können, etwa indem sie nichttriviale Multimodalität oder feine Korrelationen zwischen Aktionsdimensionen ausdrücken, ohne dass die Parametrisierung explodiert.

Zusätzlich bringt die Quantenperspektive einen methodischen Vorteil: Gradienten von Erwartungswerten quantenmechanischer Observablen können unter bestimmten Bedingungen effizient über spezielle Ableitungsregeln geschätzt werden, etwa über Parameter-Shift-Techniken. In einem QRL-Kontext kann das bedeuten, dass die Politikoptimierung als Optimierung von Messstatistiken interpretiert wird. Damit verschiebt sich das Verständnis von „Backpropagation durch ein Netz“ hin zu „Gradienten von Mess-Erwartungswerten“, was neue Designräume eröffnet, aber auch neue Fehlerquellen wie Shot Noise oder hardwarebedingte Störungen einführt.

Die Motivation ist also zweigeteilt: (1) Repräsentationskraft und strukturelle Korrelationen in Politikfamilien, (2) alternative Gradientenschätzmechanismen, die im besten Fall stabile Updates ermöglichen oder neue Explorationseigenschaften erzeugen. Ob daraus ein praktischer Vorteil entsteht, hängt nicht von Schlagworten ab, sondern von präziser Problemformulierung, sauberem Benchmarking und realistischen Hardwareannahmen.

Von diskret zu kontinuierlich: Die besondere Herausforderung kontinuierlicher Aktionen

Der Übergang von diskreten zu kontinuierlichen Aktionen ist in RL nicht kosmetisch, sondern fundamental. In diskreten Räumen genügt eine kategoriale Verteilung, und Aktionen werden als Index gezogen. In kontinuierlichen Räumen muss die Politik eine Dichte modellieren, und jede Aktionsdimension kann fein abgestufte Auswirkungen auf die Systemdynamik haben. Das verändert drei Dinge gleichzeitig:

Erstens die Politikausgabe. Statt einer Softmax über endlich viele Aktionen wird eine Dichte benötigt, typischerweise \(\mathcal{N}(\mu_\theta(s), \Sigma_\theta(s))\) oder eine normalisierte Transformation eines Basisrauschens. Zweitens die Lernsignale: Kleine Änderungen in \(a\) können große Änderungen im Return bewirken, wodurch die Geometrie der Zielfunktion rau und lokal schwierig werden kann. Drittens die Exploration: Zufälligkeit muss kontinuierlich „dosiert“ werden, sonst kollabiert die Politik entweder in deterministische Sackgassen oder bleibt zu chaotisch.

Für Quantum Policy Gradient bedeutet das konkret: Ein quantenmechanisches Modell muss nicht nur irgendeine Verteilung erzeugen, sondern eine, die kontinuierliche Aktionen sinnvoll parametrisiert. Das kann über mehrere Wege geschehen, etwa über diskrete Messstrings, die in reelle Aktionen gemappt werden, oder über kontinuierliche Variablen in CV-Quantenmodellen. Unabhängig vom Weg müssen zwei Anforderungen erfüllt sein: Die Politik muss differenzierbar optimierbar sein und sie muss die Aktionsraumgeometrie respektieren, inklusive Grenzen, Skalierungen und Korrelationen.

Die Herausforderung ist somit nicht „Quantum Policy Gradient“ allein, sondern die saubere Kopplung: Zustandskodierung → Quantenschaltkreis → Messstatistik → kontinuierliche Aktion → Environment-Dynamik → Return → Gradientenschätzung. Jeder Übergang kann Varianz oder Verzerrung einführen. Genau diese Kette wird später systematisch formalisiert.

Ziel der Arbeit und zentrale Fragestellungen

Ziel dieser Abhandlung ist es, Quantum Policy Gradient für kontinuierliche Aktionen als kohärentes, mathematisch präzises und algorithmisch umsetzbares Konzept darzustellen. Der Fokus liegt nicht auf Marketingversprechen, sondern auf dem klaren Mechanismus: Wie wird eine quantenparametrisierte Politik definiert, wie wird ihr Gradient geschätzt, und wie wird sie im Continuous-Control-Kontext robust trainiert?

Daraus ergeben sich zentrale Fragestellungen:

  • Repräsentation: Wie lässt sich eine bedingte kontinuierliche Politik \(\pi_\theta(a \mid s)\) durch einen parameterisierten Quantenschaltkreis implementieren, und welche Mapping-Strategien von Messergebnissen zu \(a \in \mathbb{R}^d\) sind sinnvoll?
  • Gradienten: Wie werden Gradienten der Zielfunktion \(J(\theta)\) in einem quantenbasierten Setting zuverlässig geschätzt, und wie unterscheiden sich Parameter-Shift-basierte Gradienten von klassischen Backpropagation- oder Score-Function-Schätzern?
  • Stabilität: Welche Hauptursachen für Instabilität treten auf, wenn kontinuierliche Aktionen mit Quantenmessrauschen und endlicher Samplingrate kombiniert werden, und welche Varianzreduktions- und Regularisierungsstrategien sind effektiv?
  • Nutzenversprechen: Unter welchen Bedingungen ist ein quantenbasierter Policy-Gradient-Ansatz plausibel vorteilhaft in Bezug auf Ausdrucksstärke, Exploration oder Sample-Effizienz, und wie muss Benchmarking gestaltet sein, um das fair zu prüfen?

Diese Fragen strukturieren die folgenden Kapitel und bilden zugleich ein Raster, um existierende Ansätze kritisch einzuordnen.

Aufbau und Struktur der Abhandlung

Die Abhandlung ist so aufgebaut, dass sie von stabilen Grundlagen zu den quantenspezifischen Kernideen führt und dabei kontinuierliche Aktionen als durchgehenden Leitfaden beibehält. Zunächst werden die theoretischen Grundlagen aus Continuous-Control-RL und Policy-Gradient-Theorie präzisiert, damit alle späteren Ableitungen sauber verankert sind. Anschließend werden QRL-Konzepte und die Rolle parameterisierter Quantenschaltkreise als Politikmodelle eingeführt.

Das Kernstück bildet die Ausarbeitung von Quantum Policy Gradient für kontinuierliche Aktionen: Definition der Politik als Messverteilung, Mapping in reelle Aktionen, Gradientenschätzung und Varianzfragen. Darauf aufbauend werden algorithmische Varianten wie Quantum Actor-Critic und mögliche deterministische oder stochastische Formulierungen diskutiert. Abschließend folgen Implementierungs- und Benchmarkingaspekte unter NISQ-Annahmen sowie eine kritische Perspektive auf Anwendungen, Grenzen und offene Forschungsfragen.

Damit ist der Rahmen gesetzt: von der praktischen Problemnotwendigkeit kontinuierlicher Kontrolle über die klassischen Engpässe bis hin zur quantenmechanischen Erweiterung des Policy-Gradient-Paradigmas.

Theoretische Grundlagen

Dieses Kapitel legt das formale Fundament für Quantum Policy Gradient im kontinuierlichen Aktionsraum. Es verbindet klassische Continuous-Control-RL-Theorie mit den notwendigen quantenmechanischen Bausteinen, um später hybride und quantenbasierte Policy-Gradient-Ansätze präzise formulieren zu können. Der Fokus liegt bewusst auf Strukturen, nicht auf Implementierungsdetails, um ein klares mentales Modell der zugrunde liegenden Optimierungsprobleme zu schaffen.

Reinforcement Learning im kontinuierlichen Aktionsraum

Markov Decision Processes (MDPs) mit stetigen Aktionen

Ein Reinforcement-Learning-Problem wird formal als Markov Decision Process beschrieben. Im kontinuierlichen Fall ist der Aktionsraum nicht endlich oder abzählbar, sondern ein Teilraum des reellen Vektorraums. Ein MDP ist definiert als Tupel:

\(\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, r, \gamma)\)

wobei \(\mathcal{S}\) der Zustandsraum, \(\mathcal{A} \subseteq \mathbb{R}^d\) der kontinuierliche Aktionsraum, \(P(s‘ \mid s, a)\) die Übergangsdichte, \(r(s,a)\) die Belohnungsfunktion und \(\gamma \in (0,1)\) der Diskontfaktor ist.

Die Markov-Eigenschaft bedeutet, dass die Dynamik vollständig durch den aktuellen Zustand und die aktuelle Aktion bestimmt ist. Für kontinuierliche Aktionen wird die Übergangsfunktion typischerweise als Dichtefunktion modelliert. Das Ziel des Agenten ist es, eine Politik zu finden, die den erwarteten diskontierten Return maximiert:

\(G_0 = \sum_{t=0}^{T-1} \gamma^t r(s_t, a_t)\)

Der kontinuierliche Aktionsraum macht explizite Maximierung über Aktionen unmöglich. Stattdessen wird die Politik selbst als optimierbare Verteilung über Aktionen betrachtet.

Stochastische Politiken und Wahrscheinlichkeitsdichten

Eine Politik im kontinuierlichen Aktionsraum ist eine bedingte Wahrscheinlichkeitsdichte:

\(\pi_\theta(a \mid s): \mathcal{S} \times \mathcal{A} \rightarrow \mathbb{R}_{\ge 0}\)

mit der Normierungsbedingung:

\(\int_{\mathcal{A}} \pi_\theta(a \mid s), da = 1\)

In der Praxis werden häufig parametrisierte Familien verwendet, etwa Gauß-Politiken:

\(\pi_\theta(a \mid s) = \mathcal{N}(a \mid \mu_\theta(s), \Sigma_\theta(s))\)

Hier erzeugt die Politik sowohl den Mittelwert als auch die Kovarianzstruktur der Aktionen. Die Stochastizität erfüllt zwei Funktionen: Exploration des Aktionsraums und Differenzierbarkeit der Zielfunktion. Gerade im kontinuierlichen Setting ist diese Differenzierbarkeit entscheidend, da diskrete Argmax-Operationen nicht anwendbar sind.

Stochastische Politiken erlauben es zudem, Erwartungen über Trajektorien direkt als Integrale über Wahrscheinlichkeitsdichten zu formulieren, was die Basis für Policy-Gradient-Methoden bildet.

Klassische Policy-Gradient-Methoden (REINFORCE, Actor-Critic, Deterministic Policy Gradient)

Die einfachste Policy-Gradient-Methode ist REINFORCE. Sie nutzt einen unverzerrten Monte-Carlo-Schätzer des Gradienten der Zielfunktion:

\(\nabla_\theta J(\theta) = \mathbb{E}\left[\sum_{t=0}^{T-1} \nabla_\theta \log \pi_\theta(a_t \mid s_t), G_t\right]\)

REINFORCE ist konzeptionell klar, leidet jedoch unter hoher Varianz.

Actor-Critic-Methoden reduzieren diese Varianz, indem sie einen zusätzlichen Funktionsapproximator für den Wert oder den Aktionswert einführen. Der Gradient wird dann typischerweise als:

\(\nabla_\theta J(\theta) = \mathbb{E}\left[\nabla_\theta \log \pi_\theta(a_t \mid s_t), A^\pi(s_t, a_t)\right]\)

formuliert, wobei \(A^\pi(s,a)\) die Advantage-Funktion ist.

Deterministic Policy Gradient erweitert dieses Paradigma, indem die Politik als deterministische Abbildung modelliert wird:

\(a = \mu_\theta(s)\)

Der Gradient der Zielfunktion ergibt sich dann zu:

\(\nabla_\theta J(\theta) = \mathbb{E}{s \sim \rho^\mu}\left[\nabla\theta \mu_\theta(s), \nabla_a Q^\mu(s,a)\big|{a=\mu\theta(s)}\right]\)

Dieser Ansatz ist besonders effizient in hochdimensionalen Aktionsräumen, verliert jedoch die natürliche Exploration stochastischer Politiken.

Policy-Gradient-Theorie

Erwarteter Return und Zielfunktion

Die zentrale Zielfunktion im Policy-Gradient-Framework ist der erwartete Return unter der aktuellen Politik:

\(J(\theta) = \mathbb{E}{\tau \sim \pi\theta}[G_0]\)

wobei eine Trajektorie \(\tau = (s_0, a_0, s_1, a_1, \dots)\) durch die Politik und die Umgebungsdynamik induziert wird. Die Erwartung umfasst sowohl die Stochastizität der Politik als auch der Umwelt.

Die Herausforderung besteht darin, \(\nabla_\theta J(\theta)\) zu berechnen, ohne explizit über alle möglichen Trajektorien integrieren zu müssen.

Policy Gradient Theorem

Das Policy Gradient Theorem liefert eine geschlossene Form für den Gradienten der Zielfunktion:

\(\nabla_\theta J(\theta) = \mathbb{E}{s \sim d^\pi, a \sim \pi\theta}\left[\nabla_\theta \log \pi_\theta(a \mid s), Q^\pi(s,a)\right]\)

Hier bezeichnet \(d^\pi(s)\) die stationäre Zustandsverteilung unter Politik \(\pi\). Der entscheidende Punkt ist, dass der Gradient der Zustandsverteilung selbst nicht explizit berechnet werden muss. Dadurch wird die direkte Optimierung hochdimensionaler Politiken praktikabel.

Dieses Theorem ist der theoretische Dreh- und Angelpunkt sowohl klassischer als auch quantenbasierter Policy-Gradient-Verfahren.

Varianzreduktion (Baselines, Advantage-Funktionen)

Die Varianz der Gradienten ist einer der Hauptengpässe in Policy-Gradient-Methoden. Eine bewährte Technik ist die Einführung einer Baseline \(b(s)\), die den Erwartungswert des Gradienten nicht verändert:

\(\mathbb{E}[\nabla_\theta \log \pi_\theta(a \mid s), b(s)] = 0\)

Der Gradient wird dann zu:

\(\nabla_\theta J(\theta) = \mathbb{E}\left[\nabla_\theta \log \pi_\theta(a \mid s), (Q^\pi(s,a) – b(s))\right]\)

Wählt man \(b(s) = V^\pi(s)\), erhält man die Advantage-Funktion:

\(A^\pi(s,a) = Q^\pi(s,a) – V^\pi(s)\)

Diese Formulierung ist zentral für stabile Lernprozesse und wird auch im Quantum Policy Gradient eine Schlüsselrolle spielen.

Stabilitäts- und Konvergenzaspekte

Policy-Gradient-Verfahren konvergieren unter idealisierten Annahmen zu lokalen Optima der Zielfunktion. In der Praxis beeinflussen Lernraten, Approximationsfehler und stochastisches Rauschen die Stabilität stark. Besonders im kontinuierlichen Aktionsraum ist die Zielfunktion oft nicht konvex, und kleine Gradientenfehler können große Verhaltensänderungen bewirken.

Moderne Algorithmen begrenzen daher die Schrittweite im Policy-Raum oder regularisieren die Updates explizit. Diese Aspekte werden im quantenbasierten Kontext durch zusätzliche Rauschquellen weiter verschärft.

Grundlagen der Quantenmechanik für QRL

Qubits, Superposition und Messung

Ein Qubit ist der elementare Informationsträger der Quantenmechanik. Sein Zustand wird als Vektor im zweidimensionalen Hilbertraum beschrieben:

\(\lvert \psi \rangle = \alpha \lvert 0 \rangle + \beta \lvert 1 \rangle\)

mit \(|\alpha|^2 + |\beta|^2 = 1\). Superposition erlaubt es, mehrere klassische Zustände gleichzeitig zu repräsentieren. Eine Messung projiziert den Zustand probabilistisch auf eine Basis, wobei die Messwahrscheinlichkeiten durch die Betragsquadrate der Amplituden bestimmt sind.

Verschränkung als Ressource für Korrelationen

Mehrere Qubits können verschränkt sein, sodass ihr gemeinsamer Zustand nicht als Produkt einzelner Zustände geschrieben werden kann. Ein Beispiel ist:

\(\lvert \Phi^+ \rangle = \frac{1}{\sqrt{2}}(\lvert 00 \rangle + \lvert 11 \rangle)\)

Verschränkung erzeugt starke, nichtklassische Korrelationen. Für QRL ist dies relevant, da sie Abhängigkeiten zwischen Zustands- oder Aktionskomponenten kompakt modellieren kann.

Parameterisierte Quantenschaltkreise (Variational Quantum Circuits, VQC)

Ein parameterisierter Quantenschaltkreis ist eine Abfolge von Gattern, deren Wirkung von reellen Parametern abhängt:

\(U(\theta) = \prod_k U_k(\theta_k)\)

Der Erwartungswert einer Observablen \(O\) ergibt sich zu:

\(f(\theta) = \langle 0 | U^\dagger(\theta), O, U(\theta) | 0 \rangle\)

Diese Struktur macht VQCs zu natürlichen Funktionsapproximatoren für Politiken oder Wertfunktionen.

Hybrid-quantum-klassische Optimierung

In der Praxis werden VQCs durch klassische Optimierer trainiert. Der Optimierungszyklus besteht aus Schaltkreisausführung, Messung, Schätzung von Erwartungswerten und klassischem Update der Parameter. Diese hybride Schleife ist das operative Herzstück von Quantum Policy Gradient und bestimmt maßgeblich dessen Effizienz und Stabilität.

Quantum Reinforcement Learning: Konzepte und Architekturen

Quantum Reinforcement Learning erweitert das klassische RL-Paradigma um quantenmechanische Repräsentations- und Rechenmodelle. Ziel ist nicht die Ablösung bewährter Lernprinzipien, sondern die Erschließung neuer Politik- und Wertfunktionsklassen sowie alternativer Optimierungs- und Explorationsmechanismen. Dieses Kapitel klärt die begriffliche Abgrenzung, beschreibt zentrale Architekturen und diskutiert, warum quantenbasierte Politiken im Continuous-Control-Kontext besonders interessant sind.

Definition und Abgrenzung von Quantum RL

Quantum-enhanced vs. fully quantum agents

Quantum Reinforcement Learning ist kein einheitliches Konzept, sondern umfasst mehrere Klassen von Ansätzen. Eine grundlegende Unterscheidung besteht zwischen quantum-enhanced und fully quantum agents.

Quantum-enhanced Agenten nutzen Quantenmechanik gezielt als Submodul innerhalb eines ansonsten klassischen RL-Systems. Typischerweise werden parameterisierte Quantenschaltkreise als Politik oder als Bestandteil der Wertfunktion eingesetzt, während Zustandsübergänge, Belohnungsberechnung und Optimierung klassisch erfolgen. Formal bleibt die Zielfunktion identisch:

\(J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left[\sum_{t=0}^{T-1} \gamma^t r(s_t,a_t)\right]\)

Der Unterschied liegt allein in der Struktur von \(\pi_\theta\) oder \(Q_\phi\).

Fully quantum agents gehen einen Schritt weiter und modellieren auch Teile der Umgebung, des Speichers oder der Lernregel quantenmechanisch. In diesem Fall können Zustände als Quantenzustände vorliegen, Aktionen als Quantenoperationen interpretiert werden und Lernsignale über quantenmechanische Messprozesse entstehen. Diese Ansätze sind konzeptionell reizvoll, derzeit jedoch stark durch Hardware- und Kontrollbeschränkungen limitiert.

Für kontinuierliche Aktionen und praxisnahe Anwendungen ist daher der quantum-enhanced Ansatz dominant und bildet den Fokus dieser Arbeit.

Rolle klassischer Optimierer im hybriden Setting

Ein zentrales Merkmal moderner QRL-Architekturen ist ihre hybride Natur. Die Quantenschaltung erzeugt Messstatistiken oder Erwartungswerte, während die eigentliche Parameteroptimierung durch klassische Algorithmen erfolgt. Der typische Optimierungszyklus lautet:

  • Klassische Parameter \(\theta\) definieren einen Quantenschaltkreis \(U(\theta)\).
  • Der Schaltkreis wird ausgeführt und gemessen.
  • Erwartungswerte oder Stichproben werden geschätzt.
  • Ein klassischer Optimierer aktualisiert \(\theta\) anhand eines Gradienten- oder Gradientenersatzsignals.

Mathematisch wird der Gradient häufig als Ableitung eines Erwartungswerts formuliert:

\(\nabla_\theta J(\theta) = \nabla_\theta \mathbb{E}[f_\theta]\)

wobei \(f_\theta\) ein messbasierter Schätzer des Returns oder eines Advantage-Terms ist. Klassische Optimierer bleiben unverzichtbar, da sie robuste Schrittweitensteuerung, Regularisierung und Konvergenzkontrolle ermöglichen. Im Quantum Policy Gradient ist dieses Zusammenspiel besonders kritisch, da Messrauschen und endliche Stichprobenzahlen die Gradientenqualität direkt beeinflussen.

Quantendarstellung von Zuständen, Aktionen und Politiken

Amplituden- und Wahrscheinlichkeitskodierung

Die Art der Kodierung bestimmt maßgeblich die Leistungsfähigkeit eines quantenbasierten RL-Modells. Zwei grundlegende Strategien sind Amplituden- und Wahrscheinlichkeitskodierung.

Bei der Amplitudenkodierung wird ein klassischer Vektor \(x \in \mathbb{R}^n\) in die Amplituden eines Quantenzustands eingebettet:

\(\lvert \psi(x) \rangle = \sum_{i=0}^{n-1} x_i \lvert i \rangle\)

mit der Normierungsbedingung \(\sum_i |x_i|^2 = 1\). Diese Kodierung ist speichereffizient, da \(n\) Werte mit \(\log_2 n\) Qubits repräsentiert werden können, erfordert jedoch aufwendige Vorbereitungsoperationen.

Bei der Wahrscheinlichkeitskodierung wird Information indirekt über Messwahrscheinlichkeiten transportiert. Zustände oder Politiken werden dann nicht als einzelne Zustände, sondern als statistische Eigenschaften vieler Messungen interpretiert. Für Quantum Policy Gradients ist dies besonders relevant, da die Politik selbst als Messverteilung fungiert:

\(\pi_\theta(a \mid s) \approx p_\theta(m \mid s)\)

wobei \(m\) ein Messergebnis ist, das auf eine kontinuierliche Aktion abgebildet wird.

Continuous-variable (CV) vs. qubit-basierte Ansätze

Qubit-basierte Modelle arbeiten mit diskreten Zwei-Niveau-Systemen. Kontinuierliche Aktionen müssen hier indirekt erzeugt werden, etwa durch binäre Kodierung oder durch parametrische Abbildungen von Messstrings auf reelle Werte.

Continuous-variable-Ansätze nutzen dagegen Quantensysteme mit kontinuierlichen Freiheitsgraden, etwa harmonische Oszillatoren. In solchen Modellen sind Observablen wie Ort oder Impuls direkt reellwertig. Formal können Aktionen als Erwartungswerte geschrieben werden:

\(a = \langle \psi | \hat{X} | \psi \rangle\)

CV-Modelle erscheinen für Continuous Control konzeptionell natürlich, sind jedoch hardwareseitig anspruchsvoll. In der aktuellen NISQ-Ära dominieren daher qubit-basierte Hybridansätze, ergänzt durch klassische Post-Processing-Schritte.

Skalierungsfragen und Informationsdichte

Ein oft zitierter Vorteil quantenmechanischer Repräsentationen ist ihre hohe Informationsdichte. Mit \(n\) Qubits lassen sich Zustände in einem Raum der Dimension \(2^n\) darstellen. Diese exponentielle Skalierung betrifft jedoch den Zustandsraum, nicht automatisch die auslesbare Information. Jede Messung liefert nur eine begrenzte Menge klassischer Bits.

Für QRL bedeutet dies: Der Vorteil liegt weniger im direkten Auslesen großer Datenmengen, sondern in der Struktur der erzeugten Verteilungen und Korrelationen. Die Herausforderung besteht darin, diese Struktur durch geeignete Observablen, Kodierungen und Optimierungsstrategien nutzbar zu machen, ohne dass der Messaufwand exponentiell wächst.

Vorteile quantenbasierter Politiken

Exponentielle Zustandsrepräsentation

Quantenbasierte Politiken operieren implizit in hochdimensionalen Hilberträumen. Dadurch können sie komplexe Entscheidungslandschaften mit relativ wenigen Parametern modellieren. Für kontinuierliche Aktionen ist dies besonders attraktiv, da Korrelationen zwischen Aktionsdimensionen nicht explizit konstruiert, sondern durch Verschränkung emergent erzeugt werden können.

Nichtklassische Korrelationen in Policy-Strukturen

Verschränkung erlaubt Korrelationen, die sich nicht als Produkt unabhängiger Komponenten darstellen lassen. In einer Politik bedeutet dies, dass Aktionsdimensionen oder latente Entscheidungsvariablen stark gekoppelt sein können, ohne dass separate Kopplungstermen definiert werden müssen. Formal äußert sich dies in nicht-faktorisierbaren Verteilungen:

\(\pi(a_1, a_2 \mid s) \neq \pi(a_1 \mid s),\pi(a_2 \mid s)\)

Solche Strukturen können in komplexen Steuerungsaufgaben natürlicher und kompakter sein als klassische Faktorisierungen.

Potenzieller Quantenvorteil bei Exploration

Ein weiterer möglicher Vorteil liegt in der Exploration. Quantenmechanische Zufälligkeit und Interferenz können Verteilungen erzeugen, die sich qualitativ von klassischem Rauschen unterscheiden. Im besten Fall führt dies zu einer effizienteren Abdeckung relevanter Aktionsregionen, ohne die Varianz unkontrolliert zu erhöhen.

Ob dieser Effekt zu einem praktischen Quantenvorteil führt, ist eine empirische Frage. Klar ist jedoch: Quantum Policy Gradients eröffnen einen neuen Designraum für Exploration im kontinuierlichen Aktionsraum, der über klassische Noise-Modelle hinausgeht.

Quantum Policy Gradient für kontinuierliche Aktionen (Kernkapitel)

Dieses Kapitel bildet das theoretische und konzeptionelle Zentrum der Abhandlung. Ziel ist es, Quantum Policy Gradient für kontinuierliche Aktionen formal zu definieren, den Gradienten präzise abzuleiten und die praktischen Konsequenzen von Quantenmessungen, Rauschen und Schaltkreistiefe systematisch zu analysieren. Der Fokus liegt dabei auf hybriden, realistisch implementierbaren Ansätzen, die unter NISQ-Bedingungen operieren können.

Formale Definition einer quantenparametrisierten Politik

Politik als Messverteilung eines Quantenschaltkreises

Im klassischen Reinforcement Learning ist eine Politik eine parametrisierte Wahrscheinlichkeitsverteilung über Aktionen. Im Quantum Policy Gradient wird diese Idee verallgemeinert: Die Politik wird als Messverteilung eines parameterisierten Quantenschaltkreises definiert.

Sei \(U_\theta\) ein Quantenschaltkreis mit reellwertigen Parametern \(\theta \in \mathbb{R}^p\), der auf einen Referenzzustand \(\lvert 0 \rangle\) wirkt. Der resultierende Quantenzustand lautet:

\(\lvert \psi_\theta(s) \rangle = U_\theta(s), \lvert 0 \rangle\)

Die explizite Abhängigkeit vom Zustand \(s\) kann über eine Zustandskodierung realisiert werden, etwa durch datenabhängige Rotationen oder Einbettungsgatter. Eine Messung in einer festen Basis liefert ein Messergebnis \(m\) mit Wahrscheinlichkeit:

\(p_\theta(m \mid s) = |\langle m \mid \psi_\theta(s) \rangle|^2\)

Diese Verteilung definiert die rohe quantenmechanische Politik. Der entscheidende Schritt besteht darin, diese diskrete Messverteilung in eine kontinuierliche Aktionsverteilung zu überführen.

Parameterraum und Steuerung kontinuierlicher Aktionen

Kontinuierliche Aktionen \(a \in \mathbb{R}^d\) werden typischerweise über eine Abbildung aus dem Messraum erzeugt. Formal wird eine Abbildungsfunktion definiert:

\(a = f(m, s)\)

wobei \(f\) deterministisch oder stochastisch sein kann. Die effektive Politik ergibt sich dann als induzierte Verteilung:

\(\pi_\theta(a \mid s) = \sum_m p_\theta(m \mid s), \delta(a – f(m,s))\)

In der Praxis wird \(\delta\) durch Glättungen oder kontinuierliche Transformationen ersetzt, um Differenzierbarkeit sicherzustellen.

Der Parameterraum \(\theta\) steuert die Form der Politik indirekt über Interferenz- und Verschränkungseffekte im Schaltkreis. Anders als bei neuronalen Netzen gibt es keine expliziten Gewichte pro Aktionsdimension. Stattdessen entstehen Korrelationen global über den Schaltkreis. Diese globale Steuerung ist zugleich Stärke und Herausforderung: Kleine Parameteränderungen können großskalige Veränderungen der Aktionsverteilung bewirken.

Ableitung des Quantum Policy Gradient

Erwartungswerte als Zielfunktion

Die Zielfunktion im Quantum Policy Gradient bleibt formal identisch zur klassischen Definition. Der erwartete Return lautet:

\(J(\theta) = \mathbb{E}{\tau \sim \pi\theta}\left[\sum_{t=0}^{T-1} \gamma^t r(s_t, a_t)\right]\)

Der Unterschied liegt in der Struktur von \(\pi_\theta\), die nun durch Messwahrscheinlichkeiten definiert ist. Für einen einzelnen Zeitschritt kann der Erwartungswert der Belohnung geschrieben werden als:

\(\mathbb{E}[r(s,a)] = \sum_m p_\theta(m \mid s), r(s, f(m,s))\)

Damit wird die Zielfunktion explizit als Erwartungswert über Quantenmessungen formuliert. Diese Darstellung ist entscheidend, da Gradienten von Erwartungswerten in der Quantenmechanik strukturiert zugänglich sind.

Gradientenschätzung mittels Parameter-Shift-Regel

Die Ableitung von \(J(\theta)\) nach einem Schaltkreisparameter \(\theta_k\) kann nicht direkt über klassische Backpropagation erfolgen. Stattdessen wird die Struktur der verwendeten Quantengatter ausgenutzt. Für viele rotationsbasierte Gatter gilt eine Parameter-Shift-Identität der Form:

\(\frac{\partial}{\partial \theta_k} \langle O \rangle_\theta = \frac{1}{2}\left(\langle O \rangle_{\theta_k + \frac{\pi}{2}} – \langle O \rangle_{\theta_k – \frac{\pi}{2}}\right)\)

wobei \(\langle O \rangle_\theta\) der Erwartungswert einer Observablen \(O\) ist. Überträgt man dies auf die Zielfunktion, ergibt sich:

\(\nabla_{\theta_k} J(\theta) \approx \frac{1}{2}\left(J(\theta_k + \tfrac{\pi}{2}) – J(\theta_k – \tfrac{\pi}{2})\right)\)

Diese Schätzung ist unverzerrt, erfordert jedoch zusätzliche Schaltkreisausführungen. In einem Policy-Gradient-Kontext wird der Return oder ein Advantage-Term als beobachtbare Größe interpretiert, deren Erwartungswert optimiert wird.

Vergleich zu klassischen Stochastic-Gradient-Methoden

Klassische Policy Gradients basieren auf der Score-Function-Identität:

\(\nabla_\theta J(\theta) = \mathbb{E}\left[\nabla_\theta \log \pi_\theta(a \mid s), A(s,a)\right]\)

Im Quantum Policy Gradient existiert kein expliziter Ausdruck für \(\nabla_\theta \log \pi_\theta\) im klassischen Sinne. Stattdessen wird der Gradient der Erwartungswerte direkt geschätzt. Conceptuell entspricht dies eher einer Ableitung der gesamten Politiklandschaft als einer lokalen Log-Likelihood-Anpassung.

Ein Vorteil dieses Ansatzes ist die klare mathematische Struktur. Ein Nachteil ist der erhöhte Messaufwand und die Sensitivität gegenüber Rauschen. Während klassische Gradienten mit zunehmender Batchgröße glatter werden, bleibt im Quantenfall ein irreduzibles Messrauschen bestehen.

Kontinuierliche Aktionen aus Quantenmessungen

Sampling-basierte Aktionsgenerierung

Der direkteste Ansatz zur Aktionsgenerierung besteht darin, Messungen auszuführen und diese als Zufallsquelle zu nutzen. Ein einfacher Mapping-Mechanismus ist:

\(a = g(m)\)

wobei \(g\) eine skalierende oder affine Abbildung ist. Wiederholte Messungen erzeugen dann eine empirische Verteilung über Aktionen. Diese Methode ist konzeptionell einfach, leidet jedoch unter hoher Varianz, da jede Aktion auf einer endlichen Anzahl von Messungen basiert.

Gaussian Policies aus Quantenamplituden

Ein strukturierterer Ansatz besteht darin, Parameter einer Gauß-Politik aus quantenmechanischen Erwartungswerten zu extrahieren. Beispielsweise können Mittelwert und Varianz definiert werden als:

\(\mu_\theta(s) = \langle \psi_\theta(s) | \hat{O}\mu | \psi\theta(s) \rangle\)

\(\sigma_\theta^2(s) = \langle \psi_\theta(s) | \hat{O}\sigma | \psi\theta(s) \rangle\)

Die resultierende Politik lautet dann:

\(\pi_\theta(a \mid s) = \mathcal{N}(a \mid \mu_\theta(s), \sigma_\theta^2(s))\)

In diesem Fall fungiert der Quantenschaltkreis als nichtlinearer Feature-Generator für die Parameter der kontinuierlichen Verteilung. Dieser Ansatz reduziert Varianz und erleichtert die Integration in bestehende Continuous-Control-Frameworks.

Hybridansätze: Quantum Policy + klassischer Output-Layer

Ein besonders robuster Ansatz ist die Kombination einer quantenbasierten Politikrepräsentation mit einem klassischen Ausgabelayer. Der Quantenschaltkreis erzeugt einen Vektor von Erwartungswerten:

\(z_\theta(s) = ( \langle O_1 \rangle, \dots, \langle O_k \rangle )\)

Ein klassisches Modell transformiert diesen Vektor anschließend in kontinuierliche Aktionen:

\(a = h_\phi(z_\theta(s))\)

Diese Architektur trennt Repräsentation und Aktionsskalierung. Sie erlaubt es, die Vorteile quantenmechanischer Feature-Erzeugung zu nutzen, während bewährte klassische Techniken für Stabilität und Constraints eingesetzt werden.

Varianz, Rauschen und Barren Plateaus

Shot Noise und Messstatistik

Quantenmessungen sind intrinsisch stochastisch. Bei endlicher Anzahl von Schüssen \(N\) skaliert die Varianz eines Erwartungswertschätzers typischerweise wie:

\(\mathrm{Var}(\hat{O}) \propto \frac{1}{N}\)

Im Policy-Gradient-Kontext addiert sich dieses Messrauschen zur ohnehin vorhandenen Varianz durch Trajektoriensampling. Dies kann zu extrem verrauschten Gradienten führen, insbesondere bei kontinuierlichen Aktionen mit empfindlicher Dynamik.

Einfluss tiefer Schaltkreise

Tiefe Quantenschaltkreise können zu sogenannten Barren Plateaus führen. In solchen Regionen des Parameterraums verschwindet der Gradient im Mittel:

\(\mathbb{E}[\nabla_\theta J(\theta)] \approx 0\)

Gleichzeitig bleibt die Varianz nicht notwendigerweise klein, was das Lernen praktisch unmöglich macht. Dieses Problem ist besonders relevant für globale Kostenfunktionen wie den erwarteten Return.

Strategien zur Varianzreduktion im Quanten-Policy-Gradient

Mehrere Strategien werden eingesetzt, um Varianz und Rauschen zu kontrollieren. Dazu gehören flache, problemstrukturierte Schaltkreise, problemabhängige Initialisierung der Parameter und die Kombination mit klassischen Baselines:

\(\nabla_\theta J(\theta) \approx \nabla_\theta \mathbb{E}[(G_t – b(s_t))]\)

Auch hybride Architekturen mit klassischen Critics wirken stabilisierend, da sie die Gradienten auf strukturiertere Lernsignale projizieren. Insgesamt zeigt sich: Quantum Policy Gradient für kontinuierliche Aktionen ist kein einfacher Ersatz klassischer Methoden, sondern ein sensibles Zusammenspiel aus Quantenrepräsentation, statistischer Schätzung und klassischer Optimierung.

Quantum Continuous-Control RL: Algorithmische Ausprägungen

Nachdem das Grundprinzip des Quantum Policy Gradient für kontinuierliche Aktionen etabliert wurde, widmet sich dieses Kapitel konkreten algorithmischen Ausprägungen. Im Mittelpunkt stehen Actor-Critic-Architekturen, deterministische und stochastische Varianten quantenbasierter Politiken sowie ein systematischer Vergleich mit etablierten klassischen Continuous-Control-Algorithmen. Ziel ist es, die Rolle quantenmechanischer Komponenten im Gesamtalgorithmus präzise einzuordnen und ihre praktischen Auswirkungen auf Stabilität, Effizienz und Skalierbarkeit zu bewerten.

Quantum Actor-Critic für kontinuierliche Aktionen

Trennung von Policy (Actor) und Value-Funktion (Critic)

Actor-Critic-Methoden trennen explizit die Optimierung der Politik von der Schätzung der Wertfunktion. Diese Trennung ist im kontinuierlichen Aktionsraum besonders wichtig, da direkte Monte-Carlo-Schätzungen des Returns hohe Varianz aufweisen. Formal besteht die Architektur aus zwei Funktionsapproximatoren:

\(\pi_\theta(a \mid s)\) für den Actor
\(V_\phi(s) \quad \text{oder} \quad Q_\phi(s,a)\) für den Critic

Der Critic liefert ein Lernsignal in Form eines Advantage-Terms:

\(A^\pi(s_t, a_t) = Q_\phi(s_t, a_t) – V_\phi(s_t)\)

Dieses Signal reduziert die Varianz der Gradienten und erlaubt häufig stabilere Policy-Updates. Im Quantum Actor-Critic wird diese klassische Struktur beibehalten, jedoch mit einer veränderten Repräsentation der Politik.

Quantenbasierter Actor vs. klassischer Critic

In der derzeit dominierenden Architektur wird der Actor durch einen parameterisierten Quantenschaltkreis realisiert, während der Critic klassisch bleibt. Der quantenbasierte Actor erzeugt Messverteilungen oder Erwartungswerte, aus denen kontinuierliche Aktionen abgeleitet werden:

\(a_t \sim \pi_\theta(\cdot \mid s_t)\)

Der Critic approximiert den Wert der resultierenden Zustands-Aktions-Paare:

\(Q_\phi(s_t, a_t) \approx \mathbb{E}[G_t \mid s_t, a_t]\)

Diese asymmetrische Aufteilung ist kein Zufall. Der Critic muss häufig aktualisiert werden, stabile Gradienten liefern und auf großen Datensätzen trainiert werden. Klassische neuronale Netze sind hierfür aktuell deutlich robuster und effizienter als quantenbasierte Modelle. Der Actor hingegen profitiert stärker von alternativen Repräsentationen und Explorationsmechanismen, sodass hier der Einsatz eines Quantenschaltkreises strategisch sinnvoll ist.

Stabilitätsvorteile hybrider Architekturen

Hybride Quantum Actor-Critic-Architekturen kombinieren zwei komplementäre Stärken. Der klassische Critic wirkt als Stabilitätsanker im Lernprozess. Er glättet das Lernsignal, filtert Rauschen aus Trajektorien und kompensiert teilweise die Messvarianz des quantenbasierten Actors.

Formal ergibt sich der Actor-Gradient zu:

\(\nabla_\theta J(\theta) = \mathbb{E}\left[\nabla_\theta \log \pi_\theta(a_t \mid s_t), A^\pi(s_t, a_t)\right]\)

wobei \(\nabla_\theta \log \pi_\theta\) implizit über die Parameter-Shift-Regel oder äquivalente quantenspezifische Gradientenschätzer realisiert wird. In der Praxis zeigt sich, dass diese Architektur deutlich stabiler ist als reine Policy-Gradient-Varianten ohne Critic, insbesondere bei komplexer kontinuierlicher Dynamik.

Deterministic vs. Stochastic Quantum Policies

Quantenanaloga deterministischer Policy Gradients

Deterministische Policy-Gradient-Methoden definieren die Politik als direkte Abbildung:

\(a = \mu_\theta(s)\)

Im quantenbasierten Kontext kann eine deterministische Politik durch Erwartungswerte definiert werden. Ein typisches Beispiel ist:

\(a = \langle \psi_\theta(s) | \hat{O} | \psi_\theta(s) \rangle\)

Hier fungiert der Quantenschaltkreis als nichtlinearer Funktionsgenerator, dessen Ausgabe ein reeller Aktionswert ist. Der Gradient ergibt sich dann über die Ableitung des Erwartungswerts nach \(\theta\), erneut mittels Parameter-Shift-Identitäten.

Dieser Ansatz reduziert die Varianz erheblich, da keine stochastische Aktionsauswahl erfolgt. Gleichzeitig geht jedoch die inhärente Exploration stochastischer Politiken verloren, was in frühen Lernphasen oder nichtstationären Umgebungen problematisch sein kann.

Exploration durch quantenmechanische Zufälligkeit

Stochastische Quantum Policies nutzen die intrinsische Zufälligkeit der Quantenmessung als Explorationsmechanismus. Aktionen werden direkt aus der Messverteilung oder aus einer davon abgeleiteten kontinuierlichen Verteilung gesampelt:

\(a_t \sim \pi_\theta(a \mid s_t)\)

Im Gegensatz zu klassischem additivem Rauschen ist diese Zufälligkeit strukturell an den Schaltkreis gekoppelt. Interferenz kann bestimmte Aktionsregionen verstärken oder unterdrücken, ohne dass explizite Noise-Parameter definiert werden müssen.

Ein hybrider Ansatz kombiniert deterministische Erwartungswerte mit zusätzlicher quantenmechanischer Stochastizität, etwa durch Sampling um den Erwartungswert herum. Damit lässt sich ein kontrollierbarer Trade-off zwischen Stabilität und Exploration realisieren.

Vergleich mit klassischen Continuous-Control-Algorithmen

DDPG, TD3, SAC vs. Quantum Policy Gradient

Klassische Continuous-Control-Algorithmen wie DDPG, TD3 und SAC unterscheiden sich primär in der Behandlung von Exploration, Bias und Varianz. DDPG nutzt deterministische Politiken mit externem Rauschen, TD3 adressiert Overestimation-Bias durch doppelte Critics, und SAC maximiert zusätzlich eine Entropiekomponente.

Quantum Policy Gradient kann als Erweiterung dieser Familie verstanden werden. Er ersetzt nicht zwingend die algorithmische Struktur, sondern die interne Repräsentation der Politik. So kann ein Quantum Actor-Critic konzeptionell als quantenbasierte Variante von DDPG oder SAC interpretiert werden, abhängig davon, ob deterministische oder stochastische Politiken verwendet werden.

Rechenkomplexität und Sample-Effizienz

Ein kritischer Vergleichspunkt ist die Rechenkomplexität. Quantenbasierte Politiken erfordern mehrere Schaltkreisausführungen pro Gradientenschätzung. Für jeden Parameter-Shift werden mindestens zwei Auswertungen benötigt:

\(\mathcal{O}(2p \cdot N)\)

wobei \(p\) die Anzahl der Parameter und \(N\) die Anzahl der Messungen ist. Im Vergleich dazu skalieren klassische neuronale Netze effizient auf moderner Hardware.

Die potenzielle Stärke quantenbasierter Ansätze liegt daher weniger in roher Rechengeschwindigkeit als in Sample-Effizienz. Wenn eine quantenbasierte Politik mit weniger Interaktionen bessere Strategien lernt, kann der höhere Rechenaufwand gerechtfertigt sein. Ob dies der Fall ist, hängt stark vom Problem und der Schaltkreisarchitektur ab.

Theoretischer und praktischer Quantenvorteil

Theoretisch entsteht ein möglicher Quantenvorteil aus der Kombination von hoher Repräsentationskraft und nichtklassischer Korrelation. Praktisch ist dieser Vorteil jedoch nicht garantiert. Rauschen, begrenzte Schaltkreistiefe und Messaufwand können den Effekt neutralisieren oder sogar umkehren.

Aus heutiger Sicht ist Quantum Policy Gradient im Continuous-Control-Bereich vor allem ein Forschungsinstrument: Er erlaubt es, neue Politikklassen zu untersuchen und die Grenzen klassischer Approximatoren auszuloten. Ein belastbarer praktischer Quantenvorteil wird erst dann vorliegen, wenn quantenbasierte Agenten in realistischen Benchmarks konsistent bessere Sample-Effizienz oder Robustheit zeigen als ihre klassischen Gegenstücke.

Implementierung und experimentelle Aspekte

Die praktische Umsetzung von Quantum Policy Gradient für kontinuierliche Aktionen stellt besondere Anforderungen an Hardware, Software und experimentelles Design. Während die theoretischen Konzepte klar formuliert werden können, entscheidet die Implementierung darüber, ob ein quantenbasierter Ansatz tatsächlich lernfähig, stabil und vergleichbar mit klassischen Methoden ist. Dieses Kapitel beleuchtet die Rahmenbedingungen heutiger Quantenhardware, den Aufbau einer typischen Trainingspipeline und die Auswahl geeigneter Benchmark-Umgebungen.

NISQ-Hardware und Simulationsumgebungen

Beschränkungen heutiger Quantenhardware

Aktuelle Quantenprozessoren befinden sich in der sogenannten NISQ-Ära. Sie verfügen über eine begrenzte Anzahl fehleranfälliger Qubits, eingeschränkte Schaltkreistiefe und nicht vernachlässigbares Messrauschen. Diese Einschränkungen wirken sich direkt auf Quantum Policy Gradient aus.

Die maximale Schaltkreistiefe ist oft stark limitiert, da Gate-Fehler mit der Tiefe akkumulieren. Formal bedeutet dies, dass die tatsächlich implementierbare unitäre Transformation \(U_\theta\) nur eine grobe Approximation der gewünschten Politik darstellt. Gleichzeitig erhöht jede Messung die statistische Unsicherheit der geschätzten Erwartungswerte. Für einen Erwartungswert \(\langle O \rangle\) gilt näherungsweise:

\(\mathrm{Var}(\hat{O}) \propto \frac{1}{N} + \epsilon_{\text{hw}}\)

wobei \(N\) die Anzahl der Schüsse und \(\epsilon_{\text{hw}}\) hardwareinduziertes Rauschen bezeichnet.

Diese Faktoren erzwingen flache Schaltkreisarchitekturen, sorgfältige Parametrisierung und eine bewusste Balance zwischen Messaufwand und Lernstabilität. Für Continuous-Control-Probleme bedeutet dies, dass Quantenschaltkreise primär als kompakte Feature-Generatoren und nicht als tief verschachtelte Funktionsapproximatoren eingesetzt werden.

Quanten-Simulatoren für Continuous-Control-Experimente

Aufgrund der Hardwarebeschränkungen werden die meisten QRL-Experimente derzeit auf Quanten-Simulatoren durchgeführt. Diese erlauben die exakte oder näherungsweise Simulation von Quantenschaltkreisen auf klassischer Hardware.

Simulatoren bieten mehrere Vorteile: kontrollierbares Rauschen, reproduzierbare Experimente und die Möglichkeit, systematisch die Auswirkungen von Schaltkreistiefe, Qubit-Anzahl und Messstatistik zu untersuchen. Für Quantum Policy Gradient ist dies besonders wichtig, da nur so zwischen algorithmischen Effekten und Hardwareartefakten unterschieden werden kann.

Gleichzeitig steigt die Rechenkomplexität der Simulation exponentiell mit der Qubit-Zahl. Praktisch beschränkt dies realistische Experimente auf wenige Qubits, was die Skalierungseigenschaften quantenbasierter Politiken nur indirekt untersuchen lässt.

Trainingspipeline

Datenfluss zwischen klassischem und quantenmechanischem Teil

Eine typische Trainingspipeline für Quantum Continuous-Control RL ist hybrid aufgebaut. Der Datenfluss lässt sich wie folgt beschreiben:

  • Der klassische Teil des Agenten beobachtet den Zustand \(s_t\) der Umgebung.
  • Der Zustand wird in Parameter oder Eingabegatter eines Quantenschaltkreises kodiert.
  • Der Quantenschaltkreis wird ausgeführt und gemessen.
  • Aus den Messergebnissen werden Erwartungswerte oder Stichproben extrahiert.
  • Ein klassisches Modul erzeugt daraus eine kontinuierliche Aktion \(a_t\).
  • Die Umgebung liefert den nächsten Zustand und die Belohnung.

Dieser Zyklus wird für jede Zeitschrittinteraktion durchlaufen. Für die Gradientenberechnung wird der Quantenschaltkreis zusätzlich mit verschobenen Parametern ausgeführt, um Parameter-Shift-Schätzer zu berechnen.

Optimierer, Lernraten und Regularisierung

Die Wahl des klassischen Optimierers ist entscheidend für die Stabilität des Trainings. Aufgrund des hohen Rauschpegels in den Gradienten werden oft adaptive Verfahren mit gedämpften Updates bevorzugt. Die Lernrate \(\alpha\) muss klein genug sein, um Messrauschen nicht zu verstärken:

\(\theta_{k+1} = \theta_k + \alpha , \hat{\nabla}_\theta J(\theta_k)\)

Zusätzlich werden Regularisierungstechniken eingesetzt, etwa Parameter-Normen, frühes Stoppen oder explizite Glättung der Aktionsausgabe. In Actor-Critic-Architekturen übernimmt der klassische Critic eine weitere Regularisierungsfunktion, indem er strukturierte Advantage-Signale liefert.

Benchmark-Umgebungen

Klassische Continuous-Control-Tasks

Zur Bewertung quantenbasierter Continuous-Control-Algorithmen werden meist etablierte RL-Umgebungen verwendet. Typische Aufgaben sind einfache physikalische Systeme wie das invertierte Pendel oder mehrgelenkige Roboterarme. Diese Umgebungen besitzen kontinuierliche Zustands- und Aktionsräume und sind ausreichend komplex, um Stabilitäts- und Explorationsprobleme sichtbar zu machen.

Die Wahl einfacher Aufgaben ist kein Zeichen von Schwäche, sondern notwendig, um die zusätzlichen Freiheitsgrade quantenbasierter Politiken isoliert zu untersuchen. Komplexe Hochdimensionalität würde sonst Effekte überlagern.

Kriterien zur fairen Bewertung quantenbasierter Ansätze

Ein fairer Vergleich zwischen quantenbasierten und klassischen Algorithmen erfordert klare Kriterien. Zentrale Metriken sind der kumulative Return, die Lernkurve über Interaktionsschritte und die Varianz zwischen Trainingsläufen. Besonders wichtig ist die Sample-Effizienz, also die Anzahl der Umgebungsinteraktionen bis zum Erreichen eines Zielniveaus:

\(\text{Sample-Effizienz} = \frac{\text{Return}}{\text{Anzahl der Interaktionen}}\)

Darüber hinaus sollten Rechenkosten, Messaufwand und Robustheit gegenüber Rauschen dokumentiert werden. Nur durch solche kontrollierten Experimente lässt sich beurteilen, ob Quantum Policy Gradient im Continuous-Control-Bereich mehr ist als ein konzeptioneller Prototyp.

Anwendungen und Zukunftsperspektiven

Quantum Policy Gradient für kontinuierliche Aktionen ist derzeit primär ein Forschungsansatz. Sein eigentliches Potenzial entfaltet sich jedoch in Anwendungsfeldern, in denen klassische Continuous-Control-Methoden an strukturelle Grenzen stoßen oder in denen neue Formen von Exploration, Korrelation und Repräsentation einen messbaren Vorteil versprechen. Dieses Kapitel skizziert zentrale Anwendungsbereiche, offene Forschungsfragen und eine langfristige Vision für quantenbasierte Lernagenten.

Potenzielle Anwendungsfelder

Robotik und autonome Systeme

In der Robotik sind kontinuierliche Aktionen der Normalfall. Drehmomente, Geschwindigkeiten und Trajektorienparameter liegen in reellen Räumen und sind oft stark miteinander gekoppelt. Quantum Policy Gradient kann hier als kompakte Politikrepräsentation dienen, die komplexe Korrelationen zwischen Aktionsdimensionen ohne explizite Kopplungsterme modelliert.

Besonders relevant ist dies für hochgradig redundante Systeme, bei denen viele Aktionskombinationen ähnliche Effekte haben. Eine quantenbasierte Politik könnte solche Symmetrien effizient erfassen und dadurch stabilere oder robustere Steuerstrategien entwickeln, insbesondere in frühen Lernphasen mit begrenzten Daten.

Quantenkontrolle physikalischer Systeme

Ein naheliegendes Anwendungsfeld ist die Kontrolle quantenmechanischer Systeme selbst. In der Quantenkontrolle werden kontinuierliche Steuerparameter wie Pulsamplituden, Phasen oder Zeitprofile optimiert, um bestimmte Zielzustände oder Dynamiken zu erreichen.

Hier ist die Verbindung besonders eng: Der zu steuernde Prozess ist quantenmechanisch, und der lernende Agent nutzt ebenfalls quantenmechanische Repräsentationen. Die Politik kann direkt als Steuersequenz interpretiert werden, etwa als kontinuierliche Parameterfunktion \(u(t)\). Quantum Policy Gradient bietet hier ein natürliches Framework, um Steuerstrategien als Erwartungswerte oder Messverteilungen zu optimieren.

Finanzmärkte und kontinuierliche Entscheidungsprozesse

Auch in der Finanzwelt treten kontinuierliche Entscheidungen auf, etwa bei Portfolio-Gewichtungen, Risikosteuerung oder Ordergrößen. Diese Probleme sind hochdimensional, verrauscht und oft durch komplexe Abhängigkeiten geprägt.

Quantenbasierte Politiken könnten hier als alternative Feature-Generatoren dienen, die nichtlineare Korrelationen zwischen Marktindikatoren kompakt abbilden. Wichtig ist jedoch, dass in solchen Anwendungen die praktische Umsetzbarkeit und Stabilität klar über theoretischer Eleganz stehen.

Offene Forschungsfragen

Skalierung auf große Aktionsräume

Eine der zentralen offenen Fragen ist die Skalierung. Während kleine kontinuierliche Aktionsräume gut handhabbar sind, ist unklar, wie sich Quantum Policy Gradient bei Dutzenden oder Hunderten von Aktionsdimensionen verhält. Die Anzahl der benötigten Qubits, Schaltkreistiefen und Messungen wächst schnell, und effiziente Faktorisierungen oder modulare Architekturen sind bisher kaum erforscht.

Fehlertoleranz und Noise-Resilienz

Rauschen ist nicht nur ein Implementierungsdetail, sondern ein strukturelles Problem. Quantum Policy Gradient muss lernen, trotz fehlerhafter Gates und statistischer Messunsicherheit stabile Gradienten zu erzeugen. Zukünftige Ansätze werden Noise-Resilienz explizit in die Architektur integrieren müssen, etwa durch robuste Observablen oder regularisierte Zielfunktionen.

Theoretische Nachweise eines Quantenvorteils

Ein belastbarer Quantenvorteil erfordert mehr als empirische Fallstudien. Es braucht theoretische Resultate, die zeigen, dass bestimmte Klassen kontinuierlicher Politiken durch quantenmechanische Modelle effizienter repräsentiert oder optimiert werden können als durch klassische Ansätze. Solche Nachweise stehen noch am Anfang.

Langfristige Vision

Langfristig könnte sich Quantum Policy Gradient von einem hybriden Experimentierfeld zu einem integralen Bestandteil neuer Lernparadigmen entwickeln. Mit fortschreitender Hardware könnten Agenten entstehen, deren Wahrnehmung, Politik und Lernregel vollständig quantenmechanisch implementiert sind.

In dieser Vision ist Quantum Policy Gradient nicht nur eine Methode, sondern ein konzeptioneller Baustein: ein Übergang von klassischer Funktionsapproximation zu lernenden quantenmechanischen Dynamiken, die kontinuierliche Entscheidungen auf fundamental neue Weise modellieren.

Fazit

Quantum Policy Gradient für kontinuierliche Aktionen stellt eine konsequente Erweiterung des klassischen Policy-Gradient-Paradigmas in den quantenmechanischen Raum dar. Ausgangspunkt dieser Abhandlung war die Beobachtung, dass kontinuierliche Aktionsräume zwar den natürlichen Rahmen vieler realer Entscheidungsprobleme bilden, klassische Policy-Gradient-Methoden jedoch häufig unter hoher Varianz, instabiler Optimierung und eingeschränkter Repräsentationskraft leiden. Quantenmechanische Politiken eröffnen hier einen alternativen Modellraum, in dem Wahrscheinlichkeitsverteilungen durch Messprozesse erzeugt und über globale, nichtklassische Korrelationen gesteuert werden.

Zentral war die formale Definition einer quantenparametrisierten Politik als Messverteilung eines Quantenschaltkreises und die Ableitung des zugehörigen Policy Gradients über Erwartungswerte und Parameter-Shift-Regeln. Dabei wurde deutlich, dass Quantum Policy Gradient konzeptionell näher an der Optimierung von Observablen liegt als an klassischer Log-Likelihood-Maximierung. Kontinuierliche Aktionen können entweder direkt aus Messstatistiken, über quantenbasierte Gauß-Parameter oder über hybride Architekturen mit klassischen Output-Layern erzeugt werden. Besonders Actor-Critic-Strukturen erweisen sich als tragfähig, da sie die inhärente Messvarianz quantenbasierter Politiken effektiv abfedern.

Im Kontext des Quantum Reinforcement Learning lässt sich Quantum Policy Gradient als Brückentechnologie einordnen. Er verbindet klassische Continuous-Control-Algorithmen mit quantenmechanischer Repräsentationskraft und ist derzeit klar im Bereich quantum-enhanced learning verortet. Ein vollwertiger Ersatz klassischer Methoden ist er nicht, wohl aber ein Instrument zur Erforschung neuer Politikklassen, Explorationsmechanismen und Lerngeometrien.

Eine kritische Würdigung zeigt, dass der aktuelle Forschungsstand noch weit von einem gesicherten praktischen Quantenvorteil entfernt ist. NISQ-Beschränkungen, Messrauschen, Barren Plateaus und hohe Rechenkosten begrenzen die Skalierbarkeit. Viele Ergebnisse beruhen auf kleinen, stark kontrollierten Benchmarks.

Der Ausblick ist dennoch klar: Fortschritte in Hardware, Fehlertoleranz und problemstrukturierter Schaltkreisgestaltung werden den Handlungsspielraum erweitern. Parallel dazu sind theoretische Arbeiten nötig, die klare Bedingungen für einen Quantenvorteil formulieren. In diesem Zusammenspiel könnte Quantum Policy Gradient langfristig zu einem festen Baustein einer neuen Generation kontinuierlich lernender Systeme werden.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Das folgende Literaturverzeichnis ist thematisch kuratiert und deckt klassische Policy-Gradient-Theorie, Continuous-Control-RL, Quantum Reinforcement Learning, variationale Quantenschaltkreise sowie Gradientenmethoden auf Quantenhardware ab. Es dient sowohl als wissenschaftliche Grundlage als auch als praktischer Einstiegspunkt für weiterführende Forschung zu Quantum Policy Gradient für kontinuierliche Aktionen.

Wissenschaftliche Zeitschriften und Artikel

Klassisches Reinforcement Learning & Policy Gradients (Continuous Control)

  • Sutton, R. S., McAllester, D., Singh, S., Mansour, Y.
    Policy Gradient Methods for Reinforcement Learning with Function Approximation
    Advances in Neural Information Processing Systems
    https://papers.nips.cc/…
  • Silver, D., Lever, G., Heess, N., Degris, T., Wierstra, D., Riedmiller, M.
    Deterministic Policy Gradient Algorithms
    ICML
    https://proceedings.mlr.press/…
  • Lillicrap, T. P. et al.
    Continuous Control with Deep Reinforcement Learning
    arXiv
    https://arxiv.org/…
  • Fujimoto, S., van Hoof, H., Meger, D.
    Addressing Function Approximation Error in Actor-Critic Methods (TD3)
    ICML
    https://arxiv.org/…
  • Haarnoja, T. et al.
    Soft Actor-Critic Algorithms and Applications
    arXiv
    https://arxiv.org/…

Quantum Machine Learning & Quantum Reinforcement Learning

Gradienten, Barren Plateaus & NISQ-Limitierungen

Bücher und Monographien

Reinforcement Learning & Continuous Control

Quanteninformation & Quantum Computing

Online-Ressourcen und Datenbanken

Preprint-Server & Forschungsdatenbanken

Quanten-Frameworks & RL-Umgebungen (für Reproduzierbarkeit)

Abschließender Hinweis

Diese Literaturliste ist bewusst interdisziplinär aufgebaut. Ein tiefes Verständnis von Quantum Policy Gradient für kontinuierliche Aktionen entsteht erst durch das Zusammenspiel von:

  • klassischer Policy-Gradient-Theorie
  • moderner Continuous-Control-RL
  • variationaler Quantenalgorithmik
  • und NISQ-orientierter Systemforschung