Quantum Feature Maps for RL

Reinforcement Learning wirkt auf dem Papier beinahe schlicht: Ein Agent beobachtet einen Zustand, wählt eine Aktion, erhält eine Belohnung und passt seine Strategie so an, dass sich langfristig möglichst viel Return ansammelt. In der Praxis ist diese Schlichtheit trügerisch. Der entscheidende Engpass sitzt oft nicht in der Wahl des Algorithmus, sondern in der Frage, was der Agent überhaupt als „Weltbeschreibung“ verarbeitet. Repräsentationen sind der Filter, der Rohdaten in etwas übersetzt, das für Wertfunktionen und Policies lernbar wird. Ist dieser Filter schlecht, kann selbst ein theoretisch starker RL-Algorithmus wie gegen Nebel anlernen: Er sieht zu wenig Struktur, zu viel Rauschen, oder die falschen Korrelationen.

Das Problem eskaliert in Umgebungen mit Sparse Rewards. Wenn Belohnungen selten sind, erhält der Agent kaum direkte Signale darüber, welche Aspekte eines Zustands relevant waren. Ohne eine geeignete Repräsentation wirkt die Lernlandschaft dann wie eine flache Ebene mit vereinzelten Nadeln: Der Gradient ist meist nahezu null, und wenn er einmal nicht null ist, kommt er spät und unspezifisch. Verzögerte Belohnungen verschärfen das zusätzlich, weil Kreditzuweisung über viele Zeitschritte hinweg passieren muss. Der Agent muss herausfinden, welche frühen Zustandsmerkmale und Aktionen später „schuld“ am Erfolg waren. Gute Features reduzieren diese Ambiguität, indem sie die Dynamik der Umgebung in komprimierter Form sichtbar machen: Zustände, die zu ähnlichen Zukunftsverläufen führen, liegen im Feature-Raum näher beieinander. Dadurch werden Wertschätzungen glatter, Updates stabiler, und Generalisierung wird überhaupt erst möglich.

In Partially Observable Settings ist die Herausforderung noch grundsätzlicher. Wenn der Agent nie den vollständigen Zustand sieht, sondern nur Beobachtungen, muss die Repräsentation implizit ein Belief State tragen: eine Verdichtung von Vergangenheit, die versteckte Variablen rekonstruierbar macht. Ohne geeignete latente Struktur lernt der Agent nicht „in einer Welt“, sondern in einem Flickenteppich aus Momentaufnahmen. Das führt zu instabilem Verhalten, weil scheinbar gleiche Beobachtungen unterschiedliche Bedeutungen haben können.

Damit wird die zweite Perspektive klar: Der Weg von Rohzuständen zu latenten Zuständen ist nicht bloß Preprocessing, sondern die eigentliche Stelle, an der Lernbarkeit erzeugt wird. Feature-Qualität ist ein Bottleneck für Sample-Effizienz, weil sie entscheidet, wie viel Erfahrung nötig ist, um robuste Regularitäten zu erkennen. Eine gute Repräsentation wirkt wie eine geometrische Umformung: Sie streckt relevante Dimensionen, staucht irrelevante, und verwandelt zerklüftete Zielflächen in glattere Optimierungsprobleme.

Warum Quanten-Feature-Maps überhaupt interessant sind

Quantum Feature Maps setzen genau an diesem Repräsentations-Bottleneck an, aber mit einem ungewöhnlichen Hebel: Sie nutzen quantenmechanische Zustandsräume als hochdimensionale, strukturierte Feature-Räume. Der Kern der Idee ist eine Einbettung klassischer Daten in einen quantenmechanischen Hilbertraum, sodass die Geometrie der Daten nicht nur durch klassische Nichtlinearitäten, sondern durch quantenspezifische Effekte geprägt wird. Formal lässt sich das als Abbildung schreiben, in der ein klassischer Input \(x\) (etwa ein Zustand oder ein Zustand-Aktions-Paar) in einen quantenmechanischen Zustand \(|\phi(x)\rangle\) überführt wird, typischerweise via \(|\phi(x)\rangle = U_{\phi}(x),|0\rangle^{\otimes n}\). Messungen liefern daraus Features, etwa Erwartungswerte \(f_k(x)=\langle \phi(x)|,O_k,|\phi(x)\rangle\), oder Ähnlichkeiten über Kernel-Overlaps wie \(K(x,x‘) = |\langle \phi(x)|\phi(x‘)\rangle|^2\).

Warum kann das interessant sein? Weil Interferenz und Phaseninformation dem Feature-Raum eine Art „signaturbasierte“ Nichtlinearität geben: Kleine Änderungen im Input können sich kontrolliert in Phasen drehen, sich konstruktiv oder destruktiv überlagern und dadurch trennschärfere Strukturen erzeugen. Verschränkung koppelt Dimensionen, die klassisch nur schwer oder nur mit sehr vielen Parametern gemeinsam modelliert werden. Und nichtkommutative Transformationen erzeugen Reihenfolgeeffekte: Das Einbetten bestimmter Merkmalsgruppen kann, je nach Gate-Sequenz, zu qualitativ anderen Repräsentationen führen. All das sind Mechanismen, die man als natürliche Nichtlinearitäten lesen kann, allerdings nicht im Sinne eines beliebigen „Mehr ist besser“, sondern als andersartige Geometrie, die in bestimmten Aufgabenstrukturen nützlich sein kann.

Die Intuition lässt sich auf einen Satz verdichten: Eine Feature Map ist eine kontrollierte Einbettung klassischer Daten in einen quantenmechanischen Hilbertraum, sodass der RL-Agent nicht nur in der Rohwelt, sondern in einer durch Quantenstruktur geformten Repräsentationswelt lernt. Genau diese Umformung kann für RL wertvoll sein, wenn sie Kreditzuweisung vereinfacht, Generalisierung verbessert und Exploration stabiler macht.

Leitfragen der Abhandlung

Aus dieser Motivation folgen drei Leitfragen, die den roten Faden der Abhandlung bilden. Erstens: Welche Arten von Quantum Feature Maps sind für RL sinnvoll? Dabei geht es nicht nur um Zustand-Features \(\phi(s)\), sondern auch um Zustand-Aktion-Features \(\phi(s,a)\) für Wertfunktionen \(Q(s,a)\) sowie um Trajektorien-Features \(\phi(\tau)\), wenn Sequenzen oder Belief States im Vordergrund stehen. Zweitens: Wie werden diese Feature Maps trainiert, und wie bleibt das Training stabil? Das Spektrum reicht von fixen Maps, die als definierte Einbettungen fungieren, bis hin zu lernbaren Maps \(U_{\phi}(x;\theta)\), deren Parameter mit RL-Zielen ko-optimiert werden. Drittens: Welche Vorteile sind realistisch auf NISQ-Hardware, und wie misst man sie sauber? Hier geht es um belastbare Kriterien: Sample-Effizienz, Robustheit, Compute- und Shot-Budget, sowie faire Ablations, die unterscheiden, ob der Gewinn aus der Repräsentationsgeometrie oder aus versteckten Ressourcenunterschieden stammt.S

Fundament: RL, Funktionsapproximation und Representation Learning

RL-Kernbegriffe (kompakt, aber präzise)

Reinforcement Learning formalisiert sequentielles Entscheiden unter Unsicherheit meist über ein Markov Decision Process. Ein MDP ist definiert durch einen Zustandsraum \(\mathcal{S}\), einen Aktionsraum \(\mathcal{A}\), eine Übergangsdynamik \(P(s‘ \mid s,a)\), eine Belohnungsfunktion \(r(s,a,s‘)\) sowie einen Diskontfaktor \(\gamma \in [0,1)\). Zu jedem Zeitschritt \(t\) befindet sich der Agent in einem Zustand \(s_t\), wählt eine Aktion \(a_t\), erhält eine Belohnung \(r_t\) und gelangt gemäß der Übergangsdynamik in den nächsten Zustand \(s_{t+1}\).

Der Markov-Annahme zufolge enthält der Zustand \(s_t\) alle für die Zukunft relevanten Informationen. In vielen realistischen Szenarien ist diese Annahme jedoch verletzt. Dann spricht man von Partially Observable Markov Decision Processes, bei denen der Agent statt des Zustands nur eine Beobachtung \(o_t\) sieht, die aus einem verborgenen Zustand generiert wird. Formal wird der Entscheidungsprozess dann von einem latenten Zustand getragen, während die Policy auf Beobachtungen oder auf einem intern aufgebauten Belief State operiert.

Das Ziel des Agenten ist die Maximierung des erwarteten kumulativen diskontierten Returns. Für eine gegebene Policy \(\pi(a\mid s)\) lässt sich der Return als \(G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}\) schreiben. Daraus ergeben sich die zentralen Wertfunktionen des RL. Die Zustandswertfunktion ist definiert als \(V^{\pi}(s) = \mathbb{E}{\pi}[G_t \mid s_t = s]\), während die Zustands-Aktions-Wertfunktion \(Q^{\pi}(s,a) = \mathbb{E}{\pi}[G_t \mid s_t = s, a_t = a]\) den erwarteten Return bei festgehaltener Startaktion beschreibt. Diese Funktionen kodieren, wie „gut“ ein Zustand oder ein Zustand-Aktions-Paar langfristig ist.

Viele RL-Algorithmen lassen sich als unterschiedliche Strategien interpretieren, diese Funktionen oder die Policy direkt zu approximieren. Value-basierte Methoden zielen primär auf \(V^{\pi}\) oder \(Q^{\pi}\), während Policy-Gradient-Methoden die Policy \(\pi(a\mid s)\) selbst optimieren. In allen Fällen ist entscheidend, in welchem Raum diese Funktionen dargestellt werden, denn ihre Glattheit, Generalisierbarkeit und Lernbarkeit hängen direkt von der zugrunde liegenden Repräsentation ab.

Funktionsapproximation im RL

In kleinen, diskreten Umgebungen lassen sich Wertfunktionen tabellarisch darstellen, indem jedem Zustand oder jedem Zustand-Aktions-Paar ein eigener Eintrag zugeordnet wird. Formal entspricht dies einer expliziten Speicherung von \(V(s)\) oder \(Q(s,a)\) für alle möglichen Kombinationen. Dieses Vorgehen skaliert jedoch schlecht, da die Anzahl der Zustände mit der Dimension des Problems exponentiell wächst.

Um größere oder kontinuierliche Zustandsräume zu bewältigen, nutzt RL Funktionsapproximation. Ein klassischer Ansatz ist die lineare Approximation, bei der die Wertfunktion als \(\hat{V}(s) = \mathbf{w}^\top \boldsymbol{\phi}(s)\) geschrieben wird, wobei \(\boldsymbol{\phi}(s)\) ein Feature-Vektor ist. Die Wahl dieser Features bestimmt unmittelbar die Ausdruckskraft des Modells. Kernel-Methoden erweitern dieses Prinzip, indem sie implizit in hochdimensionale Feature-Räume einbetten, typischerweise über einen Kernel \(K(s,s‘)\), ohne die Features explizit zu berechnen.

Mit Deep Reinforcement Learning wurden neuronale Netze zum dominanten Approximator. Hier übernimmt ein tiefes Netz sowohl die Feature-Extraktion als auch die Approximation der Wertfunktion oder Policy. Formal ist die Wertfunktion dann etwa \(\hat{Q}(s,a;\theta)\), wobei \(\theta\) die Netzwerkparameter bezeichnet. Diese Flexibilität hat jedoch ihren Preis: Training wird instabil, da mehrere Problemquellen gleichzeitig auftreten.

Ein zentrales Stabilitätsproblem ist die sogenannte Deadly Triad: Bootstrapping, Funktionsapproximation und Off-Policy-Lernen. Bootstrapping bedeutet, dass Zielwerte selbst wieder von aktuellen Schätzungen abhängen, etwa in Updates der Form \(Q(s,a) \leftarrow r + \gamma \max_{a‘} Q(s‘,a‘)\). Funktionsapproximation koppelt diese Updates global über den Parameterraum, sodass eine lokale Korrektur viele Zustände beeinflusst. Off-Policy-Lernen schließlich nutzt Daten, die unter einer anderen Policy gesammelt wurden als derjenigen, die gerade optimiert wird. Zusammengenommen können diese drei Aspekte zu Divergenz oder chaotischem Lernverhalten führen, selbst wenn der zugrunde liegende Algorithmus in tabellarischer Form konvergieren würde.

Representation Learning im RL

Vor diesem Hintergrund wird klar, warum Representation Learning im RL eine eigenständige Herausforderung darstellt. Im Supervised Learning sind Datenverteilungen in der Regel stationär, und Labels liefern ein klares, dichtes Trainingssignal. Im RL dagegen ist die Datenverteilung policy-abhängig und verändert sich während des Lernens. Formal hängt die Zustandsverteilung \(d^{\pi}(s)\) explizit von der aktuellen Policy ab. Lernt der Agent besser, ändert sich die Verteilung der besuchten Zustände, was wiederum die Repräsentationsqualität beeinflusst.

Hinzu kommt der Exploration-Bias. Der Agent sieht nur jene Teile des Zustandsraums, die seine aktuelle Policy erreicht. Schlechte Repräsentationen können Exploration zusätzlich behindern, weil scheinbar ähnliche Zustände im Feature-Raum zusammenfallen oder relevante Unterschiede unsichtbar bleiben. Dadurch verstärken sich frühe Fehlentscheidungen selbst.

In der Praxis nutzt man verschiedene Werkzeuge, um diesem Problem zu begegnen. Encoder-Netzwerke, etwa Convolutional Neural Networks für visuelle Eingaben oder Transformer-Architekturen für Sequenzen, extrahieren latente Zustände \(z = f_{\theta}(s)\). Kontrastive Lernziele versuchen, nützliche Repräsentationen ohne explizite Belohnung zu formen, indem ähnliche Zustände näher und unähnliche weiter auseinander gezogen werden. Bisimulation Metrics zielen darauf ab, Zustände zusammenzufassen, die hinsichtlich Belohnungen und Übergängen äquivalent sind, formal indem Abstände zwischen Zuständen an Unterschiede in \(r\) und \(P\) gekoppelt werden. World Models schließlich lernen explizit ein internes Modell der Dynamik \(\hat{P}(s‘ \mid s,a)\), sodass Repräsentationen prädiktiv für die Zukunft sind.

Genau an dieser Schnittstelle setzen Quantum Feature Maps an. Sie sind eine Repräsentationsmaschine, die entweder als feste Einbettung fungiert oder als lernbarer Encoder in den RL-Loop integriert wird. Ihr potenzieller Beitrag liegt nicht darin, klassische Methoden zu ersetzen, sondern darin, den Repräsentationsraum geometrisch anders zu strukturieren. Damit adressieren sie den zentralen Engpass des RL: die Transformation von Erfahrung in eine Form, in der Wertfunktionen und Policies stabil, effizient und generalisierend gelernt werden können.

Quantum Feature Maps: Begriff, Mathematik, Designprinzipien

Definition: Von Daten zu Zuständen

Im Kern beschreiben Quantum Feature Maps eine systematische Abbildung klassischer Daten in quantenmechanische Zustände. Ausgangspunkt ist ein klassischer Input \(x\), der im Reinforcement Learning typischerweise einem Zustand \(s\), einem Zustand-Aktions-Paar oder auch einer komprimierten Trajektorienbeschreibung entspricht. Dieser Input wird nicht direkt verarbeitet, sondern über eine kontrollierte Einbettung in einen Hilbertraum transformiert, der von einem Quantensystem mit \(n\) Qubits aufgespannt wird.

Formal geschieht dies über eine unitäre Abbildung, die man als Feature Map bezeichnet. Sie ist definiert als ein datenabhängiger unitärer Operator \(U_{\phi}(x)\), der auf einen festen Referenzzustand wirkt. Üblicherweise wählt man den Anfangszustand als das Tensorprodukt aller Qubits im Grundzustand. Die Einbettung lässt sich dann schreiben als
\(|\phi(x)\rangle = U_{\phi}(x),|0\rangle^{\otimes n}\).

Der so erzeugte Zustand \(|\phi(x)\rangle\) kodiert den klassischen Input nicht als einzelne Koordinate, sondern als globale Struktur im Hilbertraum. Information liegt dabei in Amplituden, Phasen und Korrelationen zwischen Qubits. Entscheidend ist, dass diese Kodierung kontrolliert und reproduzierbar ist: Gleiche Inputs führen zu gleichen Zuständen, ähnliche Inputs idealerweise zu Zuständen mit großer Überlappung.

Um aus dem quantenmechanischen Zustand wieder nutzbare Features für einen klassischen RL-Algorithmus zu gewinnen, werden Messungen durchgeführt. Dazu wählt man eine Menge von Observablen \({O_k}\), deren Erwartungswerte als Features interpretiert werden. Für jedes Observable ergibt sich ein Feature der Form
\(f_k(x) = \langle \phi(x) | , O_k , | \phi(x) \rangle\).

Diese Erwartungswerte bilden einen klassischen Feature-Vektor, der in Wertfunktionen oder Policies eingespeist werden kann. Alternativ kann man die Feature Map auch aus einer Kernel-Perspektive betrachten. Statt explizite Features zu berechnen, interessiert dann nur die Ähnlichkeit zweier eingebetteter Zustände. Diese ergibt sich aus dem Quadrat des Skalarprodukts
\(K(x,x‘) = |\langle \phi(x) | \phi(x‘) \rangle|^2\).

In dieser Sichtweise fungiert die Quantum Feature Map als implizite Abbildung in einen sehr hochdimensionalen Feature-Raum, ähnlich wie bei klassischen Kernel-Methoden, jedoch mit einer Struktur, die durch die Quantenmechanik vorgegeben ist.

Expressivität: Was macht die Map „stark“?

Die Stärke einer Quantum Feature Map liegt nicht allein in der hohen Dimension des Hilbertraums, sondern in der Art und Weise, wie diese Dimension strukturiert ist. Ein zentrales Element ist die Nichtlinearität, die durch Phasen und Rotationen entsteht. Während klassische lineare Features lediglich additive Kombinationen von Input-Komponenten abbilden, können quantenmechanische Phasen bereits bei einfachen Rotationsgattern komplexe Interferenzmuster erzeugen. Zwei ähnliche Inputs können sich konstruktiv verstärken oder teilweise auslöschen, je nachdem, wie ihre Phasen zueinander stehen.

Ein weiterer Aspekt ist die Nichtkommutativität der verwendeten Operationen. In vielen Quantum Feature Maps hängt das Resultat davon ab, in welcher Reihenfolge datenabhängige Gatter angewendet werden. Formal gilt für zwei unitäre Operatoren im Allgemeinen \(U_1 U_2 \neq U_2 U_1\). Diese Eigenschaft erlaubt es, Ordnungs- und Wechselwirkungseffekte zwischen Eingabekomponenten zu modellieren, die klassisch oft nur mit tieferen Netzen oder expliziten Kreuztermen darstellbar sind.

Verschränkung spielt eine besondere Rolle, da sie Feature-Kopplungen über Dimensionen hinweg ermöglicht. Wenn mehrere Qubits verschränkt sind, lässt sich der Gesamtzustand nicht mehr als Produkt einzelner Qubit-Zustände schreiben. Informationen über unterschiedliche Input-Dimensionen werden dann untrennbar miteinander verknüpft. Für RL bedeutet das, dass Zustandskomponenten gemeinsam kodiert werden können, sodass relevante Abhängigkeiten für zukünftige Belohnungen bereits auf Repräsentationsebene sichtbar werden.

Diese Expressivität hat jedoch eine Kehrseite. Je tiefer und komplexer der Schaltkreis \(U_{\phi}(x)\) ist, desto anfälliger wird er für Rauschen. In realer Hardware führen Dekohärenz und Gate-Fehler dazu, dass tiefe Schaltkreise ihre theoretische Ausdruckskraft nicht mehr zuverlässig realisieren. Expressivität muss daher hardware-kompatibel sein. Eine gut designte Feature Map maximiert den Informationsgehalt pro Schaltkreistiefe und vermeidet unnötige Komplexität, die in der Praxis nur Varianz und Instabilität erzeugt.

Taxonomie der Feature Maps

Quantum Feature Maps lassen sich entlang mehrerer Achsen systematisieren. Eine erste Kategorie bilden Daten-Encodings, also die Art und Weise, wie klassische Daten in Quantenoperationen übersetzt werden. Beim Basis- oder Amplitude-Encoding werden Input-Komponenten direkt als Amplituden eines Zustands kodiert, was theoretisch sehr kompakt ist, praktisch aber aufwendige Vorbereitungsroutinen erfordert. Angle- oder Phase-Encoding nutzt Rotationen, bei denen einzelne Features als Winkelparameter auftreten, etwa in Gattern der Form \(R_z(x_i)\). Diese Variante ist hardware-nah und robust. IQP-Maps verwenden spezielle Schaltkreisstrukturen mit kommutierenden Diagonaloperatoren, die besonders gut als Quanten-Kernel interpretiert werden können. Hardware-efficient Encodings schließlich orientieren sich explizit an den nativen Gattern und Kopplungen eines Geräts.

Eine zweite Unterscheidung betrifft fixe Feature Maps. Diese sind hand-designed und besitzen keine trainierbaren Parameter jenseits der Datenabhängigkeit. Sie sind oft kernel-nah, gut analysierbar und stabil, da sich ihre Geometrie während des RL-Trainings nicht verändert. Fixe Maps eignen sich besonders, wenn Repräsentationsdrift vermieden werden soll oder wenn man klare Vergleichbarkeit zwischen Experimenten benötigt.

Demgegenüber stehen lernbare Feature Maps. Hier ist der unitäre Operator zusätzlich durch Parameter \(\theta\) gesteuert, sodass sich die Einbettung als
\(|\phi(x;\theta)\rangle = U_{\phi}(x;\theta),|0\rangle^{\otimes n}\)
schreiben lässt. Diese Parameter werden gemeinsam mit der Wertfunktion oder Policy optimiert. Der Vorteil liegt in der Anpassungsfähigkeit: Die Repräsentation kann sich an die spezifische Aufgabe anpassen. Der Nachteil ist eine erhöhte Trainingsinstabilität, da sich die Geometrie des Feature-Raums während des Lernens ständig verschiebt.

Eine dritte Kategorie bilden Hybrid-Maps. Hier übernimmt ein klassischer Pre-Encoder die Aufgabe, Rohzustände zu normalisieren, zu komprimieren oder irrelevante Dimensionen zu entfernen. Das Ergebnis wird anschließend in eine Quantum Feature Map eingespeist, deren Output wiederum von einem klassischen Head weiterverarbeitet wird. Diese Architektur verbindet klassische Skalierbarkeit mit quantenspezifischer Geometrie.

Praxisregeln für RL-spezifische Feature Maps

Für den Einsatz in Reinforcement Learning gelten einige praxisnahe Designregeln. Zunächst ist Markov-Kompatibilität entscheidend. Die Zustandseinbettung sollte solche Informationen bewahren, die für die Übergangsdynamik und zukünftige Belohnungen relevant sind. Eine Feature Map, die zwar mathematisch expressiv ist, aber zeitlich relevante Abhängigkeiten verwischt, erschwert Kreditzuweisung und destabilisiert das Lernen.

Ein zweiter Punkt ist Action-Conditioning. Für Zustands-Aktions-Wertfunktionen \(Q(s,a)\) müssen Aktionen sauber eingebettet werden. Dies kann durch getrennte Encodings für \(s\) und \(a\) oder durch gemeinsame Schaltkreise erfolgen, in denen Aktionsparameter explizit kontrollieren, welche Gatter angewendet werden. Wichtig ist, dass unterschiedliche Aktionen im Feature-Raum klar unterscheidbar bleiben.

Skalierung spielt ebenfalls eine zentrale Rolle. Klassische Inputs müssen normalisiert werden, sodass sie in sinnvolle Parameterbereiche für Rotationen und Phasen fallen. Ohne geeignete Skalierung kann es zu Sättigungseffekten kommen, bei denen kleine Input-Änderungen keine messbaren Feature-Änderungen mehr erzeugen. Ebenso wichtig sind Feature-Bounds, um Ausreißer und Drift in nichtstationären RL-Szenarien abzufangen.

Schließlich ist das Messbudget ein kritischer Faktor. Erwartungswerte werden aus endlich vielen Messungen, sogenannten Shots, geschätzt. Die Varianz dieser Schätzungen wirkt direkt als Rauschen im RL-Update. Formal nimmt die Varianz typischerweise mit \(1/N_{\text{shots} }\) ab. Zu wenige Shots führen zu instabilen Updates, zu viele erhöhen die Rechenkosten massiv. Eine gute Quantum Feature Map ist daher so gestaltet, dass sie mit moderatem Shot-Budget stabile und informative Features liefert, ohne die ohnehin fragile Dynamik des Reinforcement Learnings zusätzlich zu destabilisieren.

Integrationsmuster in Quantum Reinforcement Learning

Quantum Feature Maps für Value-basierte Methoden

Value-basierte Methoden bilden historisch das Rückgrat vieler RL-Erfolge, da sie eine direkte Verbindung zwischen Erfahrung und Entscheidungsqualität herstellen. In ihrem Kern approximieren sie eine Zustands-Aktions-Wertfunktion \(Q(s,a)\), aus der eine Policy durch Maximierung oder weiche Auswahl abgeleitet wird. Quantum Feature Maps lassen sich in diesen Methoden auf zwei grundsätzlich unterschiedliche Arten integrieren, die jeweils andere Stärken und Risiken mit sich bringen.

Eine naheliegende Architektur ist die DQN-Variante mit quantenmechanischem Encoder. Hier wird der Zustand \(s\) zunächst durch eine Quantum Feature Map in einen latenten Feature-Vektor transformiert. Formal erzeugt der Quanten-Encoder einen Vektor \(z(s) = (f_1(s), \dots, f_k(s))\), dessen Komponenten aus Erwartungswerten von Observablen stammen. Dieser Feature-Vektor wird anschließend von einem klassischen Head verarbeitet, der die eigentliche Approximation der Wertfunktion übernimmt. Je nach Design kann der Head entweder alle Aktionen gemeinsam abbilden, also \(Q(s,a;\theta)\) für alle \(a\) ausgeben, oder es werden separate Köpfe pro Aktion verwendet.

Der Vorteil dieser Trennung liegt in der Stabilität. Die Quantum Feature Map fungiert als feste oder langsam veränderliche Repräsentationsschicht, während der klassische Head die schnellen Updates des RL-Algorithmus absorbiert. Dadurch wird vermieden, dass sich Repräsentation und Wertfunktion gleichzeitig stark verändern, was insbesondere bei Bootstrapping-Updates problematisch sein kann. Gleichzeitig kann der Quanten-Encoder die Geometrie des Zustandsraums so transformieren, dass lineare oder flach nichtlineare Heads bereits ausreichen, um gute Approximationen zu erzielen.

Eine zweite, konzeptionell dichtere Variante ist die direkte Zustand-Aktion-Map. In diesem Fall werden Zustand und Aktion gemeinsam in einen quantenmechanischen Schaltkreis eingespeist. Die Feature Map ist dann ein Operator der Form \(U_{\phi}(s,a)\), und der Wert \(Q(s,a)\) wird direkt als Erwartungswert eines Observables gelesen, etwa \(Q(s,a) = \langle \phi(s,a) | O | \phi(s,a) \rangle\). Diese Architektur vermeidet einen separaten klassischen Head und interpretiert den Quantenschaltkreis selbst als Wertfunktionsapproximator.

Der Reiz dieses Ansatzes liegt in seiner konzeptionellen Eleganz. Zustand und Aktion werden untrennbar gekoppelt, und die Verschränkung im Schaltkreis kann komplexe Abhängigkeiten modellieren. Der Nachteil ist jedoch die erhöhte Varianz. Da jeder Wertschätzer direkt aus Messungen stammt, wirkt Shot-Rauschen unmittelbar auf das Q-Update. In Kombination mit dem Max-Operator, der in vielen Value-basierten Methoden verwendet wird, kann dies zu instabilem Lernen führen. In der Praxis erfordert dieser Ansatz daher besonders sorgfältiges Shot-Management und häufig zusätzliche Glättungsmechanismen.

Quantum Feature Maps in Policy Gradient und Actor-Critic

Policy-Gradient-Methoden verfolgen einen anderen Zugang. Anstatt eine Wertfunktion zu maximieren und daraus eine Policy abzuleiten, optimieren sie die Policy \(\pi_{\psi}(a\mid s)\) direkt, indem sie den Gradienten des erwarteten Returns berechnen. Quantum Feature Maps können hier als Repräsentationsschicht dienen, auf deren Basis die Policy parametrisiert wird.

In einer typischen Architektur wird der Zustand \(s\) zunächst durch eine Quantum Feature Map in einen latenten Vektor transformiert. Dieser Vektor dient als Input für den Actor, der eine parametrisierte Policy \(\pi_{\psi}(a\mid z(s))\) definiert. Der Actor selbst ist meist klassisch realisiert, etwa als lineares Modell oder als kleines neuronales Netz. Die Rolle der Quantum Feature Map besteht darin, den Zustandsraum so zu strukturieren, dass die Policy mit vergleichsweise wenigen Parametern auskommt und dennoch komplexe Entscheidungsgrenzen darstellen kann.

Actor-Critic-Methods ergänzen den Actor um einen Critic, der die Wertfunktion \(V_{\omega}(s)\) oder \(Q_{\omega}(s,a)\) approximiert. Auch hier gibt es mehrere Integrationsoptionen. Eine Möglichkeit ist die Nutzung einer geteilten Quantum Feature Map, die sowohl dem Actor als auch dem Critic als Repräsentation dient. Formal ergibt sich dann ein gemeinsamer Feature-Vektor \(z(s)\), aus dem sowohl \(\pi_{\psi}\) als auch \(V_{\omega}\) berechnet werden.

Der Vorteil einer geteilten Map liegt in einer konsistenten latenten Geometrie. Actor und Critic operieren im selben Feature-Raum, was die Kreditzuweisung erleichtert und die Interpretation der Gradienten stabilisieren kann. Gleichzeitig reduziert sich der Rechenaufwand, da die Quantum Feature Map nur einmal pro Zustand ausgewertet werden muss. Dem steht jedoch ein Risiko gegenüber: Instabilitäten im Critic können direkt auf den Actor durchschlagen, da beide dieselbe Repräsentation teilen. Wenn der Critic stark schwankt oder schlecht konditioniert ist, kann dies die Policy-Updates verzerren.

Alternativ können Actor und Critic separate Feature Maps verwenden. In diesem Fall ist der Actor stärker auf stabile Entscheidungsrepräsentationen ausgerichtet, während der Critic aggressiver optimiert werden kann, um präzise Wertschätzungen zu liefern. Diese Trennung erhöht jedoch den Rechenaufwand und erschwert die Abstimmung beider Komponenten.

Feature Maps für Exploration und intrinsische Motivation

Neben der Approximation von Wertfunktionen und Policies eröffnen Quantum Feature Maps einen weiteren, oft unterschätzten Anwendungsbereich: Exploration und intrinsische Motivation. In vielen RL-Problemen scheitert Lernen nicht an mangelnder Rechenleistung, sondern daran, dass der Agent relevante Regionen des Zustandsraums nie oder zu selten besucht. Klassische Explorationstechniken wie \(\epsilon\)-greedy oder additive Aktionsrauschen sind oft grob und berücksichtigen die Struktur des Zustandsraums nur unzureichend.

Quantum Feature Maps liefern hier eine neuartige Informationsquelle. Da Features aus Messungen stammen, ist ihre Schätzung mit einer Varianz behaftet, die von der Anzahl der Shots und von der Struktur des Zustands abhängt. Diese Messvarianz kann als Unsicherheitsmaß interpretiert werden. Zustände, deren Feature-Erwartungswerte stark schwanken oder eine hohe Entropie aufweisen, können als weniger gut bekannt gelten. Formal lässt sich eine intrinsische Belohnung etwa als Funktion der Feature-Varianz \(\mathrm{Var}(f_k(s))\) oder der Entropie einer Messverteilung definieren.

Die zugrunde liegende Intuition ist, die Feature Map als Sensor für seltene oder schlecht explorierte Regionen im Zustandsraum zu nutzen. Wenn ein Zustand im Hilbertraum nur schwach charakterisiert ist, etwa weil er selten besucht wurde, spiegelt sich das in unsicheren Messungen wider. Der Agent kann diese Unsicherheit gezielt ausnutzen, um Exploration zu lenken, anstatt blind zu randomisieren. Damit wird die Repräsentation selbst zu einem aktiven Bestandteil der Explorationsstrategie.

Trajektorien-Feature Maps (Sequence Embeddings)

Ein besonders spannendes, aber auch anspruchsvolles Integrationsmuster sind Trajektorien-Feature Maps. Anstatt einzelne Zustände oder Zustand-Aktions-Paare einzubetten, wird eine gesamte Trajektorie \(\tau = (s_0, a_0, \dots, s_T)\) als Input betrachtet. Formal ist der klassische Input dann \(x = \tau\), und die Feature Map kodiert nicht einen Moment, sondern einen Verlauf.

Der Nutzen solcher Sequence Embeddings liegt vor allem in Szenarien, in denen einzelne Zustände nicht ausreichend informativ sind. Bei Off-Policy-Bewertung können Trajektorien-Features verwendet werden, um den Wert ganzer Rollouts zu vergleichen, ohne jeden Schritt einzeln zu analysieren. Im Imitation Learning ermöglichen sie einen direkten Vergleich zwischen Expertentrajektorien und Agentenverhalten im Feature-Raum. Für Options oder Skills können Trajektorien-Maps als Repräsentation temporaler Abstraktionen dienen, indem sie ganze Handlungssegmente zu kompakten latenten Zuständen verdichten.

Praktisch erfordert dieser Ansatz eine Vorstrukturierung der Trajektorie, etwa durch zeitliche Fensterung oder Aggregation. Die Quantum Feature Map übernimmt dann die Rolle eines nichtlinearen, phasenbasierten Sequence-Encoders. Obwohl dieser Ansatz rechenintensiv ist, zeigt er exemplarisch, dass Quantum Feature Maps nicht auf punktweise Repräsentationen beschränkt sind, sondern das Potenzial haben, zeitliche Struktur direkt in die Repräsentationsgeometrie des Reinforcement Learnings einzubetten.

Training und Optimierung: Von Gradienten bis Stabilität

Trainierbar oder fix? Zwei Philosophien

Beim Einsatz von Quantum Feature Maps im Reinforcement Learning stehen sich zwei grundlegende Philosophien gegenüber. Die erste setzt auf fixe Feature Maps in Kombination mit einem klassischen Lerner. Die zweite integriert die Feature Map selbst als trainierbares Objekt in den Optimierungsprozess. Beide Ansätze unterscheiden sich weniger in ihrer theoretischen Ausdruckskraft als in ihrer praktischen Stabilität und ihrem Verhalten unter den spezifischen Nichtidealitäten des RL-Settings.

Fixe Feature Maps fungieren als definierte Einbettung klassischer Zustände in einen quantenmechanischen Hilbertraum. Ihre Struktur ist vorab festgelegt, etwa durch ein bestimmtes Daten-Encoding und eine feste Abfolge von Gattern. Der klassische Lerner, der auf diesen Features aufsetzt, approximiert dann Wertfunktionen oder Policies. Diese Trennung erinnert an kernelbasierte Methoden, bei denen der Kernel vorgegeben ist und nur die linearen Koeffizienten gelernt werden. Der Vorteil liegt in der Robustheit. Da sich die Geometrie des Feature-Raums nicht ändert, bleibt die Datenverteilung im Repräsentationsraum über das Training hinweg konsistent. Insbesondere in Kombination mit Replay Buffern verhindert dies, dass alte Erfahrungen plötzlich eine andere Bedeutung bekommen. Fixe Maps gelten daher als weniger quantum-brittle, da sie weniger anfällig für Rauschen, Barren Plateaus oder unkontrollierte Drift sind.

Lernbare Feature Maps verfolgen einen ambitionierteren Ansatz. Hier wird der unitäre Operator als \(U_{\phi}(x;\theta)\) parametrisiert, wobei die Parameter \(\theta\) gemeinsam mit den Parametern der Wertfunktion oder Policy optimiert werden. Die Hoffnung ist, dass sich die Repräsentation an die spezifische Struktur der Aufgabe anpasst und dadurch effizienter wird als jede hand-designed Map. In der Praxis geht diese Flexibilität jedoch mit erheblichen Risiken einher. Barren Plateaus können dazu führen, dass Gradienten für \(\theta\) exponentiell klein werden. Rauschen wirkt direkt auf die Optimierung, und die Nichtstationarität des RL-Trainings bedeutet, dass sich Zielverteilungen permanent verschieben. Lernbare Maps sind daher potenziell stärker, aber auch deutlich anfälliger für Instabilitäten, insbesondere wenn sie ohne zusätzliche Regularisierung eingesetzt werden.

Gradientenbasierte Optimierung in hybriden Modellen

Unabhängig davon, ob die Feature Map fix oder trainierbar ist, spielt gradientenbasierte Optimierung eine zentrale Rolle in hybriden quanten-klassischen Modellen. Für trainierbare Quantum Feature Maps werden Gradienten typischerweise über das Parameter-Shift-Verfahren berechnet. Für einen Parameter \(\theta_i\) ergibt sich der Gradient eines Erwartungswerts \(f(\theta)\) formal als
\(\frac{\partial f}{\partial \theta_i} = \frac{1}{2}\left(f(\theta_i + \frac{\pi}{2}) – f(\theta_i – \frac{\pi}{2})\right)\).

In der Praxis werden diese Erwartungswerte aus einer endlichen Anzahl von Messungen geschätzt. Damit ist jeder Gradientenwert selbst ein Zufallswert, dessen Varianz mit der Anzahl der Shots zusammenhängt. Diese Shot-Noise wirkt wie zusätzlicher Gradientenlärm, der sich auf die Konvergenzgeschwindigkeit und Stabilität auswirkt.

Im Reinforcement Learning kommt eine weitere Stochastik hinzu. Policy-Gradient-Methoden schätzen Gradienten des erwarteten Returns, etwa in der Form \(\nabla_{\psi} J(\psi) = \mathbb{E}[\nabla_{\psi} \log \pi_{\psi}(a\mid s),A(s,a)]\), wobei \(A(s,a)\) ein Advantage-Term ist. Diese Schätzung ist bereits im klassischen Fall stark verrauscht, da sie auf Stichproben aus Trajektorien basiert. Kombiniert man dies mit quantenmechanischer Messvarianz, entsteht eine doppelte Stochastik: eine aus der Umwelt und der Exploration, eine aus der Messung des Quantenzustands. Diese Überlagerung kann Gradienten so stark verzerren, dass Standard-Lernraten oder Optimierer versagen.

Erfolgreiche Trainingsstrategien berücksichtigen diese doppelte Stochastik explizit. Dazu gehören kleinere Lernraten für quantenbezogene Parameter, getrennte Optimierer für klassische und quantenmechanische Teile sowie die bewusste Glättung von Gradienten über mehrere Updates hinweg.

Stabilitätshebel (konkret und RL-praktisch)

Um Quantum Feature Maps praktikabel in RL zu integrieren, sind gezielte Stabilitätshebel notwendig. Einer der wichtigsten Mechanismen ist der Einsatz von Target Networks oder Polyak Averaging im Critic. Anstatt den Critic direkt mit seinen aktuellen Parametern zu bootstrappen, wird eine langsam aktualisierte Kopie verwendet. Formal wird ein Target-Parameter \(\theta_{\text{target}}\) nach der Regel \(\theta_{\text{target}} \leftarrow \tau \theta + (1-\tau)\theta_{\text{target}}\) aktualisiert. Diese Verzögerung reduziert Oszillationen, insbesondere wenn die Feature Map selbst trainierbar ist.

Feature-Normalisierung und Clipping sind weitere einfache, aber wirkungsvolle Werkzeuge. Erwartungswerte aus Quantenschaltkreisen können unterschiedliche Skalen annehmen, je nach Observable und Encoding. Durch Normalisierung wird sichergestellt, dass einzelne Features nicht dominieren. Clipping begrenzt extreme Ausreißer, die sonst große, unkontrollierte Updates verursachen würden. Adaptive Shot Allocation geht noch einen Schritt weiter: Statt jedem Feature dieselbe Anzahl an Shots zuzuweisen, werden jene Features häufiger gemessen, deren Varianz besonders hoch ist oder die für die aktuelle Entscheidung besonders relevant erscheinen.

Auch die Feature Map selbst kann regularisiert werden. Entanglement-Constraints begrenzen gezielt den Grad der Verschränkung, um zu verhindern, dass der Schaltkreis in schwer kontrollierbare Zustände driftet. Analoge Konzepte zu spektralen Normen aus dem Deep Learning lassen sich nutzen, um die Sensitivität der Map gegenüber Input-Änderungen zu begrenzen. Noise-aware Training schließlich integriert ein realistisches Rauschmodell direkt in die Optimierung, sodass die Feature Map lernt, unter diesen Bedingungen robust zu funktionieren.

Ein oft unterschätztes Problem ist der Replay Buffer Drift. In vielen RL-Algorithmen werden Erfahrungen über lange Zeiträume gespeichert und wiederverwendet. Wenn sich die Feature Map währenddessen stark ändert, repräsentieren alte Erfahrungen plötzlich andere Punkte im Feature-Raum. Um dies zu vermeiden, darf sich die Geometrie der Feature Map nicht zu schnell ändern. In der Praxis bedeutet dies, Updates der Map zu verlangsamen oder sie phasenweise einzufrieren.

Typische Failure Modes

Trotz aller Vorsichtsmaßnahmen gibt es wiederkehrende Fehlermuster. Barren Plateaus treten auf, wenn Schaltkreise zu tief oder zu symmetrisch sind. In solchen Fällen verschwinden Gradienten nahezu vollständig, und die Feature Map lernt nichts mehr. Ein weiteres Problem ist explodierende Varianz durch zu wenige Shots. Wenn Erwartungswerte auf sehr wenigen Messungen beruhen, werden Updates zufällig und destabilisieren den Lernprozess.

Ein besonders heimtückischer Failure Mode ist der Representation Collapse. Dabei produziert die Feature Map nahezu konstante Features für große Teile des Zustandsraums. Formal bedeutet dies, dass \(f_k(x) \approx c_k\) für viele Inputs gilt. Der RL-Agent erhält dann zwar scheinbar stabile Signale, lernt aber nichts Relevantes, da alle Zustände im Feature-Raum zusammenfallen. In solchen Fällen stagniert das Lernen, oft ohne offensichtliche Fehlermeldung. Die frühzeitige Diagnose solcher Effekte ist daher essenziell, um Quantum Feature Maps erfolgreich im Reinforcement Learning einzusetzen.

Komplexität, Ressourcen und NISQ-Realität

Skalierung: Qubits, Tiefe, Shots

Der praktische Einsatz von Quantum Feature Maps im Reinforcement Learning steht und fällt mit der Frage nach Ressourcen. Reinforcement Learning ist bereits im rein klassischen Setting rechenintensiv: Millionen von Umweltinteraktionen, große Replay Buffer und iterative Updates von Wertfunktionen oder Policies gehören zum Alltag. Jeder zusätzliche Overhead muss daher klar gerechtfertigt sein. Eine Quantum Feature Map, die theoretisch elegant ist, aber den Trainingsaufwand um Größenordnungen erhöht, ist in der Praxis kaum tragfähig.

Zentrale Skalierungsparameter sind die Anzahl der Qubits \(n\), die Schaltkreistiefe \(d\) und die Anzahl der Messungen pro Erwartungswert, also die Shots \(N_{\text{shots}}\). Die Dimension des zugrunde liegenden Hilbertraums wächst exponentiell mit \(n\), was oft als Hauptargument für den Einsatz quantenmechanischer Repräsentationen angeführt wird. In der Praxis ist jedoch nicht die theoretische Dimension entscheidend, sondern wie viel dieser Dimension unter realistischen Bedingungen tatsächlich genutzt werden kann. Mit steigender Qubit-Zahl nehmen Fehlerraten zu, Kopplungen werden schwieriger zu kalibrieren, und die Varianz der Messungen steigt.

Die Schaltkreistiefe bestimmt, wie viele nichtkommutative Operationen und Verschränkungen realisiert werden können. Tiefe Schaltkreise versprechen hohe Expressivität, sind aber besonders anfällig für Rauschen. Jeder zusätzliche Gate-Layer erhöht die Wahrscheinlichkeit, dass der Zustand vom idealen Verlauf abweicht. In RL wirkt sich dies doppelt negativ aus: Zum einen werden Features verrauschter, zum anderen steigt die Varianz der Updates. Eine pragmatische Heuristik lautet daher, kurze Schaltkreise mit gutem Encoding zu bevorzugen. Ein sorgfältig gewähltes Angle- oder Phase-Encoding in einem flachen Schaltkreis kann oft mehr Nutzen bringen als ein sehr tiefer, theoretisch ausdrucksstarker Aufbau, der in der Praxis seine Struktur verliert.

Die Anzahl der Shots schließlich kontrolliert die statistische Genauigkeit der gemessenen Features. Formal sinkt die Varianz eines Erwartungswerts mit \(1/N_{\text{shots}}\). In RL bedeutet dies einen direkten Trade-off zwischen Rechenzeit und Stabilität. Zu wenige Shots führen zu hochgradig verrauschten Features und instabilem Lernen, zu viele Shots machen jeden Trainingsschritt teuer. Da RL-Algorithmen dieselben Zustände häufig mehrfach auswerten, kann Shot-Management schnell zum dominanten Kostenfaktor werden.

Noise und Fehlermodell

Aktuelle Quantenhardware arbeitet im sogenannten NISQ-Regime. Charakteristisch dafür sind begrenzte Kohärenzzeiten und nicht vernachlässigbare Fehlerraten. Für Quantum Feature Maps sind insbesondere drei Fehlertypen relevant. Depolarisierung führt dazu, dass der Quantenzustand mit einer gewissen Wahrscheinlichkeit in einen gemischten Zustand übergeht. Dephasing zerstört Phaseninformation, die für Interferenz und damit für die Nichtlinearität der Feature Map entscheidend ist. Readout Errors verfälschen schließlich die Messung selbst, indem klassische Bits falsch ausgelesen werden.

Der Effekt dieser Fehler zeigt sich direkt in der Feature-Stabilität. Erwartungswerte driften, Varianzen steigen, und Unterschiede zwischen ähnlichen Zuständen können verschwimmen. In einem RL-Loop bedeutet dies, dass der Agent scheinbar inkonsistente Repräsentationen erhält, selbst wenn er denselben Zustand mehrfach besucht. Klassische RL-Algorithmen sind gegenüber solchem Rauschen nur begrenzt robust, da sie ohnehin mit stochastischen Updates arbeiten.

Robustheitsstrategien müssen daher gezielt und sparsam eingesetzt werden. Error Mitigation kann helfen, systematische Verzerrungen zu reduzieren, sollte aber nicht exzessiv angewandt werden, da sie zusätzlichen Rechenaufwand verursacht. Noise-aware Design bedeutet, Schaltkreise so zu entwerfen, dass sie von vornherein weniger anfällig sind, etwa durch reduzierte Tiefe oder durch Nutzung besonders stabiler Gatter. Symmetrische Messpläne, bei denen Observablen so gewählt werden, dass sich bestimmte Fehler statistisch ausmitteln, können ebenfalls zur Stabilisierung beitragen.

Wann ist ein Vorteil plausibel?

Angesichts dieser Einschränkungen stellt sich die Frage, unter welchen Bedingungen Quantum Feature Maps tatsächlich einen praktischen Vorteil bieten können. Plausibel ist ein Nutzen vor allem in Szenarien mit kleinen bis mittleren Zustandsdimensionen, in denen klassische lineare oder flach nichtlineare Features an ihre Grenzen stoßen. Wenn die zugrunde liegende Aufgabe starke Nichtlinearitäten oder komplexe Abhängigkeiten zwischen Zustandskomponenten aufweist, können quantenmechanische Einbettungen diese Struktur unter Umständen effizienter erfassen.

Besonders vielversprechend sind strukturierte Probleme, bei denen bekannte Symmetrien oder periodische Abhängigkeiten existieren. Phasenbasierte Encodings können solche Strukturen direkt widerspiegeln. Weniger geeignet sind hochdimensionale, unstrukturierte Rohzustände, da die benötigte Anzahl an Qubits und Schaltkreittiefe schnell unrealistisch wird.

Ein praktikabler Kompromiss liegt in hybriden Architekturen. Ein klassischer Encoder reduziert zunächst die Dimension des Zustandsraums und extrahiert grobe, robuste Merkmale. Die Quantum Feature Map übernimmt anschließend die Rolle eines Veredelungsmoduls, das diese Merkmale in eine reichhaltigere Geometrie überführt. In diesem Zusammenspiel liegt die realistischste Perspektive für einen Vorteil im NISQ-Zeitalter: nicht als Ersatz klassischer Repräsentationen, sondern als gezielte Ergänzung dort, wo klassische Methoden an strukturelle Grenzen stoßen.

Evaluations- und Benchmarking-Framework

Was zählt als „besser“?

Die Bewertung von Quantum Feature Maps im Reinforcement Learning erfordert ein differenziertes Verständnis von Fortschritt. Ein bloßer Vergleich der finalen Belohnung reicht nicht aus, da er zentrale Eigenschaften wie Lernstabilität, Ressourceneffizienz und Generalisierung verschleiert. Der erste und oft wichtigste Maßstab ist die Sample-Effizienz. Sie beschreibt, wie schnell ein Agent aus Interaktionen mit der Umwelt lernt. Formal lässt sich dies als Steigung der Lernkurve \(J_t\) in Abhängigkeit von der Anzahl der Schritte \(t\) interpretieren. Eine bessere Repräsentation sollte dazu führen, dass relevante Strukturen früher erkannt werden und weniger Erfahrung benötigt wird, um ein bestimmtes Leistungsniveau zu erreichen.

Ein zweites Kriterium ist der asymptotische Return, also das Leistungsniveau, das der Agent nach ausreichend langer Trainingszeit erreicht. Hier zeigt sich, ob die Repräsentation langfristig ausreichend Ausdruckskraft besitzt oder ob sie den Agenten auf ein suboptimales Plateau beschränkt. Gerade bei Quantum Feature Maps ist dies relevant, da flache oder stark regularisierte Maps zwar stabil lernen, aber möglicherweise nicht die maximale Performance erlauben.

Robustheit ist ein weiteres zentrales Kriterium. In nichtstationären Umgebungen oder unter Störungen sollte die Leistung nicht abrupt einbrechen. Robustheit gegen Drift bedeutet, dass kleine Änderungen in der Dynamik oder im Reward-Signal nicht zu disproportionalen Leistungseinbußen führen. Eng damit verknüpft ist die Generalisierung. Ein Agent, der mit einer bestimmten Feature Map trainiert wurde, sollte auf neue Seeds, leicht veränderte Umgebungen oder alternative Maps nicht vollständig versagen. Gute Repräsentationen kodieren strukturelle Eigenschaften der Aufgabe, nicht nur spezifische Trainingsinstanzen.

Da Quantum Feature Maps zusätzliche Ressourcen erfordern, sind compute-aware Metriken unverzichtbar. Statt den Return isoliert zu betrachten, ist es sinnvoll, ihn in Relation zur eingesetzten Rechenzeit oder zum Shot-Budget zu setzen. Eine mögliche Metrik ist der Return pro Zeiteinheit oder der Return pro \(N_{\text{shots}}\). Erst solche Metriken erlauben es, fair zu beurteilen, ob ein beobachteter Leistungsgewinn den zusätzlichen Aufwand rechtfertigt.

Ablations, die man zwingend braucht

Ein belastbares Benchmarking erfordert systematische Ablationsstudien. Eine der wichtigsten Fragen ist der Vergleich zwischen fixer und lernbarer Feature Map. Beide Ansätze sollten unter identischen Bedingungen getestet werden, um zu klären, ob der zusätzliche Optimierungsaufwand einer lernbaren Map tatsächlich zu messbaren Vorteilen führt oder lediglich Instabilität einführt.

Ebenso entscheidend ist die Wahl der Vergleichsbasis. Ergebnisse können stark davon abhängen, ob Modelle mit gleicher Parameteranzahl, gleicher Rechenzeit oder gleichem Datenverbrauch verglichen werden. Ein Modell mit mehr Parametern oder höherem Shot-Budget hat naturgemäß Vorteile. Faire Vergleiche sollten daher mehrere Perspektiven einnehmen. Beispielsweise kann man untersuchen, wie sich die Performance entwickelt, wenn klassische und quantenbasierte Modelle auf denselben Interaktionsdaten trainiert werden oder wenn beide ein identisches Rechenbudget erhalten.

Eine Shot-Studie ist für Quantum Feature Maps unverzichtbar. Dabei wird die Performance als Funktion der Messanzahl analysiert. Formal betrachtet man den Zusammenhang zwischen \(N_{\text{shots}}\) und dem erwarteten Return. Solche Studien zeigen, ob ein Modell robust gegenüber reduzierter Messgenauigkeit ist oder ob es nur unter unrealistisch hohen Shot-Zahlen stabil funktioniert. In RL ist dies besonders wichtig, da Messrauschen direkt in die Update-Dynamik eingeht.

Ergänzend dazu sollte eine Noise-Studie durchgeführt werden. Hier werden idealisierte, rauschfreie Simulationen mit realistischeren Szenarien verglichen, in denen NISQ-typische Fehler modelliert sind. Der Unterschied zwischen beiden Fällen gibt Aufschluss darüber, wie empfindlich die Feature Map gegenüber Hardwareeffekten ist und ob ein beobachteter Vorteil prinzipiell auch außerhalb idealisierter Simulationen Bestand haben könnte.

Repräsentationsdiagnostik (nicht nur Return)

Neben Leistungsmetriken ist eine direkte Analyse der Repräsentationen selbst notwendig. Eine einfache, aber aufschlussreiche Größe ist die Feature-Entropie. Sie misst, wie divers die erzeugten Features über den Zustandsraum verteilt sind. Sehr niedrige Entropie deutet auf Representation Collapse hin, während extrem hohe Entropie auf unstrukturierte, rauschdominierte Features hindeuten kann.

Der effective rank eines Feature-Matrix-Samples gibt an, wie viele Dimensionen tatsächlich genutzt werden. Formal lässt er sich aus den Eigenwerten der Kovarianzmatrix berechnen. Ein niedriger effective rank bedeutet, dass die Feature Map ihre theoretische Dimension nicht ausschöpft. Mutual Information Proxies zwischen Zuständen und Features können darüber hinaus zeigen, wie viel relevante Information tatsächlich erhalten bleibt.

Linear Probing ist ein weiteres praktisches Werkzeug. Dabei wird ein einfacher linearer Prädiktor auf den eingefrorenen Features trainiert, um eine Zielgröße wie den Return oder die nächste Belohnung vorherzusagen. Gute lineare Probe-Leistungen deuten darauf hin, dass die Repräsentation relevante Information explizit und zugänglich kodiert.

Schließlich ist die geometrische Analyse des Feature-Raums aufschlussreich. Die Clusterbarkeit von Zuständen kann zeigen, ob Zustände mit ähnlichen dynamischen Eigenschaften nahe beieinander liegen. Bisimulation-nahe Distanzen prüfen, ob Abstände im Feature-Raum mit Unterschieden in Belohnungen und Übergängen korrelieren. Solche Analysen machen sichtbar, ob Quantum Feature Maps tatsächlich die Lerngeometrie verbessern oder lediglich eine andere, aber nicht hilfreichere Repräsentation erzeugen.

Anwendungsfälle und „Design Rezepte

Kontinuierliche Kontrolle (z.B. Pendulum/MuJoCo-light)

Kontinuierliche Kontrollaufgaben stellen besondere Anforderungen an Repräsentationen, da Zustände typischerweise aus reellwertigen Größen wie Positionen, Geschwindigkeiten oder Winkeln bestehen. Klassische RL-Methoden nutzen hier oft kontinuierliche Feature-Extraktion über neuronale Netze. Quantum Feature Maps können in diesem Kontext als strukturierte, nichtlineare Einbettung dienen, sofern das Encoding sorgfältig gewählt wird.

Ein bewährtes Design-Rezept ist das Angle- oder Phase-Encoding. Kontinuierliche Zustandskomponenten \(s_i\) werden dabei auf Rotationswinkel abgebildet, etwa über Gatter der Form \(R_y(\alpha s_i)\) oder \(R_z(\beta s_i)\), wobei \(\alpha\) und \(\beta\) Skalierungsfaktoren sind. Dieses Encoding ist hardware-nah, stabil und erhält die Ordnung der Eingabewerte. Kleine Änderungen im Zustand führen zu kleinen, kontrollierten Änderungen im Quantenzustand, was für glatte Wertfunktionen und Policies entscheidend ist.

In der Praxis hat sich eine Actor-Critic-Architektur mit geteilter Quantum Feature Map bewährt. Der Zustand \(s\) wird zunächst durch die Quantum Feature Map in einen Feature-Vektor \(z(s)\) transformiert. Sowohl Actor als auch Critic greifen auf diese Repräsentation zu. Der Critic wird dabei besonders stabilisiert, etwa durch Target Networks oder Polyak Averaging, um zu verhindern, dass instabile Wertschätzungen die gemeinsame Repräsentation verzerren. Dieses Design nutzt die Stärke der Quantum Feature Map, eine reichhaltige, aber glatte Geometrie bereitzustellen, ohne die ohnehin sensible Dynamik kontinuierlicher Kontrolle unnötig zu destabilisieren.

Diskrete Aufgaben (z.B. Gridworld/Atari-light)

Diskrete Aufgaben bieten ein anderes Einsatzprofil für Quantum Feature Maps. Zustände sind hier oft symbolisch oder niedrigdimensional, Aktionen stammen aus einer endlichen Menge. In solchen Szenarien geht es weniger um kontinuierliche Glättung, sondern um effiziente Generalisierung zwischen ähnlichen Zuständen oder Zustand-Aktions-Paaren.

Ein zentrales Design-Rezept besteht in getrennten Zustands- und Aktions-Embeddings. Zustände \(s\) und Aktionen \(a\) werden jeweils über eigene Daten-Encodings in den Quantenschaltkreis eingespeist. Die resultierenden Features können entweder kombiniert oder in einer gemeinsamen Zustand-Aktion-Map verarbeitet werden. Letztere entspricht einer direkten Abbildung \(\mapsto |\phi(s,a)\rangle\), aus der der Wert \(Q(s,a)\) als Erwartungswert gewonnen wird. Dieses Vorgehen ist besonders dann sinnvoll, wenn die Interaktion zwischen Zustand und Aktion komplex ist und nicht additiv modelliert werden kann.

Eine alternative, oft robuste Variante ist die kernelisierte Sichtweise. Hier wird die Quantum Feature Map primär genutzt, um einen Quantenkernel \(K((s,a),(s‘,a‘))\) zu definieren, der als Similarity Measure dient. Wertschätzungen können dann zwischen ähnlichen Zustand-Aktions-Paaren generalisieren, selbst wenn sie selten oder nie direkt beobachtet wurden. In Gridworld-ähnlichen Umgebungen kann dies dazu führen, dass strukturell ähnliche Positionen oder Übergänge früh erkannt werden, was die Sample-Effizienz deutlich verbessert.

Für Atari-light-Szenarien, bei denen Zustände bereits vorverarbeitet sind, etwa durch diskrete Feature-Extractor, kann die Quantum Feature Map gezielt als zweite Repräsentationsstufe eingesetzt werden, um nichtlineare Abhängigkeiten zwischen diskreten Merkmalen sichtbar zu machen.

Partial Observability

In partiell beobachtbaren Umgebungen liegt die eigentliche Herausforderung nicht in der Komplexität einzelner Zustände, sondern in der zeitlichen Struktur. Einzelne Beobachtungen \(o_t\) sind mehrdeutig, und erst ihre Abfolge erlaubt Rückschlüsse auf den zugrunde liegenden Zustand. Entsprechend muss die Repräsentation eine Form von Gedächtnis oder Aggregation enthalten.

Ein naheliegendes Design-Rezept ist die Kombination klassischer rekurrenter Modelle mit Quantum Feature Maps. Ein rekurrentes Netz oder ein anderer sequentieller Encoder verarbeitet die Beobachtungsfolge und erzeugt einen latenten Belief State \(b_t\). Dieser Belief State wird anschließend durch eine Quantum Feature Map eingebettet. Die Quantenkomponente fungiert hier als nichtlineare Geometrieveredelung eines bereits zeitlich aggregierten Zustands.

Alternativ können Trajektorien-Feature Maps eingesetzt werden, bei denen kurze Sequenzen latex[/latex] direkt als Input dienen. Diese Variante ist rechenintensiver, kann aber zeitliche Muster explizit in die Repräsentation integrieren. Beide Ansätze verfolgen dasselbe Ziel: die Unsicherheit über den wahren Zustand in eine latente Struktur zu übersetzen, in der Wertfunktionen und Policies stabil gelernt werden können. Quantum Feature Maps bieten hier die Möglichkeit, zeitliche Abhängigkeiten und Mehrdeutigkeiten in einer reichhaltigen, aber kontrollierten Repräsentationsgeometrie abzubilden.

Offene Probleme und Forschungsfront

Theoretische Fundierung und provable Advantages

Ein zentrales offenes Problem betrifft die theoretische Absicherung von Quantum Feature Maps. Während empirische Ergebnisse häufig auf eine erhöhte Ausdruckskraft hinweisen, fehlt in vielen Fällen eine klare Antwort auf die Frage, wann und warum bestimmte Feature Maps einen nachweisbaren Vorteil gegenüber klassischen Repräsentationen liefern. Im Fokus stehen dabei kernelbasierte Interpretationen, bei denen die Quantum Feature Map eine Kernel-Funktion \(K(x,x‘)\) induziert. Unklar ist bislang, unter welchen strukturellen Bedingungen dieser Kernel eine höhere effektive Kapazität oder bessere Generalisierungseigenschaften besitzt.

Im Reinforcement Learning verschärft sich dieses Problem zusätzlich, da die Daten nicht unabhängig und identisch verteilt sind. Die Zustandsverteilung \(d^{\pi}(s)\) hängt von der Policy ab und ändert sich während des Trainings. Theoretische Aussagen müssen daher nicht nur die Expressivität der Feature Map berücksichtigen, sondern auch ihre Wechselwirkung mit policy-induzierter Nichtstationarität. Eine offene Leitfrage lautet, ob es Klassen von Umgebungen gibt, in denen sich Quantum Feature Maps systematisch in besseren Generalisierungsgrenzen niederschlagen.

Barren Plateaus unter RL-Nonstationarität

Barren Plateaus stellen bereits im überwachten Lernen ein ernstzunehmendes Hindernis dar. Im Reinforcement Learning treten sie jedoch in verschärfter Form auf. Die Verlustlandschaft verändert sich kontinuierlich, da Wertfunktionen gebootstrappt werden und Policies ihre Explorationsstrategie anpassen. In diesem dynamischen Setting können trainierbare Quantum Feature Maps schnell in Regionen geraten, in denen Gradienten für die Parameter \(\theta\) praktisch verschwinden.

Ein offenes Forschungsproblem ist die Entwicklung von Mitigationsstrategien, die speziell auf RL zugeschnitten sind. Dazu gehören schaltkreisarchitektonische Einschränkungen, problemabhängige Initialisierungen oder Trainingsprotokolle, bei denen Repräsentationsparameter nur in bestimmten Phasen angepasst werden. Besonders ungeklärt ist, wie sich solche Maßnahmen langfristig auf die Stabilität und Lernleistung auswirken, wenn Repräsentationslernen und Policy-Optimierung eng gekoppelt sind.

Adaptive und regionsabhängige Feature Maps

Ein vielversprechender, aber kaum erforschter Ansatz sind adaptive Quantum Feature Maps. Anstatt eine globale Einbettung zu verwenden, könnten Feature Maps lokal auf unterschiedliche Regionen des Zustandsraums reagieren. Formal würde dies bedeuten, dass die Abbildung \(U_{\phi}(x)\) selbst zustandsabhängig variiert oder wächst. Häufig besuchte Regionen könnten mit einfachen, robusten Encodings behandelt werden, während komplexe oder seltene Regionen eine reichhaltigere Einbettung erhalten.

Die Herausforderung liegt in der Kontrolle dieser Adaptivität. Zu schnelle oder unkoordinierte Änderungen der Feature Map können Replay Buffer Drift und Instabilitäten verursachen. Offene Forschungsfragen betreffen daher Mechanismen zur Regularisierung adaptiver Maps und Kriterien, wann zusätzliche Komplexität tatsächlich gerechtfertigt ist.

Benchmark-Standards und Reproduzierbarkeit

Ein weiteres ungelöstes Problem ist die fehlende Standardisierung von Benchmarks. Ergebnisse zu Quantum Feature Maps sind oft schwer vergleichbar, da Shot-Budgets, Rauschmodelle und Rechenressourcen variieren. Ohne einheitliche Protokolle bleibt unklar, ob beobachtete Leistungsgewinne aus der Repräsentation selbst oder aus zusätzlichem Ressourcenverbrauch resultieren.

Die Etablierung von Benchmark-Standards, die explizit compute- und shot-bewusste Vergleiche erlauben, ist daher eine zentrale Aufgabe der kommenden Jahre. Nur so lassen sich belastbare Aussagen über den praktischen Nutzen von Quantum Feature Maps treffen.

Hardware-Co-Design und physikalische Realisierbarkeit

Schließlich rückt Hardware-Co-Design immer stärker in den Fokus. Anstatt Feature Maps unabhängig von der Zielhardware zu entwerfen, stellt sich die Frage, wie sie nativ an reale Chip-Topologien angepasst werden können. Qubit-Konnektivität, native Gate-Sätze und dominante Fehlermodelle sollten von Anfang an in das Design einfließen. Feature Maps, die diese physikalischen Gegebenheiten ausnutzen, könnten robuster und effizienter sein als abstrakte Konstruktionen. In dieser engen Verzahnung von Algorithmus und Hardware liegt eine der spannendsten Perspektiven für zukünftige Fortschritte im Quantum Reinforcement Learning.

Fazit

Quantum Feature Maps stellen im Kontext des Reinforcement Learnings keine universelle Abkürzung dar, sondern eine präzise und kontrollierbare Repräsentationsschicht. Ihr Beitrag liegt nicht darin, klassische Approximationsmethoden oder bewährte RL-Algorithmen „magisch zu ersetzen“, sondern darin, die Geometrie des Lernproblems gezielt zu verändern. Indem klassische Zustände, Aktionen oder Trajektorien in einen quantenmechanischen Hilbertraum eingebettet werden, können Strukturen sichtbar gemacht werden, die in herkömmlichen Feature-Räumen nur schwer oder nur mit erheblichem Aufwand zugänglich sind.

Die bisherige Analyse zeigt jedoch klar, dass diese Potenziale nicht automatisch realisiert werden. Quantum Feature Maps entfalten ihren Nutzen nur dann, wenn mehrere Faktoren sorgfältig aufeinander abgestimmt sind. Das Design der Map muss zur Aufgabenstruktur passen und hardware-kompatibel bleiben. Das Messbudget, also die Anzahl der Shots, bestimmt maßgeblich die Varianz der Features und damit die Stabilität des Lernprozesses. Gleichzeitig müssen klassische Stabilitätsmechanismen des Reinforcement Learnings, wie Target Networks, Replay Buffer Management oder geeignete Lernraten, konsequent eingesetzt werden, um die zusätzliche Stochastik der Quantenmessung abzufedern.

Ein zentrales Ergebnis ist, dass realistische Gewinne meist nicht in extremen, sondern in ausgewogenen Architekturen auftreten. Besonders robust erweist sich der Ansatz, klassische Vorverarbeitung mit einer kurzen, gut gewählten Quantum Feature Map zu kombinieren und die eigentliche Approximation durch einen klassischen Head vornehmen zu lassen. In dieser hybriden Struktur übernimmt die Quantenkomponente die Rolle eines geometrischen Veredelungsmoduls, während die klassische Komponente Stabilität, Skalierbarkeit und effiziente Optimierung gewährleistet.

Für die Praxis bedeutet dies, dass der Erfolg von Quantum Feature Maps weniger von maximaler Expressivität als von kontrollierter Einfachheit abhängt. Strenge Ablationsstudien und compute-aware Metriken sind unerlässlich, um echte Fortschritte von Ressourcenartefakten zu unterscheiden. In dieser nüchternen, aber konstruktiven Perspektive liegt die eigentliche Stärke von Quantum Feature Maps: nicht als Ersatz klassischer Methoden, sondern als gezielte Erweiterung dort, wo Repräsentationsgeometrie über Lernbarkeit entscheidet.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Die folgende Zusammenstellung geht deutlich über eine Basisliste hinaus und ist thematisch so strukturiert, dass sie Quantum Feature Maps, Quantum Machine Learning, Reinforcement Learning, Kernel-Theorie, Variational Quantum Circuits sowie NISQ-Aspekte fundiert abdeckt. Die Auswahl kombiniert etablierte Referenzen mit einflussreichen neueren Arbeiten.

Wissenschaftliche Zeitschriften und Artikel

Quantum Feature Maps, Quantum Kernel Methods

Variational Quantum Circuits, Expressivität, Barren Plateaus

Quantum Reinforcement Learning

Representation Learning & RL-Theorie (klassisch, aber essenziell)

Bücher und Monographien

Quantum Information & Quantum Machine Learning

Reinforcement Learning & Function Approximation

Kernel Methods & Representation Theory

Online-Ressourcen und Datenbanken

Frameworks & Dokumentationen

Preprint-Archive & Benchmarking

Hardware & NISQ-Realität