Quantum Sample Complexity Metrics

Quantum Reinforcement Learning steht an einer spannungsgeladenen Schnittstelle: Auf der einen Seite die klassische RL-Logik aus Exploration, Belohnungssignalen und stochastischen Übergängen, auf der anderen Seite die physikalische Realität quantenmechanischer Messungen, die aus amplitudengetriebenen Wahrscheinlichkeiten harte Stichproben macht. Genau hier wird Sample Complexity zu einem Begriff mit deutlich größerer Tiefe als in der klassischen Literatur. In klassischen Settings meint Sample Complexity meist die Anzahl an Interaktionen mit der Umgebung, typischerweise gezählt als Transitionen der Form \((s_t, a_t, r_t, s_{t+1})\) oder als Episodenlängen bis zu einer Zielperformance. Im Quantenkontext greift diese Zählweise zu kurz. Denn selbst wenn die Zahl der Umweltinteraktionen identisch bleibt, kann der tatsächliche Daten- und Ressourcenverbrauch stark variieren, abhängig davon, wie viele Mess-Shots benötigt werden, wie oft parametrische Schaltkreise ausgeführt werden, und wie viel klassische Nachbearbeitung erforderlich ist, um aus Messstatistiken robuste Gradienten-, Value- oder Policy-Schätzungen zu gewinnen.

Die zentrale Leitfrage dieser Abhandlung lautet deshalb: Welche Metriken eignen sich, um den Daten- und Ressourcenbedarf von QRL-Algorithmen fair, reproduzierbar und aussagekräftig zu benchmarken? Fair bedeutet hier, dass ein Vergleich nicht durch verdeckte Budgets verzerrt wird, etwa indem ein Ansatz zwar wenige Umweltinteraktionen benötigt, dafür aber ein Vielfaches an Schaltkreis-Ausführungen oder Shots verbraucht. Reproduzierbar bedeutet, dass Experimente so berichtet werden, dass andere Gruppen sie mit vergleichbaren Budgets, Seed-Strategien und Hardwareannahmen nachstellen können. Aussagekräftig bedeutet schließlich, dass Metriken die tatsächlichen Engpässe sichtbar machen: Messrauschen, Schaltkreistiefe, Fehlerraten, sowie die Kopplung zwischen statistischer Unsicherheit und Lernfortschritt.

Daraus folgt eine klare Abgrenzung: Sample Complexity ist nicht gleich Laufzeitkomplexität, und beide sind nicht identisch mit Hardware-Ressourcen. Laufzeitkomplexität adressiert, wie viele Rechenschritte ein Verfahren benötigt; Hardware-Ressourcen beschreiben, auf welcher Maschine es überhaupt ausführbar ist, etwa über Qubit-Zahl, Schaltkreistiefe oder Fehlermodelle. Sample Complexity Metrics hingegen fokussieren auf die Menge an Daten und messbasierten Stichproben, die nötig sind, um eine definierte Lernleistung zu erreichen.

Das Ergebnisversprechen ist entsprechend präzise: Diese Abhandlung entwickelt einen konsistenten Metrik-Katalog, ergänzt durch einen Reporting-Standard und konkrete Benchmark-Protokolle, die QRL-Evaluation auf eine belastbare, vergleichbare Grundlage stellen.

Begriffsklärung: Was heißt „Sample“ im QRL wirklich?

Klassisches RL als Referenzrahmen

Im klassischen Reinforcement Learning ist der Sample-Begriff klar und operational definiert. Ein Sample entspricht in der Regel einer Umwelttransition, formal beschrieben als \((s_t, a_t, r_t, s_{t+1})\). Jede Interaktion eines Agenten mit der Umwelt erzeugt genau ein solches Datenpaket: einen beobachteten Zustand, eine gewählte Aktion, eine erhaltene Belohnung und den Folgezustand. Auf dieser elementaren Einheit bauen alle gängigen Lernverfahren auf, unabhängig davon, ob sie value-basiert, policy-basiert oder modellbasiert arbeiten.

Aus dieser Definition ergeben sich etablierte Zählweisen. Samples werden zu Trajektorien aggregiert, also Sequenzen der Form \((s_0, a_0, r_0, s_1, \dots, s_T)\), und diese wiederum zu Episoden mit endlichem oder unendlichem Horizont. Klassische Maßzahlen für Sample Efficiency beziehen sich daher fast ausschließlich auf Umweltinteraktionen. Typische Kennzahlen sind die Anzahl der Episoden bis zum Erreichen einer Zielperformance, der kumulative Regret über einen Zeithorizont \(T\), oder die PAC-Sample-Complexity, also die minimale Anzahl an Samples, die benötigt wird, um mit Wahrscheinlichkeit mindestens \(1 – \delta\) eine \(\epsilon\)-optimale Policy zu lernen.

Wichtig ist dabei: In klassischen Settings ist ein Sample nahezu gleichbedeutend mit einem Rechenschritt. Die Kostenstruktur ist relativ homogen, da jede Transition ähnliche Rechen- und Datenkosten verursacht. Diese implizite Gleichsetzung bricht im Quantenkontext auf fundamentale Weise zusammen.

Quanten-spezifische Erweiterung des Sample-Begriffs

Quantum Reinforcement Learning übernimmt zwar die klassische Interaktionslogik, erweitert sie jedoch um mehrere zusätzliche Ebenen des Samplings. Zunächst bleiben Umwelt-Interaktionssamples weiterhin relevant. Auch ein Quantenagent interagiert mit einer Umgebung und erzeugt Übergänge der Form \((s_t, a_t, r_t, s_{t+1})\). Diese Zählweise allein ist jedoch nicht mehr ausreichend, um den tatsächlichen Informations- und Ressourcenverbrauch zu erfassen.

Eine zentrale neue Kategorie sind Quantum Measurement Samples, üblicherweise als Shots bezeichnet. Jeder Shot entspricht einer einzelnen Messung eines Quantenzustands und liefert ein stochastisches Bit- oder Registerergebnis. Erwartungswerte, Wahrscheinlichkeiten oder Gradienten sind nicht direkt zugänglich, sondern müssen aus vielen solcher Shots statistisch geschätzt werden. Der Schätzfehler skaliert dabei typischerweise wie \(\mathcal{O}(1/\sqrt{N})\), wobei \(N\) die Anzahl der Shots ist.

Eng damit verknüpft sind Circuit Executions. Jeder Shot erfordert die vollständige Ausführung eines parametrisierten Quantum Circuits. Ein einzelnes Policy-Update kann daher hunderte oder tausende Circuit-Ausführungen benötigen, selbst wenn nur ein einziger Umwelttransition-Schritt verarbeitet wird. Circuit Executions sind damit eine eigenständige Sample-Ressource.

Hinzu kommen Oracle- oder Query-Samples, insbesondere in idealisierten oder theoretischen QRL-Ansätzen. Hier wird gezählt, wie oft auf ein abstraktes Quantorakel zugegriffen wird, etwa bei Amplitude Estimation oder Grover-artigen Unterroutinen. Diese Zählweise ist hardware-agnostisch, aber zentral für asymptotische Aussagen.

Schließlich entstehen Hybrid-Loop Samples in variationalen QRL-Algorithmen. Gradienten werden beispielsweise über Parameter-Shift-Regeln geschätzt, was zusätzliche Circuit-Auswertungen pro Parameter erfordert. Jeder Gradientenschritt ist damit selbst ein Sampling-Prozess.

Kernthese

Die zentrale These lautet daher: In Quantum Reinforcement Learning ist Sample Complexity inhärent mehrdimensional. Sie setzt sich aus Umweltinteraktionen, Mess-Shots, Circuit Executions, Oracle-Queries und Trainingsupdates zusammen. Eine seriöse Evaluation muss diese Dimensionen getrennt erfassen und gemeinsam interpretieren, statt sie auf eine einzelne Zahl zu reduzieren.

Taxonomie: Klassen von Quantum Sample Complexity Metrics

Interaktions-basierte Metriken (Environment Sample Complexity)

Interaktions-basierte Metriken bilden die direkteste Verbindung zur klassischen RL-Literatur und stellen den gemeinsamen Referenzrahmen für Vergleiche zwischen klassischen und quantenunterstützten Verfahren dar. Im Zentrum steht die Frage, wie viele Umwelttransitionen der Form \((s_t, a_t, r_t, s_{t+1})\) benötigt werden, um ein definiertes Leistungsniveau zu erreichen. Die gebräuchlichste Kennzahl ist dabei die Anzahl der Transitions bis zu einer Schwellenperformance, etwa bis der erwartete episodische Reward einen Zielwert \(\tau\) überschreitet. Diese Metrik ist intuitiv, leicht interpretierbar und erlaubt einen unmittelbaren Vergleich unterschiedlicher Agenten unter identischen Umgebungsbedingungen.

Eine feinere Variante betrachtet die Episoden bis zur Stabilität. Hier wird nicht nur ein einmaliges Überschreiten eines Schwellenwertes gefordert, sondern eine statistische Stabilisierung der Performance. Formal kann dies über Konfidenzintervalle modelliert werden, etwa indem verlangt wird, dass der geschätzte Mittelwert des Returns \(\hat{J}\) ein Intervall der Breite kleiner als \(\epsilon\) aufweist. Diese Sichtweise ist besonders relevant in QRL, da Messrauschen und stochastische Gradienten zu starken Fluktuationen führen können, selbst wenn die Policy im Mittel bereits gut ist.

Ein dritter Zugang ist die Betrachtung der Erfolgswahrscheinlichkeit als Funktion der Interaktionen. Hier wird analysiert, wie die Wahrscheinlichkeit \(P(J \ge \tau)\) mit zunehmender Anzahl von Umweltinteraktionen wächst. Die resultierende Learning Curve liefert ein reichhaltigeres Bild als ein einzelner Schwellenwert, da sie den gesamten Lernverlauf abbildet und frühe Lernphasen ebenso berücksichtigt wie asymptotisches Verhalten.

Mess- und Schaltkreis-basierte Metriken (Quantum Sampling Load)

Mess- und schaltkreisbasierte Metriken adressieren den Kern der quantenspezifischen Kostenstruktur. Eine zentrale Größe sind Shots pro Policy-Update. Jeder Update-Schritt einer Policy erfordert typischerweise die Schätzung von Erwartungswerten oder Gradienten, die wiederum aus Messstatistiken gewonnen werden. Die durchschnittliche Anzahl an Shots pro Update ist daher ein direkter Indikator für die statistische Effizienz eines Verfahrens.

Eng damit verknüpft ist die Metrik Shots bis zu einem \(\epsilon\)-genauen Value- oder Q-Schätzer. Formal lässt sich dies als minimale Anzahl \(N\) an Messungen definieren, sodass \(|\hat{Q}(s,a) – Q(s,a)| \le \epsilon\) mit hoher Wahrscheinlichkeit gilt. Diese Metrik macht sichtbar, wie stark Messrauschen und Varianzreduktionstechniken den Samplebedarf beeinflussen.

Eine weitere wichtige Größe sind Circuit Runs pro Gradient-Step. In variationalen Ansätzen muss jeder Parametergradient separat geschätzt werden, häufig mittels Parameter-Shift-Regeln. Für einen Parametervektor der Dimension \(d\) kann ein einzelner Gradientenschritt daher \(\mathcal{O}(d)\) oder mehr Circuit-Ausführungen erfordern. Diese Metrik ist besonders relevant, um Skalierungsprobleme frühzeitig zu erkennen.

Als aggregierte Kennzahl bietet sich die Total Quantum Evaluations an. Diese Größe zählt die Summe aller Circuit-Ausführungen über den gesamten Trainings- und Evaluationsprozess hinweg. TQE fungiert als quantenspezifisches Pendant zur Gesamtzahl der Samples im klassischen RL und erlaubt eine konsolidierte Sicht auf den quantenmechanischen Aufwand.

Query-/Oracle-Komplexität als idealisiertes Samplemaß

Query- oder Oracle-Komplexität abstrahiert von konkreter Hardware und betrachtet, wie oft ein Algorithmus auf ein ideales Quantorakel zugreift. Diese Metrik wird häufig pro Schritt oder pro Episode angegeben und ist zentral für theoretische Aussagen über asymptotische Vorteile. Ein Beispiel ist die Analyse, wie viele Orakelaufrufe nötig sind, um eine Erwartung bis auf Fehler \(\epsilon\) zu schätzen.

Wichtig ist die klare Abgrenzung: Ein Oracle Sample ist nicht gleichzusetzen mit realen Hardwarekosten. Ein einzelner Orakelaufruf kann in der Praxis viele Gatter, tiefe Schaltkreise und zahlreiche Shots implizieren. Dennoch bleibt diese Metrik unverzichtbar, da sie algorithmische Effizienz unabhängig von spezifischen Implementierungsdetails sichtbar macht.

Informations-theoretische Metriken

Informations-theoretische Metriken zielen darauf ab, den Lernfortschritt pro Sample zu quantifizieren. Eine Möglichkeit ist der Mutual-Information-Progress pro Sample, der misst, wie stark ein zusätzliches Sample die gegenseitige Information zwischen Policy-Parametern und optimalem Verhalten erhöht. Intuitiv beschreibt diese Größe, wie viel relevante Information ein einzelnes Datenpunkt tatsächlich liefert.

Ergänzend dazu kann die Fisher-Information pro Shot betrachtet werden. Sie misst die lokale Sensitivität der Messverteilungen gegenüber Änderungen der Parameter. Hohe Fisher-Information bedeutet, dass wenige Shots ausreichen, um Parameter präzise zu identifizieren, während niedrige Werte auf schlechte Trainierbarkeit hindeuten.

Praxis-Metriken für Benchmarks

Für praktische Benchmarks sind zusammengesetzte, leicht kommunizierbare Metriken entscheidend. Beispiele sind Reward-per-1k-shots, der den erzielten Reward normiert auf ein fixes Shotbudget ausdrückt, oder Regret-per-1e6-circuit-runs, der den Lernverlust relativ zu einem festen Schaltkreisbudget misst. Ebenfalls wichtig ist Goal-achievement under shot budget, bei dem geprüft wird, ob und wann ein definierter Zielzustand unter einem vorgegebenen Messbudget erreicht wird. Solche Metriken verbinden theoretische Strenge mit praktischer Vergleichbarkeit und bilden die Brücke zwischen Forschung und Anwendung.

Theoretische Fundamente: PAC, Regret und ε-Genauigkeit im Quantenrahmen

PAC-Sample-Complexity in RL (klassisches Grundgerüst)

Das PAC-Paradigma bildet eines der zentralen theoretischen Fundamente für die Analyse von Sample Complexity im Reinforcement Learning. Ziel ist es, eine Policy zu lernen, die mit hoher Wahrscheinlichkeit nahezu optimal ist. Formal bedeutet dies, eine Policy \(\pi\) zu finden, deren erwarteter Return \(J(\pi)\) die Bedingung \(J(\pi) \ge J(\pi^\ast) – \epsilon\) erfüllt, und zwar mit Wahrscheinlichkeit mindestens \(1 – \delta\). Die PAC-Sample-Complexity ist dann definiert als die minimale Anzahl an Samples, die erforderlich ist, um diese Garantie zu erreichen.

Im klassischen RL hängt diese Größe von mehreren strukturellen Eigenschaften des Problems ab. Dazu zählen die Kardinalität des Zustandsraums \(|\mathcal{S}|\), die Größe des Aktionsraums \(|\mathcal{A}|\), der Planungshorizont \(H\) sowie die Art der Funktionapproximation, etwa tabellarisch, linear oder tiefneural. Typischerweise wächst die Sample Complexity polynomial in \(|\mathcal{S}|\), \(|\mathcal{A}|\) und \(H\), und invers quadratisch in \(\epsilon\).

Diese klassische Struktur ist auch im QRL weiterhin relevant, da der Agent nach wie vor eine Policy über Zustände und Aktionen lernt. Allerdings verschiebt sich die Interpretation des Begriffs Sample: Ein einzelnes Umwelttransition-Sample garantiert nicht automatisch eine präzise Schätzung von Value-Funktionen oder Policy-Gradienten, da diese Größen in QRL häufig indirekt über quantenmechanische Messungen bestimmt werden.

Regret als dynamische Sample-Metrik

Regret stellt eine alternative, dynamische Sicht auf Sample Complexity dar. Statt eine feste Zielgenauigkeit vorzugeben, misst Regret den kumulativen Verlust gegenüber einer optimalen Policy über die Zeit. Der kumulative Regret nach \(T\) Schritten ist definiert als \(R_T = \sum_{t=1}^T (J(\pi^\ast) – J(\pi_t))\), wobei \(\pi_t\) die zu Zeitpunkt \(t\) eingesetzte Policy ist. Der Average Regret ergibt sich entsprechend als \(\bar{R}_T = R_T / T\).

Im Benchmarking erweist sich Regret oft als robuster als Metriken vom Typ Time-to-Threshold. Während letztere stark von kurzfristigen Fluktuationen abhängen können, integriert Regret den gesamten Lernverlauf. Gerade im Quantenkontext, in dem Messrauschen zu starken Varianzen führen kann, ist diese Eigenschaft entscheidend. Ein Algorithmus, der früh gute Entscheidungen trifft, aber langsam konvergiert, kann im Regret-Vergleich besser abschneiden als ein Verfahren mit späten, aber steilen Lernfortschritten.

Regret-basierte Metriken erlauben zudem eine direkte Kopplung an Budgetfragen. Man kann etwa untersuchen, wie sich der kumulative Regret als Funktion der verfügbaren Anzahl an Umweltinteraktionen, Shots oder Circuit-Ausführungen verhält. Damit wird Regret zu einer flexiblen Sample-Metrik, die unterschiedliche Ressourcenachsen integrieren kann.

Quanten-Subroutinen und ihr Einfluss auf Samplebedarf

Ein zentrales Versprechen von QRL liegt im Einsatz quantenspezifischer Subroutinen, die den Samplebedarf theoretisch reduzieren können. Amplitude Amplification und Amplitude Estimation sind hierfür prototypische Beispiele. Während klassische Monte-Carlo-Schätzer eine Genauigkeit von \(\epsilon\) mit \(\mathcal{O}(1/\epsilon^2)\) Samples erreichen, versprechen quantenbasierte Verfahren eine Skalierung von \(\mathcal{O}(1/\epsilon)\).

Im Kontext von QRL bedeutet dies potenziell, dass Value-Funktionen, Policy-Gradients oder Erwartungswerte mit deutlich weniger effektiven Samples geschätzt werden können. Auf der Ebene der Query-Komplexität kann dies zu echten asymptotischen Vorteilen führen.

Ein Realitätscheck ist jedoch unverzichtbar. Diese idealisierten Skalierungen setzen fehlerfreie Schaltkreise, kohärente Ausführung und perfekte Orakel voraus. In der Praxis dominieren Shotnoise, endliche Kohärenzzeiten und hardwareabhängige Fehlermodelle. Zusätzlich erzeugt Fehlerminderung einen erheblichen Overhead, der den effektiven Samplebedarf wieder erhöhen kann. In vielen realistischen Szenarien verschiebt sich der Vorteil daher von einer Reduktion der Umweltinteraktionen hin zu einer Verschiebung des Kostenprofils auf Shots und Circuit-Ausführungen.

Untere Schranken (Lower Bounds) als Orientierung

Lower Bounds spielen eine entscheidende Rolle bei der Interpretation von Sample Complexity Metrics. Sie definieren fundamentale Informationsgrenzen, die unabhängig vom konkreten Algorithmus gelten. Ohne Bezug auf solche Schranken besteht die Gefahr des Cherry-Pickings, bei dem einzelne Metriken optimiert werden, ohne den Gesamtaufwand realistisch abzubilden.

Das zentrale Prinzip lautet: Wenn ein Algorithmus weniger Umweltinteraktionen benötigt, muss er den Preis an anderer Stelle zahlen. Dieser Preis kann in Form zusätzlicher Shots, erhöhter Query-Komplexität oder stärkerer Modellannahmen auftreten. Formal lässt sich dies als eine Art Ressourcen-Erhaltung interpretieren, bei der Information nicht kostenlos gewonnen werden kann.

Für die Entwicklung und Bewertung von QRL-Metriken bedeutet dies, dass jede aussagekräftige Kennzahl im Kontext bekannter unterer Schranken interpretiert werden sollte. Erst der Abgleich zwischen beobachteter Sample Efficiency und theoretischen Grenzen erlaubt eine fundierte Aussage darüber, ob ein vermeintlicher Vorteil tatsächlich substanziell ist oder lediglich eine Verschiebung der Kosten zwischen verschiedenen Sample-Dimensionen darstellt.

Messrauschen, Hardware-Nähe und der „Shot Budget“-Blick

Shot Noise als statistischer Flaschenhals

Messrauschen ist im Quantum Reinforcement Learning kein Nebeneffekt, sondern ein struktureller Engpass. Jeder Zugriff auf einen Quantenzustand endet in einer projektiven Messung, deren Ergebnis intrinsisch stochastisch ist. Selbst bei idealer Hardware liefert ein einzelner Shot lediglich eine Realisierung aus einer zugrunde liegenden Wahrscheinlichkeitsverteilung. Erwartungswerte observabler Größen, etwa von Belohnungs- oder Policy-Funktionalen, müssen daher aus vielen Messungen geschätzt werden.

Die statistische Varianz eines Messschätzers bestimmt unmittelbar den Samplebedarf. Für einen einfachen Erwartungswertschätzer gilt typischerweise eine Varianz der Form \(\mathrm{Var}(\hat{\mu}) = \sigma^2 / N\), wobei \(\sigma^2\) die Varianz der zugrunde liegenden Zufallsvariable und \(N\) die Anzahl der Shots ist. Daraus folgt eine Konvergenzrate von \(\mathcal{O}(1/\sqrt{N})\) für den Schätzfehler. Diese Skalierung ist fundamental und unabhängig vom verwendeten Lernalgorithmus.

Für die Praxis bedeutet dies, dass Konfidenzintervalle eine zentrale Rolle spielen. Wird gefordert, dass ein Schätzer mit Wahrscheinlichkeit mindestens \(1 – \delta\) innerhalb eines Fehlers \(\epsilon\) liegt, lässt sich daraus direkt ein benötigtes Shotbudget ableiten. In vielen QRL-Setups bestimmt dieses statistische Erfordernis den dominanten Kostenfaktor, lange bevor Aspekte wie Umweltinteraktionen oder klassische Rechenzeit relevant werden. Shot Noise wirkt damit als statistischer Flaschenhals, der den Lernfortschritt begrenzt, selbst wenn die zugrunde liegende Policy bereits nahe am Optimum liegt.

Fehlermodelle und Sample Complexity

Reale Quantenhardware ist zusätzlich durch systematische Fehler geprägt. Depolarizing Noise führt dazu, dass der Quantenzustand mit einer gewissen Wahrscheinlichkeit durch einen gemischten Zustand ersetzt wird, was die Varianz der Messresultate erhöht und Erwartungswerte verzerrt. Readout Error bewirkt, dass Messergebnisse falsch klassifiziert werden, etwa indem ein Zustand \(|0\rangle\) als \(|1\rangle\) detektiert wird. Beide Effekte erhöhen effektiv den Samplebedarf, da mehr Shots benötigt werden, um denselben statistischen Fehler zu erreichen.

Neben erhöhter Varianz tritt auch Bias auf. Ein verzerrter Schätzer kann nicht allein durch mehr Shots korrigiert werden, sondern erfordert explizite Gegenmaßnahmen. Fehlerminderungstechniken setzen genau hier an, etwa durch Kalibrierungsmatrizen, Zero-Noise-Extrapolation oder probabilistische Fehlerumkehr. Diese Verfahren reduzieren den systematischen Fehler, sind jedoch selbst ressourcenintensiv.

In Bezug auf Sample Complexity wirken Fehlerminderungsverfahren wie ein versteckter Sample-Multiplikator. Ein einzelner effektiver Messwert kann die Ausführung mehrerer Schaltkreise bei unterschiedlichen Rauschstärken oder Konfigurationen erfordern. Der nominelle Shotbedarf unterschätzt daher oft den tatsächlichen Ressourcenverbrauch erheblich. Für QRL-Metriken ist es deshalb essenziell, nicht nur rohe Shotzahlen, sondern auch den durch Fehlerminderung induzierten Overhead transparent zu berichten.

Hardware-agnostische vs. hardware-bewusste Metriken

Vor diesem Hintergrund stellt sich die Frage, auf welcher Abstraktionsebene Sample Complexity gemessen werden sollte. Hardware-agnostische Metriken abstrahieren von konkreten Fehlerraten, Qubit-Topologien oder Kohärenzzeiten. Sie zählen etwa Umweltinteraktionen, Query-Komplexität oder ideale Shots unter der Annahme perfekter Messungen. Ihr großer Vorteil liegt in der Vergleichbarkeit. Algorithmen können unabhängig von spezifischer Hardwaregeneration oder Anbieter gegeneinander gestellt werden, was insbesondere für theoretische Arbeiten unverzichtbar ist.

Demgegenüber stehen hardware-bewusste Metriken, die reale Fehlermodelle, effektive Shotkosten und konkrete Ausführungsbedingungen berücksichtigen. Sie beantworten die Frage, wie viel Ressource tatsächlich verbraucht wird, um ein Lernziel auf existierender oder absehbarer Hardware zu erreichen. Für industrielle Anwendungen und praxisnahe Benchmarks ist diese Perspektive entscheidend, da sie unmittelbar auf Kosten, Laufzeiten und Skalierbarkeit verweist.

In der Praxis erweist sich eine strikte Entscheidung für eine der beiden Perspektiven als unzureichend. Aussagekräftige QRL-Benchmarks benötigen vielmehr eine klare Trennung und parallele Berichterstattung. Hardware-agnostische Metriken liefern die theoretische Einordnung und zeigen, ob ein Algorithmus prinzipiell effizient ist. Hardware-bewusste Metriken zeigen, ob dieser Effizienzgewinn unter realistischen Bedingungen tatsächlich nutzbar ist. Der Shot-Budget-Blick fungiert dabei als verbindendes Element, da er beide Ebenen über die zentrale Ressource der quantenmechanischen Messungen miteinander verknüpft.

Metriken für QRL-Algorithmenfamilien

Value-basierte QRL-Ansätze

Value-basierte Ansätze übertragen das klassische Paradigma der Wertfunktionsapproximation auf den Quantenkontext. Ziel ist es, eine Value- oder Q-Funktion \(V^\pi(s)\) bzw. \(Q^\pi(s,a)\) so präzise zu schätzen, dass daraus eine nahezu optimale Policy abgeleitet werden kann. Die zentrale Sample-Metrik ist hier der Samplebedarf für die Value-Schätzung, typischerweise ausgedrückt als Anzahl der Shots, die benötigt werden, um einen Value-Error kleiner als \(\epsilon\) zu garantieren. Formal lässt sich dies als Bedingung \(|\hat{Q}(s,a) – Q(s,a)| \le \epsilon\) mit hoher Wahrscheinlichkeit formulieren.

In QRL wird diese Schätzung häufig über quantenmechanische Erwartungswerte realisiert. Der dominante Kostenfaktor ist daher nicht die Anzahl der Umweltinteraktionen, sondern die Anzahl der Mess-Shots pro Zustands-Aktions-Paar. Besonders kritisch wird dies bei hochdimensionalen Zustandsräumen, in denen viele Value-Schätzungen parallel oder sequentiell benötigt werden. Die Metrik Shots bis \(\epsilon\)-Value-Error macht diesen Zusammenhang explizit sichtbar.

Ein weiterer Aspekt ist die Stabilität von Bootstrapping-Verfahren. Value-basierte Methoden nutzen rekursive Updates, bei denen neue Schätzungen auf früheren, selbst verrauschten Schätzungen aufbauen. Im Quantenkontext kann sich Messrauschen dabei akkumulieren. In ungünstigen Fällen führt dies zu einer Explosion des Shotbedarfs, da zusätzliche Messungen nötig werden, um die wachsende Varianz zu kontrollieren. Eine aussagekräftige Metrik muss daher nicht nur den durchschnittlichen Shotbedarf erfassen, sondern auch dessen Wachstum über Trainingsiteration hinweg.

Policy-Gradient & Variational QRL

Policy-Gradient-Methoden und variationale QRL-Ansätze bilden derzeit eine der aktivsten Forschungsrichtungen. Hier wird die Policy direkt durch einen parametrisierten Quantum Circuit repräsentiert, dessen Parameter \(\theta\) durch Gradientenaufstieg optimiert werden. Die zentrale Sample-Metrik ist die Gradient Sample Complexity, gemessen als Anzahl der Circuit-Runs pro Gradientenkomponente.

In vielen Implementierungen wird der Gradient über Parameter-Shift-Regeln geschätzt. Für einen einzelnen Parameter \(\theta_i\) erfordert dies typischerweise mindestens zwei Circuit-Ausführungen. Bei \(d\) Parametern skaliert der Aufwand somit mindestens linear mit \(d\). Die Metrik Circuit-Runs pro Gradientenstep macht diese Skalierung transparent und erlaubt es, unterschiedliche Architekturen und Parameterisierungen fair zu vergleichen.

Varianzreduktion spielt in diesem Kontext eine entscheidende Rolle. Baselines, Control Variates oder strukturierte Messstrategien können die Varianz der Gradienten-Schätzer erheblich senken. Der Effekt dieser Techniken sollte nicht nur qualitativ, sondern quantitativ gemessen werden, etwa als Reduktion der benötigten Circuit-Runs für einen stabilen Gradientenanstieg. Damit wird Varianzreduktion selbst zu einem Metrik-Hebel.

Ein besonderes Problem stellen Barren Plateaus dar. In Regionen des Parameterraums kann das Gradienten-Signal exponentiell klein werden, während das Messrauschen konstant bleibt. In solchen Situationen hilft es oft nicht, einfach mehr Shots zu sammeln, da das Signal-Rausch-Verhältnis fundamental ungünstig ist. Eine naive Metrik, die nur den absoluten Shotbedarf zählt, würde diesen Effekt verschleiern. Aussagekräftige Metriken müssen daher sichtbar machen, wann zusätzliche Samples keinen proportionalen Informationsgewinn mehr liefern und das Lernproblem strukturell schlecht konditioniert ist.

Model-based QRL / Quantum-Enhanced Dynamics Models

Model-based QRL verfolgt einen anderen Ansatz. Statt ausschließlich aus direkten Umweltinteraktionen zu lernen, wird ein Modell der Dynamik aufgebaut, das anschließend für Planung oder Policy-Optimierung genutzt wird. Im Quantenkontext können solche Modelle quantenunterstützt repräsentiert oder beschleunigt werden, etwa durch effizientere Zustandsrepräsentationen oder probabilistische Simulationen.

Die zentrale Frage der Sample Complexity lautet hier: Wie verteilt sich der Samplebedarf zwischen Modelllernen und Planung? Für das Modelllernen sind Umweltinteraktionen entscheidend, da reale Übergangsdaten benötigt werden. Die entsprechende Metrik ist die Anzahl der Interaktionen, die erforderlich ist, um das Dynamikmodell mit einer Genauigkeit \(\epsilon\) zu approximieren. Für die Planungsphase hingegen dominieren quantenspezifische Ressourcen wie Shots und Circuit-Ausführungen.

Eine klare Trennung dieser Budgets ist essenziell. Wird der Planungsschritt stark quantenunterstützt, kann dies den Bedarf an Umweltinteraktionen drastisch reduzieren, gleichzeitig aber den Bedarf an Schaltkreis-Ausführungen erhöhen. Nur durch getrennte Metriken für Datenbudget und Rechenbudget lässt sich bewerten, ob ein Ansatz tatsächlich effizienter ist oder lediglich Kosten von der Umwelt auf die Hardware verlagert.

Bandit- und Kontextbandit-nahe QRL

Bandit- und Kontextbandit-Probleme stellen eine vereinfachte, aber analytisch besonders zugängliche Klasse von Lernproblemen dar. Hier ist der Zustandsraum trivial oder stark eingeschränkt, und der Fokus liegt auf der Auswahl zwischen Aktionen mit unbekannten Belohnungsverteilungen. In diesem Setting sind Regret-Metriken besonders zentral. Der kumulative Regret \(R_T\) liefert eine direkte Aussage darüber, wie effizient ein Algorithmus Exploration und Exploitation balanciert.

Im QRL-Kontext tritt zusätzlich ein innerer Samplebedarf auf. Jede Bewertung eines Arms kann die Ausführung eines Quantenschaltkreises und mehrere Shots erfordern. Shots fungieren hier als innerer Samplebedarf pro Arm-Update. Eine vollständige Metrik erfasst daher sowohl den äußeren Regret über die Zeit als auch den inneren quantenmechanischen Aufwand pro Entscheidung.

Diese doppelte Perspektive macht Bandit-nahe QRL-Algorithmen zu idealen Testbeds für Sample Complexity Metrics. Sie erlauben es, theoretische Aussagen über Regret direkt mit praktischen Mess- und Schaltkreisbudgets zu verknüpfen und dienen damit als Brücke zwischen abstrakter Analyse und realistischem Benchmarking.

Benchmark-Design: Wie man Sample Complexity fair misst

Prinzipien

Ein belastbares Benchmark-Design ist die Voraussetzung dafür, dass Sample Complexity Metrics ihre Aussagekraft entfalten können. Das erste und grundlegendste Prinzip ist die gleiche Informationslage. Alle verglichenen Algorithmen müssen identische Observations erhalten, dieselbe Reward-Skalierung nutzen und unter denselben Umgebungsbedingungen agieren. Bereits kleine Unterschiede, etwa in der Normalisierung von Belohnungen oder in der Beobachtungsauflösung, können den Samplebedarf erheblich verzerren und zu scheinbaren Effizienzgewinnen führen.

Das zweite zentrale Prinzip ist die explizite Budgetierung. In QRL existieren mehrere orthogonale Ressourcenachsen, die nicht implizit vermischt werden dürfen. Ein Benchmark muss daher das Interaktionsbudget, das Shotbudget und das Circuitbudget klar fixieren oder zumindest transparent berichten. Ein Verfahren, das unter einem festen Interaktionsbudget bessere Performance erzielt, ist nicht automatisch effizienter, wenn es dafür ein Vielfaches an Mess-Shots oder Schaltkreis-Ausführungen benötigt. Erst die gleichzeitige Betrachtung aller Budgets erlaubt eine faire Bewertung.

Ein drittes Prinzip sind gezielte Ablations. Quanten-Subroutinen sollten systematisch ein- und ausgeschaltet werden, um ihre tatsächliche Wirkung auf die Sample Complexity isoliert zu messen. Ohne solche Ablationsstudien bleibt unklar, ob beobachtete Effekte aus der Quantenkomponente selbst stammen oder aus klassischen Optimierungsdetails, Hyperparameterwahl oder Zufallseinflüssen. Ablations fungieren damit als methodisches Werkzeug zur kausalen Zuordnung von Effekten.

Protokolle

Auf Basis dieser Prinzipien lassen sich verschiedene Benchmark-Protokolle definieren, die jeweils unterschiedliche Fragestellungen adressieren. Ein weit verbreiteter Ansatz ist das Fixed-Budget-Protokoll. Hier werden feste Budgets für Umweltinteraktionen und Shots vorgegeben, etwa \(X\) Interaktionen und \(Y\) Shots. Gemessen wird die beste erreichbare Performance innerhalb dieses Rahmens. Dieses Protokoll spiegelt reale Anwendungsszenarien wider, in denen Ressourcen begrenzt sind und ein Algorithmus das Maximum aus einem festen Budget herausholen muss.

Komplementär dazu steht das Fixed-Target-Protokoll. In diesem Fall wird ein Zielwert \(\tau\) für die Performance definiert, beispielsweise ein minimaler durchschnittlicher Reward. Gemessen wird dann, wie viele Interaktionen, Shots oder Circuit-Ausführungen erforderlich sind, um dieses Ziel zu erreichen. Dieses Protokoll eignet sich besonders gut, um Sample Efficiency direkt zu vergleichen, da es den Fokus auf die Geschwindigkeit des Lernens legt.

Ein drittes, oft unterschätztes Element ist die Robustheitsanalyse über mehrere Seeds und Rauschlevel hinweg. Multi-Seed-Experimente erfassen die Varianz durch stochastische Initialisierung, Exploration und Messrauschen. Multi-Noise-Level-Experimente variieren systematisch die Hardwareannahmen, etwa Fehlerraten oder effektive Kohärenzzeiten. Nur wenn ein Algorithmus über diese Dimensionen hinweg konsistent performt, kann von robuster Sample Efficiency gesprochen werden.

Reporting-Standard (Checkliste)

Damit Benchmark-Ergebnisse vergleichbar und reproduzierbar sind, ist ein klarer Reporting-Standard unerlässlich. Eine minimale Checkliste sollte zunächst klassische Größen umfassen: die Anzahl der Umweltinteraktionen, Episoden und Trajektorien. Diese Angaben bilden die Basis für den Vergleich mit klassischem RL und ermöglichen eine Einordnung der Lernkurven.

Darüber hinaus müssen quantenspezifische Größen explizit ausgewiesen werden. Dazu zählen die Gesamtzahl der verwendeten Shots, aufgeschlüsselt nach Shots pro Update und Shots pro Evaluation. Diese Differenzierung ist wichtig, da Trainings- und Evaluationsphasen unterschiedliche Anforderungen an Präzision und Varianz haben. Ebenso sollten die Gesamtzahl der Circuit Executions sowie deren Anzahl pro Schritt oder pro Update berichtet werden.

Ein oft vernachlässigter Aspekt ist das Hyperparameter-Budget. Die Suche nach geeigneten Lernraten, Ansatzarchitekturen oder Regularisierungsparametern verursacht selbst einen erheblichen Sample- und Rechenaufwand. Wird dieser Aufwand nicht dokumentiert, entsteht eine verdeckte Sample Complexity, die den Vergleich verzerrt. Ein transparenter Reporting-Standard muss daher auch angeben, wie viele Ressourcen in Hyperparameter-Tuning, Vorstudien oder Abbrüche geflossen sind.

Zusammengefasst ermöglicht erst die Kombination aus klaren Prinzipien, wohldefinierten Protokollen und einem strikten Reporting-Standard eine faire Messung von Sample Complexity in QRL. Benchmarks werden damit von bloßen Leistungsdemonstrationen zu belastbaren wissenschaftlichen Instrumenten.

Statistik & Unsicherheit: Konfidenzen statt Einzelkurven

Konfidenzintervalle für Learning Curves

Learning Curves sind das zentrale Visualisierungsinstrument im Reinforcement Learning, doch in ihrer üblichen Darstellung als einzelne Kurven verschleiern sie oft mehr, als sie offenlegen. In QRL ist dieses Problem besonders ausgeprägt, da Messrauschen, stochastische Gradienten und hardwareabhängige Effekte zu hoher Varianz führen. Eine einzelne Kurve ist daher kaum aussagekräftig und kann zufällige Ausreißer fälschlich als strukturelle Effekte erscheinen lassen.

Konfidenzintervalle sind das geeignete Mittel, um diese Unsicherheit sichtbar zu machen. Eine gängige Methode ist das Bootstrapping über mehrere Random Seeds. Dabei werden unabhängige Trainingsläufe mit unterschiedlichen Initialisierungen und Zufallssequenzen durchgeführt, und die resultierenden Learning Curves werden statistisch aggregiert. Für jeden Zeitpunkt \(t\) entsteht so eine Verteilung der beobachteten Performancewerte.

In der Darstellung haben sich robuste Kenngrößen bewährt. Empfohlen wird entweder die Darstellung des Medians zusammen mit dem 25- und 75-Perzentil oder alternativ der Mittelwert mit einem Konfidenzintervall, etwa in der Form \(\hat{\mu} \pm \mathrm{CI}\). Der Median ist besonders robust gegenüber Ausreißern, die in QRL aufgrund instabiler Trainingsphasen häufig auftreten. Konfidenzintervalle machen unmittelbar sichtbar, ob Unterschiede zwischen Algorithmen statistisch belastbar sind oder innerhalb der Streuung liegen.

Signifikanz und Effektgröße

Statistische Signifikanz wird in der Praxis oft über p-Werte diskutiert, doch für die Bewertung von Sample Complexity ist dieser Fokus unzureichend. Ein p-Wert beantwortet die Frage, ob ein beobachteter Unterschied zufällig sein könnte, sagt jedoch wenig über dessen praktische Relevanz aus. Gerade bei großen Samplegrößen können selbst marginale Effekte statistisch signifikant werden, ohne einen realen Vorteil zu bieten.

Für QRL-Benchmarks ist daher die Effektgröße pro Budget entscheidend. Statt zu fragen, ob ein Algorithmus signifikant besser ist, sollte gefragt werden, wie viel besser er unter einem gegebenen Ressourcenbudget ist. Eine geeignete Kennzahl ist der Sample Efficiency Gain, definiert als Verhältnis der benötigten Ressourcen zweier Verfahren, um dieselbe Performance zu erreichen. Formal lässt sich dies etwa als \(\mathrm{SEG} = N_{\text{baseline}} / N_{\text{method}}\) ausdrücken, wobei \(N\) für Interaktionen, Shots oder Circuit-Ausführungen stehen kann.

Diese Verhältnis-Metrik ist intuitiv interpretierbar. Ein Wert größer als eins bedeutet einen Effizienzgewinn, ein Wert kleiner als eins einen Verlust. In Kombination mit Konfidenzintervallen erlaubt sie eine differenzierte Bewertung, die sowohl statistische Unsicherheit als auch praktische Relevanz berücksichtigt.

Reproduzierbarkeit

Reproduzierbarkeit ist eine Grundvoraussetzung für glaubwürdige Aussagen über Sample Complexity. In QRL umfasst sie jedoch mehr als das Setzen eines Random Seeds. Notwendig ist die vollständige Dokumentation aller Zufallsquellen, einschließlich Initialisierungen, Explorationsstrategien und Messstichproben. Jeder veröffentlichte Benchmark sollte explizit angeben, welche Seeds verwendet wurden und wie viele unabhängige Läufe durchgeführt wurden.

Darüber hinaus spielen Versionen und Backend-Parameter eine zentrale Rolle. Änderungen in Simulationssoftware, Quantensimulatoren oder Hardware-Abstraktionsschichten können das Rauschverhalten und damit den Samplebedarf erheblich beeinflussen. Auch Parameter wie Schussanzahl pro Messung, Fehlermodell oder Kompilierungsstrategie müssen transparent berichtet werden.

Schließlich ist Transparenz über Abbrüche, Early Stopping und Instabilitäten essenziell. Abgebrochene Läufe oder instabile Trainingsphasen dürfen nicht stillschweigend ausgefiltert werden, da sie Teil der realen Leistungscharakteristik eines Algorithmus sind. Erst durch diese Offenlegung wird es möglich, Sample Complexity nicht als idealisierte Kenngröße, sondern als robuste, reproduzierbare Eigenschaft von QRL-Algorithmen zu verstehen.

Fallstudien-Blueprint: Drei exemplarische Metrik-Setups

NISQ-nahe Policy-Gradient-Studie

Eine NISQ-nahe Policy-Gradient-Studie ist darauf ausgelegt, reale Beschränkungen heutiger Quantenhardware explizit zu berücksichtigen. Das primäre Ziel besteht darin, den erreichbaren Reward unter einem fixen Shotbudget zu maximieren. Dieses Szenario spiegelt praktische Anwendungen wider, in denen Messzeit und Hardwarezugang strikt limitiert sind.

Das experimentelle Setup fixiert das Shotbudget auf einen Wert \(N_{\text{shots}}\), beispielsweise \(10^5\) Shots pro Trainingslauf. Innerhalb dieses Budgets werden Policy-Gradient-Updates durchgeführt, wobei jede Gradientenabschätzung Messungen auf parametrisierten Quantum Circuits erfordert. Die zentrale Metrik ist Reward-per-1e5-shots, die angibt, welche mittlere Performance mit dem verfügbaren Budget erzielt werden kann. Ergänzend wird Circuit-Runs-to-\(\tau\) gemessen, also die Anzahl der Schaltkreis-Ausführungen, die benötigt wird, um einen definierten Reward-Schwellenwert zu überschreiten.

Dieses Setup macht unmittelbar sichtbar, wie effizient ein Algorithmus Messressourcen nutzt. Verfahren mit geringerer Gradientenvarianz oder besserer Parameterstruktur können bei gleichem Shotbudget signifikant höhere Rewards erzielen. Gleichzeitig wird transparent, ob scheinbare Leistungsgewinne lediglich durch intensiveren Einsatz von Circuit-Ausführungen erkauft werden.

Query-orientierte Studie (idealisiert)

Query-orientierte Studien abstrahieren bewusst von hardwarebedingten Einschränkungen und fokussieren auf asymptotische Eigenschaften. Ziel ist es, theoretische Vorteile quantenbasierter Subroutinen sichtbar zu machen, insbesondere im Vergleich zu klassischen Algorithmen.

In diesem Setup wird die Komplexität über die Anzahl der Orakelabfragen gemessen. Die zentrale Metrik ist Query-Complexity-to-\(\epsilon\), also die minimale Anzahl an Queries, die erforderlich ist, um eine Zielgenauigkeit \(\epsilon\) zu erreichen. Ergänzend wird der Regret als Funktion der Queries betrachtet, formal als \(R(Q)\), wobei \(Q\) die Anzahl der Orakelzugriffe ist.

Der Vorteil dieses Ansatzes liegt in seiner Klarheit. Algorithmische Unterschiede werden nicht durch Hardwareartefakte überlagert, sondern direkt auf ihre informations-theoretische Effizienz zurückgeführt. Gleichzeitig ist eine klare Abgrenzung erforderlich: Ergebnisse aus solchen Studien dürfen nicht direkt als Aussagen über reale Laufzeiten oder Kosten interpretiert werden, sondern dienen primär der theoretischen Einordnung.

Hybrid-Industrie-Benchmark

Hybrid-Industrie-Benchmarks zielen auf eine ganzheitliche Bewertung von QRL-Verfahren in realitätsnahen Anwendungsszenarien. Ziel ist ein End-to-End Kostenmodell, das sowohl datengetriebene als auch hardwarebedingte Aufwände erfasst.

In diesem Setup werden mehrere Metriken parallel berichtet. Die primären Größen sind die Anzahl der Umweltinteraktionen und die Gesamtzahl der Shots, ergänzt durch die Anzahl der Circuit-Ausführungen. Zusätzlich kann die Wall-Clock-Zeit als sekundäre Metrik angegeben werden, jedoch stets getrennt von den primären Sample-Metriken, um Hardware- und Implementierungseinflüsse klar zu isolieren.

Der Mehrwert dieses Ansatzes liegt in seiner Praxisnähe. Er erlaubt es, QRL-Algorithmen unter realistischen Budgetannahmen zu vergleichen und ihre wirtschaftliche Tragfähigkeit zu bewerten. Gleichzeitig bleibt durch die getrennte Berichterstattung der einzelnen Ressourcenachsen die analytische Transparenz erhalten, die für eine fundierte wissenschaftliche Bewertung unerlässlich ist.

Synthese: Ein praktikabler Metrik-Kanon für „Quantum Evaluation & Benchmarking

Warum ein Metrik-Kanon notwendig ist

Die Analyse der vorherigen Kapitel macht deutlich, dass Sample Complexity im Quantum Reinforcement Learning kein eindimensionales Konzept ist. Einzelne Kennzahlen greifen zwangsläufig zu kurz, da sie entweder klassische Interaktionen oder quantenspezifische Ressourcen isoliert betrachten. Ein praktikabler Metrik-Kanon ist daher notwendig, um Vergleichbarkeit, Transparenz und wissenschaftliche Redlichkeit sicherzustellen. Ziel ist nicht maximale Komplexität, sondern eine minimale, aber vollständige Beschreibung des tatsächlichen Lernaufwands.

Ein solcher Kanon dient zwei Funktionen zugleich: Er verhindert verzerrte Vergleiche durch versteckte Budgets und schafft eine gemeinsame Sprache für theoretische und anwendungsnahe Arbeiten im Bereich Quantum Evaluation & Benchmarking.

Pflichtmetriken: Die unverzichtbare Basis

Die erste Pflichtmetrik sind die Environment Interactions to \(\tau\). Sie messen, wie viele Umwelttransitionen erforderlich sind, um eine definierte Zielperformance \(\tau\) zu erreichen. Diese Größe verankert QRL-Benchmarks fest in der klassischen RL-Tradition und ermöglicht eine direkte Vergleichbarkeit über Paradigmen hinweg.

Die zweite Pflichtmetrik sind die Total Shots to \(\tau\). Sie erfassen den gesamten messbasierten Stichprobenaufwand und spiegeln die statistische Realität quantenmechanischer Auswertungen wider. In vielen praktischen Szenarien sind Shots der limitierende Faktor, weshalb diese Kennzahl nicht optional sein darf.

Als dritte Pflichtmetrik gelten die Total Circuit Executions to \(\tau\). Diese Größe beschreibt, wie oft ein vollständiger Quantum Circuit ausgeführt werden musste, um das Lernziel zu erreichen. Sie ist essenziell, um Skalierungseffekte, Parametrisierungskosten und Hardwarebelastung sichtbar zu machen.

Viertens ist der Regret unter festen Budgets zu berichten. Diese Metrik bewertet nicht nur das Endergebnis, sondern den gesamten Lernverlauf unter klar definierten Ressourcenrestriktionen. Gerade im Quantenkontext mit starkem Rauscheinfluss liefert Regret eine robuste und aussagekräftige Vergleichsbasis.

Abgerundet wird der Pflichtkanon durch ein Unsicherheitsband über Seeds, typischerweise in Form eines Konfidenzintervalls. Ohne diese Angabe sind alle anderen Metriken methodisch unvollständig, da Varianz und Stabilität des Lernprozesses nicht beurteilt werden können.

Optionale, aber stark empfohlene Ergänzungen

Über den Pflichtkanon hinaus sollten bestimmte Metriken ergänzt werden, sobald entsprechende Claims erhoben werden. Die Query-Komplexität ist unverzichtbar, wenn theoretische Aussagen über asymptotische Vorteile gemacht werden. Sie stellt sicher, dass algorithmische Effizienz nicht mit Hardwareeffekten verwechselt wird.

Ebenso sollte das Tuning-Budget explizit berichtet werden, wenn Benchmark-Claims formuliert werden. Hyperparameter-Suche, Architekturwahl und Vorstudien verursachen reale, oft erhebliche Kosten. Werden diese ignoriert, entsteht eine verdeckte Sample Complexity, die Vergleiche systematisch verzerrt.

Abschlussargument: Ehrlicher Quanten-Vorteil

Der vorgeschlagene Metrik-Kanon bildet eine belastbare Grundlage für Quantum Evaluation & Benchmarking. Quantum Sample Complexity Metrics sind der Schlüssel, um einen Quanten-Vorteil im Reinforcement Learning präzise, transparent und ehrlich zu quantifizieren. Nur wenn alle relevanten Ressourcenachsen sichtbar gemacht werden, lässt sich unterscheiden, ob ein Algorithmus tatsächlich effizienter lernt oder lediglich Kosten zwischen Interaktionen, Shots und Schaltkreis-Ausführungen verschiebt.

Ausblick und offene Forschungsfragen

Shot-effiziente Gradienten als Schlüsselproblem

Eine der zentralen offenen Forschungsfragen im Quantum Reinforcement Learning betrifft die Entwicklung shot-effizienter Gradientenverfahren. Derzeit ist der Samplebedarf vieler variationaler QRL-Algorithmen durch hohe Varianz in der Gradientenabschätzung dominiert. Fortschritte bei besseren Estimatoren, adaptiven Baselines und strukturierter Messung könnten hier einen entscheidenden Hebel darstellen. Ziel ist es, das Signal-Rausch-Verhältnis so zu verbessern, dass informative Gradienten bereits mit deutlich weniger Shots zuverlässig geschätzt werden können. Langfristig entscheidet diese Frage darüber, ob QRL-Ansätze jenseits kleiner Demonstratoren praktisch skalierbar werden.

Differenzierte Metriken für NISQ- und fault-tolerant QRL

Ein weiterer zentraler Punkt ist die klare Trennung zwischen NISQ-QRL und fault-tolerantem QRL auf der Metrikebene. Während NISQ-Algorithmen stark durch Shotnoise, begrenzte Kohärenzzeiten und Fehlerminderung geprägt sind, verschieben sich die Engpässe im fault-toleranten Regime in Richtung logischer Qubit-Anzahl, Gattertiefe und Fehlerkorrektur-Overhead. Künftige Sample Complexity Metrics müssen diese Regime explizit unterscheiden, um falsche Schlussfolgerungen zu vermeiden. Ein Algorithmus, der im NISQ-Setting ineffizient erscheint, kann im fault-toleranten Regime theoretisch hochattraktiv sein, und umgekehrt.

Standardisierte Benchmarks ohne Metrik-Verzerrung

Mit dem wachsenden Interesse an QRL steigt der Bedarf an standardisierten Benchmarks und öffentlichen Leaderboards. Diese können den Fortschritt beschleunigen, bergen jedoch die Gefahr der Metrik-Verzerrung. Sobald einzelne Kennzahlen dominieren, besteht ein Anreiz, Algorithmen gezielt auf diese Metriken zu optimieren, ohne echten Mehrwert zu schaffen. Zukünftige Benchmark-Initiativen sollten daher mehrdimensionale Metrik-Kanons verwenden und klare Reporting-Standards erzwingen.

Der langfristige Erfolg von Quantum Reinforcement Learning hängt nicht allein von algorithmischen Durchbrüchen ab, sondern ebenso von der Qualität seiner Evaluationsmethoden. Nur wenn Sample Complexity Metrics konsequent, transparent und differenziert eingesetzt werden, kann sich ein belastbarer wissenschaftlicher Konsens darüber entwickeln, wo und wann ein echter Quanten-Vorteil im Reinforcement Learning existiert.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Wissenschaftliche Zeitschriften und Artikel

  • A Survey on Quantum Reinforcement Learning — Sehr guter Einstieg, ordnet NISQ-nahe und fault-tolerante QRL-Ansätze, inklusive Diskussion möglicher Quanten-Vorteile und Evaluationsfragen.
    Link: https://arxiv.org/…
  • Provably Efficient Exploration in Quantum Reinforcement Learning — Zentral für deine Metriksektion zu Regret: liefert formale Regret-Garantien im Quantum-RL-Setting (Exploration/Online-Lernen).
    Link: https://arxiv.org/…
  • Policy Gradients using Variational Quantum Circuits — Direkt relevant für Gradient Sample Complexity in variationalem QRL; verbindet Policy-Gradient-Schätzung mit VQC-Overheads.
    Link: https://arxiv.org/…
  • Policy gradients using variational quantum circuits — Journal-Version; nützlich, wenn du die empirische Evaluationsmethodik und die Kommunikations-/Encoding-Overheads sauber zitieren willst.
    Link: https://link.springer.com/…
  • Quantum Policy Gradient Algorithm with Optimized Action Decoding — Wichtig für Benchmarks: zeigt, dass Post-Processing/Action-Decoding die effektive Sample-Effizienz (Shots und Updates) stark beeinflussen kann.
    Link: https://arxiv.org/…
  • Parametrized Quantum Policies for Reinforcement Learning — Ein häufig zitierter Referenzpunkt für PQC-Policies in klassischen Umgebungen; gut als Baseline-Quelle für Metrikdefinitionen (Circuit runs, Shots, Updates).
    Link: https://openreview.net/…
  • Barren plateaus in quantum neural network training landscapes — Fundament für die Aussage „mehr Samples helfen nicht immer“: erklärt Signal-/Gradientenverschwinden, das Metriken sichtbar machen müssen.
    Link: https://arxiv.org/…
  • Minimax Regret Bounds for Reinforcement Learning — Klassischer Regret-Goldstandard, ideal als Vergleichsfolie für Regret-Metriken in QRL-Benchmarks.
    Link: https://arxiv.org/…
  • Is Q-learning Provably Efficient? — Referenz für sample-effiziente Exploration und Regret im klassischen RL; sehr nützlich, um QRL-Claims sauber einzuordnen.
    Link: https://papers.nips.cc/…
  • Reinforcement Learning in Finite MDPs: PAC Analysis — Standardreferenz für PAC-MDP und sample complexity im tabellarischen Setting; ideal als theoretisches Grundgerüst für Kapitel 3.
    Link: https://jmlr.org/…
  • Quantum speedup of Monte Carlo methods — Zentrale Quelle für den quadratischen Speedup-Gedanken hinter Amplitude Estimation; wichtig für „Shots/Queries bis \(\epsilon\)“.
    Link: https://royalsocietypublishing.org/…
  • Quantum speedup of Monte Carlo methods — Preprint-Version (gut zitierbar, frei zugänglich).
    Link: https://arxiv.org/…
  • Quantum Amplitude Amplification and Estimation — Primärquelle zu Amplitude Amplification/Estimation (Query-Komplexität als idealisiertes Samplemaß).
    Link: https://arxiv.org/…
  • Error Mitigation for Short-Depth Quantum Circuits — Klassiker zur Fehlerminderung; essenziell für deinen „versteckter Sample-Multiplikator“-Punkt (zusätzliche Runs/Shots durch Mitigation).
    Link: https://link.aps.org/…
  • Hybrid quantum-classical algorithms and quantum error mitigation — Breiter Überblick über Hybrid-Algorithmen und QEM, gut für systematische Einbettung von Mitigation-Overheads in Metriken.
    Link: https://arxiv.org/…
  • Quantum error mitigation — Sehr maßgebliche Review, wenn du QEM-Overheads, Skalierung und methodische Grenzen präzise darstellen willst.
    Link: https://link.aps.org/…
  • Error statistics and scalability of quantum error mitigation — Speziell hilfreich für die statistische Perspektive: wie sich Mitigation-Fehler und Ressourcenverbrauch skalieren können.
    Link: https://www.nature.com/…

Bücher und Monographien

  • Reinforcement Learning: An Introduction — Klassische RL-Definitionen zu Sample Efficiency, Learning Curves, Evaluation; ideal als didaktisches Fundament.
    Link: http://incompleteideas.net/…
  • Bandit Algorithms — Regret, Konfidenz-Design, Budgetprotokolle; sehr passend für deine Kapitel zu Regret-Metriken und Benchmark-Statistik.
    Link: https://tor-lattimore.com/…
  • The Theory of Quantum Information — Strenge Grundlage für Query-Komplexität, Messstatistik und Informationsgrenzen; extrem nützlich für Lower-Bound-Argumente.
    Link (Verlag): https://www.cambridge.org/…
    Link (Draft, Pre-Publication): https://cs.uwaterloo.ca/…
  • Quantum Computation and Quantum Information — Standardwerk für Schaltkreis- und Messmodelle; gut, um Begriffe wie Shots, Circuit depth, Errors sauber zu verankern.
    Link (Verlag): https://www.cambridge.org/…

Online-Ressourcen und Datenbanken