Quantum Skill Discovery

Quantum Skill Discovery steht für einen Perspektivwechsel in der Lernarchitektur: Weg vom flachen, monolithischen Agenten, hin zu einer Hierarchie aus wiederverwendbaren Verhaltensbausteinen, die in quantenmechanischen Zustandsräumen operieren. In der klassischen Reinforcement-Learning-Welt ist Skill Discovery längst die Antwort auf ein altes Problem: Wer in komplexen Umgebungen nur primitive Aktionen lernt, ertrinkt in Kombinatorik. Im Quantenkontext verschärft sich diese Herausforderung nochmals, weil Zustände nicht nur groß, sondern strukturell andersartig sind: Superposition, Verschränkung und Messrückwirkung verändern die Spielregeln. Genau hier setzt Quantum Skill Discovery an: Es soll Skills nicht nur schneller finden, sondern sie als kohärente, kontrollierbare und kompositionsfähige Bausteine in einer quantenphysikalischen Dynamik etablieren.

Die Einleitung klärt deshalb drei Dinge: Erstens, warum klassische RL-Methoden bei hoher Dimensionalität und langen Zeithorizonten an Grenzen stoßen und warum Hierarchie mehr ist als ein Trick, nämlich ein notwendiges Organisationsprinzip. Zweitens, was unter Skills, Options und temporally extended actions im präzisen Sinn verstanden wird und welche Forschungsfragen sich daraus für eine quantenbasierte Skill-Entdeckung ergeben. Drittens, wie sich Quantum Skill Discovery in die größere Landschaft von Quantum Machine Learning, Quantenkontrolle und autonomen Quantensystemen einfügt. Das Ziel ist, einen begrifflich sauberen Startpunkt zu setzen, damit die späteren Kapitel nicht nur technisch, sondern auch konzeptionell tragen.

Motivation und Kontext

Die Motivation entsteht aus einem Spannungsfeld: Moderne Aufgaben verlangen komplexes Verhalten über viele Zeitschritte hinweg, doch das direkte Lernen solcher Langzeitstrategien ist teuer, instabil und oft datenhungrig. Klassisches RL reagiert darauf mit Hierarchien: Ein Agent lernt nicht nur, welche Aktion jetzt gut ist, sondern welche Handlungseinheit als nächstes sinnvoll ist, inklusive eigener Subpolitik und Abbruchkriterium. Quantum Skill Discovery überträgt diese Idee in den Quantenraum und verspricht dabei mehr als nur Effizienz: Es eröffnet die Möglichkeit, Skills als quantenmechanische Transformationen zu modellieren, die bestimmte Zustandsstrukturen gezielt erzeugen, erhalten oder ausnutzen.

Grenzen klassischer Reinforcement-Learning-Ansätze bei hochdimensionalen Zustandsräumen

Klassisches Reinforcement Learning skaliert schlecht, sobald drei Faktoren zusammenkommen: hochdimensionale Beobachtungen, große Aktionsräume und lange Zeithorizonte. In solchen Regimen wächst die Anzahl sinnvoller Zustands-Aktions-Kombinationen explosiv. Die Lernkurve wird flach, weil Belohnungssignale selten sind und Credit Assignment über viele Schritte hinweg schwerfällt. Mathematisch zeigt sich das in der Varianz von Gradienten- oder Value-Schätzern, die mit dem Horizont zunimmt und zu instabiler Optimierung führt.

Ein zweites Problem ist die Repräsentation: Hochdimensionale Zustände enthalten oft wiederkehrende Struktur, aber flache Policies lernen diese Struktur nur implizit. Dadurch wird Generalisierung fragil: Ein Agent kann eine Aufgabe lösen und dennoch beim kleinsten Kontextwechsel scheitern. Skill Discovery wirkt hier wie ein Kompressionsmechanismus: Es entdeckt wiederkehrende Muster von Zustandsübergängen und bündelt sie zu stabilen Verhaltensmodulen.

Im Quantenkontext ist diese Grenze besonders sichtbar, weil quantenmechanische Zustandsräume exponentiell mit der Anzahl der Qubits wachsen. Selbst wenn ein Agent nur einen Teilraum effektiv „nutzt“, bleibt die Suche in einem riesigen Raum schwierig. Quantum Skill Discovery ist deshalb nicht Luxus, sondern eine skalierende Notwendigkeit: Ohne Hierarchie wird Lernen im Quantenraum schnell zu einem Problem, das praktisch nicht mehr beherrschbar ist.

Warum Hierarchie unverzichtbar ist: Skalierbarkeit, Generalisierung, Transfer

Hierarchie bringt drei unmittelbare Vorteile: Skalierbarkeit, Generalisierung und Transfer.

Skalierbarkeit entsteht durch zeitliche Abstraktion. Ein Skill kapselt viele primitive Schritte zu einer Einheit. Dadurch verkürzt sich der effektive Planungshorizont des Meta-Controllers. Ein Agent muss nicht jeden einzelnen Schritt „neu entscheiden“, sondern wählt zwischen wenigen, aussagekräftigen Optionen. In klassischen Begriffen reduziert das die Komplexität von Sequenzentscheidungen. In quantenmechanischen Settings bedeutet es zusätzlich: Man kann kohärente Kontrollsequenzen als stabile Protokolle behandeln, statt sie jedes Mal aus primitiven Operationen zusammenzustückeln.

Generalisierung folgt aus Modularität. Skills sind wiederverwendbar, weil sie funktionale Teilziele bedienen: navigieren, stabilisieren, vorbereiten, ausrichten, kalibrieren. Sobald solche Bausteine existieren, muss eine neue Aufgabe nicht von Grund auf gelernt werden. Stattdessen wird eine neue Komposition bekannter Skills gelernt. Das ist der Unterschied zwischen „alles neu lernen“ und „wie ein Ingenieur zusammensetzen“.

Transfer ist die Königsdisziplin: Skills sollen zwischen Aufgaben, Umgebungen oder sogar Hardware-Plattformen übertragbar sein. Im Quantenbereich ist das besonders spannend, weil viele Aufgaben gemeinsame Unterstrukturen haben, etwa Kalibrierungsschritte, Gate-Synthese, Fehlerminderung oder Messstrategien. Ein gut entdeckter Skill ist dann nicht nur ein Policy-Fragment, sondern ein robustes Kontrollprinzip, das in mehreren Experimenten wiederverwendbar ist.

Der Sprung von klassischer zu quantenbasierter Skill-Entdeckung

Der Übergang zu Quantum Skill Discovery ist nicht einfach ein Portieren klassischer Methoden. Er verändert die Grundannahmen darüber, was ein Zustand ist, wie Aktionen wirken und was Beobachtung bedeutet. In klassischen MDPs sind Zustände „da“, und Aktionen führen deterministisch oder stochastisch zu Folgezuständen. In quantenmechanischen Systemen hängt das Ergebnis einer Messung von der Wahl der Messbasis ab, und der Messprozess verändert den Zustand. Damit wird Exploration zu einer physikalisch aktiven Intervention, nicht nur zu einer Informationsabfrage.

Außerdem sind Skills im Quantenraum nicht nur Sequenzen diskreter Aktionen, sondern können als kohärente Transformationen verstanden werden. Ein Skill könnte eine parametrisierte unitäre Operation sein, die gezielt Amplituden umlenkt oder bestimmte Unterräume verstärkt. Das eröffnet neue Formen der Komposition: Skills könnten interferieren, sich konstruktiv verstärken oder destruktiv auslöschen. Das ist kein metaphorischer Unterschied, sondern eine reale Eigenschaft quantenmechanischer Dynamik.

Der Sprung besteht also in der Verschiebung vom „Verhalten als Aktionsequenz“ hin zu „Verhalten als kontrollierte Quantenentwicklung“. Quantum Skill Discovery muss diese Realität ernst nehmen: Skills sollen nicht nur nützlich, sondern auch physikalisch implementierbar, rauschrobust und messkompatibel sein.

Begriffsklärung und Zielsetzung

Eine klare Begriffswelt ist hier entscheidend, weil im Feld mehrere Traditionen zusammenlaufen: klassische HRL-Definitionen, RL-Notation, QML-Begriffe und Konzepte der Quantenkontrolle. Dieses Kapitel legt deshalb fest, was unter Skills, Options und temporally extended actions verstanden wird, wie Quantum Skill Discovery davon abgegrenzt wird und welche Forschungsfragen die Abhandlung tragen.

Definition von Skills, Options und Temporally Extended Actions

Skills sind zeitlich ausgedehnte Verhaltensmodule, die über mehrere Zeitschritte hinweg aktiv bleiben und dabei eine interne Logik besitzen. Sie sind nicht nur „Makro-Aktionen“, sondern besitzen typischerweise eine eigene Subpolitik, die bestimmt, wie innerhalb des Skills gehandelt wird.

Options sind eine formale Ausprägung dieser Idee. Eine Option besteht klassisch aus drei Komponenten: einer Initiationsmenge, einer internen Policy und einer Terminierungsbedingung. Damit wird festgelegt, wann ein Skill gestartet werden darf, wie er agiert und wann er endet. Temporally extended actions sind der Oberbegriff für alles, was über einen Zeitschritt hinausgeht, also Optionen, Skills oder andere Makrostrukturen.

Im Quantenkontext kann man diese Bausteine analog definieren, aber mit spezifischer Interpretation: Zustände können quantenmechanisch sein, Policies können parametrisierte Quantenoperationen sein, und Terminierung kann an Messresultate oder an Kriterien über den Zustand (oder über beobachtbare Größen) gekoppelt sein. Wichtig ist: Terminierung ist im Quantenfall nicht nur eine „Stop-Regel“, sondern häufig ein Messereignis oder ein Kontrolltrigger, der selbst Rückwirkung erzeugt.

Abgrenzung zwischen klassischer Skill Discovery und Quantum Skill Discovery

Klassische Skill Discovery entdeckt Skills typischerweise aus Daten: aus Trajektorien, Zustandsbesuchen, Belohnungsstrukturen oder latenten Repräsentationen. Quantum Skill Discovery erweitert diesen Rahmen um zwei Ebenen:

Erstens die Repräsentationsebene: Skills können sich auf Quantenzustände beziehen, die nicht direkt beobachtbar sind, sondern nur über Messungen zugänglich werden. Dadurch ist Skill Discovery stärker mit Inferenz und Experimentdesign verknüpft.

Zweitens die Dynamikebene: Aktionen können unitär, dissipativ oder messbasiert sein. Ein Skill ist damit nicht nur „Handlungsroutine“, sondern ein kontrolliertes physikalisches Protokoll. Quantum Skill Discovery muss also physikalische Constraints respektieren: Gate-Sets, Rauschmodelle, Hardware-Konnektivität, Messkosten und Zeitfenster der Kohärenz.

Die Abgrenzung lässt sich prägnant formulieren: Klassische Skill Discovery entdeckt zeitlich ausgedehnte Entscheidungsroutinen in MDP-artigen Welten; Quantum Skill Discovery entdeckt zeitlich ausgedehnte Kontroll- und Entscheidungsroutinen in quantenmechanischen Systemen, in denen Information, Dynamik und Messung untrennbar verwoben sind.

Ziel der Abhandlung und zentrale Forschungsfragen

Das Ziel dieser Abhandlung ist, Quantum Skill Discovery als eigenständiges Konzeptfeld zu strukturieren: begrifflich, methodisch und anwendungsnah. Dazu gehören klare Definitionen, die wichtigsten algorithmischen Familien, typische Architekturen, Evaluationskriterien und offene Probleme.

Zentrale Forschungsfragen, die daraus folgen, sind:

  • Wie sollten Quantum Skills formal definiert werden, sodass sie sowohl lernbar als auch physikalisch implementierbar sind?
  • Welche Objective-Funktionen eignen sich zur Skill-Entdeckung, wenn Messungen den Zustand verändern und Beobachtungen begrenzt sind?
  • Wie lassen sich Skills hierarchisch komponieren, ohne dass Interferenz und Rauschen die Stabilität zerstören?
  • Wie bewertet man Skill-Qualität im Quantenkontext: über Return, über Informationsgehalt, über Kontrollrobustheit oder über Transferfähigkeit?
  • Welche Rolle spielen hybride Architekturen, in denen klassische Komponenten die Skill-Auswahl übernehmen und Quantenkomponenten die Skill-Ausführung?

Diese Fragen bilden den roten Faden: Sie verbinden Theorie, Algorithmen und Praxis.

Einordnung in die Quantenforschung

Quantum Skill Discovery steht nicht isoliert, sondern an einer Schnittstelle: zwischen Quantum Machine Learning, Quantenkontrolle und autonomen Experimentiersystemen. Diese Einordnung ist entscheidend, weil sie erklärt, warum das Thema nicht nur methodisch interessant ist, sondern strategisch relevant.

Verbindung zu Quantum Machine Learning (QML)

In Quantum Machine Learning (QML) geht es um die Nutzung quantenmechanischer Systeme zur Informationsverarbeitung, also um Modelle, die Daten in Quantenrepräsentationen abbilden oder Quantenhardware als Lernmaschine verwenden. Quantum Skill Discovery kann man als QML-Problem mit zeitlicher Struktur lesen: Nicht nur eine Funktion wird gelernt, sondern ein Repertoire an Modulen, die über Zeit und Dynamik wirken.

Viele Werkzeuge stammen deshalb direkt aus QML: variationale Quantenschaltkreise als parametrische Policies, hybride Optimierung, Kernel-Ansätze oder quantenbasierte Feature-Maps. Skill Discovery fügt dem eine Hierarchieebene hinzu: Statt nur eine Policy zu lernen, lernt man eine Bibliothek und einen Mechanismus zur Auswahl und Komposition dieser Bibliothek.

Relevanz für Quantenkontrolle, Quantenrobotik und autonome Quantensysteme

In der Quantenkontrolle ist das Ziel, physikalische Systeme zuverlässig zu steuern: Zustände vorbereiten, Gatter implementieren, Rauschen kompensieren, Messungen adaptiv planen. Das sind genau die Orte, an denen Skills Sinn ergeben, weil wiederkehrende Kontrollprotokolle existieren. Ein Skill könnte beispielsweise eine robuste Pulssequenz repräsentieren oder eine adaptive Messstrategie, die je nach Zwischenresultat anders fortfährt.

Quantenrobotik und autonome Quantensysteme gehen einen Schritt weiter: Sie verbinden Wahrnehmung, Entscheidung und physikalische Ausführung in einem geschlossenen Regelkreis. In solchen Systemen ist Skill Discovery ein Mechanismus zur Selbstorganisation: Der Agent entdeckt eigenständig, welche Kontrollroutinen sinnvoll sind, und baut daraus immer komplexere Fähigkeiten.

Damit wird Quantum Skill Discovery zu einem Baustein für die langfristige Vision: Systeme, die nicht nur quantenmechanische Prozesse nutzen, sondern sich in quantenmechanischen Umgebungen selbstständig strukturieren, lernen und verbessern.

Grundlagen des Quantum Reinforcement Learning

Quantum Reinforcement Learning (QRL) baut auf den Prinzipien des klassischen Reinforcement Learning auf, erweitert diese jedoch um die physikalischen und informationstheoretischen Besonderheiten quantenmechanischer Systeme. Um Quantum Skill Discovery fundiert zu verstehen, ist es notwendig, zunächst den klassischen Ausgangspunkt klar zu strukturieren und anschließend präzise zu zeigen, an welchen Stellen und aus welchen Gründen die Quantenerweiterung nicht nur sinnvoll, sondern konzeptionell zwingend ist.

Klassisches Reinforcement Learning als Ausgangspunkt

Klassisches Reinforcement Learning beschreibt das Lernen durch Interaktion mit einer Umgebung, bei der ein Agent durch wiederholte Entscheidungen versucht, langfristige Belohnung zu maximieren. Das formale Fundament bildet dabei das Markov-Decision-Process-Modell.

Markov Decision Processes (MDPs)

Ein Markov Decision Process wird klassisch als Tupel definiert, bestehend aus Zustandsraum, Aktionsraum, Übergangsdynamik und Belohnungsfunktion. Formal lässt sich ein MDP schreiben als
\(\mathcal{M} = (\mathcal{S}, \mathcal{A}, P, R, \gamma)\)

Dabei ist \(\mathcal{S}\) der Zustandsraum, \(\mathcal{A}\) der Aktionsraum, \(P(s‘ \mid s, a)\) die Übergangswahrscheinlichkeit, \(R(s,a)\) die Belohnungsfunktion und \(\gamma \in [0,1)\) der Diskontfaktor. Die Markov-Eigenschaft besagt, dass der nächste Zustand nur vom aktuellen Zustand und der gewählten Aktion abhängt, nicht von der gesamten Vergangenheit.

Dieses Modell ist bewusst abstrakt, da es eine breite Klasse von Entscheidungsproblemen abbilden soll. Gleichzeitig ist es genau diese Abstraktion, die in hochdimensionalen oder physikalisch komplexen Systemen an ihre Grenzen stößt.

Policy, Reward, Value Function

Die Policy beschreibt das Entscheidungsverhalten des Agenten. Sie ist eine Abbildung von Zuständen auf Aktionen oder Aktionsverteilungen und wird meist als
\(\pi(a \mid s)\)
notiert.

Das Lernziel besteht darin, eine Policy zu finden, die den erwarteten kumulierten Return maximiert. Der Return ist definiert als
\(G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k}\)

Daraus ergeben sich zentrale Bewertungsfunktionen: die Zustandswertfunktion
\(V^\pi(s) = \mathbb{E}\pi[G_t \mid s_t = s]\)
und die Aktionswertfunktion
\(Q^\pi(s,a) = \mathbb{E}\pi[G_t \mid s_t = s, a_t = a]\)

Diese Funktionen bilden die Grundlage für Policy-Gradient-Methoden, Value-Based-Ansätze und hybride Verfahren.

Exploration vs. Exploitation

Ein fundamentales Spannungsfeld im Reinforcement Learning ist der Zielkonflikt zwischen Exploration und Exploitation. Exploration bedeutet, neue Aktionen auszuprobieren, um mehr über die Umgebung zu lernen. Exploitation bedeutet, bekannte gute Aktionen bevorzugt auszuführen, um kurzfristig hohen Reward zu erzielen.

Mathematisch äußert sich dieses Problem in der Unsicherheit über \(Q^\pi(s,a)\). Klassische Lösungen reichen von stochastischen Policies über Entropieregularisierung bis hin zu Upper-Confidence-Bound-Strategien. Diese Mechanismen werden im Quantenkontext neu interpretiert, da dort Unsicherheit nicht nur epistemisch, sondern physikalisch bedingt ist.

Quantenerweiterung des RL-Paradigmas

Quantum Reinforcement Learning erweitert das klassische Paradigma, indem Zustände, Aktionen und Lernprozesse in den formalen Rahmen der Quantenmechanik eingebettet werden. Der Agent interagiert nicht mehr mit einer rein klassischen Umgebung, sondern mit einem quantenmechanischen System oder einer quantenbasierten Repräsentation der Umwelt.

Quantum States als Zustandsrepräsentationen

Im QRL werden Zustände häufig durch Quantenzustände beschrieben, also durch Vektoren im Hilbertraum oder durch Dichtematrizen. Ein reiner Zustand wird dargestellt als
\(|\psi\rangle \in \mathcal{H}\)

Alternativ beschreibt eine Dichtematrix
\(\rho \in \mathbb{C}^{d \times d}\)
gemischte Zustände und statistische Unsicherheit. Diese Repräsentationen erlauben Superposition und Verschränkung, was zu einer exponentiellen Zustandsraumstruktur führt.

Für das Lernen bedeutet das: Der Agent operiert nicht auf diskreten Symbolen, sondern auf physikalischen Zustandsobjekten, deren vollständige Information nicht direkt beobachtbar ist.

Quantenoperationen und unitäre Policies

Aktionen im QRL werden häufig als Quantenoperationen modelliert. Im idealisierten Fall sind dies unitäre Transformationen
\(U(\theta) \in \mathrm{SU}(d)\)

Eine Policy entspricht dann einer parametrierten Familie solcher Operatoren. Die Zustandsentwicklung folgt der Dynamik
\(|\psi_{t+1}\rangle = U(\theta_t) |\psi_t\rangle\)

Im Gegensatz zu klassischen Policies ist diese Abbildung intrinsisch reversibel und kohärent, solange keine Messung erfolgt. Dadurch entsteht ein völlig anderer Zusammenhang zwischen Aktion, Zustand und Zeit.

Messprozesse und stochastische Rückkopplung

Messungen spielen im QRL eine doppelte Rolle: Sie liefern Information, verändern aber gleichzeitig den Zustand. Ein Messprozess wird beschrieben durch Messoperatoren
\({M_k}\)
mit der Wahrscheinlichkeit
\(p(k) = \langle \psi | M_k^\dagger M_k | \psi \rangle\)

Nach der Messung kollabiert der Zustand gemäß
\(|\psi’\rangle = \frac{M_k |\psi\rangle}{\sqrt{p(k)}}\)

Diese Rückkopplung macht Exploration zu einem physikalischen Eingriff. Lernen bedeutet daher nicht nur Informationsgewinn, sondern aktive Gestaltung der Systemdynamik.

Lernmechanismen im QRL

Die Lernmechanismen im Quantum Reinforcement Learning verbinden klassische Optimierung mit quantenmechanischer Dynamik. Im Zentrum stehen gradientenbasierte Verfahren und hybride Architekturen.

Quantum Policy Gradients

Quantum Policy Gradients übertragen das klassische Policy-Gradient-Theorem auf quantenparametrisierte Policies. Ziel ist die Maximierung des erwarteten Returns
\(J(\theta) = \mathbb{E}[G_t]\)

Der Gradient wird berechnet als
\(\nabla_\theta J(\theta) = \mathbb{E}\left[ \nabla_\theta \log p_\theta(\tau) , G(\tau) \right]\)

wobei \(p_\theta(\tau)\) die Wahrscheinlichkeit einer Trajektorie ist, die durch Quantenoperationen und Messungen induziert wird. In der Praxis erfolgt die Gradientenabschätzung oft über Parameter-Shift-Regeln.

Variational Quantum Circuits (VQCs) als Agenten

Variational Quantum Circuits sind parametrisierte Quantenschaltkreise, die als flexible Funktionsapproximatoren dienen. Ein VQC implementiert eine Abbildung
\(\theta \mapsto U(\theta)\)

und kann sowohl Policies als auch Value-Funktionen approximieren. Ihre Expressivität und physikalische Nähe zur Hardware machen sie zu einem zentralen Baustein moderner QRL-Ansätze.

Hybrid-quantum-klassische Lernarchitekturen

Auf absehbare Zeit werden QRL-Systeme hybrid sein. Klassische Optimierer aktualisieren Parameter, während Quantenhardware die Zustandsentwicklung und Messung übernimmt. Formal lässt sich dieser Zyklus als verschachtelte Optimierung beschreiben, bei der klassische Updates
\(\theta_{t+1} = \theta_t + \alpha \nabla_\theta J(\theta_t)\)
auf Messstatistiken beruhen.

Diese Hybridarchitektur ist entscheidend für Quantum Skill Discovery, da sie erlaubt, komplexe Hierarchien aufzubauen, ohne vollständig auf fehlertolerante Quantencomputer angewiesen zu sein.

Hierarchisches Reinforcement Learning im Quantenkontext

Hierarchisches Reinforcement Learning ist die strukturelle Antwort auf die Grenzen flacher Entscheidungsarchitekturen. Während klassisches Reinforcement Learning auf der Ebene einzelner Aktionen operiert, führt HRL eine mehrstufige Organisation ein, in der Entscheidungen auf unterschiedlichen zeitlichen und funktionalen Ebenen getroffen werden. Im Quantenkontext gewinnt diese Idee zusätzliche Bedeutung: Die Kombination aus exponentiell wachsendem Zustandsraum, begrenzter Kohärenzzeit und kostenintensiven Messungen macht Hierarchien nicht nur nützlich, sondern essenziell. Quantum Hierarchical Reinforcement Learning ist daher weniger eine optionale Erweiterung als vielmehr ein notwendiges Organisationsprinzip für lernende Quantensysteme.

Motivation für Hierarchien

Die Motivation für hierarchische Strukturen ergibt sich aus zwei zentralen Anforderungen: der Reduktion effektiver Komplexität und der Schaffung wiederverwendbarer Verhaltensbausteine. Beide Aspekte sind im Quantenbereich besonders ausgeprägt, da dort sowohl die Zustandsrepräsentation als auch die Dynamik selbst hochkomplex sind.

Zeitliche Abstraktion und Komplexitätsreduktion

Zeitliche Abstraktion bedeutet, dass Entscheidungen nicht auf jeder elementaren Zeitskala getroffen werden müssen. Stattdessen werden längere Handlungssequenzen zu kohärenten Einheiten zusammengefasst. In klassischem HRL reduziert dies den effektiven Planungshorizont. Ein Meta-Controller wählt einen Skill, und dieser Skill agiert über mehrere Zeitschritte autonom.

Formal kann man dies als Verschachtelung von Entscheidungsprozessen verstehen. Der obere Prozess operiert auf einer groben Zeitskala \(T_H\), während die Subprozesse auf einer feineren Skala \(T_L\) laufen, mit \(T_H \gg T_L\). Dadurch wird die Suche im Policy-Raum deutlich vereinfacht.

Im Quantenkontext ist diese Abstraktion noch wichtiger. Jede zusätzliche Entscheidungsstufe kann mit Messungen, Dekohärenz und Rauschen verbunden sein. Ein Skill, der als kohärente Sequenz unitärer Operationen implementiert ist, reduziert die Anzahl notwendiger Mess- und Kontrollpunkte. Damit wird nicht nur Rechenaufwand, sondern physikalische Störanfälligkeit reduziert.

Modularität und Wiederverwendbarkeit von Verhalten

Modularität ist die zweite zentrale Motivation. Ein hierarchischer Agent besteht nicht aus einer monolithischen Policy, sondern aus einer Bibliothek von Modulen. Jedes Modul erfüllt eine klar abgegrenzte Funktion. In klassischen Systemen sind dies oft Navigation, Manipulation oder Stabilisierung.

Im Quantenbereich entsprechen solche Module typischerweise Kontrollroutinen: Zustandspräparation, Phasenkorrektur, Entkopplung von Rauschen oder adaptive Messstrategien. Ein einmal entdeckter Skill kann in vielen Kontexten wiederverwendet werden, ohne neu gelernt zu werden. Dies ist besonders relevant, da Trainingsdaten in quantenphysikalischen Experimenten teuer sind und Hardware-Zugriffe begrenzt.

Wiederverwendbarkeit ist zudem eine Voraussetzung für Transferlernen. Skills, die auf einer bestimmten Quantenhardware oder für eine bestimmte Aufgabe gelernt wurden, können als Startpunkt für neue Aufgaben dienen. Hierarchien fungieren damit als Speicherstruktur für Erfahrung.

Klassisches Hierarchical RL (HRL)

Die klassischen HRL-Ansätze liefern das konzeptionelle Fundament, auf dem Quantum Hierarchical Reinforcement Learning aufbaut. Drei Paradigmen sind dabei besonders prägend.

Options Framework

Das Options Framework ist eines der einflussreichsten Modelle für zeitlich abstrahiertes Lernen. Eine Option wird definiert als ein Tripel bestehend aus Initiationsmenge, interner Policy und Terminierungsbedingung. Formal kann eine Option \(o\) beschrieben werden als
\(o = (\mathcal{I}_o, \pi_o, \beta_o)\)

wobei \(\mathcal{I}_o\) angibt, in welchen Zuständen die Option gestartet werden darf, \(\pi_o\) die Subpolicy ist und \(\beta_o\) die Abbruchwahrscheinlichkeit beschreibt. Das Framework erlaubt es, Optionen wie Aktionen zu behandeln, jedoch mit variabler Dauer.

MAXQ-Decomposition

MAXQ zerlegt eine komplexe Aufgabe rekursiv in Teilaufgaben. Jede Teilaufgabe besitzt eine eigene Value-Funktion, und die Gesamtaufgabe wird als hierarchische Komposition dieser Teilwerte dargestellt. Formal wird der Gesamtwert als Summe von Teilwerten modelliert, was zu einer strukturierten Value-Funktionsapproximation führt.

Der zentrale Vorteil von MAXQ liegt in der expliziten Aufgabenstruktur. Allerdings erfordert dieser Ansatz oft eine manuelle Definition der Hierarchie, was seine Flexibilität einschränkt, insbesondere in unbekannten oder dynamischen Umgebungen.

Feudal Reinforcement Learning

Feudal Reinforcement Learning organisiert den Agenten in Manager- und Worker-Ebenen. Der Manager setzt abstrakte Ziele, während die Worker diese Ziele durch primitive Aktionen umsetzen. Mathematisch lässt sich dies als Optimierung verschachtelter Objectives auffassen, bei denen der Manager eine langsamere Zeitskala besitzt als die Worker.

Dieses Modell ist besonders relevant für Quantum HRL, da es natürlich zu Kontrollarchitekturen passt, in denen eine klassische Steuerungsebene grobe Ziele vorgibt und eine physikalische Ebene diese Ziele umsetzt.

Quantum Hierarchical Reinforcement Learning (Q-HRL)

Quantum Hierarchical Reinforcement Learning überträgt diese Konzepte in den quantenmechanischen Kontext und erweitert sie um physikalische und informationstheoretische Aspekte, die in klassischen Systemen nicht existieren.

Quantenhierarchien und mehrstufige Policies

In Q-HRL bestehen Hierarchien aus mehreren Ebenen von Policies, die auf unterschiedlichen Abstraktionsebenen operieren. Eine obere Policy entscheidet, welcher Quantum Skill aktiviert wird, während untergeordnete Policies als konkrete Quantenoperationen implementiert sind.

Formal kann man dies als Komposition von Abbildungen verstehen:
\(|\psi_{t+1}\rangle = U_{o_t}(\theta_{o_t}) |\psi_t\rangle\)

wobei \(o_t\) die vom Meta-Controller gewählte Option ist und \(U_{o_t}\) die zugehörige quantenmechanische Subpolicy repräsentiert. Die Hierarchie definiert damit nicht nur eine zeitliche Struktur, sondern eine Struktur im Raum der erlaubten Transformationen.Sub-Policies als quantenmechanische Operatoren

Ein entscheidender Unterschied zu klassischem HRL ist die Natur der Subpolicies. In QHRL sind Subpolicies häufig unitäre Operatoren oder allgemeine Quantenkanäle. Sie wirken direkt auf den Quantenzustand und können über mehrere Zeitschritte kohärent ausgeführt werden.

Dies erlaubt es, Skills als kontrollierte Quantenentwicklungen zu interpretieren. Ein Skill ist nicht nur eine Folge von Entscheidungen, sondern ein gezielt parametrisierter Operator, der bestimmte Zustandsstrukturen erzeugt oder erhält. Terminierung kann durch Messungen oder durch interne Kriterien erfolgen, die auf beobachtbaren Größen basieren.

Vorteile gegenüber klassischem HRL

Q-HRL bietet mehrere konzeptionelle Vorteile gegenüber klassischem HRL. Erstens ermöglicht die Nutzung von Superposition, mehrere Skills implizit gleichzeitig zu evaluieren, bevor eine Messung erfolgt. Zweitens erlaubt Verschränkung die Koordination von Subpolicies über mehrere Freiheitsgrade hinweg, ohne explizite Kommunikation.

Drittens können Hierarchien im Quantenraum als natürliche Kompression fungieren: Statt explizit alle möglichen Aktionssequenzen zu erkunden, lernt der Agent strukturierte Transformationen im Hilbertraum. Dies kann die Sample-Komplexität reduzieren und neue Formen der Generalisierung ermöglichen.

Damit bildet Quantum Hierarchical Reinforcement Learning das methodische Rückgrat für Quantum Skill Discovery. Ohne Hierarchie wären Skills isolierte Artefakte. Mit Hierarchie werden sie zu Bausteinen eines lernenden, skalierbaren und physikalisch konsistenten Quantensystems.

Begriff und Konzept der Quantum Skill Discovery

Quantum Skill Discovery bezeichnet den Prozess, durch den ein lernender Agent eigenständig wiederverwendbare, zeitlich ausgedehnte und physikalisch kohärente Verhaltensbausteine in quantenmechanischen Systemen identifiziert. Im Gegensatz zu klassischen Skill-Konzepten sind diese Bausteine nicht bloß abstrahierte Aktionssequenzen, sondern strukturierte Quantenoperationen, die gezielt Zustandsdynamiken formen. Quantum Skill Discovery ist damit kein reines Optimierungsproblem, sondern ein strukturentdeckender Lernprozess im Hilbertraum, bei dem Kontrolle, Information und Dynamik untrennbar miteinander verbunden sind.

Der konzeptionelle Kern liegt in der Frage, wie sich wiederkehrende Muster quantenmechanischer Zustandsentwicklung erkennen, stabilisieren und hierarchisch organisieren lassen. Während klassisches Skill Discovery meist auf beobachteten Trajektorien operiert, muss Quantum Skill Discovery mit partieller Beobachtbarkeit, Messrückwirkung und kohärenter Dynamik umgehen. Diese Unterschiede prägen sowohl die Definition von Skills als auch die Methoden zu ihrer Entdeckung.

Was sind „Quantum Skills“?

Quantum Skills sind die grundlegenden Bausteine quantenbasierter Hierarchien. Sie definieren, wie ein Agent über mehrere Zeitschritte hinweg konsistent in einem quantenmechanischen System agiert, ohne auf jeder Zeitskala neue Entscheidungen treffen zu müssen.

Skills als kohärente, zeitlich erweiterte Quantenoperationen

Ein Quantum Skill kann als zeitlich ausgedehnte Quantenoperation verstanden werden, die über mehrere elementare Schritte hinweg wirkt. Formal entspricht ein solcher Skill häufig einer parametrierten unitären Transformation oder einem allgemeinen Quantenkanal. Wird ein Skill \(k\) aktiviert, so evolviert der Zustand gemäß
\(|\psi_{t+\tau}\rangle = U_k(\theta_k) |\psi_t\rangle\)

wobei \(\tau\) die effektive Dauer des Skills beschreibt. Während dieser Zeit wird die Kontrolle nicht auf der Ebene einzelner Aktionen ausgeübt, sondern durch die interne Struktur des Operators bestimmt.

Kohärenz ist hierbei entscheidend. Solange keine Messung erfolgt, bleibt die Quanteninformation erhalten, und der Skill wirkt als zusammenhängende Transformation. Dies unterscheidet Quantum Skills fundamental von klassischen Makro-Aktionen, die lediglich eine Abfolge diskreter Entscheidungen darstellen. Ein Quantum Skill ist vielmehr ein kontrolliertes physikalisches Protokoll.

Interpretation als kontrollierte Subräume im Hilbertraum

Eine alternative, besonders fruchtbare Interpretation betrachtet Quantum Skills als Mechanismen zur Navigation und Stabilisierung bestimmter Subräume des Hilbertraums. Ein Skill kann darauf abzielen, den Zustand in einen gewünschten Unterraum zu führen oder ihn dort zu halten.

Sei \(\mathcal{H} = \mathcal{H}_S \oplus \mathcal{H}_R\) eine Zerlegung des Hilbertraums in einen relevanten Subraum \(\mathcal{H}_S\) und einen Rest \(\mathcal{H}_R\). Ein Skill kann dann so entworfen oder entdeckt werden, dass
\(U_k \mathcal{H}_S \subseteq \mathcal{H}_S\)

oder dass Zustände aus \(\mathcal{H}_R\) mit hoher Wahrscheinlichkeit nach \(\mathcal{H}_S\) transferiert werden. In dieser Sichtweise ist Skill Discovery gleichbedeutend mit der Identifikation stabiler oder attraktiver Strukturen im Zustandsraum. Diese Perspektive verbindet Quantum Skill Discovery eng mit Konzepten aus der Quantenkontrolle und der offenen Systemdynamik.

Skill Discovery vs. Skill Learning

Eine zentrale Unterscheidung in der Literatur betrifft den Unterschied zwischen Skill Learning und Skill Discovery. Während beide Begriffe oft synonym verwendet werden, beschreiben sie unterschiedliche Problemstellungen mit unterschiedlichen methodischen Konsequenzen.

Manuell definierte vs. automatisch entdeckte Skills

Beim Skill Learning sind die Skills vorgegeben. Der Agent lernt lediglich, wie er diese Skills optimal einsetzt oder parametrisiert. Die Struktur des Verhaltensrepertoires ist damit extern festgelegt. Dies ist in vielen kontrolltheoretischen Anwendungen sinnvoll, da Expertenwissen über geeignete Protokolle existiert.

Skill Discovery hingegen bedeutet, dass der Agent die Struktur selbst findet. Es ist nicht bekannt, welche Skills existieren sollten oder wie sie aussehen. Der Agent muss aus Interaktion und Beobachtung ableiten, welche zeitlich ausgedehnten Verhaltensmuster sinnvoll sind. In klassischen Systemen geschieht dies oft über Clustering von Trajektorien oder über latente Variablenmodelle.

Im Quantenkontext ist diese Unterscheidung noch schärfer. Manuell definierte Skills setzen detailliertes Wissen über das System voraus. Quantum Skill Discovery zielt dagegen auf Autonomie: Der Agent soll physikalisch sinnvolle Kontrollroutinen selbst identifizieren, auch in Systemen, die nur unvollständig modelliert sind.

Rolle unüberwachter und selbstüberwachter Lernverfahren

Da es keine expliziten Labels für Skills gibt, spielen unüberwachte und selbstüberwachte Lernverfahren eine zentrale Rolle. Ein typischer Ansatz besteht darin, Zielvariablen zu definieren, die strukturelle Eigenschaften des Zustandsraums erfassen, etwa Informationsgehalt oder Vorhersagbarkeit.

Ein Beispiel ist die Maximierung der Mutual Information zwischen einem latenten Skill-Index \(z\) und den resultierenden Zustandsverteilungen. Formal kann ein Lernziel formuliert werden als
\(\max I(z; \rho_{t:t+\tau})\)

wobei \(\rho_{t:t+\tau}\) die durch den Skill induzierte Zustandsentwicklung beschreibt. Solche Objectives erlauben es, Skills zu entdecken, die unterscheidbare und konsistente Effekte auf das System haben, ohne externe Belohnungssignale zu benötigen.

Selbstüberwachtes Lernen ist besonders attraktiv im Quantenbereich, da Messungen teuer sind und externe Labels oft nicht existieren. Quantum Skill Discovery wird damit zu einem informationsgetriebenen Prozess.

Quantenspezifische Eigenschaften von Skills

Quantum Skills unterscheiden sich nicht nur graduell, sondern qualitativ von klassischen Skills. Sie besitzen Eigenschaften, die ausschließlich aus der Quantenmechanik resultieren und die neue Formen von Hierarchie und Komposition ermöglichen.

Superposition mehrerer Skills

Ein zentrales Merkmal ist die Möglichkeit, Skills in Superposition auszuführen. Ein Meta-Controller kann einen Zustand erzeugen, der einer kohärenten Überlagerung mehrerer Skill-Aktivierungen entspricht. Formal lässt sich dies schreiben als
\(|\psi_{t+1}\rangle = \sum_k \alpha_k U_k |\psi_t\rangle\)

Solange keine Messung erfolgt, werden die Effekte der einzelnen Skills interferierend kombiniert. Dies erlaubt es, mehrere Verhaltensoptionen parallel zu evaluieren und ihre Wechselwirkungen auszunutzen. Erst eine spätere Messung projiziert das System auf ein konkretes Ergebnis.

Verschränkte Skills und kollektives Verhalten

In mehrteiligen Systemen können Skills verschränkt sein. Ein Skill, der auf einem Subsystem wirkt, kann gezielt Korrelationen mit anderen Subsystemen erzeugen oder nutzen. In solchen Fällen ist das Verhalten nicht mehr als Summe unabhängiger Subpolicies beschreibbar.

Ein verschränkter Skill wirkt auf einen zusammengesetzten Zustand
\(|\psi\rangle \in \mathcal{H}_A \otimes \mathcal{H}_B\)
und erzeugt Dynamiken, die nur gemeinsam sinnvoll interpretierbar sind. Dies ermöglicht kollektives Verhalten, etwa koordiniertes Steuern mehrerer Qubits oder das Ausnutzen globaler Systemmoden.

Nicht-klassische Korrelationen als Ressource

Nicht-klassische Korrelationen, insbesondere Verschränkung, sind nicht nur ein Nebeneffekt, sondern eine Ressource für Quantum Skill Discovery. Skills können so definiert oder entdeckt werden, dass sie gezielt solche Korrelationen aufbauen, erhalten oder transformieren.

Aus Lernperspektive bedeutet dies, dass Skill-Qualität nicht allein über klassische Reward-Signale bewertet werden kann. Stattdessen spielen informations-theoretische Größen eine Rolle, etwa die Fähigkeit eines Skills, relevante Korrelationen zu erzeugen oder robuste Subräume zu stabilisieren. Quantum Skill Discovery nutzt damit Eigenschaften, die in klassischen Systemen schlicht nicht existieren, und eröffnet einen qualitativ neuen Raum für hierarchisches Lernen.

Methoden zur Quantum Skill Discovery

Die Methoden zur Quantum Skill Discovery bilden das algorithmische Herzstück dieses Forschungsfeldes. Sie adressieren die Frage, wie ein Agent in quantenmechanischen Umgebungen eigenständig strukturierte, wiederverwendbare und hierarchisch organisierbare Skills identifiziert. Dabei treffen zwei Anforderungen aufeinander: Einerseits müssen die Methoden physikalisch kompatibel mit realer Quantenhardware sein, andererseits müssen sie genügend Ausdrucksstärke besitzen, um komplexe dynamische Muster im Hilbertraum zu erfassen. Die hier vorgestellten Ansätze lassen sich grob in variationale, informations-theoretische, latente und hierarchische Methoden sowie hybride Strategien einteilen.

Variational Quantum Skill Discovery

Variationale Ansätze gehören zu den derzeit praktikabelsten Methoden für Quantum Skill Discovery, da sie direkt auf NISQ-Hardware umsetzbar sind und sich gut mit klassischen Optimierungsverfahren kombinieren lassen.

Parametrisierte Quantenschaltkreise zur Skill-Extraktion

Im Zentrum steht die Idee, Skills als parametrisierte Quantenschaltkreise zu modellieren. Ein Skill \(k\) wird durch einen Schaltkreis
\(U_k(\theta_k)\)
repräsentiert, dessen Parametervektor \(\theta_k\) lernbar ist. Die Wirkung eines solchen Skills auf einen Zustand \(|\psi_t\rangle\) ist gegeben durch
\(|\psi_{t+\tau}\rangle = U_k(\theta_k) |\psi_t\rangle\)

Skill Discovery bedeutet hier, eine Menge solcher Schaltkreise zu finden, deren Effekte auf den Zustandsraum möglichst unterscheidbar und funktional sinnvoll sind. Typischerweise werden mehrere Kandidatenskills parallel gelernt, etwa durch einen diskreten Skill-Index oder durch kontinuierliche latente Parameter.

Die Extraktion erfolgt nicht explizit über Labeling, sondern über Optimierungsziele, die strukturelle Eigenschaften erzwingen, beispielsweise Diversität der Zustandsentwicklung oder Stabilität bestimmter Subräume.

Optimierung im Raum unitärer Transformationen

Die Optimierung variationaler Skills findet im Raum unitärer Transformationen statt. Dieser Raum ist hochdimensional und nicht-euklidisch, was die Optimierung anspruchsvoll macht. Das Lernziel kann allgemein als Maximierung einer Zielfunktion
\(\mathcal{L}(\theta_k)\)
formuliert werden, etwa
\(\max_{\theta_k} ; \mathbb{E}[f(\rho_{t:t+\tau})]\)

wobei \(f\) eine funktionale Bewertung der durch den Skill erzeugten Zustandsentwicklung darstellt. Gradienten werden typischerweise über Parameter-Shift-Regeln berechnet, die speziell für quantenmechanische Operatoren geeignet sind.

Ein zentraler Vorteil dieses Ansatzes ist die direkte physikalische Interpretierbarkeit: Jeder gefundene Skill entspricht einem realisierbaren Quantenprotokoll.

Informations-theoretische Ansätze

Informations-theoretische Methoden betrachten Skill Discovery als Problem der Strukturentdeckung in Zustandsverteilungen. Der Kern dieser Ansätze ist die Maximierung informativer Unterschiede zwischen Skills.

Maximierung quantenmechanischer Mutual Information

Ein verbreitetes Ziel ist die Maximierung der Mutual Information zwischen einem Skill-Index \(z\) und den resultierenden Quantenzuständen. Formal lässt sich dies schreiben als
\(\max I(z; \rho_{t+\tau})\)

Dabei misst \(I\) den Informationsgehalt, den der beobachtete Zustand über den aktivierten Skill trägt. In der Quantenmechanik wird Mutual Information häufig über von-Neumann-Entropien definiert, etwa
\(I(A:B) = S(\rho_A) + S(\rho_B) – S(\rho_{AB})\)

Solche Objectives fördern Skills, die klar unterscheidbare Effekte haben und damit gut kontrollierbar sind. Sie sind besonders geeignet für selbstüberwachtes Lernen, da keine externe Belohnung erforderlich ist.

Skill Discovery über Zustandskompression im Hilbertraum

Ein verwandter Ansatz interpretiert Skill Discovery als Kompressionsproblem. Der Agent sucht nach Skills, die komplexe Zustandsdynamiken auf eine kleinere Menge relevanter Freiheitsgrade abbilden. Ziel ist es, den effektiven Zustandsraum zu reduzieren, ohne relevante Information zu verlieren.

Formal kann dies als Minimierung der Rekonstruktionsunsicherheit formuliert werden, etwa
\(\min ; S(\rho \mid z)\)

wobei \(z\) der Skill-Index ist. Skills fungieren hier als Projektoren oder als gezielte Transformationen, die den Zustand in einen gut strukturierten Teilraum überführen. Diese Sichtweise verbindet Quantum Skill Discovery eng mit Quantenkompression und Quantenrepresentation Learning.

Latente Quantenraum-Modelle

Latente Modelle erweitern die Skill-Discovery-Perspektive, indem sie explizit versteckte Variablen einführen, die die Dynamik des Systems strukturieren.

Quantum Latent Variables

Quantum Latent Variable Models führen latente Zustände \(z\) ein, die nicht direkt beobachtbar sind, aber die Zustandsentwicklung steuern. Ein Skill entspricht dann einer bestimmten Konfiguration oder Dynamik dieser latenten Variablen.

Die Zustandsentwicklung lässt sich konzeptionell als
\(\rho_{t+1} = \mathcal{E}(\rho_t, z)\)
schreiben, wobei \(\mathcal{E}\) ein quantenmechanischer Kanal ist. Skill Discovery besteht darin, die latenten Variablen so zu strukturieren, dass sie konsistente und wiederverwendbare Dynamiken repräsentieren.

Quantum World Models und Skill-Abstraktion

Quantum World Models gehen einen Schritt weiter, indem sie versuchen, eine interne Modellierung der Umwelt im Quantenraum zu lernen. Ein solches Modell approximiert die Dynamik
\(\rho_{t+1} \approx \hat{\mathcal{E}}(\rho_t, a_t)\)

Skills werden in diesem Kontext als abstrakte Kontrollsequenzen verstanden, die auf dem Weltmodell operieren. Skill Discovery bedeutet hier, im Modellraum stabile und effiziente Transformationspfade zu identifizieren. Diese Abstraktion erlaubt Planung und Hierarchiebildung auf einer internen, komprimierten Repräsentation.

Hierarchische Skill-Generierung

Hierarchische Methoden kombinieren Skill Discovery direkt mit der Struktur von Quantum Hierarchical Reinforcement Learning.

Meta-Controller und Sub-Policies

Ein Meta-Controller operiert auf der Ebene der Skill-Auswahl, während Sub-Policies die konkrete Ausführung übernehmen. Formal lässt sich dies als verschachtelte Entscheidungsstruktur beschreiben, bei der der Meta-Controller eine Verteilung
\(\pi(z \mid s)\)
über Skills erzeugt, und jede Subpolicy eine quantenmechanische Dynamik implementiert.

Skill Discovery kann auf beiden Ebenen stattfinden: Neue Skills entstehen, wenn bestehende Subpolicies nicht ausreichen, um die Zielkriterien zu erfüllen. Damit wird Skill Discovery zu einem adaptiven Prozess innerhalb der Hierarchie.

Skill-Komposition und Rekursion

Ein mächtiger Aspekt hierarchischer Methoden ist die Möglichkeit rekursiver Skill-Komposition. Ein Skill kann selbst aus niedrigeren Skills zusammengesetzt sein. Formal entspricht dies einer Funktionskomposition
\(U_{k} = U_{k_1} \circ U_{k_2} \circ \dots \circ U_{k_n}\)

Diese Rekursion erlaubt es, immer komplexere Fähigkeiten aufzubauen, ohne die Lernkomplexität auf der untersten Ebene zu erhöhen. Im Quantenkontext entsteht so eine natürliche Brücke zwischen einfachen Gate-Sequenzen und hochabstrakten Kontrollprotokollen.

Hybrid-Ansätze

Hybrid-Ansätze kombinieren klassische und quantenbasierte Komponenten, um die praktischen Einschränkungen aktueller Hardware zu berücksichtigen.

Klassische Skill-Selektion, quantenbasierte Skill-Ausführung

In vielen Architekturen erfolgt die Skill-Selektion klassisch, etwa durch ein neuronales Netzwerk oder einen regelbasierten Controller. Die Ausführung des Skills wird jedoch auf Quantenhardware realisiert. Formal lässt sich dieser Ablauf als
\(z_t = \arg\max \pi_{\text{classical}}(z \mid o_t)\)
und anschließender quantenmechanischer Ausführung
\(\rho_{t+1} = \mathcal{E}_{z_t}(\rho_t)\)
beschreiben.

Diese Trennung erlaubt es, komplexe Entscheidungslogik klassisch zu handhaben, während die Quantenressourcen gezielt für kohärente Transformationen genutzt werden.

Noisy Intermediate-Scale Quantum (NISQ) Strategien

Auf Noisy Intermediate-Scale Quantum (NISQ)-Hardware müssen Skill-Discovery-Methoden robust gegenüber Rauschen und begrenzter Tiefe sein. Daher werden kurze, strukturierte Schaltkreise bevorzugt, und Skills werden so definiert, dass sie innerhalb der Kohärenzzeit ausführbar sind.

Hybrid-Optimierung, regelmäßige Rekalibrierung und adaptive Terminierung sind zentrale Strategien, um Skill Discovery unter realistischen Bedingungen zu ermöglichen. Gerade hier zeigt sich die Stärke hierarchischer Ansätze: Sie erlauben leistungsfähiges Lernen, selbst wenn die quantenmechanische Ebene stark eingeschränkt ist.

Algorithmische Architekturen und Modellklassen

Algorithmische Architekturen übersetzen die zuvor beschriebenen Methoden der Quantum Skill Discovery in konkrete, systematisch analysierbare Modellklassen. Sie definieren, wie Skills repräsentiert, ausgewählt, kombiniert und ausgeführt werden. Im Quantenkontext ist diese Architekturfrage besonders kritisch, da Repräsentation und Dynamik untrennbar mit physikalischen Restriktionen verknüpft sind. Die hier vorgestellten Modellklassen zeigen unterschiedliche Wege, wie hierarchisches Lernen, Skill Discovery und Quantenmechanik zu kohärenten Gesamtsystemen verbunden werden können.

Quantum Options Framework

Das Quantum Options Framework ist die direkte quantenmechanische Erweiterung des klassischen Options Frameworks. Es dient als grundlegende Architektur zur Einbettung zeitlich erweiterter Aktionen in Quantum Reinforcement Learning.

Definition, Initiation Sets und Terminationsbedingungen

Eine Quantum Option wird als quantenmechanisches Analogon einer klassischen Option definiert. Formal lässt sich eine Quantum Option \(o\) schreiben als
\(o = (\mathcal{I}_o, \mathcal{E}_o, \beta_o)\)

Dabei beschreibt \(\mathcal{I}_o\) die Initiationsmenge, also die Menge von Quantenzuständen oder beobachtbaren Eigenschaften, in denen die Option aktiviert werden darf. \(\mathcal{E}_o\) ist ein quantenmechanischer Kanal oder eine unitäre Transformation, die den Skill implementiert. Die Terminationsbedingung \(\beta_o\) kann abhängig vom Zustand, von Messresultaten oder von internen Zeitkriterien sein.

Ein wesentlicher Unterschied zur klassischen Definition liegt darin, dass Initiation und Terminierung selbst physikalische Prozesse sind. Die Prüfung einer Bedingung kann eine Messung erfordern, die den Zustand verändert. Daher müssen Quantum Options so gestaltet sein, dass ihre Kontrolllogik mit minimaler Messinvasivität auskommt.

Quantenlogikbasierte Optionsauswahl

Die Auswahl einer Option kann selbst quantenmechanisch erfolgen. Statt klassisch eine Option deterministisch oder stochastisch zu wählen, kann der Agent eine Superposition von Optionen erzeugen. Formal lässt sich dies als Zustand im Optionsraum beschreiben:
\(|\phi\rangle = \sum_o \alpha_o |o\rangle\)

Die Anwendung der Option erfolgt dann konditional auf diesen Zustand, was zu einer kohärenten Kombination der entsprechenden Transformationen führt. Erst eine Messung im Optionsraum legt fest, welche Option tatsächlich realisiert wird. Diese quantenlogikbasierte Auswahl erlaubt es, mehrere Optionen parallel zu evaluieren und ihre Effekte interferierend zu kombinieren.

Quantum Skill Graphs

Quantum Skill Graphs bieten eine graphbasierte Sicht auf Skill-Architekturen. Sie strukturieren das Skill-Repertoire nicht hierarchisch im engeren Sinne, sondern als Netzwerk möglicher Übergänge.

Skills als Knoten, Übergänge als unitäre Operatoren

In einem Quantum Skill Graphen sind Skills die Knoten des Graphen. Eine Kante zwischen zwei Skills repräsentiert eine Transformation, die den Übergang von einem Skillkontext in einen anderen ermöglicht. Formal kann ein Übergang durch einen Operator
\(U_{ij}\)
beschrieben werden, der die Ausführung von Skill \(i\) in einen Zustand überführt, in dem Skill \(j\) sinnvoll angewendet werden kann.

Diese Struktur erlaubt es, komplexe Abläufe als Pfade im Graphen zu interpretieren. Jeder Pfad entspricht einer Komposition von Skills und Übergangsoperatoren, also einer längeren quantenmechanischen Transformation.

Pfadplanung im Skillraum

Planung wird in diesem Modell zu einem Problem der Pfadsuche im Skillgraphen. Ziel ist es, einen Pfad zu finden, der von einem Startskill zu einem Zielskill führt und dabei bestimmte Kriterien optimiert, etwa minimale Schaltkreistiefe oder maximale Erfolgswahrscheinlichkeit.

Formal lässt sich ein Pfad \(P\) als Sequenz
\(P = (k_1, k_2, \dots, k_n)\)
auffassen, mit der zugehörigen Gesamttransformation
\(U_P = U_{k_n} \circ \dots \circ U_{k_1}\)

Quantum Skill Graphs eignen sich besonders für Planungsaufgaben, bei denen bekannte Skills flexibel kombiniert werden sollen. Sie bilden eine Brücke zwischen Skill Discovery und Quantum Planning.

Multi-Skill Policies

Multi-Skill Policies gehen über die klassische Idee der sequentiellen Skill-Auswahl hinaus. Sie erlauben es, mehrere Skills gleichzeitig zu aktivieren und ihre Effekte kohärent zu kombinieren.

Parallele Skill-Aktivierung durch Superposition

In einer Multi-Skill Policy erzeugt der Agent eine Superposition über mehrere Skills. Der resultierende Zustand entwickelt sich gemäß einer gewichteten Summe der entsprechenden Transformationen. Formal kann dies geschrieben werden als
\(|\psi_{t+1}\rangle = \sum_k \alpha_k U_k |\psi_t\rangle\)

Solche Policies ermöglichen eine parallele Exploration des Skillraums. Statt einzelne Skills nacheinander zu testen, werden mehrere Skills gleichzeitig wirksam. Dies kann die Lernzeit reduzieren und neue Formen der Generalisierung ermöglichen.

Interferenz zwischen konkurrierenden Skills

Ein wesentliches Merkmal von Multi-Skill Policies ist Interferenz. Die Effekte verschiedener Skills können sich verstärken oder gegenseitig aufheben. Diese Interferenz ist nicht nur ein Nebeneffekt, sondern kann gezielt als Ressource genutzt werden.

Konkurrenz zwischen Skills manifestiert sich als destruktive Interferenz in bestimmten Zustandskomponenten. Ein Lernprozess kann diese Effekte ausnutzen, um unerwünschte Dynamiken zu unterdrücken und gewünschte zu verstärken. Damit entsteht eine neue Form der Skill-Selektion, die nicht auf diskreten Entscheidungen basiert, sondern auf physikalischer Überlagerung.

Anwendungsfelder von Quantum Skill Discovery

Quantum Skill Discovery entfaltet seine praktische Relevanz dort, wo komplexe Quantensysteme über längere Zeithorizonte hinweg zuverlässig gesteuert, adaptiert und optimiert werden müssen. In solchen Szenarien reichen flache Kontrollstrategien nicht aus, da sie weder die strukturelle Wiederkehr von Aufgaben noch die physikalischen Einschränkungen realer Quantenhardware angemessen berücksichtigen. Skills fungieren hier als robuste Kontroll- und Entscheidungsbausteine, die Lernen, Planung und Ausführung verbinden.

Quantenkontrolle und Quantensystem-Engineering

Die Quantenkontrolle ist eines der zentralen Anwendungsfelder für Quantum Skill Discovery. Ziel ist es, Quantensysteme so zu steuern, dass gewünschte Zustände, Dynamiken oder logische Operationen mit hoher Präzision realisiert werden.

Steuerung von Qubits, Gattern und Fehlerkorrekturzyklen

In realen Quantenprozessoren müssen Qubits präpariert, manipuliert und ausgelesen werden. Jeder dieser Schritte ist anfällig für Rauschen und systematische Fehler. Quantum Skills können hier als wiederverwendbare Kontrollprotokolle fungieren, etwa für Zustandspräparation, Kalibrierung oder die Implementierung bestimmter Gattersequenzen.

Ein Skill kann beispielsweise eine parametrisierte Pulsfolge repräsentieren, die einen Zielzustand mit maximaler Fidelity erreicht. Formal lässt sich das Ziel als Maximierung einer Überlappung
\(\max \langle \psi_{\text{target}} | \rho_{\text{final}} | \psi_{\text{target}} \rangle\)
formulieren. Skill Discovery erlaubt es, solche Protokolle autonom zu identifizieren und zu verbessern.

Auch Fehlerkorrektur profitiert von hierarchischen Skills. Wiederkehrende Zyklen aus Syndrommessung, Korrektur und Stabilisierung lassen sich als zeitlich ausgedehnte Skills modellieren, die unter variierenden Rauschbedingungen adaptiv angepasst werden.

Autonome Quantensysteme

Ein langfristiges Ziel der Quantenforschung ist der Aufbau autonomer Quantensysteme, die Experimente selbstständig durchführen, auswerten und optimieren. Quantum Skill Discovery ist ein Schlüsselmechanismus auf diesem Weg.

Selbstoptimierende Quantenexperimente

In autonomen Experimenten wählt ein Agent Mess- und Kontrollparameter so, dass ein bestimmtes Informationsziel erreicht wird. Skills können hier experimentelle Routinen repräsentieren, etwa das systematische Abtasten eines Parameterraums oder das gezielte Anfahren kritischer Dynamikregime.

Ein Experiment wird damit zu einer Sequenz von Skills, deren Auswahl und Anpassung lernbasiert erfolgt. Der Agent optimiert nicht nur einzelne Messpunkte, sondern ganze Protokolle. Formal kann dies als Maximierung eines informations-theoretischen Ziels beschrieben werden, etwa
\(\max I(\theta; x)\)
wobei \(\theta\) experimentelle Parameter und \(x\) Messresultate sind.

Adaptive Mess- und Kontrollstrategien

Adaptive Strategien sind besonders wertvoll, wenn Messungen den Zustand verändern oder teuer sind. Quantum Skills können adaptive Entscheidungsregeln kapseln, die abhängig von Zwischenergebnissen unterschiedliche Pfade einschlagen.

Ein Skill kann beispielsweise definieren, wann eine Messung durchgeführt wird und wann stattdessen eine kohärente Evolution fortgesetzt wird. Solche adaptiven Routinen erhöhen die Effizienz und reduzieren unnötige Dekohärenz.

Quantenrobotik und hybride Systeme

Quantenrobotik bezeichnet Systeme, in denen klassische physische Agenten mit quantenbasierten Entscheidungs- oder Wahrnehmungsmodulen kombiniert werden. Quantum Skill Discovery ermöglicht hier eine kohärente Integration beider Welten.

Kombination physischer und quantenbasierter Entscheidungsprozesse

In hybriden Systemen kann ein klassischer Roboter Zustandsinformationen sammeln, während ein quantenbasiertes Modul komplexe Entscheidungsprobleme löst. Skills fungieren als Schnittstelle: Ein Skill kapselt einen quantenmechanischen Entscheidungs- oder Optimierungsschritt, dessen Ergebnis in eine physische Aktion übersetzt wird.

Diese Architektur erlaubt es, quantenbasierte Vorteile gezielt dort einzusetzen, wo sie den größten Nutzen bringen, ohne das gesamte System quantenmechanisch realisieren zu müssen.

Optimierung und Simulation

Auch in abstrakteren Aufgabenfeldern wie Optimierung und Simulation zeigt Quantum Skill Discovery großes Potenzial.

Quantum-enhanced Planning und Scheduling

Planungs- und Scheduling-Probleme zeichnen sich durch große kombinatorische Räume aus. Quantum Skills können hier als wiederverwendbare Heuristiken verstanden werden, die bestimmte Regionen des Lösungsraums gezielt erkunden oder strukturieren.

Ein Skill kann beispielsweise eine Transformation implementieren, die Zustände mit niedriger Kostenfunktion verstärkt. Formal lässt sich dies als Manipulation der Amplitudenverteilung interpretieren, etwa
\(|\psi\rangle \mapsto U_{\text{cost}} |\psi\rangle\)

Beschleunigte Exploration komplexer Lösungsräume

Durch Superposition und Interferenz können Quantum Skills mehrere Lösungsansätze parallel evaluieren. Skill Discovery identifiziert dabei jene Transformationen, die besonders effektiv sind, um relevante Regionen des Lösungsraums zu erreichen.

In Simulationen komplexer Systeme erlaubt dies eine effizientere Exploration dynamischer Regime. Skills werden zu Werkzeugen, mit denen der Agent systematisch durch hochdimensionale Landschaften navigiert, ohne jeden Pfad explizit ausprobieren zu müssen.

Herausforderungen und offene Forschungsfragen

Trotz der konzeptionellen Stärke von Quantum Skill Discovery steht das Feld vor erheblichen Herausforderungen. Viele dieser Probleme sind nicht nur technischer Natur, sondern betreffen grundlegende Fragen der Modellierung, Interpretierbarkeit und Evaluation. Gerade weil Quantum Skill Discovery an der Schnittstelle von Reinforcement Learning, Quantenmechanik und Kontrolltheorie operiert, kumulieren hier die offenen Fragen mehrerer Disziplinen.

Technische Limitationen

Die derzeitigen technologischen Rahmenbedingungen setzen der praktischen Umsetzung von Quantum Skill Discovery enge Grenzen. Diese Limitationen prägen nicht nur die Performanz, sondern auch das Design der Algorithmen.

Rauschen, Dekohärenz und begrenzte Qubit-Zahlen

Aktuelle Quantenhardware ist durch Rauschen, endliche Kohärenzzeiten und eine begrenzte Anzahl nutzbarer Qubits gekennzeichnet. Jede zusätzliche Operation erhöht die Fehlerwahrscheinlichkeit. Für Quantum Skills bedeutet dies, dass sie kurz, robust und fehlertolerant sein müssen.

Dekohärenz begrenzt die zeitliche Ausdehnung von Skills. Während klassische Skills theoretisch beliebig lang sein können, müssen Quantum Skills innerhalb der Kohärenzzeit des Systems ausführbar bleiben. Formal lässt sich dies als Nebenbedingung formulieren, etwa
\(\tau_k \leq T_{\text{coh}}\)

Auch die begrenzte Qubit-Zahl schränkt die Komplexität der darstellbaren Skills ein. Skill Discovery muss daher mit stark komprimierten Repräsentationen arbeiten und explizit berücksichtigen, welche Freiheitsgrade tatsächlich verfügbar sind.

Interpretierbarkeit von Quantum Skills

Ein zentrales offenes Problem ist die Interpretierbarkeit der entdeckten Skills. Während klassische Skills oft als verständliche Verhaltensroutinen beschrieben werden können, sind Quantum Skills Transformationen im Hilbertraum, deren Wirkung nicht intuitiv zugänglich ist.

Nachvollziehbarkeit und Visualisierung im Hilbertraum

Die Frage, was ein Skill „tut“, ist im Quantenkontext schwer zu beantworten. Die Dynamik spielt sich in hochdimensionalen, komplexwertigen Vektorräumen ab. Visualisierungsmethoden sind daher begrenzt und oft nur für stark reduzierte Systeme praktikabel.

Eine offene Forschungsfrage ist, wie man Quantum Skills auf interpretierbare Größen projizieren kann, etwa auf beobachtbare Operatoren, Subraumprojektionen oder effektive Kontrollparameter. Ziel ist es, Skills nicht nur funktional, sondern auch konzeptionell verständlich zu machen, insbesondere für Debugging, Vertrauen und Transfer.

Skalierung und Generalisierung

Skalierung ist eine der größten Herausforderungen. Viele Skill-Discovery-Methoden funktionieren in kleinen Systemen, verlieren jedoch an Wirksamkeit, sobald die Systemgröße wächst.

Transfer von Skills zwischen Aufgaben und Systemen

Ein zentrales Versprechen von Skill Discovery ist Transferlernen. In der Praxis ist jedoch unklar, unter welchen Bedingungen ein Quantum Skill von einer Aufgabe oder Hardware auf eine andere übertragbar ist. Physikalische Unterschiede, etwa in Rauschmodellen oder Kopplungsstrukturen, können dazu führen, dass ein Skill seine Wirkung verliert.

Eine offene Frage ist, wie man Skills abstrahieren kann, sodass sie auf höherer Ebene generalisieren. Mögliche Ansätze reichen von hardwareunabhängigen Repräsentationen bis hin zu adaptiven Rekalibrierungsmechanismen, die einen Skill an neue Bedingungen anpassen.

Benchmarking und Evaluation

Ohne geeignete Benchmarks bleibt der Fortschritt in Quantum Skill Discovery schwer vergleichbar. Klassische Metriken aus dem Reinforcement Learning greifen oft zu kurz.

Metriken für Skill-Qualität im Quantenkontext

Im Quantenkontext stellt sich die Frage, was einen „guten“ Skill ausmacht. Mögliche Kriterien sind der erzielte Reward, die Stabilität gegenüber Rauschen, die Informationsausbeute oder die Fähigkeit zur Generalisierung.

Formal lassen sich Metriken kombinieren, etwa
\(Q_{\text{skill}} = \alpha R + \beta I – \gamma \epsilon\)

wobei \(R\) den erzielten Nutzen, \(I\) einen Informationsbeitrag und \(\epsilon\) eine Fehler- oder Rauschkomponente beschreibt. Die Gewichtung dieser Terme ist jedoch kontextabhängig und bislang nicht standardisiert.

Die Entwicklung allgemein akzeptierter Benchmarks und Evaluationsprotokolle ist daher eine offene und zentrale Forschungsaufgabe. Sie wird entscheidend dafür sein, ob Quantum Skill Discovery von einem konzeptionellen Ansatz zu einer etablierten Methodik heranwächst.

Zukunftsperspektiven

Die Zukunft von Quantum Skill Discovery ist eng mit der technologischen und konzeptionellen Entwicklung der Quanteninformatik verknüpft. Während aktuelle Ansätze stark durch die Einschränkungen von NISQ-Hardware geprägt sind, eröffnet der Übergang zu fehlertoleranten Systemen einen deutlich erweiterten Gestaltungsraum. Gleichzeitig wird Quantum Skill Discovery zunehmend mit umfassenderen Modellierungs- und Planungsansätzen verschmelzen, was langfristig den Weg zu autonomen, lernenden Quantensystemen ebnet.

Von NISQ zu fault-tolerant Quantum Skill Discovery

In der NISQ-Ära müssen Quantum Skills kurz, einfach und robust sein. Die begrenzte Kohärenzzeit und das hohe Rauschniveau erzwingen flache Schaltkreise und stark eingeschränkte Hierarchien. Skill Discovery konzentriert sich daher auf lokal wirksame Transformationen und hybride Architekturen, bei denen klassische Komponenten einen Großteil der Entscheidungslogik übernehmen.

Mit dem Übergang zu fehlertoleranter Quantenhardware ändert sich dieses Bild grundlegend. Längere kohärente Evolutionszeiten erlauben es, Skills mit größerer zeitlicher Ausdehnung und höherer struktureller Komplexität zu entwickeln. Formal bedeutet dies, dass die Nebenbedingung
\(\tau_k \leq T_{\text{coh}}\)
an Bedeutung verliert und durch logische Fehlerkorrektur ersetzt wird. Quantum Skill Discovery kann dann nicht nur lokale Kontrollroutinen entdecken, sondern ganze Protokollfamilien, die über viele Ebenen hinweg hierarchisch organisiert sind.

Integration mit Quantum World Models und Quantum Planning

Ein entscheidender Entwicklungsschritt wird die enge Integration von Quantum Skill Discovery mit Quantum World Models sein. Solche Modelle liefern eine interne Repräsentation der Systemdynamik und erlauben es, Konsequenzen von Skills zu simulieren, bevor sie physikalisch ausgeführt werden.

In Kombination mit Quantum Planning entsteht ein geschlossener Regelkreis: Skills werden im Weltmodell generiert, bewertet und kombiniert, bevor sie auf der realen Hardware eingesetzt werden. Planung wird damit zu einem Prozess der Suche im Skillraum, bei dem Zielzustände durch Komposition bekannter Skills erreicht werden. Formal kann dies als Optimierung einer Sequenz
\((k_1, k_2, \dots, k_n)\)
verstanden werden, deren resultierende Transformation ein gewünschtes Ziel approximiert.

Diese Integration reduziert nicht nur Kosten und Risiken realer Experimente, sondern erhöht auch die Geschwindigkeit der Skill Discovery erheblich.

Langfristige Vision: Autonome, lernende Quantensysteme mit Skill-Hierarchien

Langfristig zielt Quantum Skill Discovery auf vollständig autonome Quantensysteme ab. Solche Systeme sollen nicht nur einzelne Aufgaben lösen, sondern eigenständig neue Fähigkeiten entwickeln, bewerten und organisieren. Skill-Hierarchien fungieren dabei als internes Wissenssystem, vergleichbar mit motorischen oder kognitiven Fähigkeiten biologischer Systeme.

In dieser Vision wird Lernen zu einem fortlaufenden Prozess der Selbststrukturierung. Quantensysteme passen ihre Kontrollroutinen an neue Hardware, neue Aufgaben und neue Umweltbedingungen an, ohne externe Eingriffe. Quantum Skill Discovery bildet das Fundament für diese Autonomie, indem es aus roher quantenmechanischer Dynamik strukturierte, wiederverwendbare Handlungseinheiten formt.

Fazit

Quantum Skill Discovery stellt einen konzeptionellen und methodischen Wendepunkt im Quantum Reinforcement Learning dar. Die vorangegangenen Kapitel haben gezeigt, dass Lernen in quantenmechanischen Systemen ohne hierarchische Struktur kaum skalierbar ist. Exponentiell wachsende Zustandsräume, begrenzte Kohärenzzeiten und invasive Messprozesse erzwingen eine Abkehr von flachen Entscheidungsarchitekturen. Skills fungieren in diesem Kontext als strukturierende Elemente, die zeitliche Abstraktion, Modularität und Wiederverwendbarkeit ermöglichen. Sie transformieren Reinforcement Learning von einer reinen Optimierungsaufgabe zu einem Prozess der strukturellen Organisation im Hilbertraum.

Zentral ist die Erkenntnis, dass Quantum Skills qualitativ mehr sind als klassische Makro-Aktionen. Sie sind kohärente, physikalisch implementierbare Transformationen, die gezielt Subräume stabilisieren, Korrelationen erzeugen oder Dynamiken formen. Durch Superposition, Verschränkung und Interferenz entstehen neue Formen der Komposition und Selektion, die in klassischen Systemen nicht existieren. Quantum Skill Discovery nutzt diese Eigenschaften nicht als Randphänomene, sondern als aktive Ressourcen für Lernen und Kontrolle.

Für die nächste Generation intelligenter Systeme besitzt Quantum Skill Discovery strategische Bedeutung. In der Quantenkontrolle ermöglicht sie autonome Kalibrierung, robuste Gatterimplementierung und adaptive Fehlerkorrektur. In autonomen Quantensystemen bildet sie die Grundlage für selbstoptimierende Experimente und langfristige Lernprozesse. In hybriden Architekturen schafft sie eine Brücke zwischen klassischer Entscheidungslogik und quantenmechanischer Dynamik. Über diese konkreten Anwendungen hinaus weist sie auf ein allgemeines Prinzip hin: Intelligenz in komplexen physikalischen Systemen entsteht durch Hierarchie und Abstraktion.

Der Ausblick ist zugleich ambitioniert und offen. Viele technische und theoretische Herausforderungen sind ungelöst, von Interpretierbarkeit über Transfer bis hin zu standardisiertem Benchmarking. Mit dem Übergang zu fehlertoleranter Quantenhardware und der Integration von Quantum World Models wird sich der Gestaltungsspielraum jedoch erheblich erweitern. Quantum Skill Discovery hat das Potenzial, zum organisatorischen Rückgrat autonomer, lernender Quantensysteme zu werden und damit eine Schlüsselrolle in der Zukunft der Quanteninformatik und der künstlichen Intelligenz einzunehmen.

Mit freundlichen Grüßen
Jörg-Owe Schneppat


Literaturverzeichnis

Das folgende Literaturverzeichnis ist thematisch kuratiert und auf Quantum Skill Discovery, Quantum Reinforcement Learning und hierarchisches Lernen ausgerichtet. Es kombiniert theoretische Grundlagen, moderne Forschungsartikel, Buchliteratur sowie relevante Online-Ressourcen und Frameworks. Die Auswahl reflektiert sowohl den aktuellen Forschungsstand als auch die konzeptionellen Wurzeln des Feldes.

Wissenschaftliche Zeitschriften und Artikel

Grundlagen des Reinforcement Learning und Hierarchical RL

  • Sutton, R. S., Barto, A. G.
    Reinforcement Learning: An Introduction
    https://incompleteideas.net/…
  • Sutton, R. S., Precup, D., Singh, S.
    Between MDPs and Semi-MDPs: A Framework for Temporal Abstraction in Reinforcement Learning
    Artificial Intelligence, 1999
    https://arxiv.org/…
  • Dietterich, T. G.
    Hierarchical Reinforcement Learning with the MAXQ Value Function Decomposition
    Journal of Artificial Intelligence Research, 2000
    https://arxiv.org/…
  • Dayan, P., Hinton, G. E.
    Feudal Reinforcement Learning
    Advances in Neural Information Processing Systems
    https://proceedings.neurips.cc/…

Quantum Reinforcement Learning

  • Dong, D., Chen, C., Li, H., Tarn, T. J.
    Quantum Reinforcement Learning
    IEEE Transactions on Systems, Man, and Cybernetics, 2008
    https://arxiv.org/…
  • Dunjko, V., Taylor, J. M., Briegel, H. J.
    Quantum-Enhanced Machine Learning
    Physical Review Letters, 2016
    https://arxiv.org/…
  • Saggio, V., Asenjo-Garcia, A., Kwek, L. C., et al.
    Experimental Quantum Speed-Up in Reinforcement Learning Agents
    Nature, 2021
    https://www.nature.com/…
  • Jerbi, S., Dunjko, V., Briegel, H. J.
    Quantum Reinforcement Learning with Quantum Policies
    Quantum, 2021
    https://arxiv.org/…

Variational Quantum Algorithms und Quantum Policies

Skill Discovery, Information Theory und Latent Models

  • Eysenbach, B., Gupta, A., Ibarz, J., Levine, S.
    Diversity Is All You Need: Learning Skills Without a Reward Function
    ICLR, 2019
    https://arxiv.org/…
  • Gregor, K., Rezende, D. J., et al.
    Variational Intrinsic Control
    https://arxiv.org/…
  • Tishby, N., Zaslavsky, N.
    Deep Learning and the Information Bottleneck Principle
    https://arxiv.org/…

Quantum Control und Autonome Quantensysteme

  • Wiseman, H. M., Milburn, G. J.
    Quantum Measurement and Control
    https://arxiv.org/…
  • Bukov, M., Day, A. G. R., et al.
    Reinforcement Learning in Different Phases of Quantum Control
    Physical Review X, 2018
    https://arxiv.org/…
  • Fösel, T., Tighineanu, P., Weiss, T., Marquardt, F.
    Reinforcement Learning with Neural Networks for Quantum Feedback
    Physical Review A, 2018
    https://arxiv.org/…

Bücher und Monographien

Online-Ressourcen und Datenbanken

Preprint-Server und Datenbanken

Forschungsprogramme und Industrieplattformen

Software-Frameworks und Open Source

Benchmarking und NISQ-Evaluation

Abschließende Einordnung

Dieses Literaturverzeichnis deckt alle Ebenen von Quantum Skill Discovery ab:

  • klassische HRL-Wurzeln
  • quantenmechanische Lernalgorithmen
  • informations-theoretische Skill-Definitionen
  • praktische Quantenkontrolle
  • industrielle und akademische Plattformen

Damit ist es publikationstauglich für eine wissenschaftliche Abhandlung, ein Dissertationskapitel oder ein Quantum-Tech-Whitepaper auf Research-Niveau.