Stärkung deterministischer Strategien für POMDPs

Konferenz: MBMV 2021 - 24. Workshop MBMV
18.03.2021 - 19.03.2021 in online

Tagungsband: ITG-Fb. 296: MBMV 2021

Seiten: 4Sprache: DeutschTyp: PDF

Autoren:
Winterer, Leonore; Becker, Bernd (Albert-Ludwigs-Universität Freiburg, Freiburg im Breisgau, Deutschland)
Wimmer, Ralf (Albert-Ludwigs-Universität Freiburg, Freiburg im Breisgau, Deutschland & Concept Engineering GmbH, Freiburg im Breisgau, Deutschland)
Jansen, Nils (Radboud University Nijmegen, Nijmegen, Niederlande)

Inhalt:
Die Berechnung von Strategien für partiell beobachtbare Markov-Entscheidungsprozesse (POMDPs), die ein bestimmtes gewünschtes Verhalten garantieren, ist ein unentscheidbares Problem – optimale Strategien benötigen üblicherweise Kenntnis der gesamten Vorgeschichte, also unbegrenzten Speicher. Stattdessen stellen wir solver-basierte Algorithmen vor, um stationäre Strategien zu berechnen, die nur auf dem aktuellen Zustand anstatt der gesamten Vorgeschichte basieren. Da die Berechnung optimaler stationärer, aber randomisierter Strategien immer noch zu aufwändig ist, greifen wir auf deterministische stationäre Strategien zurück und nutzen Algorithmen für gemischt-ganzzahlige lineare Programme. Wir zeigen, wie ein gewisses Maß an Randomisierung erlaubt werden kann und wie eingeschränktes Wissen über die Vorgeschichte mithilfe von Zustands- und Observierungssplitting genutzt werden kann. Unsere Experimente belegen, dass diese Methoden kompetetiv mit traditionellen POMDP Algorithem sind.