Potential-based reward shaping for finite horizon online POMDP planning

Abstract In this paper, we address the problem of suboptimal behavior during online partially observable Markov decision process (POMDP) planning caused by time constraints on planning. Taking inspiration from the related field of reinforcement learning (RL), our solution is to shape the agent’s rew...
Ausführliche Beschreibung

Gespeichert in:
Autor*in:

Eck, Adam [verfasserIn]

Soh, Leen-Kiat [verfasserIn]

Devlin, Sam [verfasserIn]

Kudenko, Daniel [verfasserIn]

Format:

E-Artikel

Sprache:

Englisch

Erschienen:

2015

Schlagwörter:

POMDP

Potential-based reward shaping

Online planning

Übergeordnetes Werk:

Enthalten in: Autonomous agents and multi-agent systems - Dordrecht [u.a.] : Springer Science + Business Media B.V, 1998, 30(2015), 3 vom: 05. März, Seite 403-445

Übergeordnetes Werk:

volume:30 ; year:2015 ; number:3 ; day:05 ; month:03 ; pages:403-445

Links:

Volltext

DOI / URN:

10.1007/s10458-015-9292-6

Katalog-ID:

SPR010186077

Nicht das Richtige dabei?

Schreiben Sie uns!