Q-learning and policy iteration algorithms for stochastic shortest path problems

Abstract We consider the stochastic shortest path problem, a classical finite-state Markovian decision problem with a termination state, and we propose new convergent Q-learning algorithms that combine elements of policy iteration and classical Q-learning/value iteration. These algorithms are relate...
Ausführliche Beschreibung

Gespeichert in:
Autor*in:

Yu, Huizhen [verfasserIn]

Bertsekas, Dimitri P.

Format:

Artikel

Sprache:

Englisch

Erschienen:

2012

Schlagwörter:

Markov decision processes

Q-learning

Approximate dynamic programming

Value iteration

Policy iteration

Stochastic shortest paths

Stochastic approximation

Anmerkung:

© Springer Science+Business Media, LLC 2012

Übergeordnetes Werk:

Enthalten in: Annals of operations research - Springer US, 1984, 208(2012), 1 vom: 18. Apr., Seite 95-132

Übergeordnetes Werk:

volume:208 ; year:2012 ; number:1 ; day:18 ; month:04 ; pages:95-132

Links:

Volltext

DOI / URN:

10.1007/s10479-012-1128-z

Katalog-ID:

OLC2111156647

Nicht das Richtige dabei?

Schreiben Sie uns!