Optimal Behavior is Easier to Learn than the Truth

Abstract We consider a reinforcement learning setting where the learner is given a set of possible models containing the true model. While there are algorithms that are able to successfully learn optimal behavior in this setting, they do so without trying to identify the underlying true model. Indee...
Ausführliche Beschreibung

Gespeichert in:
Autor*in:

Ortner, Ronald [verfasserIn]

Format:

E-Artikel

Sprache:

Englisch

Erschienen:

2016

Schlagwörter:

Markov decision processes

Truth

Reinforcement learning

Regret

Übergeordnetes Werk:

Enthalten in: Minds and machines - Dordrecht [u.a.] : Springer Science + Business Media B.V, 1991, 26(2016), 3 vom: 03. Feb., Seite 243-252

Übergeordnetes Werk:

volume:26 ; year:2016 ; number:3 ; day:03 ; month:02 ; pages:243-252

Links:

Volltext

DOI / URN:

10.1007/s11023-016-9389-y

Katalog-ID:

SPR01580397X

Nicht das Richtige dabei?

Schreiben Sie uns!