Qiymat iteratsiyasi har doim birlashadimi?

Mundarija:

Qiymat iteratsiyasi har doim birlashadimi?
Qiymat iteratsiyasi har doim birlashadimi?
Anonim

Siyosatni baholash kabi, qiymatni rasmiy ravishda takrorlash toʻgʻridan-toʻgʻriga yaqinlashishi uchun cheksiz koʻp takrorlashni talab qiladi. Amalda, biz bir supurishda qiymat funksiyasi faqat kichik miqdorga o'zgargandan so'ng to'xtatamiz. … Bu algoritmlarning barchasi chegirmali cheklangan MDPlar uchun optimal siyosatga birlashadi.

Qiymat iteratsiyasi deterministikmi?

Biroq, qiymat iteratsiyasi deterministik holatning toʻgʻridan-toʻgʻri umumlashtirilishi. Bu yuqori noaniqlik yoki kuchli tasodifiylik uchun dinamik muammolarda yanada ishonchli bo'lishi mumkin. AGAR siyosatda hech qanday oʻzgarish boʻlmasa, uni optimal siyosat sifatida qaytaring, BOSHQA 1-ga oʻting.

Qiymatni takrorlash optimalmi?

3 Qiymatni takrorlash. Qiymat iteratsiyasi - bu optimal MDP siyosati va uning qiymatini hisoblash usulidirV massivini saqlash kamroq saqlashga olib keladi, lekin optimal harakatni aniqlash qiyinroq va qaysi harakat eng katta qiymatga olib kelishini aniqlash uchun yana bir iteratsiya kerak bo'ladi. …

Siyosat iteratsiyasi va qiymat iteratsiyasi oʻrtasidagi farq nima?

Siyosat iteratsiyasida biz qattiq siyosatdan boshlaymiz. Aksincha, qiymat iteratsiyasida biz qiymat funksiyasini tanlashdan boshlaymiz. Keyin ikkala algoritmda ham yaqinlashuvga yetgunchatakroriy yaxshilaymiz.

Iteratsiya qiymati nima?

Asosan, Qiymatni takrorlash algoritmi V(s) bahosini takroriy yaxshilash orqali optimal holat qiymati funksiyasini hisoblaydi. Algoritm V(lar) ni ixtiyoriy tasodifiy qiymatlarga ishga tushiradi. U Q(lar, a) va V(lar) qiymatlarini bir-biriga yaqinlashguncha qayta-qayta yangilaydi.

Tavsiya: