1
/
5
(
1
امتیاز
)
به طور کلی، روشهای مونتکارلو یک سری روش مبتنی بر محاسبه میانگین تعداد زیادی تکرار از یک آزمایش هستند. در حوزه یادگیری تقویتی، این روشها برای استخراج قاعده بهینه در فرآیند تصمیمگیری مارکوف استفاده میشوند، بدین صورت که بازگشت (Return) برای هر حالت (یا زوج حالت-عمل) بر اساس میانگین بازگشتها محاسبه میشود.
مزیت روشهای مونتکارلو نسبت به برنامهریزی پویا در این است که نیاز به شناخت مدل (احتمالات گذار از هر حالت-عمل به حالتهای جدید) ندارند، چرا که مبتنی بر تجربه (و نه تحلیل) هستند. ترکیب دو رویکردِ برنامهریزی پویا و مونتکارلو، زمینه را برای طراحی الگوریتمهای کاربردی یادگیری تقویتی فراهم مینماید.
تمرین
- بررسی کنید که چرا در شرایطی که احتمالات گذار در فرآیند تصمیمگیری مارکوف معلوم نیست، محاسبه ارزش حالتها به تنهایی برای استخراج قاعده بهینه کفایت نمیکند و نیاز به محاسبه ارزشِ جفت (حالت-عمل)ها است؟
پیشنیاز
مدرس: حمیدرضا مازندرانی
[دانشجوی دکتری دانشگاه صنعتی امیرکبیر]
هنوز دیدگاهی برای این مطلب ثبت نشده است.