به طور کلی، روش‌های مونت‌کارلو یک سری روش مبتنی بر محاسبه میانگین تعداد زیادی تکرار از یک آزمایش هستند. در حوزه یادگیری تقویتی، این روش‌ها برای استخراج قاعده بهینه در فرآیند تصمیم‌گیری مارکوف استفاده می‌شوند، بدین صورت که بازگشت (Return) برای هر حالت (یا زوج حالت-عمل) بر اساس میانگین بازگشت‌ها محاسبه می‌شود.

مزیت روش‌های مونت‌کارلو نسبت به برنامه‌ریزی پویا در این است که نیاز به شناخت مدل (احتمالات گذار از هر حالت-عمل به حالت‌های جدید) ندارند، چرا که مبتنی بر تجربه (و نه تحلیل) هستند. ترکیب دو رویکردِ برنامه‌ریزی پویا و مونت‌کارلو، زمینه را برای طراحی الگوریتم‌های کاربردی یادگیری تقویتی فراهم می‌نماید. 


تمرین

  • بررسی کنید که چرا در شرایطی که احتمالات گذار در فرآیند تصمیم‌گیری مارکوف معلوم نیست، محاسبه ارزش حالت‌ها به تنهایی برای استخراج قاعده بهینه کفایت نمی‌کند و نیاز به محاسبه ارزشِ جفت (حالت-عمل)ها است؟ 


پیشنیاز

مدرس: حمیدرضا مازندرانی
[دانشجوی دکتری دانشگاه صنعتی امیرکبیر]