شروع مبتنی بر کاوش (Exploring Starts) در روش‌های مونت‌کارلو کمک می‌کند تا همه زوج حالت‌_عمل‌های ممکن مشاهده شوند و در نتیجه بتوان قاعده بهینه را به دست آورد. منتها این فرض معمولی نیست و لذا در این ویدیو روش‌های بهتری برای کاوش فضای مسئله به اختصار معرفی می‌شوند. این روش‌ها به دو دسته کلی on-policy و off-policy دسته‌بندی می‌شوند.

در روش‌های on-policy همزمان با بهبود قاعده، رویکرد کاوش‌گری در فضای مسئله نیز اتخاذ می‌شود. مکانیزم epsilon-greedy یک مثال شناخته‌شده از این دسته است که در آن عمل‌های غیربهینه نیز شانس کمی برای انتخاب‌شدن دارند. در روش‌های off-policy، دو قاعده مجزا برای تولید تجربیات و استخراج قاعده بهینه استفاده می‌شود.


تمرین


پیشنیاز

مدرس: حمیدرضا مازندرانی
[دانشجوی دکتری دانشگاه صنعتی امیرکبیر]