یادگیری تفاوت زمانی (Temporal-Difference Learning) ترکیبی از ایده‌های برنامه‌نویسی پویا و روش‌های مونت‌کارلو است. این شیوه یادگیری مشابه با برنامه‌نویسی پویا، از تخمین فعلی ارزش حالت‌ها در محاسبات استفاده می‌کند و از سوی دیگر، مشابه روش‌های مونت‌کارلو بر اساس تجربیات کسب‌شده (و نه محاسبه احتمالات گذار) کار می‌کند.

یادگیری تفاوت زمانی پایه بسیاری از الگوریتم‌های مشهور یادگیری تقویتی از جمله Q-learning است، لذا فهم دقیق مطالب این ویدیو (فصل ششم کتاب مرجع) به ایجاد درک صحیح از یادگیری تقویتی می‌انجامد.


تمرین

  • مثال 6.1 کتاب را مطالعه نمایید. در این مثال تفاوت عملکرد بین روش مونت‌کارلو و روش TD مشخص شده است.


پیشنیاز

مدرس: حمیدرضا مازندرانی
[دانشجوی دکتری دانشگاه صنعتی امیرکبیر]