آخرین ارسال های انجمن

عنوان	پاسخ	بازدید	توسط
سرور آنلاین تخته نرد با پول واقعی راه اندازی شد	11	6503	darkmoon
تخته نرد در یک جمله	13	2514	sadegh_abi
داستان های کوتاه	23	3065	antep
تاپیک هماهنگی جام ایران زمین	11	2728	salar-nardi
بررسی آماری خانه های مورد هدف یک مهره	2	1319	zeplin

يادگيري تقويتي و كاربرد آن در بازي تخته نرد

          soltan_nard 
            بازدید : 952
          
           نظرات (0)
        

خلاصه مقاله:

دراين مقاله يكي از انواع يادگيري ماشين با نام يادگيري تقويتي معرفي شده كاربرد آن در بازي تخته نرد ارايه مي شود. دراين نوع از يادگيري عامل از طريق تعامل با محيط و مشاهده ي نتايج اقداماتش كه بصورت مجازات يا پاداش است از محيط دريافت مي كند سپس عامل ياد مي گيرد چگونه رفتار كند تا پاداش دريافتي اش در طول زمان بيشينه شود در بازيهاي تصادفي راهبردها براي بازيكنان در بازي يكسان نيست. به همين دليل در مسائلي از قبيل اقتصاد و بازار سهام مورد كاربرد قرار ميگيرند. اين مقاله نحوه ي بكارگيري دو الگوريتم به نامهاي يادگيري تفاوت زماني و نوع گسترش يافته ي آن يعني يادگيري كيو را در يكي از مشهورترين بازيهاي تصادفي بيان مي كن .

برای دانلود مقاله به ادامه مطلب مراجعه نمایید

نوع فايل: pdf دانلود فایل