Pemelajaran pengukuhan (PP), pemelajaran penguatan atau Reinforcement learning (RL) adalah suatu bidang antar disiplin ilmu dalam pemelajaran mesin dan kendali optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil tindakan di lingkungan yang dinamis dalam rangka untuk memaksimalkan imbalan bertumpuk-tumpuk. Pemelajaran pengukuhan adalah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Pemelajaran pengukuhan berbeda dengan pemelajaran terawasi dari dua sisi, yaitu tak membutuhkan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pembetulan secara terang-terangan untuk tindakan yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara penjelajahan (wilayah yang belum dipetakan) dan pemanfaatan (pengetahuan saat ini).[1]

Lingkungan PP biasanya dinyatakan dalam bentuk proses keputusan Markov (PKM) karena banyaknya algoritma PP yang dalam hal ini menggunakan teknik pemrograman dinamis.[2] Namun, terdapat perbedaan utama antara PP dengan pemrograman dinamis, yaitu PP tak membutuhkan pengetahuan pasti model matematis dari PKM, melainkan PP ini menujukan PKM yang besar dan rumit yang untuk mendapatkan model yang pasti menjadi sulit atau tidak mungkin dilakukan.[3]

Referensi

sunting
  1. ^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Diarsipkan dari asli tanggal 2001-11-20.
  2. ^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
  3. ^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563. Pemeliharaan CS1: Lokasi tanpa penerbit (link)

Sumber

sunting

Bacaan lanjutan

sunting

Pranala luar

sunting

📚 Artikel Terkait di Wikipedia

Pabrik

Management Review. v 12 n 1, pp. 38–51 Peterson, T (2004) "Ongoing legacy of R.L. Katz: an updated typology of management skills", Management Decision. v

Karen Vousden

National Academy of Sciences. Yee, KS; Vousden, KH (2005). "Complicating the complexity of p53". Carcinogenesis. 26 (8): 1317–1322. doi:10.1093/carcin/bgi122

Manusia

Tongan Maritime Expansion: A Case in the Evolutionary Ecology of Social Complexity". Asian Perspectives. 37 (2): 135–164. Brady T, Oberman T, Tracy JD, ed

Dampak perubahan iklim pada lautan

stratifikasi, cahaya, nutrisi, dan pemangsaan". Page 'Ocean_acidification#Complexity of research findings' not found Meskipun pendorong mekaran alga berbahaya

Semut

ISBN 978-3-7643-5792-4. Greene MJ, Gordon DM (March 2007). "Structural complexity of chemical recognition cues affects the perception of group membership

Teori kesempurnaan media

Richness Theory: A Study of Interaction Goals, Message Valence, and Task Complexity in Manager-Subordinate Communication".Management Communication Quarterly

Globalisasi

Wayback Machine.". Finfacts.com. 24 September 2009. Tainter, JA 1996. Complexity, Problem Solving, and Sustainable Societies. In Costanza, R, Segura,O

Campak

; Street, E. J.; Leslie, T. F.; Yang, Y. T.; Jacobsen, K. H. (2019). "Complexity of the Basic Reproduction Number (R0)". Emerging Infectious Diseases.