Pemelajaran pengukuhan 📖 Wikipedia

Pemelajaran pengukuhan (PP), pemelajaran penguatan atau Reinforcement learning (RL) adalah suatu bidang antar disiplin ilmu dalam pemelajaran mesin dan kendali optimal yang berkaitan dengan bagaimana suatu agen cerdas dapat mengambil tindakan di lingkungan yang dinamis dalam rangka untuk memaksimalkan imbalan bertumpuk-tumpuk. Pemelajaran pengukuhan adalah satu dari tiga paradigma utama dalam pemelajaran mesin, di samping pemelajaran terawasi dan pemelajaran tak terawasi.

Pemelajaran pengukuhan berbeda dengan pemelajaran terawasi dari dua sisi, yaitu tak membutuhkan penyajian pasangan masukan-keluaran yang telah dilabeli dan tidak memerlukan pembetulan secara terang-terangan untuk tindakan yang kurang optimal. Fokus RL adalah untuk menemukan keseimbangan antara penjelajahan (wilayah yang belum dipetakan) dan pemanfaatan (pengetahuan saat ini).^[1]

Lingkungan PP biasanya dinyatakan dalam bentuk proses keputusan Markov (PKM) karena banyaknya algoritma PP yang dalam hal ini menggunakan teknik pemrograman dinamis.^[2] Namun, terdapat perbedaan utama antara PP dengan pemrograman dinamis, yaitu PP tak membutuhkan pengetahuan pasti model matematis dari PKM, melainkan PP ini menujukan PKM yang besar dan rumit yang untuk mendapatkan model yang pasti menjadi sulit atau tidak mungkin dilakukan.^[3]

Referensi

sunting

^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Diarsipkan dari asli tanggal 2001-11-20.
^ van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
^ Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563. Pemeliharaan CS1: Lokasi tanpa penerbit (link)

Sumber

sunting

Sutton, Richard S.; Barto, Andrew G. (2018) [1998]. Reinforcement Learning: An Introduction (Edisi 2nd). MIT Press. ISBN 978-0-262-03924-6.
Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi 1st). Springer Verlag, Singapore. ISBN 978-9-811-97783-1.
Bertsekas, Dimitri P. (2023) [2019]. REINFORCEMENT LEARNING AND OPTIMAL CONTROL (Edisi 1st). Athena Scientific. ISBN 978-1-886-52939-7.

Bacaan lanjutan

sunting

Annaswamy, Anuradha M. (3 May 2023). "Adaptive Control and Intersections with Reinforcement Learning". Annual Review of Control, Robotics, and Autonomous Systems (dalam bahasa Inggris). 6 (1): 65–93. doi:10.1146/annurev-control-062922-090153. ISSN 2573-5144. S2CID 255702873.
Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience. Diarsipkan dari asli tanggal 2016-07-31. Diakses tanggal 2010-09-08.
Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009.
Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. hlm. 1031–1038. Diarsipkan dari asli (PDF) tanggal 2010-07-14.

Pranala luar

sunting

Repositori Reinforcement Learning
Reinforcement Learning dan Kecerdasan buatan (RLAI, laboratorium Rich Sutton di Universitas Alberta)
Laboratorium Pemelajaran otonom (ALL, Laboratorium Andrew Barto di Universitas Massachusetts Amherst)
Eksperimen RL dunia nyata Diarsipkan 2018-10-08 di Wayback Machine. di Delft University of Technology
Kuliah Andrew NG di Universitas Standord terkait RL
Membedah RL Rangkaian posting blog tentang RL dengan kode Python
Mengintip (Lebih Jauh) ke dalam RL

[kaelbling-1] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Diarsipkan dari asli tanggal 2001-11-20.

[2] van Otterlo, M.; Wiering, M. (2012). "Reinforcement Learning and Markov Decision Processes". Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. hlm. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.

[Li-2023-3] Li, Shengbo (2023). Reinforcement Learning for Sequential Decision and Optimal Control (Edisi First). Springer Verlag, Singapore. hlm. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563. Pemeliharaan CS1: Lokasi tanpa penerbit (link)

[1]

[2]

[3]

Pemelajaran pengukuhan 📖 Wikipedia

Daftar isi

Referensi

Sumber

Bacaan lanjutan

Pranala luar

📚 Artikel Terkait di Wikipedia

Pabrik

Karen Vousden

Manusia

Dampak perubahan iklim pada lautan

Semut

Teori kesempurnaan media

Globalisasi

Campak