Reinforcement Learning

(Pertemuan 13 Machinelearning)

Reinforcement learning adalah tipe algoritma machine learning yang bisa membuat agent software dan mesin bekerja secara otomatis untuk menentukan perilaku yang ideal sehingga dapat memaksimalkan kinerja algoritmanya.

DAlam beberapa tahun terakhir, penggunaan reinforcement learning terus meningkat, contohnya DeepMind and the Deep Q learning pada tahun 2014, AlphaGo di tahun 2016, dan OpenAI dan PPO di tahun 2017. Algoritma reinforcement learning didefinisikan sebagai metode machine learning yang berkaitan dengan cara software agent mengambil tindakan di environmentnya. Algoritma ini merupakan bagian dari metode deep learning yang akan memaksimalkan sebagian reward kumulatif.

Istilah Penting Dalam Reinforcement Learning

Seperti yang sudah dijelaskan di awal, algoritma reinforcement learning memiliki beberapa istilah penting yang akan selalu dipakai saat kita bekerja dengan algoritma ini.

Agent adalah entitas yang diasumsikan melakukan tindakan di environment untuk mendapatkan beberapa reward.
environment (e) adalah skenario yang harus dihadapi agen.
reward (r) adalah pengembalian langsung yang diberikan kepada agen ketika dia melakukan tindakan atau tugas tertentu.
state adalah keadaan yang mengacu pada situasi saat ini yang dikembalikan oleh environment.
policy (π) adalah strategi yang diterapkan oleh agent untuk memutuskan tindakan selanjutnya berdasarkan keadaan saat ini
value(V) adalah pengembalian jangka panjang, value function adalah fungsi yang menentukan nilai state yang merupakan jumlah total reward, model of environment merupakan model yang bertugas untuk menirukan keadaan lingkungan. Fungsi ini akan membuat kesimpulan dan menentukan bagaimana environment bekerja. Model based method merupakan metode pemecahan masalah reinforcement learning yang menggunakan metode berbasis model.
Q value atau action value (Q) sangat mirip dengan value, satu-satunya perbedaan antara keduanya adalah Q value membutuhkan parameter tambahan untuk actionnya

Algoritma, Karakter, dan Tipe dari Reinforcement Learning

Ada tiga pendekatan yang bisa kita gunakan untuk mengimplementasikan algoritma Reinforcement Learning, yaitu value-based, policy-based, dan model-based.

Pendekatan berdasarkan value-based kita harus mencoba memaksimalkan value function. Dalam metode ini, agent mengharapkan long-term return dari policy π.
Dalam metode reinforcement learning policy-based, kita mencoba menghasilkan policy sedemikian rupa sehingga tindakan yang dilakukan di setiap state dapat membantu mendapatkan reward maksimum.
Sedangkan dalam algoritma reinforcement learning model-based, kita perlu membuat model virtual untuk setiap environment dan agent belajar untuk bekerja di environment tersebut.

Algoritma reinforcement learning memiliki beberapa karakteristik penting, antara lain algoritma ini tidak memerlukan supervisor, jadi hanya menggunakan bilangan real atau reward, pengambilan keputusan dengan algoritma ini dilakukan secara beruntun. Selain itu, dalam algoritma reinforcement, waktu sangat berperan penting dan feedback yang diterima selalu delay (tertunda).

Algoritma reinforcement learning memiliki dua tipe yaitu positif dan negatif. Reinforcement learning positif didefinisikan sebagai peristiwa yang akan terjadi karena perilaku tertentu. Algoritma ini akan meningkatkan kekuatan dan frekuensi yang akan berdampak positif pada tindakan yang akan diambil oleh agent. Algoritma reinforcement learning positif ini akan membantu memaksimalkan kinerja dan mempertahankan perubahan waktu. Namun, terlalu banyak reinforcement juga dapat menyebabkan pengoptimalan state yang berlebih sehingga dapat mempengaruhi hasil. Tipe algoritma reinforcement yang kedua adalah algoritma reinforcement negatif. Algoritma ini diartikan sebagai penguatan perilaku yang terjadi karena adanya kondisi negatif yang seharusnya dihentikan atau dihindari. Algoritma tipe ini membantu kita untuk menentukan standar kerja minimum.

Q-Learning

Aturan update dalam Q-Learning adalah sebagai berikut:

Gambar oleh Penulis

Selisih antara sampel baru dan estimasi lama digunakan untuk memperbaharui estimasi lama.

Gambar 1: Q-Learning — Algoritme pembelajaran di luar kebijakan [1]

Mau Mencari apa?

Portofolio Seputar Ilmu Perkuliahan