Bagaimana Mengubah Makalah Penelitian Pembelajaran Penguatan Dalam Menjadi Agen yang Mengalahkan Game Atari Klasik
Apa yang akan Anda pelajari
-
Cara membaca dan menerapkan makalah pembelajaran penguatan mendalam
-
Cara membuat kode agen pembelajaran Deep Q
-
Cara Membuat Kode Agen Pembelajaran Double Deep Q
-
Cara Membuat Kode Duel Q Deep dan Duel Agen Pembelajaran Double Deep Q
-
Cara menulis perangkat lunak pembelajaran penguatan dalam yang modular dan dapat diperluas
-
Cara mengotomatiskan penyetelan hyperparameter dengan argumen baris perintah
Persyaratan
-
Beberapa Kalkulus Perguruan Tinggi
-
Pembelajaran Mendalam
-
Nyaman dengan Python
Deskripsi
Dalam kursus pembelajaran penguatan mendalam lengkap ini Anda akan mempelajari kerangka kerja yang dapat diulang untuk membaca dan menerapkan makalah penelitian pembelajaran penguatan mendalam. Anda akan membaca makalah asli yang memperkenalkan pembelajaran Deep Q , pembelajaran Double Deep Q , dan algoritma pembelajaran Dueling Deep Q. Anda kemudian akan belajar bagaimana menerapkan ini dalam kode PyTorch pythonic dan ringkas, yang dapat diperluas untuk memasukkan algoritma pembelajaran Q dalam masa depan. Algoritme ini akan digunakan untuk menyelesaikan berbagai lingkungan dari perpustakaan Atari gym Open AI, termasuk Pong, Breakout, dan Bankheist.
Anda akan mempelajari kunci untuk membuat algoritme Deep Q Learning ini berfungsi, yaitu cara memodifikasi pustaka Atari Open AI Gym untuk memenuhi spesifikasi makalah Deep Q Learning asli. Anda akan belajar bagaimana:
- Ulangi tindakan untuk mengurangi overhead komputasi
- Ubah skala gambar layar Atari untuk meningkatkan efisiensi
- Susun bingkai agar agen Deep Q merasakan gerakan
- Evaluasi kinerja agen Deep Q dengan operasi tanpa operasi acak untuk menangani model di atas pelatihan
- Hadiah klip untuk memungkinkan agen pembelajaran Deep Q menggeneralisasi seluruh game Atari dengan skala skor yang berbeda
Jika Anda tidak memiliki pengalaman sebelumnya dalam penguatan atau pembelajaran penguatan mendalam, itu tidak masalah. Termasuk dalam kursus ini adalah kursus lengkap dan ringkas tentang dasar-dasar pembelajaran penguatan. Kursus pengantar dalam pembelajaran penguatan akan diajarkan dalam konteks menyelesaikan lingkungan Danau Beku dari Open AI Gym.
Kami akan membahas:
- Proses keputusan Markov
- Pembelajaran perbedaan duniawi
- Algoritma pembelajaran Q asli
- Bagaimana menyelesaikan persamaan Bellman
- Fungsi nilai dan fungsi nilai tindakan
- Model pembelajaran penguatan berbasis model vs. gratis
- Solusi untuk dilema eksplorasi-eksploitasi, termasuk nilai-nilai awal yang optimis dan pemilihan tindakan epsilon-rakus
Juga termasuk kursus dalam pembelajaran mendalam menggunakan kerangka kerja PyTorch. Ini ditujukan untuk siswa yang terbiasa dengan konsep dasar deep learning, tetapi tidak memahami secara spesifik, atau mereka yang merasa nyaman dengan deep learning di framework lain, seperti Tensorflow atau Keras. Anda akan belajar cara membuat kode jaringan neural dalam di Pytorch serta cara kerja jaringan saraf konvolusional. Ini akan digunakan dalam mengimplementasikan agen pembelajaran Deep Q untuk memecahkan masalah Cartpole dari gym Open AI.
Untuk siapa kursus ini:
- Pengembang Python sangat ingin belajar tentang pembelajaran penguatan mendalam yang mutakhir