Home / Pemrograman / Materi Kursus Machine Learning/Pembelajaran Mesin Menggunakan Python Dan Library Scipy, Numpy, Pandas, Matplotlib, ScikitLearn
Biaya Kursus Komputer Jogja Multimedia

Materi Kursus Machine Learning/Pembelajaran Mesin Menggunakan Python Dan Library Scipy, Numpy, Pandas, Matplotlib, ScikitLearn

Apakah Anda ingin melakukan pembelajaran mesin menggunakan Python, tetapi Anda kesulitan memulai?Dalam kursus ini, Anda akan menyelesaikan proyek pembelajaran mesin pertama Anda menggunakan Python.Dalam pelajaran langkah demi langkah ini Anda akan:

  1. Unduh dan pasang Python SciPy dan dapatkan paket yang paling berguna untuk pembelajaran mesin dengan Python.
  2. Muat dataset dan pahami strukturnya menggunakan ringkasan statistik dan visualisasi data.
  3. Buat 6 model pembelajaran mesin, pilih yang terbaik dan bangun keyakinan bahwa akurasinya dapat diandalkan.

Jika Anda seorang pemula pembelajaran mesin dan ingin akhirnya mulai menggunakan Python, kursus ini dirancang untuk Anda.

Bagaimana Anda memulai pembelajaran mesin dengan Python?

Cara terbaik untuk mempelajari pembelajaran mesin adalah dengan merancang dan menyelesaikan proyek-proyek kecil.

Python Dapat Mengintimidasi Saat Memulai

Python adalah bahasa yang ditafsirkan populer dan kuat. Tidak seperti R, Python adalah bahasa dan platform lengkap yang dapat Anda gunakan untuk penelitian dan pengembangan sistem produksi.

Ada juga banyak modul dan pustaka untuk dipilih, menyediakan berbagai cara untuk melakukan setiap tugas. Itu bisa terasa luar biasa.

Cara terbaik untuk mulai menggunakan Python untuk pembelajaran mesin adalah menyelesaikan proyek.

  • Ini akan memaksa Anda untuk menginstal dan memulai bahasa Python (paling tidak).
  • Ini akan memberi Anda pandangan tentang cara melangkah melalui proyek kecil.
  • Ini akan memberi Anda kepercayaan diri, mungkin untuk melanjutkan ke proyek kecil Anda sendiri.

Pemula Membutuhkan Proyek Kecil End-to-End

Buku dan kursus membuat frustrasi. Mereka memberi Anda banyak resep dan cuplikan, tetapi Anda tidak pernah bisa melihat bagaimana semuanya cocok.

Ketika Anda menerapkan pembelajaran mesin ke dataset Anda sendiri, Anda sedang mengerjakan sebuah proyek.

Proyek pembelajaran mesin mungkin tidak linier, tetapi memiliki sejumlah langkah terkenal:

  1. Definisikan Masalah.
  2. Siapkan Data.
  3. Evaluasilah Algoritma.
  4. Tingkatkan Hasil.
  5. Presentasikan Hasil.

Cara terbaik untuk benar-benar mencapai kesepakatan dengan platform atau alat baru adalah bekerja melalui proyek pembelajaran mesin secara menyeluruh dan mencakup langkah-langkah kunci. Yakni, dari memuat data, meringkas data, mengevaluasi algoritma dan membuat beberapa prediksi.

Jika Anda bisa melakukannya, Anda memiliki template yang bisa Anda gunakan pada dataset setelah dataset. Anda dapat mengisi kekosongan seperti persiapan data lebih lanjut dan meningkatkan tugas hasil nanti, setelah Anda lebih percaya diri.

Halo Dunia Pembelajaran Mesin

Proyek kecil terbaik untuk memulai dengan alat baru adalah klasifikasi bunga iris (misalnya dataset iris ).

Ini adalah proyek yang baik karena sangat dipahami.

  • Atribut bersifat numerik sehingga Anda harus mencari cara untuk memuat dan menangani data.
  • Ini adalah masalah klasifikasi, memungkinkan Anda untuk berlatih dengan jenis yang mungkin lebih mudah dari algoritma pembelajaran yang diawasi.
  • Ini adalah masalah klasifikasi multi-kelas (multi-nominal) yang mungkin memerlukan penanganan khusus.
  • Ini hanya memiliki 4 atribut dan 150 baris, artinya kecil dan mudah masuk ke memori (dan layar atau halaman A4).
  • Semua atribut numerik berada di unit yang sama dan skala yang sama, tidak memerlukan penskalaan atau transformasi khusus untuk memulai.

Mari kita mulai dengan proyek pembelajaran mesin halo dunia Anda dengan Python.

Pembelajaran Mesin dengan Python: Materi Langkah-demi-Langkah 

Di bagian ini, kita akan bekerja melalui proyek pembelajaran mesin.

Berikut ini adalah ikhtisar dari apa yang akan kita bahas:

  1. Menginstal platform Python dan SciPy.
  2. Memuat dataset.
  3. Meringkas dataset.
  4. Memvisualisasikan dataset.
  5. Mengevaluasi beberapa algoritma.
  6. Membuat beberapa prediksi.

Gunakan waktu. Bekerja melalui setiap langkah.

Coba untuk mengetik sendiri perintah atau salin dan tempel perintah untuk mempercepat.

1. Mengunduh, Menginstal, dan Memulai Python SciPy

Dapatkan platform Python dan SciPy diinstal pada sistem Anda jika belum.

Saya tidak ingin membahas hal ini dengan sangat terperinci, karena orang lain sudah memilikinya. Ini sudah cukup mudah, terutama jika Anda seorang pengembang.

1.1 Instal SciPy Libraries

Tutorial ini mengasumsikan Python versi 2.7 atau 3.5+.

Ada 5 pustaka kunci yang perlu Anda instal. Di bawah ini adalah daftar pustaka Python yang diperlukan:

  • Scipy
  • Numpy
  • Matplotlib
  • Panda
  • Sklearn

Ada banyak cara untuk menginstal perpustakaan ini. Saran terbaik saya adalah memilih satu metode kemudian konsisten dalam menginstal setiap perpustakaan.

Halaman instalasi scipy menyediakan instruksi yang sangat baik untuk menginstal perpustakaan di atas pada berbagai platform yang berbeda, seperti Linux, mac OS X dan Windows.

  • Di Mac OS X, Anda dapat menggunakan macports untuk menginstal Python 2.7 dan pustaka ini.
  • Di Linux Anda dapat menggunakan manajer paket Anda, seperti yum di Fedora untuk menginstal RPM.

Jika Anda menggunakan Windows atau tidak percaya diri, saya akan merekomendasikan menginstal versi gratis Anaconda yang mencakup semua yang Anda butuhkan.

1.2 Mulai Python dan Periksa Versi

Merupakan ide bagus untuk memastikan lingkungan Python Anda berhasil diinstal dan berfungsi seperti yang diharapkan.

Script di bawah ini akan membantu Anda menguji lingkungan Anda. Itu mengimpor setiap perpustakaan yang diperlukan dalam tutorial ini dan mencetak versi.

Buka baris perintah dan mulai juru bahasa python:

Saya sarankan bekerja langsung dalam penerjemah atau menulis skrip Anda dan menjalankannya di baris perintah editor besar dan IDE. Buat hal-hal sederhana dan fokus pada pembelajaran mesin bukan pada rantai alat.

Ketik atau salin dan tempel skrip berikut:

Ini adalah output yang didapat:

Bandingkan output di atas dengan versi Anda.

Idealnya, versi Anda harus cocok atau lebih baru. API tidak berubah dengan cepat, jadi jangan terlalu khawatir jika Anda beberapa versi di belakang, Segala sesuatu dalam kursus ini kemungkinan besar masih akan bekerja untuk Anda.

Jika Anda mendapatkan kesalahan, hentikan. Sekarang saatnya untuk memperbaikinya.

Jika Anda tidak dapat menjalankan skrip di atas dengan bersih, Anda tidak akan dapat menyelesaikan kursus ini.

2. Muat Data

Kita akan menggunakan dataset bunga iris. Dataset ini terkenal karena digunakan sebagai dataset “hello world” dalam pembelajaran mesin dan statistik oleh hampir semua orang.

Dataset berisi 150 pengamatan bunga iris. Ada empat kolom pengukuran bunga dalam sentimeter. Kolom kelima adalah spesies bunga yang diamati. Semua bunga yang diamati termasuk dalam salah satu dari tiga spesies.

Anda dapat mempelajari lebih lanjut tentang dataset ini di Wikipedia.

Pada langkah ini kita akan memuat data iris dari URL file CSV.

2.1 Impor Library

Pertama, mari kita mengimpor semua modul, fungsi, dan objek yang akan kita gunakan dalam kursus ini.

Semuanya harus dimuat tanpa kesalahan. Jika Anda memiliki kesalahan, hentikan. Anda memerlukan lingkungan SciPy yang berfungsi sebelum melanjutkan. Lihat saran di atas tentang pengaturan lingkungan Anda.

2.2 Memuat Kumpulan Data

Kami dapat memuat data secara langsung dari repositori Machine Learning UCI.

Kami menggunakan panda untuk memuat data. Kami juga akan menggunakan panda di samping untuk mengeksplorasi data baik dengan statistik deskriptif dan visualisasi data.

Perhatikan bahwa kami menentukan nama setiap kolom saat memuat data. Ini akan membantu nanti ketika menjelajahi data.

Dataset harus dimuat tanpa insiden.

Jika Anda memiliki masalah jaringan, Anda dapat mengunduh file iris.csv ke direktori kerja Anda dan memuatnya menggunakan metode yang sama, mengubah URL ke nama file lokal.

3. Ringkas Dataset

Sekarang saatnya untuk melihat data.

Pada langkah ini kita akan melihat data beberapa cara berbeda:

Dimensi dataset.
Mengintip data itu sendiri.
Ringkasan statistik semua atribut.
Rincian data oleh variabel kelas.
Jangan khawatir, setiap melihat data adalah satu perintah. Ini adalah perintah yang berguna yang dapat Anda gunakan lagi dan lagi di proyek-proyek masa depan.

3.1 Dimensi Dataset

Kita bisa mendapatkan gagasan cepat tentang berapa banyak instance (baris) dan berapa banyak atribut (kolom) yang berisi data dengan properti bentuk.

Anda akan melihat 150 instance dan 5 atribut:

3.2 Mengintip Data

Itu juga merupakan ide yang baik untuk benar-benar melihat data Anda.

Anda harus melihat 20 baris pertama data:

3.3 Ringkasan Statistik

Sekarang kita bisa melihat ringkasan setiap atribut.

Ini termasuk hitungan, rata-rata, nilai minimum dan maksimum serta beberapa persentil.

Kita dapat melihat bahwa semua nilai numerik memiliki skala yang sama (sentimeter) dan rentang yang sama antara 0 dan 8 sentimeter.

3.4 Distribusi Kelas

Sekarang mari kita lihat jumlah instance (baris) yang dimiliki masing-masing kelas. Kita dapat melihat ini sebagai jumlah absolut.

Kita dapat melihat bahwa setiap kelas memiliki jumlah instance yang sama (50 atau 33% dari dataset).

4. Visualisasi Data

Kami sekarang memiliki ide dasar tentang data. Kita perlu memperluasnya dengan beberapa visualisasi.

Kita akan melihat dua jenis plot:

Univariate plot untuk lebih memahami setiap atribut.
Plot multivarian untuk lebih memahami hubungan antar atribut.

4.1 Plot Univariat

Kita mulai dengan beberapa plot univariat, yaitu plot dari masing-masing variabel individu.

Mengingat bahwa variabel input numerik, kita dapat membuat plot kotak dan kumis masing-masing.

Ini memberi kami ide yang lebih jelas tentang distribusi atribut input:

Kami juga dapat membuat histogram dari setiap variabel input untuk mendapatkan gagasan tentang distribusi.

Sepertinya mungkin dua dari variabel input memiliki distribusi Gaussian. Ini berguna untuk dicatat karena kita dapat menggunakan algoritma yang dapat mengeksploitasi asumsi ini.

4.2 Plot Multivarian

Sekarang kita bisa melihat interaksi antar variabel.

Pertama, mari kita lihat plot sebar dari semua pasang atribut. Ini dapat membantu untuk menemukan hubungan terstruktur antara variabel input.

Perhatikan pengelompokan diagonal beberapa pasang atribut. Ini menunjukkan korelasi yang tinggi dan hubungan yang dapat diprediksi.

5. Evaluasi Beberapa Algoritma

Sekarang saatnya membuat beberapa model data dan memperkirakan akurasinya pada data yang tidak terlihat.

Inilah yang akan kita bahas pada langkah ini:

Pisahkan dataset validasi.
Atur harness uji untuk menggunakan validasi silang 10 kali lipat.
Bangun 5 model berbeda untuk memprediksi spesies dari pengukuran bunga
Pilih model terbaik.

5.1 Membuat Dataset Validasi

Kita perlu tahu bahwa model yang kita buat itu bagus.

Nantinya, kami akan menggunakan metode statistik untuk memperkirakan keakuratan model yang kami buat pada data yang tidak terlihat. Kami juga menginginkan perkiraan yang lebih konkret dari keakuratan model terbaik pada data yang tidak terlihat dengan mengevaluasinya pada data nyata yang tidak terlihat.

Artinya, kami akan menahan beberapa data yang tidak akan dapat dilihat oleh algoritma dan kami akan menggunakan data ini untuk mendapatkan gagasan kedua dan independen tentang seberapa akurat model terbaik sebenarnya.

Kami akan membagi dataset yang dimuat menjadi dua, 80% di antaranya akan kami gunakan untuk melatih model kami dan 20% yang akan kami tahan sebagai dataset validasi.

Anda sekarang memiliki data pelatihan di X_train dan Y_train untuk menyiapkan model dan set X_validation dan Y_validation yang bisa kita gunakan nanti.

Perhatikan bahwa kami menggunakan irisan python untuk memilih kolom dalam array NumPy.

5.2 Uji Harness

Kami akan menggunakan validasi silang 10 kali lipat untuk memperkirakan akurasi.

Ini akan membagi dataset kami menjadi 10 bagian, berlatih pada 9 dan menguji pada 1 dan ulangi untuk semua kombinasi pemisahan uji.

Benih acak spesifik tidak masalah.

Kami menggunakan metrik ‘akurasi‘ untuk mengevaluasi model. Ini adalah rasio jumlah instance yang diprediksi dengan benar, dibagi dengan jumlah total instance dalam dataset yang dikalikan dengan 100 untuk memberikan persentase (mis., 95% akurat). Kami akan menggunakan variabel penilaian ketika kami menjalankan build dan mengevaluasi setiap model selanjutnya.

5.3 Membangun Model

Kami tidak tahu algoritma mana yang bagus untuk masalah ini atau konfigurasi apa yang digunakan. Kami mendapatkan ide dari plot bahwa beberapa kelas sebagian secara linear terpisah dalam beberapa dimensi, jadi kami mengharapkan hasil yang umumnya baik.

Mari kita evaluasi 6 algoritma yang berbeda:

Logistic Regression (LR)
Analisis Diskriminan Linier (LDA)
K-Nearest Neighbors (KNN)
Pohon Klasifikasi dan Regresi (CART).
Gaussian Naif Bayes (NB).
Mendukung Mesin Vektor (SVM).
Ini adalah campuran yang baik dari algoritma linear sederhana (LR dan LDA), nonlinear (KNN, CART, NB dan SVM). Kami mereset seed angka acak sebelum setiap run untuk memastikan bahwa evaluasi setiap algoritma dilakukan menggunakan pemisahan data yang persis sama. Ini memastikan hasilnya sebanding secara langsung.

Mari kita bangun dan mengevaluasi model kami:

5.4 Pilih Model Terbaik

Kami sekarang memiliki 6 model dan estimasi akurasi untuk masing-masing. Kita perlu membandingkan model satu sama lain dan memilih yang paling akurat.

Menjalankan contoh di atas, kami mendapatkan hasil mentah berikut:

Tanyakan, hasil Anda mungkin berbeda.

Dalam hal ini, kita dapat melihat bahwa sepertinya Support Vector Machines (SVM) memiliki skor akurasi estimasi terbesar.

Kami juga dapat membuat plot hasil evaluasi model dan membandingkan spread dan akurasi rata-rata setiap model. Ada populasi ukuran akurasi untuk setiap algoritma karena masing-masing algoritma dievaluasi 10 kali (10 kali lipat validasi silang).

Anda dapat melihat bahwa kotak dan plot kumis tergencet di bagian atas kisaran, dengan banyak sampel mencapai akurasi 100%.

6. Buat Prediksi

Algoritma KNN sangat sederhana dan merupakan model yang akurat berdasarkan pengujian kami. Sekarang kami ingin mendapatkan gagasan tentang keakuratan model pada set validasi kami.

Ini akan memberi kami pemeriksaan akhir independen pada keakuratan model terbaik. Sangat berharga untuk menyimpan set validasi jika Anda membuat slip selama pelatihan, seperti overfitting ke set pelatihan atau kebocoran data. Keduanya akan menghasilkan hasil yang terlalu optimis.

Kita dapat menjalankan model KNN langsung pada set validasi dan merangkum hasilnya sebagai skor akurasi akhir, matriks kebingungan dan laporan klasifikasi.

Kita dapat melihat bahwa keakuratannya adalah 0,9 atau 90%. Matriks kebingungan memberikan indikasi tiga kesalahan yang dibuat. Akhirnya, laporan klasifikasi menyediakan pengelompokan masing-masing kelas dengan presisi, penarikan kembali, skor f1 dan dukungan yang menunjukkan hasil yang sangat baik (diberikan dataset validasi kecil).

Anda dapat mempelajari lebih lanjut tentang cara membuat prediksi dan memperkirakan probabilitas di sini:

Anda Dapat Melakukan Machine Learning dengan Python
Anda tidak perlu memahami segalanya. (setidaknya tidak sekarang) Tujuan Anda adalah menjalankan materi dari awal sampai akhir dan mendapatkan hasilnya. Anda tidak perlu memahami segalanya pada pass pertama. Tuliskan pertanyaan-pertanyaan Anda saat Anda pergi. Manfaatkan bantuan (“FunctionName”) dengan bantuan sintaksis dalam Python untuk mempelajari semua fungsi yang Anda gunakan.

Anda tidak perlu tahu cara kerja algoritma. Penting untuk mengetahui tentang batasan dan cara mengkonfigurasi algoritma pembelajaran mesin. Tetapi belajar tentang algoritma bisa datang kemudian. Anda perlu membangun pengetahuan algoritma ini secara perlahan dalam jangka waktu yang lama. Hari ini, mulailah dengan merasa nyaman dengan platform.

Anda tidak perlu menjadi programmer Python. Sintaksis bahasa Python bisa intuitif jika Anda baru menggunakannya. Sama seperti bahasa lain, fokuslah pada panggilan fungsi (mis. Fungsi ()) dan penugasan (mis. A = “b”). Ini akan membantu Anda. Anda adalah seorang pengembang, Anda tahu cara memahami dasar-dasar bahasa dengan sangat cepat. Mulailah dan selami rinciannya nanti.

Anda tidak perlu menjadi ahli pembelajaran mesin. Anda dapat mempelajari tentang manfaat dan keterbatasan berbagai algoritma nanti, dan ada banyak posting yang dapat Anda baca nanti untuk memoles langkah-langkah proyek pembelajaran mesin dan pentingnya mengevaluasi akurasi menggunakan validasi silang.

Bagaimana dengan langkah-langkah lain dalam proyek pembelajaran mesin. Kami tidak mencakup semua langkah dalam proyek pembelajaran mesin karena ini adalah proyek pertama Anda dan kami harus fokus pada langkah-langkah utama. Yaitu, memuat data, melihat data, mengevaluasi beberapa algoritma dan membuat beberapa prediksi. Dalam materi selanjutnya kita bisa melihat persiapan data lain dan tugas peningkatan hasil.

KURSUS KOMPUTER ONLINE DIMANAPUN ANDA BERADA

About Jogja Multimedia

Check Also

Kursus Python | Membuat Aplikasi Desktop Menggunakan Python (Coding)

Dalam kursus ini, Anda akan belajar betapa mudahnya menulis aplikasi desktop menggunakan Python yang menakjubkan, …

Kursus Unreal Engine | Membuat Virtual Reality Visualisasi Arsitektur

Kursus ini akan mencakup segalanya mulai dari teori VR dasar dan praktik terbaik hingga menambahkan …

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *