Dengan bertambahnya jumlah data yang tersedia untuk umum dan peningkatan fokus pada data teks tidak terstruktur, pemahaman tentang cara membersihkan, memproses, dan menganalisis data teks itu sangat berharga. Jika Anda memiliki pengalaman dengan Python dan minat pada pemrosesan bahasa alami (NLP), kursus ini dapat memberi Anda pengetahuan yang Anda butuhkan untuk mengatasi masalah kompleks menggunakan pembelajaran mesin. Kami memberikan ringkasan singkat tentang konsep pemrosesan bahasa alami dasar (NLP), mencakup teknik pembersihan data dan vektorisasi tingkat lanjut, dan kemudian mempelajari lebih dalam pembuatan pengklasifikasi pembelajaran mesin. Selama langkah terakhir ini, Kami menunjukkan cara membuat dua jenis model pembelajaran mesin, serta cara mengevaluasi dan menguji variasi model tersebut.
Tujuan pembelajaran
- Menjelaskan definisi NLP.
- Jelaskan proses tokenisasi.
- Identifikasi tujuan vektorisasi.
- Kenali hasil lemmatisasi.
- Rangkum karakteristik TF-IDF.
- Tentukan akurasi dalam hal metrik evaluasi.
- Ingat kembali tiga manfaat menggunakan metode ansambel.
Kurikulum Kursus :
- Apa itu NLP dan NLTK?
- Pengaturan dan ikhtisar NLTK
- Membaca dalam data teks
- Menjelajahi dataset
- Apa itu ekspresi reguler?
- Mempelajari cara menggunakan ekspresi reguler
- Penggantian ekspresi reguler
- Pipeline machine learning
- Penerapan: Menghapus tanda baca
- Implementasi: Tokenisasi
- Implementasi: Menghapus kata-kata berhenti
- Memperkenalkan stemming
- Menggunakan stemming
- Memperkenalkan lemmatizing
- Menggunakan lemmatizing
- Memperkenalkan vectorizing
- Hitung vektorisasi
- Vektorisasi N-gram
- Pembobotan frekuensi dokumen terbalik
- Memperkenalkan rekayasa fitur
- Pembuatan fitur
- Evaluasi fitur
- Mengidentifikasi fitur untuk transformasi
- Transformasi kekuatan Box-Cox
- Apa itu pembelajaran mesin?
- Metrik validasi silang dan evaluasi
- Pengenalan random forest
- Membangun model random forest
- Random Forest dengan set uji pisahan
- Model Random Forest dengan pencarian grid
- Evaluasi kinerja model Random Forest
- Memperkenalkan peningkatan gradien
- Pencarian kisi yang meningkatkan gradien
- Evaluasi kinerja model peningkatan gradien
- Pemilihan model: Persiapan data
- Pemilihan model: Hasil
- Selesai