Dalam kursus ini, Anda akan mempelajari dasar-dasar Pemrosesan Bahasa Alami (NLP), seperti cara mengidentifikasi dan memisahkan kata, cara mengekstrak topik dalam teks, dan cara membuat penggolong berita Anda sendiri. Anda juga akan belajar cara menggunakan perpustakaan dasar seperti NLTK, di samping perpustakaan yang memanfaatkan pembelajaran mendalam untuk memecahkan masalah NLP yang umum. Kursus ini akan memberi Anda dasar untuk memproses dan mengurai teks saat Anda bergerak maju dalam pembelajaran Python Anda.
Kurikulum :
- Regular expressions & word tokenization
Bab ini akan memperkenalkan beberapa konsep NLP dasar, seperti tokenization kata dan ekspresi reguler untuk membantu mengurai teks. Anda juga akan belajar cara menangani teks non-Inggris dan tokenisasi yang lebih sulit yang mungkin Anda temukan saat menjelajahi dunia luas NLP. -
Simple topic identification
Bab ini akan memperkenalkan Anda pada identifikasi topik, yang dapat Anda terapkan pada teks apa pun yang Anda jumpai di alam. Menggunakan model NLP dasar, Anda akan mengidentifikasi topik dari teks berdasarkan frekuensi istilah. Anda akan bereksperimen dan membandingkan dua metode sederhana – bag-of-words dan Tf-idf menggunakan NLTK dan perpustakaan baru – Gensim. -
Named-entity recognition
Bab ini akan memperkenalkan topik yang sedikit lebih maju – Pengakuan entitas-dinamai. Anda akan belajar bagaimana mengidentifikasi siapa, apa, dan di mana teks Anda menggunakan model pra-terlatih pada teks bahasa Inggris dan non-Inggris. Anda juga akan belajar cara menggunakan beberapa perpustakaan baru – polyglot dan spaCy – untuk ditambahkan ke kotak alat NLP Anda. -
Building a “fake news” classifier
Di sini, Anda akan menerapkan dasar-dasar apa yang telah Anda pelajari bersama dengan beberapa pembelajaran mesin yang diawasi untuk membangun detektor “berita palsu”. Anda akan mulai dengan mempelajari dasar-dasar pembelajaran mesin yang diawasi, dan kemudian bergerak maju dengan memilih beberapa fitur penting dan menguji ide untuk mengidentifikasi dan mengklasifikasikan artikel “berita palsu”.