Text Preprocessing: First Step to Machine Learning

Text Preprovessing

Apa sih yang dimaksud dengan proprocessing?

Preprocessing itu adalah suatu kegiatan untuk mengubah sebuah bentuk teks menjadi bentuk yang lebih teratur sehingga bisa di proses lebih lanjut lagi oleh pemrosesan selanjutnya

Contoh pemrosesan selanjutnya seperti, koreksi typo, cek plagiasi, pencarian dokumen, tag dokumen otomatis, dan sebagainya

Nah… Preprocessing ini merupakan tahap yang sangat penting untuk semua machine learning karena tidak semua dokumen memiliki format yang terstruktur dan baku.

Contohnya saat cek plagiasi, ada kan orang-orang aneh yang melakukan beberapa tindakan gak jelas seperi ada yang spasinya di ganti dengan karakter kemudian dijadiin putih, ada yang main parafrase kata, macem-macem lah.

Bayangkan jika tidak di preprocessing? Ya ga akurat dong cek plagiasinya.

Preprocessing sendiri merupakan sebuah proses yang juga memakan waktu. Bayangkan aja deteksi karakter berwarna putih  di seluruh dokumen skripsi, apa ga capek tuh komputer? Makanya ini pekerjaan yang berat, gara-gara kalian juga ini kenapa iseng-iseng kayak gitu.

Karena preprocessing ini merupakan pekerjaan yang berat maka preprocessing sendiri terdiri dari beberapa tahap. Setiap tahap sendiri juga tidak digunakan jika memang tidak membantu dalam pemrosesan selanjutnya sehingga mengurangi beratnya proses.

Beberapa tahapan yang ada adalah:

Lowercasing

Ini adalah tahap preprocessing untuk mengecilkan semua huruf. Sehingga seluruh kata dokumen dengan huruf yang sama (baik itu kapital ataupun enggak) menjadi sama. Contoh: Aku, aku dan AKU adalah kata yang sama.

Ini penting sekali untuk banyak hal seperti cek plagiasi tadi.

Akan ga akurat dong kalo lowercasing ga dilakukan. Semakin mudah kalian semua melakukan kecurangan, hanya dengan membesar kecilkan huruf.

Fragmentasi dan fRagmentasi sehingga gak terdeteksi plagiasi.

Tapi dalam beberapa pemrosesan ini juga tidak diperlukan sih, misalnya pada pemeriksaan ejaan. Dalam pemeriksaan ejaan, penting untuk memperhatikan kapital dan tidaknya suatu huruf

Stemming

Stemming adalah proses untuk mengurangi imbuhan yang ada pada kata sehingga kata menjadi kata dasarnya. Contoh: membaca, bacaan, terbaca, pembaca menjadi baca

Ini juga penting untuk banyak hal seperti cek plagiasi lagi (ini saya soroti kalian semua yang sukanya copas ya), pecarian dokumen, klasifikasi otomatis

Stopword Removal

Stopword removal adalah proses untuk menghapus kata-kata yang sudah umum dan tidak berguna untuk dokumen. Contoh kata-kata umum seperti: di, ke, dengan

Kata-kata umum ini pasti seringkali muncul dalam dokumen. Apakah dokumen laporan atau skripsi kalian ada yang benar-benar tidak menggunakan di? Saya rasa tidak, makanya stopword removal ini juga penting untuk preprocessing.

Bayangkan saya jika kalian mencari dokumen dengan kata kunci “Wisata di Malang” dan yang keluar adalah dokumen dengan banyak kata ‘di’ di dalamnya. Kan kalian jadi harus menyaring lagi hasil pencariannya. Makanya kata di di remove aja untuk pemrosesan pencarian dokumen.

Biasanya stopword ini digunakan dalam pencarian dokumen, klasifikasi otomatis dan clustering dokumen

Normalisasi

Normalisasi adalah bentuk baku dari kata. Ini termasuk preprocessing yang cukup sulit. Contohnya adalah 🙂 menjadi senyum (apa sih arti kata 🙂 isinya tanda baca doang kan?)

Ini penting dalam ekstraksi topik dokumen, dan analisis sosial media (karena anak alay biasanya di sosial media, bukan alay di dokumen skripsi)

Noise Removal

Noise Removal adalah sebuah penghapusan noise yang biasanya adalah merupakan tanda baca. Contohnya: Hai.,,, Menjadi Hai saja tanpa ada titik-titik

Apa yang harus kita lakukan?

Tidak semua nya kita butuhkan karena pasti akan berat untuk dilakukan. Tapi saya menyediakan sedikit kisi-kisi untuk anda yang ingin mengembangkan machine learning berbasis teks maka klasifikasi preprocessing yang harus dilakukan adalah

Harus

  • Noise Removal
  • Lowercasing

Sebaiknya dilakukan

  • Normalisasi sederhana (koreksi typo dll)

Tergantung

  • Stop word removal
  • Stemming
  • Normalisasi lanjut

Oke, itu adalah jenis-jenis preprocessing sebagai pengetahuan saja dan dasar teori untuk yang pertama kali belajar machine learning. Mungkin di artikel selanjutnya saya akan lakukan beberapa demonstrasi untuk beberapa proses diatas dan konversi ke bahasa pemrograman

Semoga bisa membantu

Text Preprocessing: First Step to Machine Learning

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Kembali ke Atas
www.000webhost.com