DATA PREPARATION

 Data preparation adalah proses mempersiapkan data mentah agar sesuai untuk diproses dan dianalisis lebih lanjut, misalnya untuk tujuan bisnis. Data preparation meliputi beberapa langkah penting, seperti mengumpulkan, membersihkan, memberi label, dan mengeksplorasi data. Berikut adalah beberapa langkah data preparation yang umum:

1. Mengumpulkan data: Mengumpulkan data adalah proses menghimpun semua data yang dibutuhkan untuk ML. Data collection bisa merepotkan karena data berasal dari banyak sumber data yang berbeda, seperti laptop, data warehouse, cloud, aplikasi, dan perangkat. Menemukan cara untuk terhubung ke sumber data yang berbeda bisa menjadi tantangan. Volume data juga meningkat secara eksponensial, sehingga ada banyak data yang harus dicari. Selain itu, data memiliki format dan jenis yang sangat berbeda tergantung pada sumbernya.


2. Membersihkan data: Membersihkan data adalah proses menghapus atau memperbaiki data yang tidak valid, tidak lengkap, tidak akurat, atau tidak relevan. Data cleaning bertujuan untuk meningkatkan kualitas data dan mengurangi bias atau kesalahan dalam analisis. Data cleaning bisa meliputi tugas-tugas seperti menghapus duplikat, mengisi nilai yang hilang, mengubah format, menstandarisasi kategori, dan mendeteksi anomali.


3. Memberi label data: Memberi label data adalah proses menambahkan informasi deskriptif atau metadata ke data mentah untuk memudahkan identifikasi dan penggunaan. Data labeling biasanya digunakan untuk data yang tidak terstruktur, seperti gambar, teks, atau suara, yang membutuhkan anotasi manusia untuk memberikan makna dan konteks. Data labeling sangat penting untuk ML, karena membantu algoritma ML mempelajari fitur dan pola dari data yang diberi label.


4. Mengeksplorasi data: Mengeksplorasi data adalah proses menganalisis dan memahami karakteristik, distribusi, dan hubungan antara data. Data exploration biasanya melibatkan teknik-teknik seperti statistik deskriptif, visualisasi data, dan analisis eksploratif. Data exploration membantu menemukan wawasan, tren, dan anomali dalam data, serta menentukan langkah-langkah selanjutnya dalam analisis.


Berikut adalah contoh source code sederhana data preparation:


                       Output:




Komentar

Postingan Populer