Machine Learning Preprocessing Card Data Kaggle Python

Original article was published by Yasril Imam on Artificial Intelligence on Medium


Halo teman-teman semua, Pada kali ini saya akan mengulas langkah-langkah dalam Prepocessing Data yang masih memiliki “Noise” atau data yang belum bisa di proses dengan mengunakan bahasa python beserta libary yang digunakan.

Penjelasan Singkat Preprocessing Data

Preprocessing data adalah tahap penting dalam pembelajaran mesin, karena data masukan yang baik dan tepat (harusnya) akan membuat estimator mampu menghasilkan keluaran yang baik pula.

Persiapan Libary

Salah satu keunggulan python adalah mendukung banyak open-source library. Ada banyak library python yang dapat digunakan untuk melakukan dan mengimplementasikan masalah dalam preprocessing data.

Implementasi Sourcode

Dalam implentasi ini kita bisa menggunakan beberapa libary untuk melakukan preprocessing data contohnya sebagai berikut :

import pandas as pd
import
numpy as np

Penjelasan Libary :

a. Pandas merupakan toolkit yang powerfull sebagai alat analisis data dan struktur untuk bahasa pemrograman Python. Dengan menggunakan pandas kita dapat mengolah data dengan mudah, salah satu fiturnya adalah Dataframe.

b. NumPy (Numerical Python) adalah library Python yang fokus pada scientific computing. NumPy memiliki kemampuan untuk membentuk objek N-dimensional array, yang mirip dengan list pada Python. Keunggulan NumPy array dibandingkan dengan list pada Python adalah konsumsi memory yang lebih kecil serta runtime yang lebih cepat.

df = pd.read_csv("cardata.csv", encoding ='utf-8')
#Membaca Data csv
df

Sourcode diatas berfungsi untuk membaca data csv dan menampilkannya

Data csv yang ditampilkan
df.Merek = df.Merek.str.upper() 
df.Model = df.Model.str.upper()
df.Bahan_Bakar = df.Bahan_Bakar.str.upper()
df.Jenis_Kendaraan = df.Jenis_Kendaraan.str.upper()

df.Merek = df.Merek.replace({"_":" "}, regex=True)
df.Model = df.Model.replace({"_":" "}, regex=True)
df.Km = df.Km.replace({",0":""}, regex=True)

df = df.dropna(subset = ['Merek','Model','Bahan_Bakar','Jenis_Kendaraan','Km'])
df

Pada sourcode diatas memiliki beberapa fungsi penting dalam proses preprocessing seperti “str.upper” berfungsi mengganti huruf kapital, fungsi “Replace” berfungsi mengembalikan salinan pada string, “regek” atau Regular expressions cara untuk mencari string berdasarkan rule. Contoh, mencari semua merek atau model dalam dataset dan Dropna berfungsi untuk menghapus data NaN pada data yang di subset.

Data yang berhasil di preprocessing menggunakan beberapa fungsi diatas.
confirm2 = df.groupby(['Merek','Model','Tahun']).sum()
z2 = confirm2.sort_values(['Km','Merek','Model','Tahun'])
yy2 = pd.DataFrame(z2)
yy2.to_csv("data hasil2.csv")
yy2

Langkah selanjutnya saya akan mengambil sebagian atribut dari data Car yang sudah di preprocessing dengan menggunakan fungsi groupby untuk mengelompokan atribut yang pilih. Setelah atribut di kelompokan jangan lupa menggunakan fungsi Sorting unutk mengurutkan data terendah ke data tertinggi dan saya akan exportkan data csv baru ke Laptop/Komputer saya dengan menggunakan fungsi (“to_csv”). Maka data hasil akhirnya seperti ini.

Data yang di export ke laptop dan melewati Preprocessing

Penutup

Dalam tulisan ini kita telah mengetahui langkah dasar dalam preprocessing data beserta library yang digunakan dalam python. Selanjutnya hasil dari Data preprocessing dapat digunakan untuk proses selanjut seperti melakukan Klasifikasi atau Klustering. Selamat mencoba dan sukses selalu :))

Baris kode diatas dapat anda temukan di github saya. https://github.com/yasrilimam98/cardata-preprocessing

Lebih jelas lagi bisa langsung kunjungi Youtube Channel saya

https://www.youtube.com/channel/UCpAIJbuXwvwQf6F4h7fLQaQ