Klasifikasi Logistic Regression Menggunakan Python & (Iris Dataset)

Original article can be found here (source): Artificial Intelligence on Medium

Let’s Code!

Di sini saya menggunakan Jupyter Notebook sebagai text editor untuk menjalankan program. Hal pertama yang harus dilakukan yaitu import semua library yang akan dipakai.

Import Library yang dibutuhkan.

Setelah itu kita akan melakukan load data menggunakan pandas dan mencoba menampilkan sampel data.

Load data dan menampilkan sampel data.

Jika data sudah di load, selanjutnya lakukan pengecekan apakah ada data yang tidak memiliki nilai atau NaN. Lakukan pengisian terhadap nilai kosong dengan variabel 0. Tetapi pada data ini tertulis false yang berarti semua data memiliki nilai sehingga dapat langsung diproses.

Memeriksa apakah ada data yang tidak memiliki nilai.

Untuk mempermudah meihat fitur-fitur yang terdapat pada dataset, kita dapat menggunakan fungsi dtypes.

Melihat semua fitur pada dataset.

Pilih fitur yang akan digunakan sebagai input dan target prediksi. Lalu melakukan plotting untuk melihat realasi antar fitur.

# X = memilih semua fitur kecuali kolom terakhir
X = dataFrame.iloc[:, :-1]

# y = memilih target yaitu kolom terakhir
y = dataFrame.iloc[:, -1]

Memilih input — output dan melakukan plotting dari fitur yang digunakan.

Tahapan selanjutnya adalah melakukan pemisahan data untuk training dan testing. Mengapa ini penting? Hal ini diperlukan agar kita bisa melihat bagaimana algoritma belajar untuk melakukan prediksi pada testing data. Kita akan membagi data menjadi 80% training dan 20% testing menggunakan fungsi train_test_split() dari sklearn.model_selection.

Pemisahan data untuk training dan testing.

Setelah melakukan pemisahan data untuk training dan testing, langkah berikutnya yaitu melakukan train pada data yang ada menggunakan algoritma logistic regression. Berikut cara membuat dan melatih logistic regression model.

Membuat dan melatih model.

Sekarang setelah model dilatih, kita akan melakukan prediksi untuk melihat bagaimana performa model logistic regression terhadap testing data. Untuk mempermudah dalam melihay performa model, kita akan menggunakan beberapa metrics seperti precision, recall, f1-score.

Highlight biru memperlihatkan hasil prediksi model. Data di bawah adalah metrics yang digunakan untuk menilai performa model.

That’s it! Kita sudah berhasil melakukan klasifikasi sederhana menggunakan logistic regression terhadap spesies tumbuhan Iris. Seluruh code yang ditulis di atas dapat diakses pada akun Github saya.