Notebook Bab 17 ini punya dua bagian. Bagian Demo tinggal Anda jalankan lalu amati keluarannya; bagian Mini Project berisi soal dan data yang Anda kerjakan sendiri.
Bab penutup ini merangkai seluruh buku: dari tujuan prediksi ke satu pipeline utuh yang menangani data campuran (numerik, kategorikal, dan nilai hilang) tanpa leakage.
Section 1 - Demo: Pipeline Utuh untuk Data Campuran
Kerangkanya: tentukan unit dan target, pisahkan data, transformasikan tiap tipe kolom, latih model, lalu evaluasi. Semua transformasi hidup di dalam satu objek pipeline.
Data pelanggan: numerik + kategorikal + nilai hilang
🔎 Amati. Satu objek pipeline menangani imputasi dan scaling kolom numerik, imputasi dan one-hot kolom kategorikal, lalu model, semuanya sekaligus. Parameter di-fit hanya pada data latih, jadi evaluasi bebas leakage dan objek yang sama siap dipakai untuk inferensi dengan cukup memanggil predict. Inilah kerangka yang berulang di sepanjang buku: unit dan target, pemisahan, transformasi, model, lalu evaluasi.
Section 2 - Mini Project
Soal
Anda menerima data pinjaman berisi kolom numerik dan kategorikal, sebagian dengan nilai yang hilang. Target prediksinya gagal_bayar (1/0).
Tugas:
Rancang satu pipeline lengkap: ColumnTransformer (imputasi + scaling untuk kolom numerik; imputasi + encoding untuk kolom kategorikal), lalu sebuah model di ujungnya.
Pisahkan data lebih dulu, latih model hanya pada bagian latih, lalu ukur performa pada data uji dan lewat cross-validation.
Jelaskan tiap keputusan berdasarkan kerangka: unit, target, split, transformasi, model, evaluasi.
Luaran: kode pipeline lengkap, metrik uji dan CV, serta satu paragraf yang menghubungkan tiap bagian kode dengan kerangka desain.
Kriteria penilaian: (a) semua transformasi berada di dalam pipeline; (b) parameter di-fit hanya dari data latih; (c) penjelasan disusun mengikuti kerangka desain.