Notebook Bab 7 ini punya dua bagian. Bagian Demo tinggal Anda jalankan lalu amati keluarannya; bagian Mini Project berisi soal dan data yang Anda kerjakan sendiri.
Seleksi fitur membuang fitur redundan dan noise. Kita bandingkan metode filter, wrapper, dan embedded, semuanya di dalam pipeline agar tidak bocor.
🔎 Amati. Ketiga metode mempertahankan akurasi mendekati baseline hanya dengan sekitar 10 dari 50 fitur, jadi model lebih ramping dan cepat. Bedanya pada biaya: filter paling murah (skor per fitur), wrapper (RFE) paling mahal karena melatih ulang model berkali-kali, embedded menyeleksi sekalian dari kepentingan fitur saat melatih. Karena selektor berada di dalam pipeline, pemilihan fitur tidak pernah mengintip data uji.
Section 2 - Mini Project
Soal
Anda diberi data berdimensi tinggi (80 fitur, banyak noise). Targetnya klasifikasi biner.
Tugas:
Bandingkan dua metode seleksi (misalnya filter dan embedded) di dalam pipeline.
Periksa stabilitas seleksi: fitur mana yang konsisten terpilih antar-fold?
Laporkan akurasi dan jumlah fitur terpilih tiap metode.
Luaran: kode perbandingan, daftar fitur stabil, dan 2-3 kalimat kesimpulan.
Kriteria penilaian: (a) selektor di dalam pipeline; (b) ada analisis stabilitas antar-fold; (c) perbandingan adil (model akhir sama).
# DATA AWAL (jangan diubah) - 80 fitur, 10 informatif, 8 redundan.Xm, ym = make_classification(n_samples=1500, n_features=80, n_informative=10, n_redundant=8, random_state=7)print('Data:', Xm.shape)
Data: (1500, 80)
# Kerjakan di sini.# Petunjuk: SelectKBest / SelectFromModel di dalam Pipeline; cek get_support() tiap fold.