3 Representasi Fitur Numerik

3.1 Skala dan Distribusi: Mengapa Fitur Numerik Butuh Transformasi

Algoritma machine learning menginterpretasikan angka murni berdasarkan besaran matematisnya. Model tidak memiliki pemahaman bawaan mengenai konteks atau satuan ukur dari sebuah nilai. Angka 10.000.000 selalu diproses jauh lebih besar daripada 50, meskipun angka pertama mewakili pendapatan tahunan dan angka kedua mewakili usia manusia. Sifat komputasi yang harfiah ini menimbulkan dua masalah utama saat memproses fitur numerik mentah.

3.1.1 Dominasi Skala pada Fungsi Objektif

Skala merujuk pada rentang nilai observasi dari sebuah variabel. Ketika algoritma menerima fitur-fitur dengan rentang skala yang terlampau jauh berbeda, fitur dengan varians besar akan mendominasi perhitungan objektif.

Masalah ini terlihat jelas pada algoritma berbasis metrik jarak, yang mencari pola kedekatan antar data menggunakan persamaan jarak Euclidean:

\[ d(p, q) = \sqrt{\sum_{i=1}^{n} (p_i - q_i)^2} \]

Di mana \(d(p, q)\) mewakili jarak total antara dua titik observasi \(p\) dan \(q\), sedangkan \(p_i\) dan \(q_i\) adalah nilai numerik dari fitur ke-\(i\).

Bila model mengevaluasi observasi dengan fitur gaji (rentang jutaan rupiah) dan fitur umur (rentang puluhan tahun), kuadrat selisih dari gaji menghasilkan angka yang sangat besar. Angka dominan ini sepenuhnya menutupi selisih nilai umur, sehingga fitur umur menjadi tidak berguna bagi pemetaan algoritma.

Selain itu, pada algoritma berbasis gradien seperti regresi linier dan jaringan saraf tiruan, perbedaan skala antar fitur yang drastis memperlambat perhitungan iteratif. Kondisi ekstrem bahkan mampu menggagalkan model mencapai konvergensi yang stabil, karena arsitektur dasarnya mengasumsikan seluruh fitur beroperasi pada skala yang sebanding.

3.1.2 Distribusi Menceng Melanggar Asumsi Model

Bentuk persebaran observasi data juga berdampak langsung pada kualitas pemodelan. Data nyata sering membentuk distribusi menceng (skewed distribution), yaitu persebaran data yang tidak simetris dan memiliki satu ekor memanjang akibat nilai-nilai ekstrem.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph TD
    A[Fitur Numerik Mentah] --> B(Min-Max Scaling: Batas Keras 0 s.d 1)
    A --> C(Standardisasi: Mean=0, Std=1, Rentang Bebas)

Figure 3.1: Perbandingan Distribusi Nilai Menggunakan Metode Skala Min-Max dan Standardisasi

Bentuk distribusi yang asimetris menciptakan hambatan komputasi bagi algoritma melalui dua pola utama. Pertama, ia melanggar asumsi sebaran yang dibutuhkan oleh model; mayoritas model linier mengasumsikan distribusi data terpusat stabil di sekitar nilai rata-rata, sehingga data menceng secara langsung akan membelokkan garis regresi. Kedua, algoritma sangat sensitif terhadap galat karena cara kerjanya yang meminimalkan error secara agregat. Sekelompok kecil observasi ekstrem di ujung kurva akan menghasilkan kalkulasi galat yang proporsional besar. Akibatnya, model akan menggeser bobot fiturnya secara berlebihan untuk mengakomodasi sebagian kecil observasi ekstrem tersebut, yang pada akhirnya mengorbankan akurasi untuk mayoritas data normal.

Karena besaran angka mentah berbenturan dengan mekanisme komputasi algoritma, fitur numerik wajib ditransformasi. Penyesuaian rentang skala dan perbaikan bentuk distribusi memastikan setiap fitur memiliki kesempatan setara untuk berkontribusi pada hasil prediksi.

3.2 Standardisasi dan Skala Min-Max

Algoritma pemelajaran mesin berbasis jarak (seperti k-Nearest Neighbors) dan turunan gradien (seperti regresi linier) sensitif terhadap skala fitur numerik. Jika model memproses fitur usia dalam skala puluhan dan harga rumah dalam skala jutaan, fitur harga rumah akan mendominasi komputasi akibat magnitudo nominalnya. Penyesuaian skala diperlukan agar seluruh input memiliki kontribusi yang setara. Terdapat dua metode prapemrosesan utama: standardisasi dan skala min-max.

3.2.1 Standardisasi

Standardisasi memodifikasi sebaran nilai fitur agar memiliki rata-rata nol dengan deviasi baku satu. Proses ini menghitung nilai baku (Z-score) dari setiap titik observasi menggunakan persamaan:

\[ z = \frac{x - \mu}{\sigma} \]

Dalam rumus ini, \(z\) adalah nilai hasil standardisasi, \(x\) adalah observasi nilai asli, sedangkan \(\mu\) dan \(\sigma\) berturut-turut merupakan rata-rata dan deviasi baku dari variabel tersebut. Standardisasi memiliki beberapa karakteristik utama. Pertama, metode ini mempertahankan jarak proporsional sehingga rasio komparatif antar-titik data tetap sesuai dengan bentuk sebaran aslinya. Kedua, ia lebih toleran terhadap nilai ekstrem; titik pencilan (outlier) tidak dipaksa mengecil dan posisi ekstremnya dipertahankan (misalnya \(z = 4.5\)), memfasilitasi algoritma yang memang membutuhkan informasi abnormal tersebut. Terakhir, rentang nilai akhirnya tidak dibatasi atau dikurung dalam batas minimum dan maksimum yang kaku.

3.2.2 Skala Min-Max (Min-Max Scaling)

Skala min-max memampatkan seluruh nilai numerik ke dalam rentang tertutup, umumnya interval nilai \(0\) hingga \(1\). Transformasi ini dihitung menggunakan formula kompresi:

\[ x_{scaled} = \frac{x - x_{min}}{x_{max} - x_{min}} \]

Di mana \(x_{scaled}\) melambangkan nilai setelah diskalakan, \(x\) adalah observasi nilai asli, sementara \(x_{min}\) dan \(x_{max}\) adalah batas observasi terkecil dan terbesar pada fitur tersebut. Karakteristik skala min-max sangat bergantung pada batasan absolut. Metode ini memaksakan rentang yang konstan, di mana nilai terkecil dipetakan secara eksak menjadi \(0\), dan observasi terbesar menjadi \(1\). Konsekuensinya, metode ini sangat sensitif terhadap pencilan. Jika terdapat outlier tunggal dengan nilai ekstrem, rentang denominasi (\(x_{max} - x_{min}\)) akan membesar drastis. Akibatnya, kelompok data mayoritas justru terkompresi rapat di kisaran desimal sempit yang mendekati nilai nol.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph TD
    subgraph Rentang_Sebelum ["Sebelum Normalisasi"]
        A1[Fitur Pendapatan: 5.000.000 s.d 100.000.000]
        A2[Fitur Jumlah Anak: 0 s.d 5]
    end
    subgraph Rentang_Sesudah ["Sesudah Normalisasi"]
        B1[Fitur Pendapatan Berskala: -1.5 s.d 3.2]
        B2[Fitur Jumlah Anak Berskala: -0.8 s.d 2.1]
    end
    Rentang_Sebelum -->|Standardization Transformer| Rentang_Sesudah

Figure 3.2: Skema Scaling Menormalkan Rentang Angka Antar Dimensi Fitur

3.2.3 Kriteria Penggunaan

Pemilihan metode penskalaan sangat bergantung pada karakteristik matematis dari algoritma yang akan digunakan. Standardisasi sangat disarankan untuk model linier dan algoritma berbasis jarak Euclidean (seperti Support Vector Machine atau k-Nearest Neighbors). Pendekatan ini tidak merusak variansi jarak outlier dan mampu memuluskan laju konvergensi fungsi objektif. Sebaliknya, skala min-max lebih tepat dipilih untuk algoritma yang memetakan fungsi pada ruang terbatas konstan. Metode ini relevan untuk memproses representasi fisik dengan rentang mutlak (misalnya nilai intensitas piksel 0-255 pada citra digital) atau sebagai asupan awal untuk unit aktivasi tertentu pada jaringan saraf tiruan (neural network).

3.3 Robust Scaling dan Penanganan Outlier

Standardisasi mengandalkan nilai rata-rata dan deviasi standar untuk menyesuaikan skala fitur numerik. Pendekatan ini bekerja dengan baik pada distribusi normal, tetapi memiliki kelemahan: perhitungannya sangat rentan terhadap outlier atau nilai ekstrem. Jika sebuah populasi data memiliki anomali yang terlalu tinggi atau rendah, perhitungan rata-rata akan bergeser, dan deviasi standar akan melebar secara semu.

Misalnya pada data pendapatan karyawan di sebuah perusahaan. Mayoritas staf menerima gaji standar, tetapi ada satu orang CEO dengan penghasilan ribuan kali lipat lebih besar. Pendapatan CEO ini menarik nilai rata-rata ke atas secara drastis. Jika kita memaksakan standardisasi pada kondisi ini, gaji karyawan reguler akan tertekan dan saling berhimpit pada area sempit di bagian bawah skala. Variasi asli antar-karyawan biasa menjadi hilang karena tertutup oleh rentang angka yang melebar akibat satu anomali.

Untuk mengatasi masalah ini, kita menggunakan pendekatan robust scaling. Metode ini mengganti parameter acuan dengan metrik yang lebih kebal terhadap nilai ekstrem. Pertama, ia menggunakan median untuk menggantikan rata-rata (\(Q_2\)). Median murni melihat posisi urutan sehingga tidak terseret oleh angka ekstrem di ujung distribusi. Kedua, ia menggunakan Rentang Antarkuartil (IQR) untuk menggantikan deviasi standar. IQR mengukur jarak antara persentil ke-25 (\(Q_1\)) dan persentil ke-75 (\(Q_3\)), sehingga metrik ini hanya mengevaluasi sebaran 50 persen data di pusat populasi dan secara alami mengabaikan anomali di kedua ujungnya.

Transformasi robust scaling menggunakan formula dasar \(x'_{i} = \frac{x_i - Q_2}{Q_3 - Q_1}\). Di sini, \(x'_{i}\) adalah nilai fitur setelah transformasi, \(x_i\) adalah nilai fitur asli, \(Q_2\) adalah median, dan penyebut \(Q_3 - Q_1\) mewakili IQR. Melalui formula ini, robust scaling memastikan titik-titik data normal tetap tersebar secara proporsional. Anomali ekstrem dipertahankan pada posisinya yang jauh dari pusat tanpa merusak skala kelompok data utama.

Selain penyesuaian skala, penanganan outlier sering dilakukan melalui pembatasan rentang secara eksplisit, yang dikenal sebagai clipping atau winsorization. Alih-alih membiarkan anomali memiliki nilai bebas, winsorization memotong data dan mengganti angka di luar ambang batas dengan nilai batas maksimum atau minimum tersebut.

Penentuan batas pemotongan (clipping atau winsorization) dapat dilakukan melalui beberapa metode. Metode pertama adalah batas IQR, di mana titik data yang melebihi \(Q_3 + 1.5 \times \text{IQR}\) atau kurang dari \(Q_1 - 1.5 \times \text{IQR}\) dipotong menjadi batas nilai maksimum atau minimum tersebut. Metode kedua menggunakan batas Median Absolute Deviation (MAD), yaitu mengukur deviasi absolut median yang secara statistik terbukti lebih kuat terhadap kontaminasi ekstrem dibandingkan IQR. Pendekatan ini sangat disarankan untuk distribusi dengan kepadatan outlier yang tinggi. Metode ketiga adalah batas persentil, yang menetapkan ambang pemotongan kaku berdasarkan persentil tertentu, seperti memotong secara merata semua nilai di bawah persentil ke-1 dan di atas persentil ke-99.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    A[Umur Kontinu: 23, 45, 67, 12, 55] -->|Aturan Binning| B{Batasan Umur}
    B -->|<18| C[Kategori: Anak-anak]
    B -->|18-50| D[Kategori: Dewasa]
    B -->|>50| E[Kategori: Lansia]

Figure 3.3: Alur Pemetaan Batas Interval Diskrit (Discretization/Binning)

Langkah pemotongan ini menjaga rentang distribusi tetap padat dan mencegah model (terutama model berbasis gradien atau jarak) memberikan bobot kesalahan yang tidak wajar akibat satu pengamatan ekstrem.

3.4 Power dan Quantile Transform

Selain penyesuaian skala metrik, bentuk distribusi fitur numerik juga perlu diperbaiki. Model berbasis jarak atau gradien bekerja lebih baik bila data mendekati distribusi normal. Namun, sebagian besar observasi riil seperti harga atau pendapatan menceng (skewed) dengan ekor panjang di satu sisi. Memasukkan data menceng secara langsung ke dalam model linier membuat model kesulitan membaca pola sentral.

Untuk menstabilkan varians dan mengurangi kemencengan, kita menggunakan power transform. Transformasi ini menerapkan kompresi non-linier yang lebih kuat pada angka-angka besar, sehingga sebaran data yang berada di ujung ekor akan tertarik dan merapat ke pusat. Dua metode utama dalam teknik ini adalah transformasi Box-Cox (yang hanya mendukung data bernilai positif murni) dan Yeo-Johnson (yang mampu memproses angka bernilai nol atau negatif). Kedua metode ini bekerja secara algoritmis mengestimasi parameter kompresi optimal melalui pendekatan Maximum Likelihood Estimation (MLE). Sebagai representasi, formula transformasi Box-Cox didefinisikan sebagai berikut:

\[ x_i^{(\lambda)} = \begin{cases} \frac{x_i^\lambda - 1}{\lambda} & \text{jika } \lambda \neq 0 \\ \ln(x_i) & \text{jika } \lambda = 0 \end{cases} \]

Di mana \(x_i\) merepresentasikan nilai fitur awal, dan \(\lambda\) adalah parameter kompresi yang disesuaikan dari data latih. Jika \(\lambda\) bernilai nol, metode ini menghasilkan bentuk transformasi logaritma natural biasa.

[GAMBAR 3.4: Plot Data - Q-Q plot efek transformasi Box-Cox pada data harga yang menceng]

Meskipun power transform mampu mengkoreksi kemencengan, transformasi parametrik ini tetap rentan terdistorsi oleh outlier ekstrem. Pendekatan alternatif yang kebal outlier adalah quantile transform.

Quantile transform sepenuhnya membuang operasi aritmetika dan beroperasi menggunakan pemetaan urutan (rank). Algoritmanya bekerja dengan mengurutkan peringkat nilai dari setiap observasi, memetakannya ke nilai probabilitas kumulatif, dan akhirnya mencetak ulang probabilitas tersebut ke dalam bentuk distribusi seragam (uniform) atau distribusi normal.

Pemetaan berbasis kuantil ini menghasilkan beberapa kompromi praktis dalam desain fitur. Di satu sisi, pendekatan ini menawarkan kekebalan penuh terhadap outlier, karena nilai observasi sebesar apa pun hanya akan sekadar menduduki peringkat teratas tanpa memengaruhi penyebaran mayoritas data. Di sisi lain, hal ini mengakibatkan distorsi jarak spasial karena jarak linier awal antar-titik data dihapus total. Transformasi ini juga dapat mengubah korelasi asli antar-fitur. Terakhir, quantile transform memiliki batasan pada ukuran data; karena ia memetakan nilai berdasarkan empirisme sampel semata, metode ini rentan mengalami overfitting pada dataset berukuran kecil. Jika ukuran sampel hanya dalam rentang ratusan baris, pendekatan parametrik seperti power transform selalu menjadi pilihan yang jauh lebih stabil.

3.5 Clipping dan Discretization (Binning)

Transformasi matematis seperti logaritma atau standardisasi bukan satu-satunya cara memanipulasi sebaran numerik. Pendekatan lain beroperasi dengan membatasi rentang nilai secara absolut atau mengelompokkan presisi data ke dalam kategori interval.

3.5.1 Clipping (Winsorization)

Clipping membatasi nilai mentah pada ambang minimum dan maksimum absolut. Nilai yang melewati batas ini ditekan agar sejajar dengan ambang tersebut, sehingga observasi outlier tidak dibuang melainkan dipertahankan pada nilai ekstrem yang dikendalikan. Saat batas ini ditentukan melalui parameter statistik, teknik ini disebut winsorization.

Proses pembatasan ini diformulasikan sebagai fungsi sepotong-sepotong (piecewise):

\[ x_{clip} = \begin{cases} \theta_{min} & \text{jika } x < \theta_{min} \\ x & \text{jika } \theta_{min} \le x \le \theta_{max} \\ \theta_{max} & \text{jika } x > \theta_{max} \end{cases} \]

Keterangan: * \(x\) mewakili observasi data numerik awal. * \(\theta_{min}\) adalah ambang batas bawah. * \(\theta_{max}\) adalah ambang batas atas.

Praktisi menentukan \(\theta_{min}\) dan \(\theta_{max}\) melalui tiga mekanisme utama. Pertama, berbasis persentil (quantiles), di mana pemotongan distribusi bersandar pada batas persentil murni (misalnya membatasi populasi hanya pada rentang persentil ke-5 hingga ke-95). Kedua, berbasis Rentang Interkuartil (IQR), yakni menggunakan batas deteksi pencilan standar seperti \(Q_1 - 1.5 \times \text{IQR}\) untuk batas bawah dan \(Q_3 + 1.5 \times \text{IQR}\) untuk batas atas. Ketiga, berbasis Median Absolute Deviation (MAD), yang mengukur dispersi dari median dan menetapkan batas berdasarkan kelipatannya (contohnya mematok batas atas pada nilai \(\text{Median} + 3.29 \times \text{MAD}\)). Perhitungan MAD terbukti jauh lebih kebal terhadap kontaminasi ekstrem jika dibandingkan dengan menggunakan IQR atau deviasi standar. Pendekatan clipping pada akhirnya menjamin stabilitas karena mencegah outlier mendominasi pembobotan algoritma, sembari tetap menjaga tanpa mendistorsi kepadatan data di area sentral (inliers).

3.5.2 Discretization (Binning)

Discretization mengubah fitur kontinu menjadi variabel kategorikal ordinal atau diskrit dengan melebur angka spesifik ke dalam interval batas (bins).

[GAMBAR 3.5: Histogram - Perbandingan distribusi data umur kontinu sebelum dan sesudah dipetakan menjadi kelompok interval diskrit]

Penentuan lebar dan tepi batas interval dapat mengikuti beberapa strategi operasional. Strategi seragam (uniform) membagi seluruh rentang nilai ke dalam jumlah interval dengan lebar jarak absolut yang sama, meski rentan menghasilkan banyak interval kosong jika data terlalu condong. Strategi kuantil (quantile) memastikan setiap interval memiliki populasi observasi yang identik dengan menyesuaikan lebar jarak secara dinamis. Strategi k-Means menjalankan algoritma clustering 1D untuk mendeteksi pusat pengelompokan yang paling natural berdasarkan kedekatan nilai. Terakhir, diskritisasi terarah (supervised discretization) melatih satu pohon keputusan dangkal (kedalaman 2-4) khusus pada fitur kontinu tersebut demi memprediksi variabel target; daun dari pohon inilah yang akan ditetapkan sebagai interval diskrit. Metode terakhir ini menjamin batasan binning berkorelasi langsung dengan daya prediksi model.

Proses discretization ini sanggup mengubah asumsi arsitektur model secara drastis. Pada model linier (seperti regresi atau SVM linier), binning menyuntikkan kemampuan untuk menangkap sinyal non-linier; model tidak lagi berasumsi bahwa perubahan satu unit angka akan berdampak konstan, melainkan menetapkan bobot unik pada setiap kategori interval (misalnya bobot usia 18-25 dipisah dengan bobot kelompok usia 26-40). Sebaliknya, pada algoritma berbasis pohon (random forest, gradient boosting), teknik binning pra-pemrosesan konvensional ini jarang memberi nilai tambah karena mesin pohon memang sudah beroperasi dengan mencari titik pisah diskrit secara adaptif dan internal.

Sebagai evolusi modern dari teknik ini, transformasi Spline (Piecewise Polynomials) mengatasi kelemahan utama binning: batas interval yang kasar (efek tangga). Spline transformer memproyeksikan fitur ke dalam basis polinomial derajat rendah, menciptakan transisi kurva yang kontinu melewati ambang batas interval. Pendekatan ini mempertahankan daya representasi non-linear model linier tanpa merusak gradien pada perbatasan antar kelompok observasi.

3.6 Model yang Sensitif vs. Tidak Sensitif terhadap Skala

Transformasi nilai seperti standardization atau min-max scaling bukanlah tahap wajib untuk semua algoritma machine learning. Keputusan menerapkan pengubahan skala bergantung pada arsitektur perhitungan yang digunakan. Praktisi membagi model ke dalam dua kelompok berdasarkan tingkat sensitivitasnya terhadap parameter skala.

3.6.1 Model yang Sensitif terhadap Skala

Model dalam kategori ini sangat bergantung pada rentang nilai absolut dari sebuah fitur. Jika satu fitur memiliki rentang numerik hingga jutaan (seperti pendapatan) sedangkan fitur lain hanya berskala puluhan (seperti usia), fitur dengan angka besar akan mendominasi hasil prediksi.

Model yang sensitif terbagi menjadi dua keluarga perhitungan. Keluarga pertama adalah model berbasis jarak (metric-based estimators), seperti k-Nearest Neighbors (k-NN) dan Support Vector Machine (SVM) yang mengukur kedekatan antar-titik data secara spasial. Selisih jarak komputasi dari fitur yang berskala jutaan akan menelan kontribusi fitur lain yang angkanya lebih kecil. Keluarga kedua adalah model berbasis gradien (gradient-based estimators), seperti regresi linier dan neural networks yang memperbarui bobot parameter menggunakan fungsi turunan. Perbedaan skala fitur yang tajam akan melencengkan arah pencarian dan memperlambat konvergensi, bahkan berisiko membuat algoritma optimasi gagal menemukan titik minimum (error terkecil).

Untuk mencegah fitur dominan merusak prediksi, praktisi menormalkan skala menggunakan metode seperti Standard Scaler. Transformasi ini mengubah nilai asli fitur menjadi skor Z-score:

\[ z = \frac{x - \mu}{\sigma} \]

Di mana \(z\) mewakili nilai hasil transformasi, \(x\) adalah angka fitur mentah, \(\mu\) adalah rata-rata fitur, dan \(\sigma\) adalah standar deviasi fitur tersebut. Proses ini memastikan setiap dimensi beroperasi pada skala matematika yang seragam sebelum masuk ke tahap pelatihan.

[GAMBAR 3.6: Skema - Skema scaling (MinMax vs Standard) yang menormalkan rentang angka antar dimensi fitur]

3.6.2 Model yang Tidak Sensitif terhadap Skala

Keluarga model berbasis pohon (tree-based estimators) memiliki karakteristik yang sama sekali tidak terpengaruh oleh besaran skala fitur. Kategori ini mencakup Decision Trees, Random Forest, dan Gradient Boosting.

Ada beberapa karakteristik yang membuat model pohon dikategorikan kebal terhadap perbedaan skala. Pertama, model melakukan pembelahan secara ordinal. Pohon keputusan memproses variabel secara independen dan mencari titik potong secara berurutan (misalnya sekadar mengevaluasi kondisi Usia < 30). Algoritma tidak pernah menjumlahkan atau mengalikan magnitudo antar-fitur dalam satu fungsi matematis. Kedua, adanya kuantisasi internal. Pustaka gradient boosting modern (seperti LightGBM atau XGBoost) telah mengintegrasikan teknik pemilahan otomatis (histogram-based binning) yang mengelompokkan urutan nilai kontinu ke dalam rentang keranjang (bin) yang diskret. Batas pembagian cabang pada pohon pun dicari semata-mata berdasarkan rentang keranjang tersebut, membuat model pada dasarnya netral terhadap besaran nominal aslinya (scale-invariant). Oleh karenanya, praktisi dapat menyuapkan data numerik mentah ke dalam model berbasis pohon tanpa melakukan scaling sama sekali, namun tetap akan mendapatkan hasil prediksi yang identik secara matematis dengan skenario data terskala.

3.7 Studi Kasus: Efek Transformasi pada Berbagai Keluarga Model

Untuk melihat dampak skala fitur secara langsung, kita menguji sebuah dataset dengan dua atribut numerik yang rentangnya sangat asimetris: atribut gaji yang bernilai puluhan juta rupiah dan pengalaman kerja yang diukur dalam hitungan tahun. Pengujian ini membandingkan daya prediksi tiga keluarga algoritma (k-Nearest Neighbors (k-NN), Support Vector Machine (SVM), dan Random Forest) menggunakan set data mentah dan data yang telah melewati proses standardisasi.

Hasil evaluasi pada data mentah menunjukkan bahwa k-NN dan SVM mengalami degradasi akurasi yang signifikan. Kedua algoritma ini termasuk dalam kelompok model berbasis metrik (metric-based estimators), yang cara kerjanya sangat mengandalkan perhitungan jarak spasial antar titik observasi di ruang berdimensi tinggi.

Akar masalah degradasi ini terlihat jelas dari definisi matematis jarak Euclidean:

\[ d(\mathbf{x}, \mathbf{x}') = \sqrt{\sum_{i=1}^{d} (x_i - x'_i)^2} \]

Keterangan: * \(d(\mathbf{x}, \mathbf{x}')\) melambangkan jarak spasial antara titik \(\mathbf{x}\) dan observasi \(\mathbf{x}'\). * \(x_i\) dan \(x'_i\) adalah nilai dari fitur ke-\(i\). * \(d\) mewakili total jumlah dimensi atau fitur.

Berdasarkan rumus di atas, atribut gaji dengan nilai varians dalam orde jutaan akan memproduksi selisih kuadrat yang masif. Angka ini secara otomatis mendominasi seluruh hasil kalkulasi jarak spasial. Akibatnya, perbedaan pengalaman kerja sebesar apa pun akan tenggelam dan kehilangan bobot prediktifnya.

Ketika kita menyisipkan komponen standardisasi ke dalam pipeline untuk memaksa fitur berada pada rentang yang seragam, ruang Euclidean tersebut tidak lagi dikuasai oleh satu variabel. Hasilnya, akurasi k-NN dan SVM langsung melonjak drastis karena sistem penalti jarak kini memproses setiap fitur secara proporsional.

Di sisi lain, algoritma Random Forest menunjukkan karakteristik respons yang sepenuhnya berbeda, karena ia masuk dalam keluarga model berbasis pohon (tree-based estimators). Model ini terbukti kebal terhadap perbedaan rentang; performanya bernilai persis sama, baik saat memproses data mentah yang sangat asimetris maupun data yang telah distandardisasi. Hal ini terjadi berkat mekanisme pencarian titik potong pohon keputusan yang mencari threshold percabangan optimal murni berdasarkan urutan peringkat pada satu fitur tunggal, bukan dengan cara mengkalkulasi jarak kombinasi antar-fitur. Selain itu, banyak implementasi algoritma pohon modern menerapkan teknik histogram-based binning, di mana semua deret fitur kontinu akan dikuantisasi ke dalam interval diskret internal. Karakteristik ini membuat algoritma sepenuhnya kebal terhadap magnitudo aslinya. Karena standardisasi pada dasarnya hanya mentransformasi skala (bukan mengubah urutan peringkat observasi), topologi percabangan pohon yang terbangun dari data mentah tidak akan pernah menyimpang dari struktur pohon data berskala.

[GAMBAR 3.7: Plot Data - Grafik batang komparatif yang menampilkan lonjakan akurasi k-NN dan SVM pasca-standardisasi, sementara performa Random Forest tetap statis tak berubah]

Eksperimen komparatif ini menghasilkan panduan praktis yang dapat langsung diadopsi. Kita wajib menyertakan standardisasi sebelum melatih model berbasis metrik spasial (seperti k-NN dan SVM) maupun model yang menggunakan optimasi gradien (seperti regresi linier dan jaringan saraf tiruan, di mana data tak berskala sangat menghambat laju konvergensi). Sebaliknya, kita dapat melewati tahap prapemrosesan ini sepenuhnya jika pipeline dirancang menggunakan keluarga algoritma berbasis pohon (seperti Random Forest, XGBoost, atau LightGBM). Menghilangkan modul penskalaan saat menggunakan pohon keputusan akan membebaskan sistem dari kalkulasi yang tidak berguna, memastikan eksekusi komputasi lebih efisien tanpa mengorbankan kualitas akurasi sedikit pun.