15 Representasi yang Dipelajari Mesin & Pretrained Model

15.1 Spektrum Adaptasi: Dari Frozen Extractor hingga Fine-Tuning

Embedding mengompresi makna semantik data ke dalam vektor padat. Saat ini, representasi tersebut umumnya dihasilkan oleh model pretrained berskala besar. Namun, pemakaian model pretrained untuk tugas spesifik memunculkan satu pertanyaan teknis: seberapa banyak bobot internal model yang harus dimodifikasi agar selaras dengan dataset target? Keputusan ini membentuk sebuah kontinum yang dikenal sebagai spektrum adaptasi.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    A[Frozen Extractor: Beban Komputasi Rendah, Bebas Overfit] --> B[Partial Fine-tuning: Latih Layer Atas]
    B --> C[PEFT: Latih Lapisan Tambahan LoRA]
    C --> D[Full Fine-tuning: Latih Ulang Seluruh Jaringan]

Figure 15.1: Spektrum Adaptasi Model Pretrained: Frozen Extractor, Partial, PEFT, Full Fine-Tuning

Secara matematis, prediksi model pada tugas baru diformulasikan sebagai fungsi komposit dari pengekstraksi fitur pretrained \(g_\phi\) dan lapisan klasifikasi baru \(f_\theta\). Optimasi model dilakukan dengan meminimalkan fungsi kerugian, misalnya Cross-Entropy (\(\mathcal{L}\)), terhadap data latih berukuran \(N\):

\[ \min_{\theta, \phi} \sum_{i=1}^{N} \mathcal{L}(y_i, f_\theta(g_\phi(x_i))) \]

Di mana \(x_i\) adalah input, \(y_i\) adalah label, \(\phi\) mewakili bobot model pretrained, dan \(\theta\) merupakan bobot lapisan klasifikasi. Pendekatan adaptasi ditentukan oleh perlakuan terhadap parameter \(\phi\) selama proses optimasi. Terdapat empat titik utama pada spektrum adaptasi ini:

Frozen Extractor Pendekatan ini mengunci seluruh bobot model pretrained sehingga parameter tidak berubah (\(\Delta\phi = 0\)). Model berfungsi secara kaku sebagai pengekstraksi fitur statis. Vektor embedding yang keluar dari lapisan model digunakan untuk melatih algoritma pendamping, sehingga hanya parameter \(\theta\) yang diperbarui.

Karakteristik: Sangat efisien secara waktu dan komputasi. Pendekatan ini juga tahan terhadap overfitting saat jumlah dataset terbatas. Contoh terapannya adalah pemakaian ResNet beku untuk mengekstrak fitur visual dari gambar rontgen medis.

Partial Fine-Tuning Strategi ini membuka beberapa lapisan terakhir dari model pretrained untuk diperbarui, sedangkan lapisan awalnya dibiarkan terkunci.

Karakteristik: Memberikan titik keseimbangan komputasi dan akurasi. Lapisan awal tetap mempertahankan pengetahuannya dalam mendeteksi fitur fundamental, sementara lapisan akhir diizinkan beradaptasi menangkap pola spesifik pada dataset baru.

Parameter-Efficient Fine-Tuning (PEFT) Mengingat arsitektur model yang kian masif, pembaruan seluruh bobot menjadi sangat lambat dan mahal. PEFT, seperti metode LoRA (Low-Rank Adaptation), mengunci bobot utama \(\phi\) dan menginjeksi matriks berukuran sangat kecil yang dapat dilatih ke dalam arsitektur model.

Karakteristik: Menghasilkan performa setara full fine-tuning dengan melatih sebagian kecil parameter saja (sering kali di bawah 1% dari total parameter asli). Metode ini menjadi standar industri adaptasi model besar sejak tahun 2024.

Full Fine-Tuning Setiap lapisan model dibuka dan seluruh bobot parameternya (\(\phi\) dan \(\theta\)) diperbarui secara bersamaan mengikuti spesifikasi dataset target.

Karakteristik: Menawarkan kapasitas representasi model yang maksimal, namun menguras banyak daya perangkat keras. Pendekatan ini mendatangkan risiko catastrophic forgetting, yaitu kondisi saat model kehilangan pengetahuan umum asalnya akibat beradaptasi terlalu spesifik pada rentang data baru.

15.2 Penyimpanan Embedding dan Metrik Kemiripan

Setelah representasi diekstraksi dari model pretrained atau melalui proses fine-tuning, representasi tersebut membutuhkan penyimpanan dan mekanisme perbandingan yang efisien. Sebuah vektor embedding tunggal tidak bermakna tanpa konteks vektor lainnya. Vektor berdimensi tinggi ini disimpan di dalam feature bank (sering disebut basis data vektor), yang dirancang khusus untuk menangani pencarian kemiripan.

Penerapan feature bank di lingkungan produksi memiliki beberapa karakteristik operasional: * Kapasitas skala besar: Mampu mengindeks dan menyimpan jutaan hingga miliaran vektor secara bersamaan. * Pencarian sub-linear: Sistem menghindari pemindaian setiap vektor satu per satu. Pendekatan yang dipakai adalah pemanfaatan struktur indeks kompresi, seperti Inverted File Index atau Product Quantization, guna mempercepat penemuan tetangga terdekat. * Pustaka standar industri: Implementasi seperti FAISS (Facebook AI Similarity Search) bertindak sebagai mesin pencari utama. FAISS menjembatani pembuatan embedding dari model (misalnya sentence-transformers) dengan sistem pencarian waktu nyata.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    A[Dataset Dokumen] -->|Extract Embedding| B[Vektor Representasi]
    B -->|Penyimpanan Terindeks| C[Database Vektor FAISS]
    D[Kueri Vektor Baru] -->|Komparasi Cosine Similarity| C
    C -->|Output| E[Dokumen Tetangga Terdekat Sesuai Arti]

Figure 15.2: Alur Kerja Feature Bank Menggunakan Indeks FAISS

Untuk menentukan arti “paling mirip” dalam ruang berdimensi tinggi, sistem memakai metrik kemiripan. Metrik ini mendefinisikan cara perhitungan jarak antara dua vektor. Pada representasi yang dipelajari mesin untuk teks atau citra, metrik yang dominan adalah cosine similarity.

Metrik ini mengukur kosinus sudut antara dua vektor tanpa memedulikan panjang (magnitudo) vektor, dengan formulasi:

\[ \text{Cosine Similarity}(\mathbf{u}, \mathbf{v}) = \frac{\mathbf{u} \cdot \mathbf{v}}{\|\mathbf{u}\| \|\mathbf{v}\|} \]

Notasi pada persamaan tersebut memiliki definisi: * \(\mathbf{u}\) dan \(\mathbf{v}\) merepresentasikan dua vektor embedding berdimensi \(d\) yang diukur tingkat kemiripannya. * \(\mathbf{u} \cdot \mathbf{v}\) melambangkan dot product (perkalian titik) antara kedua vektor. * \(\|\mathbf{u}\|\) dan \(\|\mathbf{v}\|\) merupakan norma L2 (panjang atau magnitudo) dari masing-masing vektor.

Terdapat tiga pendekatan evaluasi jarak yang biasanya dipilih sesuai tuntutan arsitektur dan jenis data:

Cosine Similarity: Mengabaikan panjang vektor dan hanya melihat arah orientasi. Pendekatan ini sangat tangguh untuk membedakan kemiripan semantik murni. Dua dokumen dengan pembahasan identik akan menghasilkan arah vektor yang searah, meski salah satu dokumen berukuran jauh lebih panjang.
Dot Product: Alternatif yang jauh lebih ringan secara komputasi karena membuang proses pembagian magnitudo. Jika seluruh vektor \(\mathbf{u}\) dan \(\mathbf{v}\) di dalam basis data telah dinormalisasi L2 (memiliki panjang tepat satu), perhitungan dot product menjadi identik secara matematis dengan cosine similarity. Menormalisasi vektor di awal merupakan praktik standar untuk meminimalkan beban komputasi saat melayani kueri berskala masif.
Jarak Euclidean (L2 Distance): Menghitung jarak garis lurus aktual antara dua koordinat titik. Berbeda dengan dua metrik sebelumnya, jarak Euclidean sensitif terhadap magnitudo vektor. Metrik ini digunakan jika intensitas ukuran fitur memiliki arti langsung, tetapi kurang ideal untuk membandingkan embedding dari bidang pemrosesan bahasa alami (NLP) atau visi komputer.

15.3 Evaluasi Kualitas Embedding dan Risiko Domain Shift

Sebuah embedding adalah pemetaan data ke ruang vektor. Namun, kualitas representasi ini sangat bergantung pada konteks tugas. Vektor yang memisahkan kelas dengan baik pada satu dataset bisa gagal total pada dataset lain. Hasil dari Massive Text Embedding Benchmark (MTEB) mengonfirmasi bahwa tidak ada model embedding tunggal yang mendominasi seluruh jenis tugas prediksi; setiap representasi memiliki keunggulan spesifik.

15.3.1 Metode Linear Probing

Untuk mengevaluasi kualitas embedding tanpa bias dari arsitektur klasifikasi yang rumit, kita menggunakan linear probing. Metode ini memperlakukan model pretrained murni sebagai ekstraktor fitur statis (frozen extractor) dan menempatkan model linier sederhana di ujungnya.

Langkah pengujian ini mencakup: * Pembekuan parameter: Seluruh bobot arsitektur model dikunci agar tidak berubah selama proses pelatihan tahap akhir. * Ekstraksi representasi: Data target dimasukkan ke model untuk menghasilkan vektor embedding \(f(x_i)\). * Pelatihan klasifikasi linier: Sebuah pengklasifikasi sederhana (seperti regresi logistik) dilatih pada vektor tersebut.

Secara matematis, linear probing mencari nilai matriks bobot linier \(W\) yang meminimalkan kerugian Cross-Entropy pada klasifikasi klasifikasi multikelas:

\[ L(W) = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log \left( \frac{\exp(W_c^T f(x_i))}{\sum_{k=1}^{C} \exp(W_k^T f(x_i))} \right) \]

Di mana: * \(f(x_i)\) adalah representasi yang dipelajari mesin dan parameter asalnya dibiarkan tetap (frozen). * \(W_c\) adalah vektor bobot lapisan klasifikasi untuk kelas \(c\). * \(y_{i,c}\) adalah label bernilai 1 jika sampel \(i\) berada di kelas \(c\), dan 0 jika tidak.

Jika model linier sederhana mampu meminimalkan fungsi kerugian ini dan meraih akurasi tinggi, model pretrained terbukti sukses menyusun data dan memisahkan kelas target di ruang vektor. Sebaliknya, jika akurasi tinggi baru didapat setelah kita mengganti model linier dengan algoritma non-linier yang lebih rumit, berarti representasi dasar tersebut gagal menstrukturkan data dengan baik.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    Input[Data Masukan] --> Frozen[Pretrained Foundation Model - BEKU]
    Frozen -->|Vektor Representasi Semantik| Linear[Lapisan Klasifikasi Linier Baru - DILATIH]

Figure 15.3: Arsitektur Linear Probing

Judul: Evaluasi Linear Probing Tipe: skema Tampilkan: Model pre-trained dalam keadaan beku (frozen) yang mengeluarkan vektor fitur (embedding) ke layer klasifikasi linier sederhana.

15.3.2 Mengidentifikasi Domain Shift

Transfer representasi dari luar kerap menemui jalan buntu akibat domain shift - perbedaan fundamental antara sebaran data tempat model pretrained dilatih dengan data tugas akhir kita. Model membawa asumsi bentuk data dari proses pelatihannya; saat asumsi ini dilanggar, representasi yang dihasilkan kehilangan makna.

Kondisi domain shift menimbulkan dampak beruntun dalam pipeline: * Kebutaan terhadap fitur target: Model visi yang dilatih membedakan hewan dan kendaraan tidak memiliki referensi tekstur untuk mengurai patologi citra medis (seperti rontgen paru-paru). * Tumpang-tindih representasi: Akibat gagal mendeteksi pola yang relevan, model memetakan gambar rontgen pasien sehat dan sakit ke koordinat vektor yang berdekatan atau bertumpuk. * Degradasi fungsi prediktif: Karena ruang vektor gagal memisahkan konsep yang berbeda, model klasifikasi akhir tidak memiliki fitur diskriminatif untuk dipelajari.

Ketika domain shift terlalu tajam, arsitektur frozen extractor tidak lagi memadai. Praktisi perlu menggeser strategi menjauhi pembekuan total dan mulai melakukan fine-tuning parsial maupun menyeluruh. Pembaruan bobot ini secara langsung memaksa jaringan saraf menyesuaikan diri untuk mempelajari struktur dan distribusi khusus dari dataset target yang baru.

15.4 Batas Konseptual: Transfer Representasi vs. Kompresi Data Internal

Representasi laten hasil reduksi dimensi (seperti yang dibahas pada Bab 8) dan embedding dari pre-trained model sering dianggap serupa karena keduanya memetakan input berdimensi tinggi menjadi vektor berdimensi rendah. Perbedaan fundamental di antara keduanya terletak pada sumber pengetahuan yang membentuk representasi tersebut.

Pendekatan ini dapat dibedakan berdasarkan asal datanya:

Kompresi Data Internal: Metode seperti PCA, SVD, atau autoencoder beroperasi secara murni pada himpunan data lokal. Teknik ini menemukan sumbu variasi dan melipat redundansi dari dalam matriks fitur itu sendiri. Representasi akhirnya dibentuk sepenuhnya oleh pola observasi lokal, tanpa tambahan informasi eksternal.
Transfer Representasi Eksternal: Pre-trained model mentransfer struktur makna dari jutaan data eksternal ke dalam masalah prediksi spesifik. Model ini membawa pemahaman abstrak - seperti relasi semantik teks atau hierarki fitur visual - yang tidak mungkin dipelajari secara kokoh dari dataset lokal yang sempit.

Batas kedua kategori ini bukanlah perbedaan “metode statistik vs. Jaringan saraf tiruan”. Sebuah autoencoder berarsitektur deep learning tetap beroperasi sebagai alat kompresi internal jika dilatih dari awal hanya menggunakan data proyek terkait. Pembeda utamanya terletak pada asal representasi: apakah algoritma memadatkan data target itu sendiri, atau mentransfer pengetahuan dari luar.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph TD
    subgraph Pretrained_Base ["Bobot Beku"]
        A[Layer Konvolusi Bawah]
        B[Layer Konvolusi Tengah]
    end
    subgraph New_Layers ["Bobot Aktif"]
        C[Layer Klasifikasi Kustom Baru]
    end
    A --> B
    B --> C

Figure 15.4: Skema Transfer Learning (Membekukan Layer)

Secara matematis, perbedaan tersebut terlihat dari fungsi objektif yang digunakan saat melatih pembentuk representasi. Pada transfer representasi, pre-trained model umumnya dioptimalkan lebih dulu untuk tugas klasifikasi eksternal (misalnya membedakan kelas objek pada ImageNet) menggunakan fungsi kerugian Cross-Entropy:

\[ \mathcal{L}_{CE} = - \sum_{i=1}^{C} y_i \log(\hat{y}_i) \]

Di mana: * \(C\) adalah jumlah total kelas target pada dataset eksternal. * \(y_i\) merupakan label kelas aktual dari sebuah observasi. * \(\hat{y}_i\) mewakili probabilitas prediksi yang dihasilkan oleh model.

Bobot jaringan yang telah mengoptimalkan \(\mathcal{L}_{CE}\) pada distribusi eksternal tersebut kemudian dibekukan (frozen) dan digunakan sebagai ekstraktor fitur tetap untuk masalah lokal. Konsep ini berbeda dengan kompresi internal yang meminimalkan fungsi kerugian rekonstruksi (seperti mean squared error pada autoencoder) tanpa mengandalkan label klasifikasi dari luar pipeline.

Pemisahan kompresi dan transfer membawa konsekuensi teknis pada perancangan pipeline: * Kapasitas Pembelajaran: Ekstraksi fitur dari luar menjadi solusi utama ketika dataset pelatihan terlalu kecil untuk membentuk matriks representasi sendiri. * Risiko Domain Shift: Pre-trained model berisiko mengalami pergeseran domain jika distribusi asli pelatihannya jauh meleset dari konteks prediksi akhir (misalnya embedding bahasa umum diterapkan pada dokumen legal). Kompresi internal terhindar dari risiko ini karena fondasinya dibangun langsung di atas distribusi target.

15.5 Apakah Deep Learning Menghapus Kebutuhan Rekayasa Fitur?

Banyak praktisi pemula berpandangan bahwa deep learning telah menggantikan peran rekayasa fitur secara keseluruhan. Jaringan saraf tiruan memang mampu mengekstraksi pola rumit secara otomatis dari data mentah. Kemampuan ini sering memunculkan asumsi bahwa campur tangan manusia tidak lagi dibutuhkan. Namun, deep learning tidak menghilangkan rekayasa fitur, melainkan sekadar menggeser ranah fokusnya.

Model deep learning sangat unggul dalam membentuk representasi yang dipelajari mesin. Keunggulan ini terlihat paling jelas ketika algoritma memproses data tidak terstruktur seperti kumpulan teks, citra, atau gelombang audio. Meskipun algoritma mampu mengekstrak pola padat dari data mentah, sistem komputasi tidak dapat merumuskan masalah prediksinya sendiri. Keputusan fundamental terkait penyusunan data tetap berada di tangan perancang manusia. Beberapa keputusan utama meliputi:

Penentuan unit observasi: Mendefinisikan secara pasti batas satu sampel data observasi tunggal.
Definisi variabel target: Menetapkan label yang harus diprediksi beserta horizon waktu yang relevan.
Konstruksi arsitektur masukan: Menyusun aliran informasi agar jaringan saraf dapat mencernanya secara maksimal.

Praktik rekayasa fitur telah beralih dari kalkulasi transformasi matematis eksplisit untuk setiap variabel tunggal menuju injeksi bias induktif. Representasi yang dirancang manusia berguna untuk memasukkan pengetahuan pakar ke dalam model. Aturan logika bisnis spesifik, batasan fisika lingkungan nyata, maupun formula baku rasio keuangan merupakan contoh pola yang sulit dipelajari murni dari probabilitas data.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph TD
    A[Injeksi Input] --> B[Model Pretrained]
    B -->|Gaya FE Beku: Hanya Latih Kepala| C[Kepala Klasifikasi Baru]
    B -->|Gaya Fine-Tuning: Latih Semua| D[Seluruh Jaringan Aktif]

Figure 15.5: Perbandingan Arsitektur Fine-Tuning Penuh dengan Feature Extraction Beku

Dalam proses pelatihannya, jaringan saraf berfokus menyesuaikan parameter untuk meminimalkan penyimpangan prediksi. Sebagai contoh, pembaruan pre-trained weights dalam tugas klasifikasi multikelas umumnya menggunakan fungsi kerugian cross-entropy:

\[ \mathcal{L} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{c=1}^{C} y_{i,c} \log(\hat{y}_{i,c}) \]

Di mana \(\mathcal{L}\) melambangkan nilai total fungsi kerugian, \(N\) adalah jumlah sampel latih, \(C\) merepresentasikan jumlah kelas target, \(y_{i,c}\) menyatakan probabilitas aktual kelas (ground truth), dan \(\hat{y}_{i,c}\) adalah probabilitas prediksi keluaran model.

Representasi yang dirancang manusia menuntun algoritma agar proses penurunan nilai \(\mathcal{L}\) tidak membuang kapasitas model untuk mencari pola yang sebenarnya sudah diketahui kebenarannya. Tanpa panduan tersebut, model rentan menghafal gangguan acak (noise), terlebih ketika pasokan data latih sangat terbatas.

Pergeseran peran rekayasa fitur semakin meluas seiring penggunaan model bahasa besar (LLM). Dua praktik terbaru membuktikan bahwa rekayasa fitur berubah bentuk:

Ekstraksi fitur berbasis prompting: Memanfaatkan LLM untuk menarik struktur dari teks tidak terstruktur, seperti klasifikasi sentimen atau daftar entitas. Hasil ekstraksi ini kemudian dipasok sebagai fitur untuk model prediksi lain.
Retrieval-Augmented Generation (RAG): Mengambil dokumen eksternal untuk melengkapi ruang konteks suatu prompt. Praktik ini setara dengan metode rekayasa fitur dinamis, karena dokumen hasil penelusuran beroperasi sebagai representasi berdimensi tinggi yang memperbaiki pemahaman konteks model.

Pendekatan menggunakan representasi yang dirancang manusia maupun representasi yang dipelajari mesin harus dipandang sebagai dua entitas yang saling melengkapi. Manusia bertugas membingkai batasan dan logika domain, sementara mesin mengeksplorasi pola tersembunyi pada dimensi tinggi. Kemitraan ini menghasilkan pipeline pembelajaran yang tangguh dan dapat diandalkan pada berbagai skenario nyata.

15.6 Representasi Input: Tokenisasi dan Augmentasi Data

Rekayasa fitur tidak hilang di era deep learning. Jaringan saraf tidak memproses teks, gelombang suara, atau cahaya secara langsung; model hanya menerima matriks angka. Proses menerjemahkan data mentah menjadi format numerik ini tetap dirancang oleh manusia dan menjadi prasyarat sebelum model mulai belajar.

Beberapa praktik rekayasa fitur konvensional yang tetap bertahan dalam pipeline model modern meliputi:

Tokenisasi teks: Kita perlu memecah rentetan karakter menjadi unit diskret. Pendekatan berbasis subword seperti Byte-Pair Encoding (BPE) memecah kata kompleks menjadi fragmen yang lebih kecil. Metode ini membatasi ukuran kosakata model sekaligus membantu mesin mengenali makna dari potongan kata. Pada tahap ini, token khusus sering ditambahkan untuk merangkum konteks kalimat.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    Input[Baris Data Tabular] --> Trans[Transformer Block]
    Trans -->|Ambil Nilai Sinyal Atas| CLS[Vektor Khusus CLS Token]
    CLS --> Output[Embedding Representasi Baris]

Figure 15.6: Ekstraksi CLS Token dari Transformer untuk Menghasilkan Embedding Tunggal

Augmentasi data: Praktik ini menambahkan variasi buatan ke dalam data latih. Pada pengolahan citra, kita sering membalik gambar, menggeser piksel, atau mengubah kecerahan warnanya. Modifikasi ini menanamkan pengetahuan domain dan mencegah model hanya menghafal posisi objek.
Normalisasi fitur numerik: Jaringan saraf sensitif terhadap perbedaan skala input. Jika satu fitur berada di rentang ribuan sementara fitur lain berupa pecahan desimal, turunan (gradient) dari fungsi kerugian menjadi tidak proporsional. Dalam tugas klasifikasi, pembaruan bobot model dievaluasi menggunakan fungsi Cross-Entropy:

\[ L = - \sum_{c=1}^{C} y_c \log(\hat{y}_c) \]

Di mana \(L\) adalah nilai kerugian, \(C\) adalah jumlah kelas target, \(y_c\) adalah label sebenarnya, dan \(\hat{y}_c\) adalah probabilitas prediksi dari model. Skala input mentah yang ekstrem akan mengacaukan perhitungan turunan dari persamaan ini dan menghambat konvergensi jaringan.

Langkah-langkah tersebut memperlihatkan bagaimana rekayasa konvensional hanya bergeser posisi. Transformasi awal ini adalah bentuk representasi yang dirancang manusia. Manusia menyiapkan batasan dan struktur input yang terukur, yang selanjutnya berfungsi sebagai fondasi bagi model untuk mengekstraksi representasi yang dipelajari mesin pada lapisan-lapisan berikutnya.

15.7 Deep Learning pada Data Tabular: Mempelajari Embedding Terstruktur

Algoritma berbasis pohon seperti gradient boosting telah lama menjadi pilihan utama untuk data tabular. Kini, deep learning menawarkan pendekatan yang berbeda: mempelajari representasi vektor secara langsung dari tabel. Jika Bab 4 menggunakan entity embedding khusus untuk variabel kategorikal, deep tabular learning memperluas perlakuan ini ke seluruh baris. Tujuannya adalah memetakan fitur kategorikal dan numerik ke dalam ruang vektor yang seragam, sehingga model dapat menyatukannya menjadi satu representasi utuh.

Arsitektur dan Tokenisasi Fitur

Arsitektur modern seperti FT-Transformer dan TabNet mengadaptasi mekanisme attention dari pemrosesan bahasa alami untuk membaca baris data. Alih-alih melihat baris sebagai rentetan skalar statis, model memperlakukan setiap nilai fitur sebagai sebuah token independen.

Agar dapat diproses bersama, setiap nilai numerik dan kategorikal harus diubah menjadi embedding dengan dimensi yang sama. Untuk fitur kategorikal, model menggunakan lookup table standar. Untuk fitur numerik \(j\) dengan nilai skalar \(x_j\), transformasi linear (tokenisasi numerik) dilakukan melalui persamaan:

\[ T_{num}^{(j)} = \mathbf{w}_j x_j + \mathbf{b}_j \]

Keterangan: * \(T_{num}^{(j)}\) adalah embedding berwujud vektor padat untuk fitur numerik tersebut. * \(\mathbf{w}_j\) adalah vektor bobot yang dipelajari mesin. * \(\mathbf{b}_j\) adalah vektor bias. * \(x_j\) adalah nilai skalar numerik asli.

Setelah tokenisasi, arsitektur transformer menyisipkan token khusus (biasa disebut token [CLS]) di awal barisan fitur. Lapisan attention kemudian mempelajari interaksi antar-fitur. Token [CLS] ini bertugas menghimpun informasi dari seluruh fitur lain untuk menjadi embedding final dari baris data tersebut.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph TD
    A1[Fitur Tabular Hasil Rekayasa Manusia] --> Cat[Concatenate Layer]
    A2[Data Teks] -->|Pretrained Encoder| Embedding[Vektor Laten Semantik]
    Embedding --> Cat
    Cat --> Model[Model Gradient Boosting / Neural Network]

Figure 15.7: Arsitektur Model Hybrid yang Menggabungkan Fitur Rekayasa Tabular & Vektor Embedding

Ekstraksi Fitur dan Foundation Models

Berkat representasi seragam ini, model deep tabular berfungsi sangat baik sebagai ekstraktor fitur. Vektor padat yang ditarik dari token [CLS] merangkum seluruh variabel beserta relasinya. Vektor ini kemudian dapat diteruskan ke model prediksi hilir yang lebih ringan.

Riset terbaru pada rentang 2024–2025 bahkan mendorong pendekatan ini lebih jauh melalui tabular foundation models seperti TabPFN. Arsitektur ini memanfaatkan in-context learning, di mana model membaca kumpulan contoh data latih langsung di dalam prompt memori tanpa memerlukan pembaruan bobot sama sekali. Terobosan ini menandai titik di mana data tabular mulai mendapatkan model prapelatih (pretrained) yang mampu menggeneralisasi lintas dataset, sama seperti yang terjadi pada teks dan citra.

Memilih Antara Deep Learning dan Gradient Boosting

Meskipun sangat menjanjikan, deep learning tabular tidak otomatis menggantikan algoritma pohon. Pemilihan metode sangat bergantung pada ukuran dan sifat data:

Pilih Gradient Boosting (XGBoost, LightGBM, CatBoost) ketika:
Volume data berada pada skala kecil hingga menengah (umumnya di bawah 50.000 baris).
Data memiliki variasi rentang nilai skalar yang ekstrem atau outlier tebal (pemisahan pada algoritma pohon tidak sensitif terhadap skala fitur).
Tugas prediksi menuntut pembentukan batasan keputusan tak-linear tanpa penalaan parameter jaringan saraf yang rumit.
Pilih Deep Tabular Learning ketika:
Dataset berukuran masif dan sistem produksi memerlukan pembaruan representasi secara berkelanjutan (incremental learning).
Sistem menuntut ekstraksi representasi per baris (berupa embedding padat) untuk digunakan ulang pada modul hilir.
Terdapat kebutuhan fusi multimodal. Representasi tabular berbasis vektor dapat langsung digabungkan dengan representasi teks atau citra di dalam satu ruang arsitektur jaringan yang terintegrasi.

15.8 Model Hybrid: Menggabungkan Fitur Rekayasa dan Embedding

Sistem machine learning tingkat produksi jarang menggunakan rekayasa fitur tabular atau representasi deep learning secara eksklusif. Arsitektur hybrid mengintegrasikan representasi yang dirancang manusia dengan representasi yang dipelajari mesin untuk mengoptimalkan sistem prediktif. Pendekatan ini menggabungkan keunggulan dari kedua jenis fitur:

Fitur rancangan manusia: Menginjeksi batasan logika yang tegas, aturan bisnis absolut, dan ukuran matematika konkret (seperti agregasi waktu atau rasio finansial) yang sulit diinferensi secara mandiri oleh jaringan saraf.
Representasi embedding: Mengekstraksi pola semantik dari data tidak terstruktur (citra, audio, atau teks panjang) yang mustahil dikodekan melalui aturan pemrograman manual.

%%{init: {'theme': 'neutral', 'themeVariables': { 'edgeLabelBackground': '#ffffff' }}}%%
graph LR
    A[Pipeline Utama] --> B(Teks -> SBERT -> Embedding)
    A --> C(Numerik -> Standard Scaler -> Skala)
    B --> D[Concatenate Transformer]
    C --> D

Figure 15.8: Arsitektur Integrasi Pipeline Hibrida Menggabungkan Teks Pretrained + Tabular

Secara struktural, penggabungan ini dilakukan melalui operasi konkatenasi vektor sebelum lapisan prediksi akhir. Vektor fitur tabular yang telah melewati tahap normalisasi dan pemrosesan awal disejajarkan dengan vektor embedding dari ekstraktor model pretrained.

Secara matematis, operasi fusi ini diformulasikan sebagai:

\[ \mathbf{x}_{hybrid} = [\mathbf{x}_{engineered} \parallel \mathbf{e}_{learned}] \]

Di mana: * \(\mathbf{x}_{hybrid}\) adalah vektor gabungan akhir yang diteruskan ke algoritma penyelesaian klasifikasi atau regresi. * \(\mathbf{x}_{engineered} \in \mathbb{R}^d\) adalah vektor fitur tabular rancangan manusia yang telah diskalakan. * \(\mathbf{e}_{learned} \in \mathbb{R}^k\) adalah representasi padat yang diekstraksi dari model pretrained (misalnya dari representasi bottleneck pada ResNet atau ekstrasi token CLS pada arsitektur Transformer). * \(\parallel\) melambangkan operasi konkatenasi vektor.

Kasus pemodelan harga perumahan menggambarkan interaksi ini secara konkret. Model hybrid memproses data melalui dua jalur paralel: 1. Jalur tidak terstruktur: Model visi komputasi memproses fitur gambar untuk menghasilkan vektor embedding dari sekumpulan foto interior rumah. Vektor ini mendeteksi variabel abstrak seperti estetika, pencahayaan alami, dan gaya arsitektur. 2. Jalur tabular: Sistem merekayasa data numerik dan kategorikal, seperti vektor spasial (jarak ke fasilitas transportasi), proporsi dimensi bangunan, dan usia properti.

Bila beroperasi secara terpisah, embedding visual tidak memiliki referensi tentang ukuran geografis maupun rasio spasial, sedangkan model regresi tabular mengabaikan diferensiasi estetika visual. Penggabungan vektor \(\mathbf{x}_{hybrid}\) menutupi kedua titik buta tersebut. Keseluruhan representasi gabungan ini kemudian diteruskan sebagai input tambahan ke jaringan multilayer perceptron (MLP) penutup atau digunakan dalam algoritma gradient boosting, sehingga prediksi akhir model tetap terjangkar secara logis pada aturan metrik spesifik domain.

15.9 Studi Kasus: Pretrained Extractor dan Model Hybrid

Studi kasus prediksi pengembalian barang (product returns) pada platform niaga digital sangat relevan untuk mengilustrasikan cara menyatukan seluruh konsep representasi ini ke dalam satu pipeline prediktif yang solid. Sistem dituntut memproses dua sumber modalitas secara serentak: ulasan teks dari pelanggan dan riwayat transaksi tabular dari pelanggan yang bersangkutan. Karakteristik ganda ini dipecahkan melalui arsitektur hybrid yang menyinergikan ekstraksi deep learning modern dengan ketajaman fitur rekayasa klasik.

Konstruksi arsitektur ini membelah aliran pemrosesan matriks ke dalam dua jalur paralel: * Jalur Ekstraksi Teks (Representasi yang Dipelajari Mesin): Teks ulasan pelanggan diumpankan ke dalam model bahasa pretrained (seperti BERT) yang dikonfigurasi secara ketat sebagai frozen extractor. Bobot jaringan dikunci untuk memastikan stabilitas; model semata-mata mengonversi makna semantik ke dalam embedding padat berdimensi tinggi (misalnya vektor berukuran 768). * Jalur Transformasi Tabular (Representasi yang Dirancang Manusia): Atribut numerik dan kategorikal diproses menggunakan rekayasa pengetahuan domain. Praktisi merancang indikator spesifik seperti kalkulasi rasio historis retur, persentase deviasi harga produk terhadap rata-rata kategori, serta interval hari pengiriman. Pasca-imputasi dan standardisasi skala, jalur ini mendistilasi logika bisnis menjadi vektor berdimensi sangat sempit (misalnya 10 dimensi).

Kedua arus fitur ini berujung pada tahap penggabungan matriks (concatenation). Di dalam ekosistem pengembangan machine learning, fusi ini diorkestrasi secara elegan menggunakan kelas fungsional FeatureUnion dari pustaka Scikit-Learn. Metode ini menumpuk vektor embedding teks dan fitur rekayasa tabular menjadi satu kesatuan vektor gabungan berdimensi 778 untuk setiap baris observasi.

[GAMBAR 15.5: Diagram - Arsitektur integrasi pipeline hibrida menggabungkan ekstraktor teks pretrained dengan transformasi fitur tabular]

Matriks raksasa hasil perpaduan tersebut kemudian diserahkan kepada algoritma pengklasifikasi akhir seperti XGBoost. Validitas arsitektur ini sangat bergantung pada kepatuhan terhadap aturan pencegahan kebocoran data (data leakage): seluruh operasi kalkulasi rata-rata tabular dan pemetaan vektorisasi teks harus murni dipelajari pasca-partisi data (data split).

Model hybrid secara konsisten mengalahkan pendekatan yang memaksakan seluruh data masuk secara buta ke dalam kerangka deep learning. Pendekatan ini berhasil mengawinkan intuisi mesin dalam mencerna abstraksi linguistik tak terstruktur dengan perhitungan logika numerik transparan yang dirancang khusus oleh pakar industri. Rekayasa parameter tabular di sini masih dipandu oleh perhitungan manual, sebuah rintangan efisiensi iterasi yang akan dipecahkan lewat mekanisme eksplorasi fitur secara otomatis pada pembahasan bab berikutnya.