Pengalaman Pertama Saya Membangun Model Machine Learning yang Bikin Penasaran

Konteks dan Tujuan Proyek

Saya memulai proyek ini dengan tujuan spesifik: memprediksi kebutuhan servis berkala untuk armada kendaraan komersial agar pengingat servis lebih akurat dan biaya tidak membengkak akibat kunjungan tak perlu. Proyek berjalan selama enam bulan, menggunakan dataset sekitar 50.000 kendaraan dan 300.000 catatan servis—gabungan log OBD, mileage, catatan teknisi, dan metadata cuaca. Tujuan bisnisnya sederhana namun menantang: kurangi false positives pada pengingat servis sekaligus deteksi dini kebutuhan perawatan kritis. Konteksnya bukan sekadar akademis; ini untuk integrasi ke sistem manajemen layanan dealer dan fleet, seperti yang biasa saya jumpai di beberapa dealer besar dengan data historis rapi, misalnya feigleybuick.

Review Detail: Data, Model, dan Pengujian

Langkah pertama adalah quality check dan feature engineering. Saya membersihkan event duplikat, mengisi missing mileage dengan interpolasi berbobot, dan membuat fitur turunan: mileage per bulan, jarak sejak servis terakhir, pola idle engine, frekuensi trouble code. Untuk baseline saya gunakan aturan threshold (misalnya servis tiap 10.000 km atau 12 bulan). Model yang diuji: Random Forest, XGBoost, dan LSTM untuk data timeseries. Infrastruktur eksperimen melibatkan scikit-learn, XGBoost, TensorFlow, serta MLflow untuk tracking eksperimen dan model registry.

Hasil pengujian menunjukkan perbedaan nyata. Dibanding baseline threshold, XGBoost meningkatkan precision pengingat servis dari 0.62 ke 0.81 dan recall dari 0.55 ke 0.76 (F1 = 0.78). AUC model klasifikasi sekitar 0.87. Untuk prediksi lead-time sampai servis berikutnya (regresi), model regresi memberikan RMSE ~12 hari dan MAPE ~15% pada split waktu rolling-window validation. LSTM memberikan sedikit keuntungan pada kendaraan dengan data sensor frekuensi tinggi—peningkatan recall sekitar 3-4%—tetapi membutuhkan lebih banyak data dan latensi inferensi lebih tinggi, sehingga kurang cocok untuk deployment di edge device.

Kelebihan & Kekurangan (Ulasan Mendalam)

Kelebihan nyata: model ML mampu menangkap pola non-linear dan interaksi fitur yang sulit diwakili aturan sederhana. Dalam uji lapangan, sistem ML mengurangi pengingat servis yang tidak perlu sebesar 35% dan mendeteksi potensi kebutuhan servis critical rata-rata 7 hari lebih awal dibanding baseline. Keuntungan ini berarti efisiensi servis dan pengalaman pelanggan yang lebih baik—kurangi waktu tunggu dan biaya operasional.

Namun, ada kekurangan penting yang tidak boleh diabaikan. Pertama, kualitas data adalah kuncinya—jika catatan servis tidak konsisten, performa turun drastis. Kedua, class imbalance (kasus kritis jarang) memaksa saya menerapkan oversampling dan custom loss; tanpa itu model cenderung “aman” dan melewatkan beberapa kasus penting. Ketiga, maintenance model: concept drift muncul dalam 4–6 bulan pada beberapa segmen kendaraan, terutama yang dipengaruhi musim atau pola penggunaan berbeda. Terakhir, kebutuhan infrastrukturnya tidak murah—continuous monitoring, retraining pipeline, dan integrasi ke DMS memerlukan investasi engineering signifikan.

Kesimpulan dan Rekomendasi

Dari pengujian nyata, saya merekomendasikan pendekatan hibrid: gunakan model XGBoost sebagai inti prediktif untuk pengingat servis berkala, tetap sediakan rule-based fallback untuk data minim, dan pertimbangkan LSTM hanya jika tersedia data sensor timeseries beresolusi tinggi. Implementasi praktis yang bekerja untuk saya termasuk pipeline ETL terjadwal, model registry (MLflow), dan KPI monitoring (drift detection, precision/recall per segmen). Untuk tim yang baru memulai, fokuskan sumber daya pada data quality: tanpa itu, algoritma terbaik pun kalah.

Jika Anda mempertimbangkan solusi untuk skala dealer atau fleet, uji model Anda pada rolling-window backtest dan lakukan A/B testing di lapangan sebelum mengganti sistem notifikasi lama. Siapkan rencana retraining tiap 3 bulan dan threshold monitoring untuk menangkap drift. Pengalaman saya menunjukkan bahwa nilai bisnis paling cepat datang bukan dari model yang paling kompleks, tetapi dari model yang terintegrasi dan dipantau dengan baik. Terakhir, bersikap realistis tentang ROI awal—penghematan servis akan tumbuh setelah siklus perbaikan data dan proses deployment selesai.