6 Library Data Science yang Harus Anda Kuasai
Dengan berjalannya waktu, sekarang saatnya machine Learning untuk bangkit dalam data science, seperti perkembangan library data saat ini. Library seperti Panda, NumPy, Matplotlib, dan Scikit-learn seakan tidak akan cukup lagi. Simak post ini untuk mengetahui enam Library yang akan dan sedang naik daun di ekosistem MLOps data science. Yuk simak selengkapnya di artikel berikut ini!
(1) BentoML
Salah satu library terbaik yang ditemukan dan direkomendasikan oleh para data scientist untuk menerapkan model machine learning adalah BentoML. BentoML adalah framework lengkap untuk memelihara, mengemas, dan menerapkan model framework apapun ke penyedia cloud sebagai layanan API. Hal ini tentunya mendukung model penyimpanan/pemuatan dalam format terpadu (dengan versi dan pemberian tag), memungkinkan data scientist membuat registri model yang terorganisir.
(2) MLFlow
Eksperimen pemodelan machine learning biasanya membutuhkan lusinan atau bahkan ratusan iterasi. Seiring bertambahnya jumlah iterasi, semakin sulit untuk melacak konfigurasi apa yang telah dicoba dan eksperimen mana yang terlihat memiliki peluang berhasil.
Para data scientist memerlukan framework yang mumpuni untuk melakukan proses pelacakan kode, data, model, hyperparameter, dan metrik secara bersamaan. Dengan menambahkan baris kode mlflow.sklearn.autolog() ke script yang melatih model scikit-learn, MLFlow akan mencakup semua prosesnya — mulai dari pemodelan itu sendiri, hyperparameter nya, dan metrik apa pun yang ingin dihitung menggunakan fungsi sklearn.metrics
(3) Data Version Control (DVC)
Data Version Control (DVC) menjadi library baru yang direkomendasikan karena mampu:
- Melacak dataset berukuran gigabyte atau model
- Membuat cabang basis kode utama untuk eksperimen yang aman tanpa menduplikasi file besar.
- File metadata directory.dvc ringan dibuat secara otomatis
- Mengelola file metadata directory sebagai tempat penampung untuk file asli yang berat.
DVC dikombinasikan dengan Git akan menjadi duo yang sempurna. Nilai plusnya adalah, dari kombinasi DVC dan Git ini akan terbentuk pipeline alur kerja yang mumpuni karena melibatkan langkah-langkah komplit seperti mengumpulkan data, membersihkannya, rekayasa fitur, dan melatih model. DVC juga memiliki kelebihan dalam penghematan waktu proses dan sumber daya komputasi yang digunakan.
(4) Weights & Biases
Weights & Biases memiliki kelebihan yang cukup mumpuni, yaitu:
- Integrasi luar biasa dengan ekosistem ML lainnya, seperti MLFlow
- Tampilan UI paling menarik dari semua library data lainnya
- Report dan dasbor kolaboratif
- Optimalisasi hyperparameter
Dan bagian terbaiknya adalah, semua fitur di atas tersedia langsung melalui Jupyter. Ini berarti para data scientist tidak perlu membuang IDE favorit mereka dan beralih ke script hanya untuk melacak eksperimen.
(5) NannyML
Monitoring secara konsisten adalah kunci untuk mempertahankan kualitas dan keberhasilan kinerja sebuah model machine learning. Hadirnya library data NannyML dengan menggunakan algoritme Confidence-Based Performance Estimation yang mereka kembangkan dan beberapa uji statistik handal lainnya, NannyML dapat mendeteksi penurunan kinerja atau kegagalan model yang tersembunyi. NannyML juga menampilkan smart alert notification sehingga data scientist selalu dapat mengetahui apa yang terjadi di ekosistem pemodelan mereka.
(6) Poetry
Poetry adalah paket Python open source yang mengubah kerangka kerja dependency management. Dalam kasus penggunaannya yang paling sederhana, Poetry dapat mendeteksi konflik dependency bahkan SEBELUM data scientist menginstal library sehingga para data scientiist dapat sepenuhnya menghindari dependency. Poetry juga dapat mengonfigurasi proyek Python sebagai paket dengan file pyproject.toml, dan Poetry akan menangani ekosistem virtual, membangun dan menerbitkan repo ke PyPI dengan perintah sederhana.
Itu tadi 6 library data yang wajib kamu kuasai untuk meningkatkan keahlian Anda. Tertarik untuk mencoba?