6 Library Data Science yang Harus Anda Kuasai

admin

1 tahun ago

6 Library Data Science yang Harus Anda Kuasai

Dengan berjalannya waktu, sekarang saatnya machine Learning untuk bangkit dalam data science, seperti perkembangan library data saat ini. Library seperti Panda, NumPy, Matplotlib, dan Scikit-learn seakan tidak akan cukup lagi. Simak post ini untuk mengetahui enam Library yang akan dan sedang naik daun di ekosistem MLOps data science. Yuk simak selengkapnya di artikel berikut ini!

(1) BentoML

Salah satu library terbaik yang ditemukan dan direkomendasikan oleh para data scientist untuk menerapkan model machine learning adalah BentoML. BentoML adalah framework lengkap untuk memelihara, mengemas, dan menerapkan model framework apapun ke penyedia cloud sebagai layanan API. Hal ini tentunya mendukung model penyimpanan/pemuatan dalam format terpadu (dengan versi dan pemberian tag), memungkinkan data scientist membuat registri model yang terorganisir.

(2) MLFlow

Eksperimen pemodelan machine learning biasanya membutuhkan lusinan atau bahkan ratusan iterasi. Seiring bertambahnya jumlah iterasi, semakin sulit untuk melacak konfigurasi apa yang telah dicoba dan eksperimen mana yang terlihat memiliki peluang berhasil.

Para data scientist memerlukan framework yang mumpuni untuk melakukan proses pelacakan kode, data, model, hyperparameter, dan metrik secara bersamaan. Dengan menambahkan baris kode mlflow.sklearn.autolog() ke script yang melatih model scikit-learn, MLFlow akan mencakup semua prosesnya — mulai dari pemodelan itu sendiri, hyperparameter nya, dan metrik apa pun yang ingin dihitung menggunakan fungsi sklearn.metrics

(3) Data Version Control (DVC)

Data Version Control (DVC) menjadi library baru yang direkomendasikan karena mampu:

Melacak dataset berukuran gigabyte atau model
Membuat cabang basis kode utama untuk eksperimen yang aman tanpa menduplikasi file besar.
File metadata directory.dvc ringan dibuat secara otomatis
Mengelola file metadata directory sebagai tempat penampung untuk file asli yang berat.

DVC dikombinasikan dengan Git akan menjadi duo yang sempurna. Nilai plusnya adalah, dari kombinasi DVC dan Git ini akan terbentuk pipeline alur kerja yang mumpuni karena melibatkan langkah-langkah komplit seperti mengumpulkan data, membersihkannya, rekayasa fitur, dan melatih model. DVC juga memiliki kelebihan dalam penghematan waktu proses dan sumber daya komputasi yang digunakan.

(4) Weights & Biases

Weights & Biases memiliki kelebihan yang cukup mumpuni, yaitu:

Integrasi luar biasa dengan ekosistem ML lainnya, seperti MLFlow
Tampilan UI paling menarik dari semua library data lainnya
Report dan dasbor kolaboratif
Optimalisasi hyperparameter

Dan bagian terbaiknya adalah, semua fitur di atas tersedia langsung melalui Jupyter. Ini berarti para data scientist tidak perlu membuang IDE favorit mereka dan beralih ke script hanya untuk melacak eksperimen.

(5) NannyML

Monitoring secara konsisten adalah kunci untuk mempertahankan kualitas dan keberhasilan kinerja sebuah model machine learning. Hadirnya library data NannyML dengan menggunakan algoritme Confidence-Based Performance Estimation yang mereka kembangkan dan beberapa uji statistik handal lainnya, NannyML dapat mendeteksi penurunan kinerja atau kegagalan model yang tersembunyi. NannyML juga menampilkan smart alert notification sehingga data scientist selalu dapat mengetahui apa yang terjadi di ekosistem pemodelan mereka.

(6) Poetry

Poetry adalah paket Python open source yang mengubah kerangka kerja dependency management. Dalam kasus penggunaannya yang paling sederhana, Poetry dapat mendeteksi konflik dependency bahkan SEBELUM data scientist menginstal library sehingga para data scientiist dapat sepenuhnya menghindari dependency. Poetry juga dapat mengonfigurasi proyek Python sebagai paket dengan file pyproject.toml, dan Poetry akan menangani ekosistem virtual, membangun dan menerbitkan repo ke PyPI dengan perintah sederhana.

Itu tadi 6 library data yang wajib kamu kuasai untuk meningkatkan keahlian Anda. Tertarik untuk mencoba?