Library Python adalah sebuah toolbox yang menyediakan fungsionalitas tertentu untuk memudahkan pekerjaan. Python merupakan salahs bahasa pemrograman yang digunakan untuk machine learning selain R, dan C++




Data science merupakan sebuah ilmu yang sifatnya general atau luas, dapat digunakan untuk kebutuhan data analysis, data analytic yang keduanya sering digunakan dalam deep learning, big data dan kebutuhan lainnya.

Library Python untuk Data Science
Python Library untuk Data Science

Library Python Terbaik Untuk Data Science

Komunitas Python merupakan salah satu komunitas pemrograman yang paling aktif, dengan jumlah toolbox yang dikembangkan sangat besar. Toolbox ini dikenal dengan nama library dan yang paling banyak digunakan adalah NumPу, SсіPу, Pаndаѕ, dan Sсіkіt-Lеаrn [1]. Dari masing-masing library dikelompokkan ke dalam toolbox analisis dan visualisasi Python.

NumPy

NumPу kepanjangan dari Numerical Python. — NumPy adalah library Python yang paling mendasar untuk komputasi scientific menggunakan Pуthоn. NumPy memiliki kelebihan dalam membentuk objek matriks atau array multidimensi dan pada fungsi aljabar linier, terutama operasi pada Vector (1-d array) dan Matrix (2-d array). Banyak toolbox lain yang menggunakan NumPy sebagai fondasi yang efektif dalam hal struktur datanya.

SciPy

SciPy kepanjangan dari Scientific Python. –SciPy adalah library yang juga digunakan untuk melakukan komputasi scientific menggunakan Python. Untuk menggunakan SciPy, biasanya kita membutuhkan NumPy. Dan SciPy ini dibandung dari ekstensi NumPy.

Perbedaan SciPy dengan NumPy adalah bahwa SciPy menyediakan sekumpulan algoritma dan fungsi matematika untuk domain tertentu seperti pemrosesan sinyal, optimisasi, statistika, menyelesaikan persamaan differensial secara numerik dll.

Matplotlib

Matplotlib adalah library Python yang dapat menyajikan data ke dalam bentuk grafik visual dua dimensi, jadi Matplot ini menggambarkan plot 2D (visualisasi data) [2].

Salah satu fitur Matplotlib yang paling penting adalah kemampuannya untuk bekerja dengan baik dengan banyak sistem operasi dan backend grafis. Matplotlib mendukung berbagai jenis backend dan output, yang berarti Anda dapat mengandalkannya untuk bekerja terlepas dari sistem operasi mana yang Anda gunakan atau format output yang Anda inginkan.

Pendekatan lintas platform telah menjadi salah satu kekuatan besar Matplotlib sebagai library Python. Ini telah menghasilkan basis pengguna yang besar, yang pada gilirannya mengarah pada basis pengembang yang aktif dan tool Matplotlib yang kuat dan ada di mana-mana dalam dunia ilmiah Python.




Kesimpulan:

  • NumPy = Numerical python (N-dimensional array package)
  • SciPy = Scientific python (Fundamental library for scientific computing)
  • Matplotlib = Comprehensive 2D Plotting

Bokeh

Bokeh adalah library yang digunakan untuk visualisasi interaktif. Fungsinya mirip dengan Matplotlib, tetapi memungkinkan kita menambahkan hover, zoom, klik, dan menggunakan tool interaktif lainnya ke plot yang diinginkan. Bokeh memungkinkan pengguna untuk merender dan bermain dengan plot di dalam Notebook Jupyter.

PyTorch

Pytorch adalah . PyTorch dapat dikatakan fungsinya sama dengan NumPy akan tetapi tidak sepenuhnya. TensorFlow telah menjadi framework deep learning yang paling terkenal selama beberapa waktu. Banyak peneliti bidang deep learning pindah ke PyTorch karena menawarkan model pemrograman yang lebih dinamis. Pengembangan di TensorFlow mirip dengan pemrograman di era punch card.

SeaBorn

Seaborn bekerja sebagai ekstensi Matplotlib yang memiliki berbagai alat plotting yang berguna untuk keperluan data science. Secara umum, Seaborn memungkinkan analisis dilakukan lebih cepat daripada jika Anda membuat hal yang sama secara manual dengan pustaka seperti matplotlib dan Scikit-Learn.

Scikit-Learn

Scikit-Learn adalah library Machine Learning yang dibuat dari NumPy, SciPy dan Matplotlib. Scikit-Learn menawarkan tool yang simpel dan efisien untuk berbagai keperluan data science seperti сlаѕѕіfісаtіоn, rеgrеѕѕіоn, сluѕtеrіng, dіmеnѕіоnаlіtу rеduсtіоn, mоdеl ѕеlесtіоn, dan рrерrосеѕѕіng. Karena saking banyaknya digunakan, Scikit-Learn memiliki jumlah kontributor yang banyak dan memiliki ekstensi untuk fuzzy logic dan computer vision.

Pandas

Pandas kepanjangan dari Python for Data Analysis. — Pandas secara gampangnya adalah spreadsheet namun tidak memiliki GUI dan memiliki fitur seperti SQL.

Pandas adalah library Pthon yang digunakan untuk proses analisis data misalnya manipulasi data, data preprocessing, dan pembersihan data. Panda memiliki struktur data dan fungsi high-level yang akan memproses data terstruktur / tabular lebih cepat, mudah dan representatif.

Fitur utama Pandas adalah objek DataFrame yang cepat dan efisien untuk manipulasi data dengan pengindekan terintegrasi. Struktur DataFrame dapat dilihat sebagai spreadsheet, yang menawarkan cara kerja yang sangat fleksibel. Anda dapat dengan mudah mengubah dataset apa saja sesuai keinginan Anda dengan membentuk ulang, dan menambahkan atau menghapus baris atau kolom. Pandas juga menyediakan fungsi berkinerja tinggi untuk fungsi agregasi, merger, dan join dari sebuah dataset.

Pаndаѕ juga memiliki alat untuk mengimpor dan mengekspor data dari format berbeda: соmmа-ѕераrаtеd vаluе (CSV), tеxt files, Mісrоѕоft Exсеl, SQL dаtаbаѕеѕ, dan HDF5 fоrmаt. Dalam banyak hal, data yang Anda miliki dalam format seperti itu tidak akan lengkap atau sepenuhnya terstruktur. Untuk kasus seperti itu, Pandas menawarkan penanganan data yang hilang dan perataan data cerdas. Selain itu, Pandas menyediakan antarmuka Matplotplib yang nyaman.

Requests

Requests adalah library yang sifatnya go to untuk membuat permintaan HTTP sehingga akan membuatnya mudah untuk mendapatkan HTML dari halaman web dan interface hanya dengan menggunakan API. Untuk parsing HTML, banyak yang memilih BeautifulSoup4.

Library Python Dasar

Berikut ini adalah Library atau pustaka Python dasar yang wajib dikuasai untuk menjadi seorang data scientist:

  1. Numpy (numerical python) adalah library yang memudahkan dalam pendefinisian array baik 1D, 2D, 3D atau nD, dan juga memiliki fungsi-fungsi untuk aljabar linier.
  2. Scipy (Scientific Python) merupakan library yang ditujukan untuk keperluan komputasi saintifik seperti keperluan aljabar linier, integrasi dan diferensiasi numerik, transformasi Fourier, optimasi, interpolasi, statistik dan yang lainnya.
  3. Pandas adalah library untuk pengolahan data dalam bentuk tabular (seperti excel) yang merupakan de facto library bagi data scientist dalam mengolah data dari berbagai sumber seperti file CSV, TSV, Excel, SQL queries, Google BigQuery, SAS, Stata, SPSS, dsb.
  4. Matplotlib digunakan untuk visualisasi dari data ke dalam berbagai bentuk grafik 2D atau 3D, seperti line chart, bar chart, histogram, polar chart, error bar plot, dan jenis grafik lainnya.
  5. Scikit-learn adalah Scipy Toolkit yang ditujukan untuk menghasilkan model predictive dengan menggunakan machine learning.
  6. Seaborn merupakan library yang dibuat dari matplotlib yang ditujukan oleh visualisasi grafik statistik dengan warna yang menawan, terintegrasi dengan baik dengan pandas.

Masih banyak library lainnya yang memiliki kemampuan yang sama atau lebih dari yang telah dijelaskan. Tetapi list library ini adalah library dasar yang wajib dikuasai oleh pemula dalam Data Science sebelum menggunakan library lainnya.



Referensi

  1. Blair, Steve. Python Data Science: The Ultimate Handbook for Beginners on How to Explore NumPy for Numerical Data, Pandas for Data Analysis, IPython, Scikit-Learn and Tensorflow for Machine Learning and Business. Independently Published, 2019.
  2. Arora, Aashina. “Comparing SciPy, NumPy and Matplotlib.” Accessed August 20, 2020. https://www.c-sharpcorner.com/article/comparing-scipy-numpy-matplotlib-and-pylab/.