Apa yang perlu Anda lakukan untuk menjadi ilmuwan data yang baik

Apa yang perlu Anda lakukan untuk menjadi ilmuwan data yang baik

Keluaran Hongkong

Terlepas dari maraknya program keterampilan ilmu data di India, masih ada kesenjangan pasokan yang besar. Indeks Keterampilan Global Coursera 2020 memberi peringkat India sebagai yang terbelakang dalam ilmu data (Peringkat No. 51), meskipun 20% dari semua pendaftaran mereka di negara ini adalah dalam kursus dan proyek ilmu data.
Para profesional ilmu data juga sering tidak menyadari bahwa subjek tersebut membutuhkan pembelajaran dan penerapan yang berkelanjutan. “Banyak hal berubah begitu cepat di bidang ini sehingga apa yang mutakhir saat ini tidak akan terjadi sebulan kemudian,” kata Rambut Pandey, penginjil ilmu data di H2O.ai, sebuah perusahaan AI open source.
Platform seperti Kaggle dan HackerEarth adalah beberapa tempat terbaik untuk memahami perkembangan terbaru. Hackathon yang dihosting di Kaggle membantu para profesional data untuk berkolaborasi dengan orang lain secara global. “Wawasan dan pembelajaran yang menyertainya sangat berharga. Kita harus melihat apa yang terjadi di dunia penelitian, apa yang terjadi di kompetisi, dan teknologi mana yang terbaru, ”kata Pandey.

Pekerjaan data scientist adalah kombinasi unik dari keahlian domain, kemampuan analitis, dan pengalaman pemrograman. Mendapatkan kandidat seperti itu merupakan tantangan bagi perusahaan.

Parul Pandey, penginjil ilmu data, H2O.ai

Penawaran ilmu data HackerEarth mencakup komponen praktik, di mana pengembang individu dapat mendaftar, dan mengakses banyak konten gratis tempat mereka dapat membuat model, dan mengujinya dan menjalankannya. “Pasca pelatihan, ada opsi untuk penilaian diri dengan mengikuti tantangan, di mana Anda dapat bersaing dengan ilmuwan data lainnya,” kata Vishwastam Shukla, CTO di HackerEarth. Lebih dari 10% dari 5 juta lebih komunitas pengembang HackerEarth menyukai ilmu data.
Kualitas profesional yang dibutuhkan semakin meningkat. Laporan State of Data Science 2020 oleh Anaconda, sebuah distribusi open-source Python dan R, memprediksi bahwa organisasi yang lebih besar akan membangun pusat keunggulan ilmu data untuk memaksimalkan dampak bisnis dari ilmu data dan para profesional yang terlatih secara silang.

Orang-orang mulai memahami keterampilan nyata dan nilai nyata yang dibawa oleh data scientist. Jadi, kontur pekerjaan ilmu data semakin terdefinisi dengan baik. Karena itu, Anda melihat banyak kematangan yang datang ke kandidat ini, serta sistem secara keseluruhan.

Vishwastam Shukla, CTO, HackerEarth

Namun, kesibukan sehari-hari a ilmuwan data akan dilanjutkan. Laporan Anaconda, yang mensurvei para profesional dari 15 domain mulai dari keuangan hingga kesehatan, mengatakan bahwa data scientist menghabiskan sebagian besar waktunya (26%) untuk membersihkan data. Hal pertama yang selalu ada dalam pipeline ilmu data, kata Pandey, adalah memahami Himpunan data sebelum Anda mulai memprediksinya. Karena data diambil dari berbagai sumber, Anda tidak tahu semua yang dimilikinya atau apakah datanya bersih. Jadi, Anda perlu menjelajahi data untuk memastikan tidak ada bias. Pustaka visualisasi seperti Plotly dan Bokeh, serta alat seperti Tableau dan PowerBI digunakan untuk memahami data dengan memvisualisasikannya. Ilmu data menghabiskan sekitar 21% waktunya untuk visualisasi.
Eksplorasi data semacam itu membutuhkan keahlian domain. Saat menangani kumpulan data perawatan kesehatan, hanya profesional perawatan kesehatan yang dapat mengetahui mengapa ada pola tertentu. Seorang data scientist murni tidak bisa. Inilah mengapa ilmu data menjadi bidang bagi semua orang. “Banyak yang sekarang berpindah dari pekerjaan khusus domain mereka ke pekerjaan analitik data, yang juga melibatkan beberapa pemrograman,” kata Pandey.
Setelah semuanya divisualisasikan dan data dibersihkan, itu dimasukkan ke dalam perpustakaan seperti Tensorflow dan Pytorch untuk melakukan prediksi.