PODCAST

Miliki Data Lake Microfinance Terbesar, Ini Cara BRI Kelola Big Data

Data lake adalah wadah penyimpanan berbagai jenis data dalam jumlah besar. Ketahui selengkapnya tentang pengertian fungsi, hingga pentingnya data lake di sini.

Erick Hendra Putra Alwando

Erick Hendra Putra Alwando

07 April 2022 • 6 mins reading

Miliki Data Lake Microfinance Terbesar, Ini Cara BRI Kelola Big Data

Semakin besar skala bisnis suatu perusahaan, maka semakin besar pula jumlah data yang perlu disimpan. Apalagi, di era big data yang serba digital ini, pertumbuhan data kian tak terelakkan hingga membuat database konvensional perusahaan tidak lagi mampu menyimpan banyaknya data.  

Oleh karena itu, perusahaan-perusahaan mulai melakukan transisi dari penggunaan database konvensional ke data lake. Lalu, sebenarnya apa itu data lake?

Data lake adalah wadah penyimpanan berbagai jenis data dalam jumlah besar, baik berupa data terstruktur, semi-terstruktur, hingga tidak terstruktur (structured, semi-structured, unstructured). Bagi perusahaan yang menerapkan big data, data lake menjadi sumber utama dari seluruh data yang ada di perusahaan tersebut.

Dengan data lake, perusahaan dapat menyimpan data sebagaimana adanya tanpa perlu diproses terlebih dahulu. Dengan begitu, data yang tersimpan memang merupakan data mentah yang dapat dimanfaatkan untuk berbagai kebutuhan bisnis selanjutnya. 

Data lake mampu menyimpan data dalam jumlah yang sangat banyak, seperti danau yang terisi oleh jutaan kubik air. Bahkan, Amazon Web Services mengatakan bahwa perusahaan yang menerapkan data lake mampu melakukan beragam jenis analisis baru, mengingat data yang tersedia sangat bervariasi. Tentunya, hal ini membantu perusahaan dalam mengidentifikasi dan bertindak sesuai dengan peluang bisnis dan visi mereka ke depannya.

Baca juga: Adopsi Teknologi Blockchain Bimbing Transformasi Digital Bank BRI


Fungsi dan Pentingnya Data Lake di Perusahaan

Fungsi Data Lake

Fungsi Data Lake


Fungsi utama data lake adalah sebagai tempat penyimpanan data secara terpusat. Seluruh data dari departemen-departemen berbeda dialirkan ke data lake. Sehingga, perusahaan dapat lebih mudah untuk melakukan analisis dan pengolahan data karena semua data sudah tersedia di data lake.

Jika pada database konvensional data lama yang sudah tidak terpakai cenderung hanya membuang kapasitas penyimpanan, maka pada data lake, data-data usang ini justru dapat menjadi 'mata air yang menyegarkan' karena dapat membantu perkembangan bisnis.

Misalnya, sebuah perusahaan perbankan dapat mengumpulkan data nasabah yang sudah tidak memakai layanan mereka berdasarkan analisis riwayat kegiatan nasabah. Kemudian, data tersebut diberikan kepada tim terkait untuk melakukan tindakan preventif demi mencegah nasabah menonaktifkan akunnya.

Selain itu, keunggulan penerapan data lake adalah untuk mendukung upaya transformasi digital perusahaan. Hal ini dapat dilihat di BRI yang telah menggunakan machine learning

Pengembangan machine learning membutuhkan input data demi meningkatkan akurasi dan efektivitas pengolahan data. Maka, dengan kapasitas penyimpanan yang besar, data lake mampu membantu proses belajar machine learning melalui aliran beragam varian data secara terus menerus. 

Lebih jauh lagi, proses bisnis pun akan terbantu. Karena selama ini, bisnis selalu ingin mengolah data dalam jumlah besar. Dengan database konvensional, keinginan tersebut belum dapat terpenuhi. Namun dengan data lake, kebutuhan bisnis dapat tercapai melalui analisis data berskala besar.

Pentingnya Data Lake

Pentingnya Data Lake

Di era big data seperti sekarang, perusahaan semakin membutuhkan wadah penyimpanan data yang besar dan dengan biaya operasional terjangkau. Namun, hal ini masih terhambat akibat penyimpanan data perusahaan yang  seringkali terisolasi di masing-masing departemen (data silo). 

Padahal, perusahaan dapat melakukan pengembangan produk dengan lebih baik apabila memiliki database terpusat. Kolaborasi antar departemen pun dapat terjalin lebih mudah, cepat, dan efisien melalui kesinambungan data di antara mereka. Di sinilah data lake berperan penting, tidak hanya sebagai wadah penyimpanan, tetapi juga sebagai wadah kolaborasi data. 

Misalnya, dalam melakukan pengembangan fitur dan ekspansi produk kartu kredit, sebuah perusahaan dapat memanfaatkan database simpanan yang sebenarnya terletak di departemen berbeda. Dengan adanya data lake, perusahaan dapat mengakses data simpanan sekaligus memprosesnya demi pengembangan produk tersebut.

Di sisi lain, apabila data masih tersimpan di masing-masing departemen, perusahaan tidak dapat leluasa dalam mengakses data yang dibutuhkan. Sehingga, ini justru menjadi hambatan bagi pengembangan produk. 

Baca juga: Mengenal Ensemble Decision Tree, “Akar” Dari Sistem BRIBrain


Data Lake, Data Warehouse, Data Mart, Apa Bedanya?


Dalam konteks penyimpanan data perusahaan (data repositories), dikenal tiga istilah yang digunakan secara bergantian. Ketiganya adalah data lake, data warehouse, dan data mart. Namun, apakah istilah-istilah tersebut memang dapat menggantikan satu sama lain?

Perbedaan Data Lake, Data Warehouse, dan Data Mart

Jawabannya adalah tidak. Seperti yang telah dijelaskan sebelumnya, data lake adalah tempat penyimpanan data mentah secara terpusat. Fungsi paling dasar dari data lake adalah untuk menyimpan data dalam jumlah besar sebelum memutuskan apa yang akan dilakukan setelahnya. 

Sementara itu, data warehouse adalah tempat penyimpanan untuk data yang telah diproses. Data di dalam data warehouse digunakan untuk berbagai tujuan dan keperluan bisnis (multi-purpose). Data warehouse modern umumnya berupa tanpa server (serverless) karena sudah berbasis cloud

Ada pula data mart, yang merupakan bagian dari data warehouse. Data mart menyimpan data dari suatu departemen tertentu. Karena sifatnya yang terisolasi di satu departemen saja, maka data di dalam data mart tidak dapat diakses oleh departemen lain (isolated security) dan tidak mengganggu performa mereka (isolated performance). 

Perlu dicatat juga bahwa data warehouse dan data mart hanya menyimpan structured data. Structured data adalah seperangkat informasi yang telah mengikuti format tertentu dan mudah diinterpretasikan oleh mesin. Di sisi lain, data lake mampu menyimpan baik structured maupun raw and unstructured data seperti gambar maupun video. 

Kesimpulannya, baik data lake, data warehouse, dan data mart memiliki fungsi dan use case-nya masing-masing dalam ranah data repository. Ketiganya merupakan bagian integral sebuah perusahaan sebagai platform penyedia data demi membantu merumuskan keputusan bisnis yang berbasis data (data-driven).


Cara BRI Kelola Data Lake 

Cara BRI Kelola Data Lake

BRI telah mengadopsi penggunaan data lake sejak tahun 2017. Sebelumnya, masing-masing departemen menyimpan datanya di database konvensional. Sistem penyimpanan data tersebut tidak memungkinkan perusahaan untuk memproses data dalam skala besar (big data). Maka, penerapan data lake adalah solusinya. 

Di pertengahan 2017, BRI mulai membuat pondasi data lake dengan menggunakan Cloudera, sebuah platform big data. Dari sana, kami menciptakan beberapa use case pemanfaatan data lake, sekaligus sebagai pembuktian bahwa data lake sangatlah penting.

Ini karena use cases tersebut memanfaatkan kombinasi data dari berbagai departemen berbeda. Secara batas waktu pengambilan data (time bound), tim dapat mengambil data historis yang lebih jauh ke belakang. Dari yang sebelumnya hanya mampu menjangkau 1 tahun, kini bisa mengolah hingga 10 tahun, bahkan lebih.

Pada awal pengembangannya, data lake membantu mengembangkan use case deteksi penipuan (fraud detection) dan credit scoring. Kemudian, di tahun 2018, data lake membantu pengembangan BRILink. 

Di tahun 2019, use case yang ditangani data lake bertambah lagi, yakni dukungan terhadap product recommendation dan customer 360°. Apabila dijumlah, sudah lebih dari 10 use case besar dan lebih banyak use case kecil yang berhasil kami kembangkan melalui data lake ini.

Baca juga: Apigee, Amunisi Digitalisasi Perbankan BRI

Data Lake Microfinance Jadikan BRI Unggul 

Insan BRILiaN sedang mengolah Data Lake Microfinance BRI

Pengembangan data lake secara masif pada akhirnya membuat BRI memiliki competitive advantage, yakni memiliki data lake microfinance terbesar di Indonesia. Dengan lebih dari 140 juta nasabah, BRI mampu memahami karakteristik nasabah mikro lebih dari kompetitornya. 

Dengan bantuan big data dan data lake, perusahaan mampu melihat tren data nasabah mikro di seluruh Indonesia. Melalui analisis data, BRI juga dapat mengobservasi, apakah nasabah mikro dapat menerima produk-produk digital yang ditawarkan kepada para nasabah.

Selain itu, data lake microfinance turut membantu perusahaan dalam memberikan rekomendasi bagi para agen BRILink. Sebagai akselerator pertumbuhan inklusi keuangan di tataran mikro, agen BRILink melayani transaksi layanan perbankan BRI bagi masyarakat di sekitarnya secara real-time.

Melalui data yang terkumpul di data lake, perusahaan dapat melihat efektivitas lokasi agen BRILink di suatu wilayah. Untuk mengakuisisi agen BRILink baru, perusahaan dapat mengidentifikasi lokasi strategis di mana belum ada agen BRILink di sana. Seluruh data tersebut tersimpan dengan baik di data lake secara terpusat, memudahkan BRI dalam melakukan analisis bisnis.

Tantangan Pengembangan Data Lake 

Insan BRILiaN menghadapi tantangan dalam mengolah data lake BRI

Dalam pengembangan data lake, tantangan yang kami hadapi adalah memahami dokumentasi data yang tersedia di perusahaan. BRI didirikan pertama kali pada tahun 1895, sehingga data yang dimiliki sangat banyak mengingat perjalanan panjang BRI selama 127 tahun.

Data-data tersebut diproduksi oleh karyawan BRI, baik yang saat ini masih bekerja maupun yang sudah tidak. Maka, ada kalanya kami kesulitan dalam memahami dokumentasi dari setiap data sebelum data tersebut dialirkan ke data lake

Ini karena data lake mengambil semua data dari berbagai departemen. Apabila data tidak terdokumentasi dengan baik, maka proses peralihan tempat penyimpanan dari database departemen menuju data lake menjadi terhambat. Kami harus memastikan terlebih dahulu bahwa data terdokumentasi dengan baik sebelum masuk ke data lake agar nantinya dapat digunakan oleh siapa pun di BRI.

Ke depannya, kami akan terus mengoptimalkan pemanfaatan data lake bagi BRI. Dengan kesuksesan dari berbagai use cases, kami yakin bahwa data lake akan menjadi salah satu penopang transformasi digital bagi BRI.


Erick Hendra Putra Alwando
Team Leader Core AI
Divisi Digital Banking Development and Operation (DDB)