MODEL ALGORITMA K-MEANS CLUSTERING UNTUK MENENTUKAN STRATEGI PROMOSI UNIVERSITAS ISLAM NAHDLATUL ULAMA JEPARA
PROPOSAL SKRIPSI
Diajukan sebagai Salah Satu Syarat untuk Memperoleh Gelar Sarjana Strata 1 (S.1) Program Studi Teknik Informatika Fakultas Sains dan Teknoogi Universitas Islam Nahdlatul Ulama Jepara
Oleh :
Damas Fahmi Assena NIM : 161240000500
PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI UNIVERSITAS ISLAM NAHDLATUL ULAMA (UNISNU) JEPARA 2020
PERSETUJUAN PEMBIMBING
Assalamu’alaikum Wr. Wb. Setelah saya meneliti dan mengadakan perbaikan seperlunya, bersama ini saya kirim naskah Proposal Skripsi *) Saudara:
Nama
: Damas Fahmi Assena
NIM
: 161240000500
Program Studi
: Teknik Informatika
Judul
: Model Algoritma K-Means Clustering Untuk Menentukan Strategi Promosi Universitas Islam Nahdlatul Ulama Jepara
Proposal Skripsi *) ini telah disetujui pembimbing dan siap untuk dipertahankan dihadapan Dewan Penguji program Sarjana Strata 1 (S1) Fakultas Sains dan Teknologi Universitas Islam Nahdlatul Ulama Jepara. Demikian harap menjadikan maklum. Wassalamu’alaikum Wr. Wb.
Jepara, 07 September 2020
Pembimbing I
Pembimbing II
Harminto Mulyo, M.Kom NIDN. 0604028203
Nur Aeni Widiastuti, S.Pd., M.Kom NIDN. 0602078702
i
LEMBAR PENGESAHAN REVISI SEMINAR PROPOSAL SKRIPSI
Telah diperiksan dan disetujui oleh penguji Seminar Porposal Skripsi dengan Nama Peserta
: Damas Fahmi Assena
NIM
: 161240000500
Program Studi
: Teknik Informatika
No.
Tim Penguji
Nama Penguji
Tanda Tangan
1.
Penguji 1
Akhmad Khanif Zyen, M.Kom
2.
Penguji 2
Ir. Adi Sucipto, M.Kom
3.
Penguji 3
Nur Aeni Widiastuti, S.Pd., M.Kom
Jepara, 07 September 2020 Mengetahui,
Pembimbing I
Pembimbing II
Harminto Mulyo, M.Kom NIDN. 0604028203
Nur Aeni Widiastuti, S.Pd., M.Kom NIDN. 0602078702
ii
DAFTAR ISI SAMPUL HALAMAN PERSETUJUAN PEMBIMBING ............................................................................ i LEMBAR PENGESAHAN REVISI SEMINAR PROPOSAL SKRIPSI ............. ii DAFTAR ISI .......................................................................................................... iii DAFTAR TABEL ................................................................................................... v DAFTAR GAMBAR ............................................................................................. vi BAB I
PENDAHULUAN .................................................................................... 1
1.1
Latar Belakang .......................................................................................... 1
1.2
Batasan Masalah ....................................................................................... 5
1.3
Rumusan Masalah .................................................................................... 5
1.4
Tujuan Penelitian...................................................................................... 6
1.5
Manfaat Penelitian .................................................................................... 6
1.6
Sistematika Penyusunan Skripsi............................................................... 7
BAB II LANDASAN TEORI ............................................................................... 9 2.1
Tinjauan Studi .......................................................................................... 9
2.2
Tinjauan Pustaka .................................................................................... 10 Bussines Intelligence....................................................................... 10 Pengertian Data Mining .................................................................. 11 Tahapan Data Mining ...................................................................... 13 Teknik-Teknik Data Mining ........................................................... 15 Metode Data Mining ....................................................................... 18 Clustering ........................................................................................ 20 Algoritma K-Means Clustering ....................................................... 21 Transformasi Data ........................................................................... 26 iii
Pengolahan data .............................................................................. 27 Pengujian Hasil Clustering K-Means .............................................. 30 Metode Receiver Operating Characteristic (ROC) ......................... 32 2.3
Kerangka Pemikiran ............................................................................... 34
BAB III METODE PENELITIAN ....................................................................... 35 3.1
Desain Penelitian .................................................................................... 35
3.2
Pengumpulan Data.................................................................................. 35
3.3
Lokasi Penelitian .................................................................................... 37
3.4
Pengolahan Data ..................................................................................... 37
3.4.1
Perangkat Keras .............................................................................. 37
3.4.2
Perangkat Lunak.............................................................................. 37
3.5
Tahapan Metode ..................................................................................... 38
3.5.1
Pre-processing Data ........................................................................ 38
3.5.2
K-Means Clustering ........................................................................ 40
3.6
Evaluasi .................................................................................................. 45
3.6.1
Pengujian Metode BCV dan WCV ................................................. 46
3.6.2
Pengujian Metode ROC .................................................................. 47
DAFTAR PUSTAKA ........................................................................................... 49
iv
DAFTAR TABEL
Table 2.1 Data Mahasiswa .................................................................................... 25 Table 2.2 Inisialisasi Data Wilayah Kota Asal ..................................................... 26 Table 2.3 Inisialisasi Data Jurusan ........................................................................ 26 Table 2.4 Titik Pusat Awal Setiap Cluster ............................................................ 28 Table 2.5 Contoh Hasil Perhitungan Setiap Data ke Setiap Cluster ..................... 29 Table 2.6 Kriteria Pengukuran Rasio .................................................................... 31 Table 2.7 Standar Receiver Operating Characteristic (ROC) ............................... 33 Table 3.1 Data Mahasiswa 2016 sampai 2018 ...................................................... 40 Table 3.2 Inisialisasi Data Kecamatan Asal .......................................................... 41 Table 3.3 Inisialisasi Data Asal Sekolah ............................................................... 42 Table 3.4 Titik Pusat Awal Setiap Cluster ............................................................ 42 Table 3.5 Contoh Hasil Perhitungan Setiap Data ke Setiap Cluster ..................... 44 Table 3.6 Nilai Centroid pada iterasi terakhir....................................................... 46 Table 3.7 Nilai Centroid pada iterasi terakhir ....................................................... 48 Table 3.8 Standar Receiver Operating Characteristic (ROC) ............................... 48
v
DAFTAR GAMBAR
Grafik 1.1 Data Mahasiswa 2016-2018 .................................................................. 2
Gambar 2.1 Business Intelligence Environment [9] ............................................. 11 Gambar 2.2 Bidang Ilmu Data Mining [15] .......................................................... 12 Gambar 2.3 Tahapan Proses Knowledge Discovery in Database [14] ................. 13 Gambar 2.4 Bidang Ilmu Data Mining [15] .......................................................... 13 Gambar 2.5 Teknik Data Mining [16]................................................................... 15 Gambar 2.6 Clustering [17]................................................................................... 17
vi
BAB I PENDAHULUAN
1.1
Latar Belakang Pendidikan merupakan salah satu aspek yang penting dalam pembangunan bangsa, keberhasilan pembangunan negara adalah dengan tersedianya penduduk yang terdidik dalam jumlah, jenis, dan tingkat yang memadai. Dengan pendidikan seseorang menjadi cerdas, memiliki kemampuan, sikap hidup yang lebih baik dan pada akhirnya dapat meningkatkan taraf hidupnya ke jenjang yang lebih tinggi. Untuk mencapai tujuan pendidikan yang terarah, diperlukan suatu lembaga pendidikan yang berjenjang dimulai dari pendidikan tingkat dasar, pendidikan menengah dan pendidikan tinggi [1]. Penyelenggaraan
pendidikan
tinggi
melalui
perguruan
tinggi
dimaksudkan untuk meningkatkan kemampuan akademik dan keahlian (profesional), siswa-siswi sekolah menengah (SMA, SMK, dan MA) dapat melanjutkan ke perguruan tinggi untuk meningkatkan kemampuan akademik dan keahlian mereka. UNISNU adalah sebuah perguruan tinggi di Indonesia yang merupakan penggabungan dari 3 perguruan tinggi yaitu STIENU, STTDNU dan INISNU. Dikelola oleh Yayasan Pendidikan Tinggi Nahdlatul Ulama (Yaptinu) Jepara berdiri sejak tahun 1989 yang terletak di Jepara, UNISNU memiliki 5 fakultas dan 19 program studi. Untuk masuk menjadi civitas akademika (warga) UNISNU, siswa-siswi sekolah menengah (SMA, SMK, dan MA) dapat mengikuti seleksi masuk yang diselenggarakan oleh Universitas Islam Nahdlatul Ulama Jepara. Seleksi masuk mahasiswa di UNISNU lebih dikenal dengan istilah Penerimaan Mahasiswa Baru (PMB), kegiatan PMB adalah salah satu
1
2
kegiatan rutin tahunan sebagai media untuk merekrut calon mahasiswa baru sesuai dengan kriteria yang ditetapkan oleh UNISNU dengan tujuan agar calon mahasiswa yang lulus seleksi atau diterima menjadi mahasiswa dapat menyelesaikan studi tepat waktu sesuai dengan program studi yang mereka tempuh. Grafik 1.1 Data Mahasiswa 2016-2018
Data Mahasiswa UNISNU 2016 - 2018 Jumlah Mahasiswa
1400 1350 1300 1250 1200 1150 1100
1050 2016
2017
2018
Tahun
Berdasarkan data yang diperoleh dari bagian UPT Pusat Data dan Pengembangan IT UNISNU, pada tahun 2016 jumlah mahasiswa baru berjumlah 1165 mahasiswa, pada tahun 2017 berjumlah 1366 mahasiswa, dan pada tahun 2018 berjumlah 1379. Pada tahun 2016 hingga 2017 jumlah mahasiswa baru mengalami peningkatan sejumlah 201 mahasiswa. Pada tahun 2017 hingga 2018 jumlah mahasiswa baru mengalami peningkatan sejumlah 13 mahasiswa. Namun pada tahun 2018 peningkatan mahasiswa hanya sejumlah 13 mahasiswa lebih turun jika dibandingkan pada tahun 2017 berjumlah 201 mahasiswa. Dalam mengatasi permasalahan tersebut, peran Bisnis Intelligence (BI) dapat membantu mendapatkan pengetahuan yang jelas sehingga dapat membantu dalam pengambilan keputusan serta sekaligus meningkatkan
3
keunggulannya (competitive advantage). Dengan kegiatan Bisnis Intelligence (BI) tersebut maka sebuah organisasi atau perusahaan akan dengan mudah dalam mengambil keputusan secara cepat dan tepat [2]. Dalam penelitian ini Bisnis Intelligence (BI) digunakan untuk mengelompokan data mahasiswa dengan memanfaatkan proses data mining menggunakan metode smart clustering yaitu k-means. K-means merupakan salah
satu
metode
data
non-hierarchical
clustering
yang
dapat
mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki karakteristik berbeda dikelompokkan dalam cluster yang lain. Menurut Shovon dan Haque (2012) telah menyelesaikan penelitian yang berjudul “An Approach of Improving Student’s Academik Performance by using K-Means Clustering Algorithm and Decision Tree�. Jurnal tersebut menguraikan bagaimana mengurangi rasio Drop Out yang signifikan dan meningkatkan kinerja siswa dalam bidang akademik. Tujuan dalam penelitian tersebut yaitu mempartisi mahasiswa-mahasiswa berdasarkan karakteristik yang sama menjadi kelompok-kelompok sesuai dengan karakteristik dan kemampuan mereka. Penelitian menggunakan proses data mining. Algoritma Clustering K-Means dan pohon keputusan untuk memprediksi kegiatan belajar mahasiswa [3]. Menurut Syazwani Rasid, N. dan Ahmad (2014) telah melakukan penelitian yang berjudul “Grouping Students Academic Performance Using One-Way Clustering�. Tujuan dari penelitian ini yaitu menerapkan algoritma Clustering K-Means yang berfungsi sebagai tolok ukur yang sangat baik untuk memantau perkembangan siswa dalam belajar di sekolah. Penelitian menggunakan metode hirarki dan K-Means untuk menentukan kelompok siswa. Hasil Clustering dibandingkan dan ditemukan bahwa K-Means adalah yang paling cocok dalam pengelompokkan prestasi akademik siswa [4].
4
Menurut Sugiharti dan Muslim (2016) telah menyelesaikan penelitian yang berjudul “On-Line Clustering of Lectures Performance of Computer Science Department of Semarang State University Using K-Means Algorithm�. Penelitian tersebut menguraikan mengenai bagaimana cara merancang program pengembangan sistem dalam bentuk online dengan mengelompokkan kinerja dosen berdasarkan 3 tanggung jawab menggunakan Clustering [5]. Menurut Mardalius (2017) telah melakukan penelitian yang berjudul “Implementasi Algoritma K-Means Clustering Untuk Menentukan Kelas Kelompok Bimbingan Belajar Tambahan�. Tujuan dalam penelitian tersebut yaitu menentukan kelompok kelas belajar tambahan materi mata pelajaran. Penelitian menerapkan data mining dengan metode Clustering dengan algoritma K-Means. Algoritma K-Means Clustering dapat digunakan untuk mengelompokkan data siswa berdasarkan nilai ujian semester mata pelajaran Ujian Nasional, yaitu kemampuan siswa pintar, siswa sedang dan siswa kurang pintar. sehingga dapat mengetahui siswa yang mana saja yang akan diberi belajar tambahan agar dapat mencapai nilai standar kelulusan Ujian Nasional [6]. Dari beberapa referensi penelitian terdahulu yang mempunyai keterkaitan dengan metode dan objek penelitian, maka peneliti mengunakan metode algoritma K-Means Clustering. Atribut yang digunakan dalam menentukan pengelompokkan wilayah untuk melakukan promosi di UNISNU berdasarkan asal kecamatan, asal sekolah, dan IPK mahasiswa. Diharapkan penelitian dengan menerapkan metode k-means, mampu membantu kegiatan memberikan status mahasiswa kepada pelamar yang hendak menempuh studi (Admisi) untuk mengambil keputusan dalam menentukan wilayah promosi yang tepat sasaran dan mana yang menjadi prioritas wilayah dari mahasiswa terbanyak sehingga tidak terjadi penurunan
5
jumlah mahasiswa pada tahun berikutnya dan juga untuk mendapatkan nilai akurasi dari kinerja metode k-means. Tujuan dari penelitian ini adalah menerapkan algoritma K-means Clustering pada data penerimaan mahasiswa baru tahun ajaran 2016 sampai 2018 dengan jumlah 3910 mahasiswa. Atribut yang dibutuhkan dalam pengolahan adalah kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa.
1.2
Batasan Masalah Batasan-batasan masalah dalam penelitian ini antara lain: 1) Data yang digunakan adalah data mahasiswa Universitas Islam Nahdlatul Ulama angkatan 2016 sampai dengan angkatan 2018. 2) Algoritma yang digunakan adalah Algoritma K-Means Clustering. 3) Atribut atau parameter data yang digunakan adalah kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa semester pertama dan kedua pada angkatan 2016 sampai dengan angkatan 2018.
1.3
Rumusan Masalah Rumusan Berdasarkan latar belakang di atas dapat dirumuskan permasalahan yang akan diselesaikan dalam penelitian ini adalah:
6
1) Bagaimana menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara. 2) Bagaimana sebaran wilayah berdasarkan data mahasiswa baru sesuai dengan indeks prestasi akademik mahasiswa? 3) Bagaimana prioritas wilayah yang tepat untuk cluster yang terbentuk?
1.4
Tujuan Penelitian Tujuan pada penyusunan penelitian ini adalah untuk mengetahui: 1) Menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi. 2) Mengetahui sebaran wilayah berdasarkan data mahasiswa angkatan 2016 sampai angkatan 2018. 3) Menentukan prioritas wilayah yang tepat untuk cluster yang terbentuk.
1.5
Manfaat Penelitian Diharapkan dari penelitian ini dapat memberikan manfaat sebagai berikut: 1) Bagi peneliti:
7
a) Data mahasiswa yang berjumlah ribuan dapat cepat diproses dan dipisahkan berdasarkan kemiripan data dengan metode data mining menggunakan algoritma K-Means Clustering. b) Hasil penelitian ini dapat memberikan gambaran wilayah mana yang
berpontensi
berdasarkan
dalam
kecamatan
penerimaan asal
mahasiswa
mahasiswa,
asal
baru
sekolah
mahasiswa, dan IPK mahasiswa. 2) Bagi perguruan tinggi: a) Dapat digunakan sebagai pertimbangan untuk memaksimalkan wilayah mana yang di prioritaskan untuk dilakukannya promosi. b) Bagi Admisi dapat membantu sebagai bahan pertimbangan untuk menentukan langkah selanjutnya dalam penerimaan mahasiswa baru.
1.6
Sistematika Penyusunan Skripsi Sistematika Penulisan terdiri dari: 1) Bagian awal skripsi 2) Bagian pokok skripsi yang terdiri dari: a. Bab I
: Pendahuluan Pada bab ini diuraikan secara ringkas pembahasan tentang
Latar
Perumusan
Belakang,
Masalah,
Batasan
Maksud
dan
Masalah, Tujuan
Penelitian, Manfaat Penelitian, dan Sistematika Penulisan.
8
b. Bab II
: Landasan Teori Di dalam bab ini dijelaskan tentang tinjauan pustaka dan landasan teori yang berhubungan dengan penelitian ini.
c. Bab III
: Metode Penelitian Bab ini berisikan tentang objek, rincian perangkat yang digunakan serta metode penelitian.
d. Bab IV
: Hasil Penelitian dan Pembahasan Pada bab ini sudah masuk pada tahap analisis penelitian dan pembahasan mengenai penerapan metode yang digunakan.
e. Bab V
: Penutup Di bab ini diuraikan kesimpulan dan saran dari hasil penelitian yang penulis peroleh.
3) Bagian akhir skripsi terdiri dari Daftar Pustaka dan Lampiran
BAB II LANDASAN TEORI
2.1
Tinjauan Studi Dalam penelitian yang dilakukan sebelumnya dengan judul Penerapan Data Mining Untuk Menentukan Strategi Promosi Universitas PGRI Yogyakarta Menggunakan Algoritma K-means Clustering. Penelitian ini melakukan strategi untuk promosi Universitas PGRI Yogyakarta dengan menggunakan K-means clustering agar mengetahui persebaran wilayah berdasarkan indeks prestasi mahasiswa. Dengan menerapkan metode algoritma K-Means Clustering menggunakan dua aplikasi yaitu Microsoft Excel 2019 dan Sistem Aplikasi K-Means Clustering [7]. Dalam Penelitian selanjutnya dengan judul Implementasi Data Mining Menggunakan Algoritma K-Means Clustering Untuk Mengetahui Pola Pemilihan 8 Program Studi IAIN Salatiga. Penelitian ini bertujuan untuk mencari pola pemilihan program studi yang akan dilakukan pada mahasiswa IAIN Salatiga. Dengan pengolahan data mining menggunakan algoritma kmeans clustering untuk mengetahui pola pemilihan progam studi IAIN Salatiga, dilakukan dengan menggunakan dua aplikasi, yang pertama dengan menggunakan aplikasi pengolah angka Microsoft Excel dan dengan menggunakan apalikasi yang peneliti rancang dengan menggunakan bahasa pemrograman PHP dan Database MySQL. Hasil dari proses k-means clustering dengan menggunakan data mahasiswa IAIN Salatiga S1 angkatan 2016 terbagi ke dalam lima cluster, dimana cluster pertama berisikan tentang program studi yang paling diminati oleh mahasiswa baru IAIN Salatiga, cluster kedua berisikan prodi dengan peminat lebih sedikit dengan dari cluster pertama dan lebih banyak di bandingkan dengan cluster tiga, empat dan lima, pada cluster tiga berisikan program studi yang diminati, sedangkan pada
9
10
cluster empat dan lima berisikan program studi yang kurang diminati oleh mahasiswa baru [8].
2.2
Tinjauan Pustaka Dalam landasan teori ini akan dijelaskan secara garis besar teori-teori yang menjadi dasar atau acuan dalam penelitian ini:
Bussines Intelligence Business Intelligence (BI) adalah sebuah proses ekstraksi data operasional organisasi atau perusahaan, kemudian mengumpulkannya kedalam sebuah data warehouse. Sebuah data warehouse dirancang untuk mendukung sebuah proses lanjutan dalam rangka mendapatkan informasi berharga menggunakan teknik data mining. Konsep BI menekankan pada penerapan 5 pendayagunaan informasi untuk keperluan spesifik bisnis, masing-masing adalah sebagai berikut [1]: 1) Data sourcing. 2) Data analysis. 3) Situation awareness. 4) Risk analysis. 5) Decission support. Dalam membuat business modelling digunakan business model dan diagram yang memberikan informasi secara grafis bagi anggota suatu organisasi atau perusahaan memahami dan mengkomunikasikan business rule dan proses-proses bisnisnya [1].
11
Gambar 2.1 Business Intelligence Environment [9] Seorang kepala biro marketing, dia dapat melakukan kampanye pemasaran dengan segmentasi target yang jelas dan dapat diperhitungkan dalam menyumbang penerimaan mahasiswa baru bagi institusinya dengan mencari strategi yang tepat dalam melakukan promosi, dan masih banyak lagi evaluasi kinerja manajemen dari setiap divisi yang dilakukan pada suatu organisasi atau perusahaan.
Pengertian Data Mining Data mining adalah proses menganalisis data dan menemukan pola tersembunyi secara otomatis atau semi otomatis [10]. Pola atau hubungan digunakan sebagai alat untuk menjelaskan data dan memprediksi data yang baru [11]. Ada beberapa definisi lain dari data mining. Data mining adalah proses menganalisis data yang sangat besar untuk menemukan hubungan dan merepresentasikan data yang berguna dan dapat dipahami untuk pemiliknya [12]. Secara sederhana, data mining berarti menggali pengetahuan dari data yang berjumlah banyak [13]. Salah satu kesulitan mendefinisikan data mining adalah kenyataan bahwa data mining mewarisi banyak aspek dan teknik dari bidang-bidang
12
ilmu yang sudah. Gambar 2.2 merupakan bidang ilmu yang menjadi akar panjang dari data mining. Beberapa bidang ilmu tersebut seperti kecerdasan buatan, machine learning, statistik, database, dan juga information retrieval [14].
Gambar 2.2 Bidang Ilmu Data Mining [15] Data Mining terkadang dianggap sama dengan istilah KDD (Knowledge Discovery in Database). Namun, Data Mining adalah salah satu bagian dari KDD. Dibandingkan dengan KDD, Data Mining lebih dikenal di kalangan pelaku bisnis. Sebagai komponen dalam KDD, Data Mining berkaitan dengan ekstraksi dan perhitungan pola-pola yang telah dianalisis. Tahapan dalam proses KDD dijelaskan di bawah ini: [14]
13
Gambar 2.3 Tahapan Proses Knowledge Discovery in Database [14]
Tahapan Data Mining Sebagai suatu rangkaian proses, data mining dapat dibagi menjadi beberapa tahap. Tahap-tahap tersebut bersifat interaktif di mana pemakai terlibat langsung atau dengan perantaraan knowledge base. Tahapan-tahapan tersebut, diantaranya ditunjukkan pada Gambar 2.3:
Gambar 2.4 Bidang Ilmu Data Mining [15]
14
Serangkaian proses tahapan data mining tersebut memiliki tahap sebagai berikut : [13] 1) Data Cleaning Data cleaning merupakan proses menghilangkan noise, data yang tidak konsisten, dan data yang tidak relevan. 2) Data Integration Data integration merupakan proses menggabungkan data dari berbagai data sumber (data source) ke dalam database yang akan digunakan untuk proses penggalian data. 3) Data Selection Data selection merupakan proses pemilihan data yang digunakan untuk proses penggalian data. 4) Data Transformation Data Transformation merupakan proses mentransformasikan dan mengkonsolidasikan data untuk digunakan dalam proses mining. 5) Data Mining Data mining merupakan proses utama mencari pengetahuan atau pola dari informasi tersembunyi dari database. 6) Pattern Evaluation Pattern Evaluation merupakan proses mengidentifikasi pola yang telah didapat.
15
7) Knowledge Presentation Knowledge Presentation merupakan visualisasi dan presentasi pengetahuan atau pola yang telah didapat kepada pengguna.
Teknik-Teknik Data Mining Menurut Ahmed, teknik data mining biasanya terbagi dalam dua kategori, prediksi dan deskripsi. Teknik prediksi menggunakan data historis untuk menyimpulkan sesuatu tentang kejadian di masa depan. Sedangkan teknik deskripsi bertujuan untuk menemukan pola dalam data yang menyediakan beberapa
informasi
tentang
hubungan
tersembunyi.
Gambar 2.5 Teknik Data Mining [16]
interval
yang
16
Menurut Kumar dan Saurabh, terdapat beberapa teknik yang digunakan dalam data mining, yaitu: [16] 1. Classification Klasifikasi adalah teknik yang paling umum diterapkan pada data mining. Pendekatan ini sering menggunakan keputusan pohon (decision tree) atau neural network berbasis algoritma klasifikasi. 2. Clustering Clustering bisa dikatakan sebagai identifikasi kelas objek yang memiliki kemiripan. Dengan menggunakan teknik clustering kita bisa lebih lanjut mengidentifikasi kepadatan dan jarak daerah dalam objek ruang dan dapat menemukan secara keseluruhan pola distribusi dan korelasi antara atribut. Pendekatan klasifikasi secara efektif juga dapat digunakan untuk membedakan kelompok atau kelas objek. Metode ini digunakan untuk mengidentifikasi kelompok alami dari sebuah kasus yang didasarkan pada sebuah kelompok atribut, mengelompokkan data yang memiliki kemiripan atribut. Gambar 2.5 Clustering ini menunjukkan kelompok data pelanggan sederhana yang berisi dua atribut, yaitu Age (Umur) dan
Income
(Pendapatan).
Algoritma
Clustering
mengelompokkan kelompok data kedalam tiga segment berdasarkan kedua atribut ini [17]. a) Cluster 1 berisi populasi berusia muda dengan pendapatan rendah. b) Cluster 2 berisi populasi berusia menengah dengan pendapatan yang lebih tinggi.
17
c) Cluster 3 berisi populasi berusia tua dengan pendapatan yang relatif rendah. Clustering adalah metode Data Mining yang Unsupervised, karena tidak ada satu atribut yang digunakan untuk memandu proses pembelajaran, jadi seluruh atribut input diperlakukan sama.
Gambar 2.6 Clustering [17] 3. Regression Metode Regression mirip dengan metode Classification, Metoda regression bertujuan untuk mecari pola dan menentukan sebuah
nilai
memecahkan
numerik. suatu
Regression
permasalahan,
digunakan
untuk
contohnya
untuk
memperkirakan kecepatan angin berdasarkan temperatur, tekanan udara, dan kelembaban. 4. Decision trees Decision trees atau pohon keputusan merupakan model prediktif yang dapat digambarkan seperti pohon, dimana setiap node didalam struktur pohon tersebut mewakili sebuah pertanyaan yang digunakan untuk menggolongkan data.
18
Struktur ini dapat digunakan untuk membantu memperkirakan kemungkinan nilai setiap atribut data.
Metode Data Mining Salah satu metode data mining adalah model Cross-Standard Industry for Data Mining (CRISP-DM) yang terdiri dari 6 fase, yaitu [1]: 1) Fase pemahaman bisnis (Business Un derstanding) Pada tahap ini berfokus pada pemahaman mengenai tujuan dari proyek dan kebutuhan secara persepktif bisnis, kemudian mengubah hal tersebut menjadi sebuah permasalahan data mining dan rencana awal untuk mencapai tujuan tersebut. Kegiatan yang dilakukan antara lain: menentukan tujuan dan persyaratan dengan jelas secara keseluruhan, menerjemahkan tujuan tersebut serta menentukan pembatasan dalam perumusan masalah data mining, dan selanjutnya mempersiapkan strategi awal untuk mencapai tujuan tersebut. 2) Fase pemahaman data (Data Understanding) Pada tahap ini dilakukan pengumpulan terhadap data, lalu kemudian mempelajari data tersebut dengan tujuan untuk mengenal data, melakukan identifikasi dan mengetahui kualitas dari data, serta mendeteksi subset yang menarik dari data yang dapat dijadikan hipotesa bagi informasi yang tersembunyi. 3) Fase pengolahan data (Data Preparation) Pada tahap ini dilakukan persiapan mengenai data yang akan digunakan pada tahap berikutnya. Kegiatan yang dilakukan antara lain: memilih kasus dan parameter yang akan dianalisis
19
(Select Data), melakukan transformasi terhadap parameter tertentu (Transformation), dan melakukan pembersihan data agar data siap untuk tahap modelling (Cleaning). Data preprocessing bertujuan untuk mendapatkan data yang bersih dan siap untuk digunakan dalam penelitian. Tahapan yang dikerjakan adalah melakukan pengabaian atribut pada data mentah yang dianggap tidak relevan dengan hasil pengujian dan perubahan terhadap nilai data bahkan tipe data pada atribut dataset dengan tujuan untuk mempermudah pemahaman terhadap isi record dengan memperhatikan konsistensi data, missing value, dan redundancy pada data. 4) Fase pemodelan (Modelling) Pada tahap ini dilakukan penentuan terhadap teknik data mining, alat bantu data mining, dan algoritma data mining yang akan diterapkan. Lalu selanjutnya adalah melakukan penerapan teknik dan algoritma data mining tersebut kepada data dengan bantuan alat bantu. Jika diperlukan penyesuaian data terhadap teknik data mining tertentu, dapat kembali ke tahap persiapan data. 5) Fase Evaluasi (Evaluation) Pada tahap ini dilakukan pengujian terhadap model-model yang dikomparasi untuk mendapatkan informasi model yang paling akurat. Evaluasi dan validasi menggunakan metode confusion matrix dan kurva ROC. 6) Fase Penyebaran (Deployment) Setelah pembentukan model dan dilakukan analisa dan pengukuran pada tahap sebelumnya, selanjutnya pada tahap ini
20
diterapkan model yang paling akurat dengan memakai data baru diluar data training dan data testing.
Clustering Menurut Deka, Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari objek-objek yang mempunyai karakteristik yang umum di data yang cukup besar. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Clustering melakukan pengelompokkan data yang didasarkan pada kesamaan antar objek, oleh karena itu klasterisasi digolongkan sebagai metode unsupervised learning. Menurut Oyelade, clustering dapat dibagi menjadi dua, yaitu hierarchical clustering dan nonhierarchical clustering. Hierarchical clustering adalah suatu metode pengelompokan data yang dimulai dengan mengelompokkan dua atau lebih objek yang memiliki kesamaan paling dekat. Kemudian proses diteruskan ke objek lain yang memiliki kedekatan kedua. Demikian seterusnya sehingga cluster akan membentuk semacam pohon dimana ada hierarki (tingkatan) yang jelas antar objek, dari yang paling mirip sampai yang paling tidak mirip. Secara logika semua objek pada akhirnya hanya akan membentuk sebuah cluster. Berbeda dengan metode hierarchical clustering, metode nonhierarchical clustering justru dimulai dengan menentukan terlebih dahulu jumlah cluster yang diinginkan (dua cluster, tiga cluster, atau lain sebagainya). Setelah jumlah cluster diketahui, baru proses cluster dilakukan tanpa mengikuti proses hierarki. Metode ini biasa disebut dengan K-Means Clustering [16].
21
Algoritma K-Means Clustering K-Means merupakan salah satu algoritma clustering. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Algoritma ini menerima masukan berupa data tanpa label kelas. Hal ini berbeda dengan supervised learning yang menerima masukan berupa vektor (x1, y1), (x2, y2), ‌, (xi, yi), di mana xi merupakan data dari suatu data pelatihan dan yi merupakan label kelas untuk xi. Pada algoritma pembelajaran ini, komputer mengelompokkan sendiri data-data yang menjadi masukannya tanpa mengetahui terlebih dulu target kelasnya. Pembelajaran ini termasuk unsupervised learning. Masukan yang diterima adalah data atau objek dan k buah
kelompok
(cluster)
yang
diinginkan.
Algoritma
ini
akan
mengelompokkan data atau objek ke dalam k buah kelompok tersebut. Pada setiap cluster terdapat titik pusat (centroid) yang merepresentasikan cluster tersebut. K-Means ditemukan oleh beberapa orang yaitu Lloyd (1957, 1982), Forgey (1965), Friedman and Rubin (1967), and McQueen (1967). Ide dari clustering pertama kali ditemukan oleh Lloyd pada tahun 1957, namun hal tersebut baru dipublikasi pada tahun 1982. K-Means merupakan metode klasterisasi yang paling terkenal dan banyak
digunakan
di
berbagai
bidang
karena
sederhana, mudah
diimplementasikan, memiliki kemampuan untuk mengklaster data yang besar, mampu menangani data outlier, dan kompleksitas waktunya linear O(nKT) dengan n adalah jumlah dokumen, K adalah jumlah kluster, dan T adalah jumlah iterasi. K-Means merupakan metode pengklasteran secara partitioning yang memisahkan data ke dalam kelompok yang berbeda. Pada pengukuran jarak antara setiap objek data dan cluster centroid dapat menggunakan perhitungan seperti euclidean distance, manhattan distance, dan minkowsky distance. Adapun karakteristik dari algoritma KMeans salah satunya adalah sangat sensitif dalam penentuan titik pusat awal
22
klaster karena K-Means membangkitkan titik pusat klaster awal secara random. Pada saat pembangkitan awal titik pusat yang random tersebut mendekati solusi akhir pusat klaster, K-Means mempunyai posibilitas yang tinggi untuk menemukan titik pusat klaster yang tepat. Sebaliknya, jika awal titik pusat tersebut jauh dari solusi akhir pusat klaster, maka besar kemungkinan ini menyebabkan hasil pengklasteran yang tidak tepat. Akibatnya K-Means tidak menjamin hasil pengklasteran yang unik. Inilah yang menyebabkan metode K-Means sulit untuk mencapai optimum global, akan tetapi hanya minimum lokal. Selain itu, algoritma K-Means hanya bisa digunakan untuk data yang atributnya bernilai numerik. Metode K-Means Clustering adalah proses untuk mengelompokkan data ke dalam sebuah cluster dengan titik pusat yang berbeda-beda setiap cluster. Proses K-Means Clustering tersebut meliputi 5 proses, yaitu [18]: 1) Menentukan Titik Pusat Cluster Menentukan titik pusat cluster adalah langkah awal untuk proses K-Menas Clustering. Fungsi proses ini adalah untuk menentukan titik awal sebagai patokan untuk mencari jarak antara data ke cluster yang sudah ditentukan. Titik awal pusat cluster disebut juga dengan centroid. Untuk menentukan titik pusat setiap cluster bisa dilakukan dengan mencari rata-rata dari data yang akan diolah ataupun sesuai keinginan. 2) Menghitung Jarak Data ke Setiap Cluster Setelah menentukan titik pusat di setiap cluster proses selanjutnya adalah menghitung jarak antara data ke setiap cluster yang sudah dibentuk. Rumus untuk mencari jarak (distance) dari satu cluster adalah
23
Rumus 2.1 Rumus Mencari Jarak Data ke Setiap Cluster √(đ?‘‹đ?‘– − đ?‘‹đ?‘Žđ?‘Łđ?‘” )2 + (đ?‘Œđ?‘– − đ?‘‹đ?‘Žđ?‘Łđ?‘” )2 + (đ?‘?đ?‘˜đ?‘– − đ?‘?đ?‘˜đ?‘— )2 Dimana: Xi
: Data pertama (diambil dari atribut pertama)
Xavg
: Titik pusat cluster / centroid untuk atribut pertama
Yi
: Data kedua (diambil dari atribut kedua)
Yavg
: Titik pusat cluster / centroid untuk atribut kedua
Zi
: Data ketiga (diambil dari atribut ketiga)
Zavg
: Titik pusat cluster / centroid untuk atribut pertama
Rumus tersebut adalah rumus untuk menentukan jarak dari satu baris data ke satu cluster tertentu. 3) Mengalokasikan Data kedalam Cluster Setelah mendapatkan jarak antara setiap data ke setiap cluster yang terbentuk maka proses selanjutnya adalah clustering atau mengelompokkan dan mengalokasikan data ke dalam cluster. Untuk mengelompokkan data ke dalam cluster ini cukup dilihat dari jarak terdekat dari setiap cluster. Apabila jarak yang didapatkan dari suatu data adalah dengan urutan paling kecil di setiap cluster, maka data termasuk kedalam cluster pertama. 4) Menentukan Titik Pusat Cluster Baru Setelah mengalokasikan data ke dalam cluster yang terbentuk maka proses selanjutnya adalah menentukan titik pusat cluster baru dengan cara yang sama yaitu mencari rata-rata di setiap
24
atribut data. Tetapi dalam perhitungan kali ini sedikit berbeda dari yang pertama, apabila proses pertama adalah mencari ratarata dari semua atribut data maka untuk menentukan titik pusat cluster baru ini data yang digunakan sesuai dengan clusternya masing-masing. Apabila data yang masuk ke cluster satu adalah data pertama, ketiga, kelima, dan keenam, maka rata-rata yang dicari hanya menggunakan data pertama, ketiga, kelima, dan keenam. 5) Memverifikasi Titik Pusat Cluster Setelah mendapatkan titik pusat cluster baru maka proses selanjutnya adalah memverifikasi titik pusat cluster baru tersebut dengan titik pusat cluster yang lama. Apabila hasil titik pusat cluster baru yang didapat sama dengan titik pusat cluster yang lama, maka proses K-Means sudah selesai dan hasil dari proses K-Means Clustering sudah didapatkan dan data yang diklasifikasi sudah tidak bisa berubah-ubah lagi. Tetapi jika hasil titik pusat cluster baru yang didapat berbeda dari titik pusat cluster yang lama, maka proses K-Means tetap dilanjutkan dan mulai lagi dari proses kedua atau menghitung jarak data ke setiap cluster. Menurut Daniel dan Eko, Langkah-langkah algoritma K-Means adalah sebagai berikut [19]: a) Pilih secara acak k buah data sebagai pusat cluster. b) Jarak antara data dan pusat cluster dihitung menggunakan Euclidian Distance. Untuk menghitung jarak semua data ke setiap titik pusat cluster dapat menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut:
25
= √(đ?‘‹1đ?‘– − đ?‘‹1đ?‘— )2 + (đ?‘‹2đ?‘– − đ?‘‹2đ?‘— )2 + â‹Ż + (đ?‘‹đ?‘˜đ?‘– − đ?‘‹đ?‘˜đ?‘— )2
D (i,j) dimana:
D (i,j) = Jarak data ke i ke pusat cluster j Xki
= Data ke i pada atribut data ke k
Xkj
= Titik pusat ke j pada atribut ke k
c) Data ditempatkan dalam cluster yang terdekat, dihitung dari tengah cluster. d) Pusat cluster baru akan ditentukan bila semua data telah ditetapkan dalam cluster terdekat. e) Proses penentuan pusat cluster dan penempatan data dalam cluster diulangi sampai nilai centroid tidak berubah lagi. Berikut ini adalah contoh penerapan algoritma K-Means [16]: Table 2.1 Data Mahasiswa No
Nama
Jurusan
Kota Asal
IPK
1
Ade Supryan Stefanus
IS
Jakarta
3,16
2
Adelina Ganardi Putri Hardi
ACC
Semarang
3,22
3
Adeline Dewita
BF
Bekasi
3,29
4
Adiputra
IB
Jakarta
2,83
5
Afrieska Laura Trisyana
PR
Jakarta
3,15
6
Agam Khalilullah
IB
Banda Aceh
3,25
7
Agus Mulyana Jungjungan
IB
Bogor
3,43
8
Agusman
PR
Bekasi
3,06
26
9
Aidil Friadi
BF
Banda Aceh
3,36
10
Ajeng Putri Ariandhani
ACC
Bandung
3,28
Transformasi Data Agar data di atas dapat diolah dengan menggunakan metode k-means clustering, maka data yang berjenis data nominal seperti kota asal dan jurusan harus diinisialisasikan terlebih dahulu dalam bentuk angka. Table 2.2 Inisialisasi Data Wilayah Kota Asal Wilayah
Frekuensi
Inisial
Jakarta
84
1
Jawa Barat
82
2
Sumatera Utara
28
3
Sulawesi
14
4
Jawa Timur
13
5
Sumatera Selatan
13
6
Bali
8
7
Kalimantan
1
8
Table 2.3 Inisialisasi Data Jurusan Jurusan
Singkatan
Frekuensi
Inisial
ACC
46
1
Management, concentration in International Business
IB
37
2
Public Relation
PR
35
3
Accounting
27
Management, concentration in Banking & Finance
BF
28
4
Industrial Engineering
IE
23
5
Information Technology
IT
20
6
Management, concentration in Marketing
MKT
18
7
Visual Communication Design
VCD
12
8
Management, concentration in Hotel & Tourism Management
HTM
9
9
Electrical Engineering
EE
6
10
Business Administration
BA
4
11
International Relations
IR
2
12
HRM
1
13
IS
1
14
MGT
1
15
Management, concentration in Human Resources Management Information System Management
Pengolahan data Setelah semua data mahasiswa ditransformasi ke dalam bentuk angka, maka data-data tersebut telah dapat dikelompokan dengan menggunakan algoritma K-Means Clustering. Untuk dapat melakukan pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu: 1) Tentukan jumlah cluster yang diinginkan. Dalam penelitian ini data-data yang ada akan dikelompokkan mejadi tiga cluster. 2) Tentukan titik pusat awal dari setiap cluster. Dalam penelitian ini titik pusat awal ditentukan secara random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel 2.4.
28
Table 2.4 Titik Pusat Awal Setiap Cluster Titik Pusat awal
Nama
Jurusan
Kota Asal
IPK
Cluster 1
Dally Teguh Sesario
9
3
2,94
Cluster 2
Hervina Juliana
1
1
3,18
Cluster 3
Pascal Muhammadi
1
2
3,15
3) Tempatkan setiap data pada cluster. Dalam penelitian ini digunakan metode hard k-means untuk mengalokasikan setiap data ke dalam suatu cluster, sehingga data akan dimasukan dalam suatu cluster yang memiliki jarak paling dekat dengan titik pusat dari setiap cluster. Untuk mengetahui cluster mana yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik pusat setiap cluster. Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama: D (1,1) = √(14 − 9)2 + (1 − 3)2 + (3,16 − 2,94)2 = 5,390 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster pertama adalah 5,390. Jarak data mahasiswa pertama ke pusat cluster kedua: D (1,2) = √(14 − 1)2 + (1 − 1)2 + (3,16 − 3,18)2 = 13,000 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster kedua adalah 13. Jarak data mahasiswa pertama ke pusat cluster ketiga: D (1,3) = √(14 − 1)2 + (1 − 2)2 + (3,16 − 3,15)2 = 13,038
29
Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster ketiga adalah 13.038. Berdasarkan hasil ketiga perhitungan di atas dapat disimpulkan bahwa jarak data mahasiswa pertama yang paling dekat adalah dengan cluster 1, sehingga data mahasiswa pertama dimasukkan ke dalam cluster 1. Hasil perhitungan selengkapnya untuk 5 data mahasiswa pertama dapat di lihat pada tabel 2.5. Table 2.5 Contoh Hasil Perhitungan Setiap Data ke Setiap Cluster Jarak Ke No 1 2
Nama Ade Supryan Stefanus Adelina Ganardi Putri Hardi
Jurusan
Kota Asal
IPK
C1
C2
C3
Jarak terdekat ke Cluster
14
1
3,16 5,390
13,000
13,038
1
1
5
3,22 8,251
4,000
3,001
3
3
Adeline Dewita
4
2
3,29 5,111
3,164
3,003
3
4
Adiputra
2
1
2,83 7,281
1,059
1,450
2
5
Afrieska Laura Trisyana
3
1
3,15 6,328
2,000
2,236
2
4) Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. 5) Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain. Dalam contoh ini, iterasi clustering data mahasiswa terjadi sebanyak 7 kali iterasi. Pada iterasi ke-7 ini, titik pusat dari setiap cluster sudah tidak
30
berubah dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain. Dari hasil cluster 1, terlihat bahwa karakteristik mahasiswa pada cluster 1 didominasi oleh mahasiswa yang berasal dari jurusan Information Technology dan Marketing. Sedangkan, berdasarkan kota asal didominasi oleh mahasiswa yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat, sehingga dapat disimpulkan bahwa rata- rata mahasiswa pada cluster 1 yang berasal dari wilayah kota asal DKI Jakarta dan Jawa Barat mengambil jurusan Information Technology dan Marketing.
Pengujian Hasil Clustering K-Means Metode pengujian yang digunakan untuk menentukan kriteria penilaian bagus atau tidaknya hasil dari perhitungan Clustering K-Means adalah dengan menggunakan metode Between-Class Variation (BCV) dan WithinClass Variation (WCV) pada iterasi terakhir yang sering disebut dengan rasio. Apabila hasil perhitungan pengujian yang diperoleh besar, maka semakin bagus tingkat kualitas clustering tersebut. BCV merupakan rata-rata dari centroid, sedangkan WCV adalah nilai keseluruhan dari jarak minimum yang telah dijumlahkan. Rumus perhitungannya adalah sebagai berikut [20]: Rumus 2.2 Rumus Between-Class Variation (BCV) 1
BCV = đ?‘ đ?‘˜ ∑đ?‘˜đ?‘– = 1 đ?‘‘ (đ?‘šđ?‘– , đ?‘šđ?‘– ) Dimana: k
= Jumlah cluster
mi
= Jumlah anggota dari cluster ke-i
31
i
= Nama yang mewakili cluster yang dibentuk
mi
= Jumlah anggota dari cluster ke-i
Rumus 2.3 Rumus Within-Class Variation (WCV) WCV = ∑đ?‘›đ?‘—=đ?‘– ∑đ?‘?∈đ?‘?đ?‘– đ?‘‘(đ?‘?, đ?‘šđ?‘– )2 Dimana: pâ‚Źci = Jumlah semua data
Rasio
k
= Jumlah cluster
p
= Cluster jarak terdekat
mi
= Jumlah anggota dari cluster ke-i đ?‘Šđ?‘Şđ?‘˝
= đ?‘žđ?‘Şđ?‘˝
Apabila nilai rasio yang didapat semakin kecil maka semakin bagus pula tingkat hasil dari akurasi cluster [21], kriteria hasil ukuran rasio dapat dilihat pada tabel 2.6. Table 2.6 Kriteria Pengukuran Rasio Nilai Rasio
Kriteria
≤ 0,25
Sangat baik
0,25- 0,50
Baik
0,50- 0,75
Kurang baik
0,75– 1,00
Buruk
32
Metode Receiver Operating Characteristic (ROC) Tingkat akurasi diukur dengan cara menggunakan metode ROC. Selain mencari nilai akurasi pada metode ini juga dapat dicari nilai sensitivitas dan spesifitas [22], adapun persamaannya dapat dilihat sebagai berikut: Akurasi =
đ?‘‡đ?‘?+đ?‘‡đ?‘› đ?‘‡đ?‘?+đ?‘‡đ?‘›+đ??šđ?‘?+đ??šđ?‘›
Sensifitas
=
Spesifitas
=
đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘› đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘?
Dimana: Tp
= True positif (Nilai kebenaran pada nilai centeroid)
Tn
= True negative (Nilai centeroid hasil clustering)
Fp
= False positif (Nilai kebeneraan centeroid pada cluser lain)
Fn
= False Negative (Nilai kebeneraan centeroid terakhir pada cluser lain)
33
Apabila hasil dari clustering mendekati titik kurva 1,00 maka akurasi yang didapatkan dalam kategori bagus, untuk melihat hasil akurasi masuk kedalam kategori yang mana, perhatikan Tabel di bawah ini. Table 2.7 Standar Receiver Operating Characteristic (ROC) Nilai Rasio
Kategori
0,80-1,00
Sangat baik
0,60-0,80
Baik
0,40-0,60
Cukup Baik
0,20-0,40
Kurang Baik
0,00-0,20
Tidak Baik
34
2.3
Kerangka Pemikiran Kerangka pemikiran merupakan garis besar dari langkah-langkah penelitian yang sedang dilakukan, kerangka pemikiran dijadikan acuan untuk melakukan tahap-tahap yang sedang dilakukan dalam penelitian. Masalah Bagaimana menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara.
Pengumpulan Data Pengambilan data di UPT Pusat Data dan Pengembangan IT Universitas Islam Nahdlatul Ulama Jepara cukup dengan melampirkan surat izin penelitian dari pihak UNISNU dan melampirkan proposal penelitian ke bagian akademik. Data yang diambil adalah data mahasiswa Universitas Islam Nahdlatul Ulama Jepara angkatan 2016 sampai dengan angkatan 2018.
Metode Penelitian Algoritma
Tools
K-Means Clustering (Euclidean Distance)
Microsoft Excel & RapidMiner Studio
Evaluasi Pengukuran Rasio dan Metode Receiver Operating Characteristic (ROC)
Tujuan atau Hasil 1. Menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara. 2. Untuk mengetahui sebaran wilayah berdasarkan data mahasiswa angkatan 2016 sampai 2018. 3. Untuk mengetahui prioritas wilayah yang tepat untuk cluster yang terbentuk?
Gambar 2.7 Kerangka pemikiran
BAB III METODE PENELITIAN
3.1
Desain Penelitian Metode yang digunakan dalam penelitian tugas akhir ini adalah secara eksperimen, yaitu peneliti menerapakan metode Data Mining dengan algoritma K-Means Clustering pada data mahasiswa UNISNU Jepara angkatan 2016 sampai dengan angkatan 2018 di Universitas Islam Nahdlatul Ulama Jepara untuk dianalisa dan dikelompokkan sesuai dengan persebaran wilayah dan sesuai asal sekolah berdasarkan indeks prestasi kumulatif selama dua semester awal yaitu pada semester 1 dan semester 2. Yang nantinya diuji atau diolah dengan microsoft excel dan rapidminer studio. Kemudian hasilnya akan dibandingkan berdasarkan kategori atau pengklasteran yang sudah ditentukan, yaitu tiga kategori: pertama kategori wilayah terbanyak, kedua kategori wilayah sedang, dan ketiga wilayah kategori sedikit yang nantinya dijadikan bahan pertimbangan dalam media promosi Universitas Islam Nahdlatul Ulama Jepara.
3.2
Pengumpulan Data Untuk melakukan proses K-Means Clustering tentu membutuhkan sebuah data yang cukup banyak dan sesuai dengan yang dibutuhkan, di dalam penelitian ini peneliti menggunakan data mahasiswa UNISNU Jepara angkatan 2016 sampai dengan angkatan 2018 di Universitas Islam Nahdlatul Ulama Jepara. Pengambilan data di UPT Pusat Data dan Pengembangan IT Universitas Islam Nahdlatul Ulama Jepara cukup dengan melampirkan surat izin penelitian dari pihak UNISNU dan melampirkan proposal penelitian ke bagian akademik Universitas Islam Nahdlatul Ulama Jepara. Setelah mendapat balasan dari pihak Universitas Islam Nahdlatul Ulama Jepara, data
35
36
bisa diambil ke bagian UPT Pusat Data dan Pengembangan IT dengan cara mengkopi file berupa file excel. File yang didapatkan sejumlah 2 file yang terdiri dari file mahasiswa angkatan selama tiga angkatan terakhir, dan file data Indeks Prestasi Kumulatif (IPK) mahasiswa. File pertama adalah file data mahasiswa Universitas Islam Nahdlatul Ulama Jepara angkatan 2016 sampai angkatan 2018. Jumlah data yang didapatkan berjumlah 3910 data mahasiswa yang terdiri dari beberapa kolom atau beberapa atribut yaitu: 1. Nomor Induk Mahasiswa (NIM) 2. Nama 3. Alamat 4. Program Studi 5. Tahun Akademik 6. Asal Sekolah 7. Jenis Sekolah 8. Jurusan Sekolah File kedua adalah file data Indeks Prestasi Kumulatif (IPK) mahasiswa dari angkatan 2016 sampai angkatan 2018. Jumlah data mahasiswa yang didapat dalam file ini berjumlah 3910 data mahasiwa. File kedua ini berisikan beberapa kolom yaitu kolom NIM, tahun semester, dan IPK.
37
3.3
Lokasi Penelitian Lokasi dari penelitian adalah Universitas Islam Nahdlatul Ulama Jepara yang disingkat UNISNU beralamat di Jalan Taman Siswa, Pekeng, Jl. Kauman, Kec. Tahunan, Kabupaten Jepara, Jawa Tengah 59451.
3.4
Pengolahan Data Dalam melakukan penelitian ini, dibutuhkan peralatan perangkat keras (Hardware) dan perangkat lunak (Software). Untuk lebih lengkapnya di jelaskan berikut ini:
3.4.1 Perangkat Keras Perangkat keras (hardware) yang digunakan dalam penelitian ini yaitu menggunakan 1 buah laptop yang digunakan selama penelitian. Spesifikasi laptop sebagai berikut: LENOVO YOGA 520, Intel CORE i5-7200U CPU 2.70 GHz, Ram 4gb, Hardisk Storage 1 Terabyte, Windows 10 Pro 64bit.
3.4.2 Perangkat Lunak Perangkat lunak memiliki peran penting pada peneilitian ini karena hasil dari analisis data dapat diketahui dari pengolahan menggunakan perangkat lunak dalam mengetahui hasilnya. Pada penelitian ini, perangkat lunak yang dipakai adalah: a) Sistem Operasi Dalam penelitian ini sistem operasi yang dipakai adalah sistem operasi windows 10 Pro 64bit.
b) Microsoft Word Microsoft Word dalam penelitian disini digunakan untuk menyusun laporan penelitian, Microsoft Word yang dipakai adalah versi 2019. c) Microsoft Excel Microsoft Excel dalam penelitian disini digunakan untuk mengolah data mahasiswa Universitas Islam Nahdlatul Ulama Jepara, Microsoft Excel yang dipakai adalah versi 2019.
3.5
Tahapan Metode Dalam penelitian ini, peneliti menggunakan salah satu metode dalam Data Mining yaitu metode K-Means Clustering. Dalam metode ini memiliki beberapa tahapan. Tahapan yang dilakukan adalah:
3.5.1 Pre-processing Data Tahap pre-processing data adalah tahap dimana data yang sudah didapatkan, dipilah, dan dipisahkan agar mendapatkan data yang dibutuhkan untuk proses selanjutnya. Tahapan ini mempunyai beberapa proses dimana setiap proses tersebut saling berhubungan satu sama lainnya. Proses dalam tahapan pre-processing adalah sebagai berikut: 1. Data Reduction Data reduction adalah proses untuk mereduksi atau mengurangi dimensi, atribut, ataupun sejumlah data yang tidak dibutuhkan dalam suatu file data. Data reduction sangat berguna untuk
38
39
mendapatkan atribut dan sejumlah data yang akan digunakan di dalam penelitian ini. 2. Data Cleaning Data cleaning adalah proses dalam tahapan preprocessing untuk mengisi data kosong atau blank apabila memungkinkan, duplikasi data, memperbaiki data yang tidak sesuai dengan ketentuan atau salah ketik seperti kurang huruf dan kelebihan huruf, mengubah dan memodifikasi data agar data yang akan diolah adalah data yang konsisten, mengatur data yang kurang rapi dalam penulisan huruf besar dan kecil, dan mengganti format penulisan angka dan huruf sesuai dengan yang dibutuhkan. 3. Data Transformation Karena metode K-Means Clustering adalah metode yang bisa dilakukan apabila data yang dipakai adalah data berupa angka, maka proses transformation ini sangat dibutuhkan. Proses transformation adalah tahap untuk mengubah data atribut yang selain angka ke dalam nilai angka agar data tersebut dapat diolah menggunakan algoritma K-Means Clustering. 4. Data Integration Data integration adalah suatu proses untuk menggabungkan atau mengintegrasikan data dari beberapa file sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang
dilakukan
antara
lain
mengintegrasikan
skema,
mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.
40
3.5.2 K-Means Clustering Dari eksperimen ini di ambil sampel data Universitas Islam Nahdlatul Ulama Jepara, berikut ini adalah sampel data mahasiswa angkatan 2016 sampai angkatan 2018. Table 3.1 Data Mahasiswa 2016 sampai 2018 No
NIM
Nama
Kecamatan Asal
Asal Sekolah
IPK
1
161240000470 Akhmad Toha
Batealit
SMK
3,66
2
161240000471
Bima Muluk Maulana Ishaq
Mlonggo
SMK
3,52
3
161240000473 Taufiq Hidayat
Pakis Aji
SMK
3,54
4
161240000474 Miftahul Huda
Mijen
SMK
2,96
5
161240000475
Donorojo
SMK
2,62
6
161240000476 Anis Safitri
Bangsri
MA
3,48
7
161240000477
Jepara
SMK
3,47
8
171110002054 Emilia Inta Argadea
Jepara
SMA
3,17
9
171110002089 Heri Fajar Saputra
Batealit
SMA
2,10
10
171110002058 Fania Eka Kumala
Jepara
SMK
3,54
11
171110002187 Ade Rahmawati
Bangsri
SMK
2,08
12
171110002060 Aldo Ilham Hadzafi
Tahunan
SMK
2,22
13
171110002057
Batealit
MA
2,71
14
171110002062 Akhmad Safii
Tahunan
MA
3,15
15
181110002277 Anwar Ramadan
Jepara
SMK
3,32
16
181110002279 Dinda Laili Savitri
Batealit
SMK
3,17
17
181110002429
Jepara
SMK
3,43
Muhammad Hidayatul Mustafid
Dimas Cornellya Agatta
Venny Aulia Rohmah
Unsaa Nailul Munaa
41
18
181120002245 Reyhan Ade Tirany
19
181130001615 Rizki Nor Amalia
20
181240000747
21
181250000256 Siti Marhamah
Jepara
SMA
3,55
Pecangaan
SMA
3,51
Jepara
SMK
3,40
Jepara
SMK
3,82
Muhammad Agung Prayogi
1. Transformasi Data Transpormasi data dilakukan untuk mengubah data agar data dapat diolah dengan menggunakan metode K-Means Clustering. Data yang berjenis nominal seperti Kecamatan Asal dan Asal Sekolah harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka/numerikal. Table 3.2 Inisialisasi Data Kecamatan Asal Kecamatan Asal
Frekuensi
Inisial
Jepara
8
1
Batealit
4
2
Bangsri
2
3
Tahunan
2
4
Donorojo
1
5
Mijen
1
6
Mlonggo
1
7
Pakis Aji
1
8
Pecangaan
1
9
42
Table 3.3 Inisialisasi Data Asal Sekolah Asal Sekolah
Frekuensi
Inisial
SMK
14
1
SMA
4
2
MA
3
3
2. Pengolahan Data Setelah semua data mahasiswa ditransformasi ke dalam bentuk angka, maka data-data tersebut telah dapat dikelompokan dengan menggunakan algoritma K-Means Clustering. Untuk dapat melakukan pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu: 1. Tentukan jumlah cluster yang diinginkan. Dalam eksperimen ini data-data yang ada akan dikelompokkan mejadi tiga cluster. 2. Tentukan titik pusat awal dari setiap cluster. Dalam eksperimen ini titik pusat awal ditentukan secara random dan didapat titik pusat dari setiap cluster dapat dilihat pada tabel 3.4. Table 3.4 Titik Pusat Awal Setiap Cluster
Titik Pusat
Kecamatan Asal
Asal Sekolah
IPK
Cluster 1
Mijen
SMK
2,956
Cluster 2
Bangsri
SMK
2,077
Cluster 3
Jepara
SMA
3,554
43
3. Tempatkan setiap data pada cluster. Dalam eksperimen ini digunakan metode hard k-means untuk mengalokasikan setiap data ke dalam suatu cluster, sehingga data akan dimasukan dalam suatu cluster yang memiliki jarak paling dekat dengan titik pusat dari setiap cluster. Untuk mengetahui cluster mana yang paling dekat dengan data, maka perlu dihitung jarak setiap data dengan titik pusat setiap cluster. Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama: D (1,1) = √(2 − 6)2 + (1 − 1)2 + (3,663 − 2,956)2 = 4,062 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster pertama adalah 4,062. Jarak data mahasiswa pertama ke pusat cluster kedua: D (1,2) = √(2 − 3)2 + (1 − 1)2 + (3,663 − 2,077)2 = 1,875 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster kedua adalah 1,875. Jarak data mahasiswa pertama ke pusat cluster ketiga: D (1,3) = √(2 − 1)2 + (1 − 2)2 + (3,663 − 3,554)2 = 1,418 Dari hasil perhitungan di atas didapatkan hasil bahwa jarak data mahasiswa pertama dengan pusat cluster ketiga adalah 1,418. Berdasarkan hasil ketiga perhitungan di atas dapat disimpulkan bahwa jarak data mahasiswa pertama yang paling dekat adalah dengan cluster 3, sehingga data mahasiswa pertama dimasukkan ke dalam cluster 3. Hasil perhitungan selengkapnya untuk 21 data mahasiswa pertama dapat di lihat pada tabel 3.5.
44
Table 3.5 Contoh Hasil Perhitungan Setiap Data ke Setiap Cluster Asal Sekol IPK ah
NIM
Kecamat an Asal
1
161240000470
2
1
2
161240000471
7
3
161240000473
4
No
Jarak Ke C1
Jarak terdekat ke Cluster
C2
C3
3,66 5,51
2,19
0,88
3
1
3,52 0,58
3,40
5,69
1
8
1
3,54 0,58
4,36
6,68
1
161240000474
6
1
2,96 1,58
2,35
4,70
1
5
161240000475
5
1
2,62 2,63
1,45
3,75
2
6
161240000476
3
3
3,48 4,83
1,64
2,31
2
7
161240000477
1
1
3,47 6,51
3,01
0,57
3
8
171110002054
1
2
3,17 6,55
2,84
0,68
3
9
171110002089
2
2
2,10 5,70
1,91
1,47
3
10
171110002058
1
1
3,54 6,51
3,03
0,60
3
11
171110002187
3
1
2,08 4,69
1,30
2,10
2
12
171110002060
4
1
2,22 3,70
0,96
2,90
2
13
171110002057
2
3
2,71 5,81
2,16
1,81
3
14
171110002062
4
3
3,15 3,92
1,29
3,10
2
15
181110002277
1
1
3,32 6,51
2,98
0,54
3
16
181110002279
2
1
3,17 5,51
2,02
0,79
3
17
181110002429
1
1
3,43 6,51
3,00
0,56
3
18
181120002245
1
2
3,55 6,55
2,93
0,73
3
19
181130001615
9
2
3,51 1,68
5,27
7,69
1
20
181240000747
1
1
3,40 6,50
2,99
0,55
3
21
181250000256
1
1
3,82 6,52
3,12
0,76
3
45
4. Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. 5. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain. Dalam sampel data ini, iterasi clustering data mahasiswa terjadi sebanyak 5 kali iterasi. Pada iterasi ke-4 ini, titik pusat dari setiap cluster sudah tidak berubah dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain.
3.6
Evaluasi Dalam eksperimen sampel data Universitas Islam Nahdlatul Ulama Jepara, dari data mahasiswa angkatan 2016 sampai angkatan 2018, pasti memiliki nilai error, semakin kecil nilai error yang dimiliki pada hasil perhitungan maka semakin bagus pula hasil yang akan didapatkan. Pada penelitian ini menghitung nilai error menggunakan persamaan yang pada sebelumnya sudah dijelaskan, perhitungan nilai error terdapat pada proses berikut ini:
46
3.6.1 Pengujian Metode BCV dan WCV 1. Menentukan iterasi keberapa akan dihitung Untuk menentukan iterasi diambil pada iterasi terakhir karena iterasi terakhir memiliki kualitas centeroid yang lebih baik dari sebelumnya, pada penelitian ini menggunakan sampel data perhitungan Universitas Islam Nahdlatul Ulama Jepara, dari data mahasiswa angkatan 2016 sampai angkatan 2018, untuk lebih jelasnya dapat Tabel di bawah ini. Table 3.6 Nilai Centroid pada iterasi terakhir Titik Pusat Kecamatan Asal
Asal Sekolah
IPK
Cluster 1
7,50
1,25
3,38
Cluster 2
3,80
1,80
2,71
Cluster 3
1,33
1,42
3,28
Kemudian hitung nilai Centroid dengan persamaan Between-Class Variation (BCV). BCV = √(7,50 − 3,80)2 + (1,25 − 1,80)2 + (3,38 − 2,71)2 + BCV = √(7,50 − 1,33)2 + (1,25 − 1,42)2 + (3,38 − 2,28)2 + BCV = √(3,80 − 1,33)2 + (1,80 − 1,42)2 + (2,71 − 2,28)2 BCV = 12,53 2. Menentukan jarak minimum centeroid Pada proses ini menggunakan jarak minimum pusat centeroid yang didapat pada iterasi terakhir, dapat dilihat pada tabel 3.5. Setelah
47
mendapatkan jarak minimum dengan nilai pusat centroid maka langkah selanjutnya menghitung seluruh jarak minimum dengan persamaan WithinClass Variation (WCV) sebagai berikut: WCV = 0,882 + 0,582 + 0,582 + 1,582 +. . . +0,552 + 0,762 Sehingga hasil yang didapat adalah WCV = 25,01 3. Menghitung perbandingan BCV dengan WCV Pada langkah terakhir adalah menghitung nilai perbandingan BCV dengan WCV sehingga menghasilkan nilai error hitung dengan persamaan Rasio seperti terlihat pada hasil dibawah ini. Rasio =
12,53 25,01
= 0,050
Untuk menentukan bagus atau tidaknya hasil pengujian dari nilai rasio yang didapat maka harus memperhatikan kriteria pengukuran rasio, dapat dilihat pada tabel 2.6. Hasil pengujian menggunakan perbandingan BetweenClass Variation (BCV) dan Within-Class Variation (WCV) mendapatkan nilai rasio yang tidak tinggi yaitu 0,50 dan artinya tingkat penggunaan nilai sample data Centroid memiliki kualitas yang baik.
3.6.2 Pengujian Metode ROC Metode ROC digunakan untuk menghitung nilai akurasi hasil clustering yang telah diproses oleh sistem. Selain nilai akurasi, nilai sensifitas dan nilai spesifitas dapat dihitung juga. Adapun untuk mencari nilai akurasi dapat dicari dengan persamaan akurasi, untuk mencari nilai sensifitas dengan persamaan sensifitas, dan mencari nilai spesifitas dengan persamaan spesifitas. Pada penelitian ini digunakan sampel data dari hasil clustering data mahasiswa angkatan 2016 sampai angkatan 2018 yang berupa data nilai
48
centeroid awal dan nilai centeroid pada iterasi terakhir. Data tersebut ditampilkan dalam tabel 3.7 di bawah ini. Table 3.7 Nilai Centroid pada iterasi terakhir
Titik Pusat
Centroid Awal
Centroid Iterasi Terakhir
Cluster 1
2,96
3,38
Cluster 2
2,08
2,71
Cluster 3
3,17
3,28
Akurasi
=
Sensifitas = Spesifitas =
2,96+3,38 2,96+3,38+3,17+3,28 2,96 2,96+3,28 2,96 2,96+3,17
= 0,50
= 0,47 = 0,48
Sesuai dengan perhitungan nilai akurasi yang didapat adalah 0,50. Nilai akurasi ini berada dalam kategori baik berdasarkan referensi pada tabel 3.8 dibawah ini. Table 3.8 Standar Receiver Operating Characteristic (ROC) Nilai Rasio
Kategori
0,80-1,00
Sangat baik
0,60-0,80
Baik
0,40-0,60
Cukup Baik
0,20-0,40
Kurang Baik
0,00-0,20
Tidak Baik
DAFTAR PUSTAKA [1]
I. Kurniawati, R. E. Indrajit, and M. Fauzi, “Peran Bussines Intelligence Dalam Menentukan Strategi Promosi Penerimaan Mahasiswa Baru,” J. Komput. dan Inform., vol. 1, no. 2, pp. 70–79, 2017.
[2]
M. Arifin, “Business Intelligence Untuk Customer Churn Telekomunikasi,” Pros. SNATIF, no. 1, pp. 279–286, 2014.
[3]
H. Islam and M. Haque, “An Approach of Improving Student’s Academic Performance by using K-means clustering algorithm and Decision tree,” Int. J. Adv. Comput. Sci. Appl., 2012.
[4]
Nor Syazwani Rasid and N. Ahmad, “Grouping Students Academic Performance Using One-Way Clustering,” 2014.
[5]
E. Sugiharti and M. A. Muslim, “On-line clustering of lecturers performance of computer science department of semarang state university using K-MeansAlgorithm,” J. Theor. Appl. Inf. Technol., 2016.
[6]
Mardalius, “Implementasi Algoritma K-Means Clustering Untuk Menentukan Kelas Kelompok Bimbingan Belajar Tambahan,” Teknol. Mob., p. 105, 2017.
[7]
Andi Wijanarko, “Penerapan Data Mining Untuk Menentukan Strategi Promosi Universitas Pgri Yogyakarta Menggunakan Algoritma K-Means Clustering,” vol. 62, no. 1, pp. 27–40, 2016.
[8]
Akhmad Choerudin Wakhid, “Implementasi Data Mining Menggunakan Algoritma K- Means Clusterinng Untuk Mengetahui Pola Pemilihan Program Studi Mahasiswa Baru Iain Salatiga,” vol. 102, no. 4, pp. 24–25, 2017.
[9]
“Bussiness Intelligence Environment,” 2015. [Online]. Available: https://www.learnbi.com/blog/business-intelligence-environment/.
[10]
Z. Tang, J. Maclennan, and P. P. Kim, “Building Data Mining solutions with OLE DB for DM and XML for Analysis,” in SIGMOD Record, 2005.
[11]
I. H. Witten, E. Frank, and M. a. Hall, Data Mining: Practical Machine Learning Tools and Techniques, Third Edition. 2011.
[12]
D. T. Larose, Discovering Knowledge in Data: An Introduction to Data Mining. 2005.
[13]
J. Han and M. Kamber, Data Mining Concept and Tehniques. 2006.
[14]
Emha Taufiq Luthfi, Penerapan Data Mining Algoritma Asosiasi Untuk Meningkatkan Penjualan. 2009.
[15]
M. T. Mukhammad Yunan Helmy, Drs. Kushartantya M.Ikomp, Nurdin Bahtiar S.Si., “Implementasi Data Mining Untuk Memprediksi Kelayakan
Permintaan Pinjaman Nasabah Di Lembaga Keuangan,” vol. 2, no. 1, pp. 267–274, 2013. [16]
Agus Nur Khormarudin, “Teknik Data Mining : Algoritma K-Means Clustering,” pp. 1–12, 2016.
[17]
Dosen Pendidikan 3, “Data Mining,” 2019. [Online]. Available: https://www.dosenpendidikan.co.id/metode-data-mining/.
[18]
R. D. Ramadhani, “Data Mining Menggunakan Algoritma K-Means Clustering Untuk Menentukan Strategi Promosi Universitas Dian Nuswantoro,” Ind. Mark. Manag., vol. 1, no. 1, pp. 1–9, 2014.
[19]
R. K. Daniel and S. Eko, “Penentuan Alih Fungsi Lahan Marginal Menjadi Lahan Pangan Berbasis,” JdC, vol. 2, no. 2, pp. 18–25, 2013.
[20]
A. M. Siregar, “Penerapan Algoritma K-Means Untuk Pengelompokan Daerah Rawan Bencana Di Indonesia,” Intern. (Information Syst. Journal), vol. 1, no. 2, pp. 1–10, 2019.
[21]
J. E. Gentle, L. Kaufman, and P. J. Rousseuw, “Finding Groups in Data: An Introduction to Cluster Analysis.,” Biometrics, 1991.
[22]
C. Vercellis, Business Intelligence: Data Mining and Optimization for Decision Making. 2009.