SEMINAR PROPOSAL SKRIPSI
Pembimbing : 1. Harminto Mulyo, M.Kom 2. Nur Aeni Widiastuti, S.Pd., M.Kom
DAMAS FAHMI ASSENA 161240000500
UNISNU adalah sebuah perguruan tinggi di Indonesia yang merupakan penggabungan dari 3 perguruan tinggi yaitu STIENU, STTDNU dan INISNU. UNISNU memiliki 5 fakultas dan 19 program studi.
Latar Belakang Data Mahasiswa UNISNU 2016 - 2018 Jumlah Mahasiswa
1400 1350
Seleksi masuk mahasiswa di UNISNU lebih dikenal dengan istilah Penerimaan Mahasiswa Baru (PMB) Bisnis Intelligence (BI) digunakan untuk mengelompokan data mahasiswa dengan memanfaatkan proses data mining menggunakan metode smart clustering yaitu k-means.
1300 1250 1200 1150 1100 1050 2016
2017
Tahun
2018
K-means merupakan salah satu metode data non-hierarchical clustering yang dapat mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki karakteristik berbeda dikelompokkan dalam cluster yang lain.
Latar Belakang 1) 2)
3)
Menurut Nor Syazwani Rasid dan Ahmad (2014) telah melakukan penelitian yang berjudul “Grouping Students Academic Performance Using One-Way Clustering”. Menurut Sugiharti dan Muslim (2016) telah menyelesaikan penelitian yang berjudul “On-Line Clustering of Lectures Performance of Computer Science Department of Semarang State University Using K-Means Algorithm”. Menurut Mardalius (2017) telah melakukan penelitian yang berjudul “Implementasi Algoritma K-Means Clustering Untuk Menentukan Kelas Kelompok Bimbingan Belajar Tambahan”.
Diharapkan penelitian dengan menerapkan metode k-means, mampu membantu kegiatan memberikan status mahasiswa kepada pelamar yang hendak menempuh studi (Admisi) pada Universitas Islam Nahdlatul Ulama Jepara untuk mengambil keputusan dalam menentukan wilayah promosi yang tepat sasaran dan mana yang menjadi prioritas wilayah dari mahasiswa terbanyak sehingga tidak terjadi penurunan jumlah mahasiswa pada tahun berikutnya dan juga untuk mendapatkan nilai akurasi dari kinerja metode k-means.
PENDAHULUAN Rumusan Masalah
Batasan Masalah Algoritma yang digunakan adalah Algoritma K-Means Clustering. Data mahasiswa Universitas Islam Nahdlatul Ulama angkatan 2016 sampai dengan angkatan 2018.
Atribut : kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa semester pertama dan kedua pada Universitas Islam Nahdlatul Ulama angkatan 2016 sampai dengan angkatan 2018.
Data Mining
Sebaran wilayah Cluster
Tujuan Penelitian 1) Menerapkan metode Data Mining dengan algoritma K-Means Clustering. 2) Mengetahui sebaran wilayah. 3) Cluster yang terbentuk.
PENDAHULUAN Manfaat Penelitian Bagi peneliti:
Bagi perguruan tinggi:
a) Data mahasiswa yang berjumlah ribuan dapat cepat diproses dan dipisahkan berdasarkan kemiripan data dengan metode data mining menggunakan algoritma K-Means Clustering. b) Hasil penelitian ini dapat memberikan gambaran wilayah mana yang berpontensi dalam penerimaan mahasiswa baru berdasarkan kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa.
a) Bagi Universitas Islam Nahdlatul Ulama Jepara, dapat digunakan sebagai pertimbangan untuk memaksimalkan wilayah mana yang di prioritaskan untuk dilakukannya promosi. b) Bagi Admisi Universitas Islam Nahdlatul Ulama Jepara, membantu sebagai bahan pertimbangan untuk menentukan langkah selanjutnya dalam penerimaan mahasiswa baru.
Tinjauan Studi Dalam penelitian yang dilakukan sebelumnya dengan judul Penerapan Data Mining Untuk Menentukan Strategi Promosi Universitas PGRI Yogyakarta Menggunakan Algoritma Kmeans Clustering. Dalam Penelitian selanjutnya dengan judul Implementasi Data Mining Menggunakan Algoritma K-Means Clustering Untuk Mengetahui Pola Pemilihan 8 Program Studi IAIN Salatiga.
Tinjauan Pustaka Bussines Intelligence Business Intelligence (BI) adalah sebuah proses untuk meningkatkan keunggulan kompetitif perusahaan melalui pendayagunaan berbagai data, informasi, dan pengetahuan (knowledge). konsep BI menekankan pada penerapan 5 pendayagunaan informasi untuk keperluan spesifik bisnis, masing-masing adalah sebagai berikut : 1) Data sourcing. 2) Data analysis. 3) Situation awareness. 4) Risk analysis. 5) Decission support.
Data Mining Pengertian Data Mining Data mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar
Tahapan Data Mining Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Tahapan data mining ada 7 yaitu: [16] 1. Data Cleaning 2. Data Integration 3. Data Selection 4. Data Transformation 5. Data Mining 6. Pattern Evaluation 7. Knowledge Presentation
Data Mining Metode Data Mining Salah satu metode data mining adalah model Cross-Standard Industry for Data Mining (CRISP-DM) yang terdiri dari 6 fase, yaitu [1]: 1. Fase pemahaman bisnis (Business Un 4. Fase pemodelan (Modelling) derstanding) 5. Fase Evaluasi (Evaluation) 2. Fase pemahaman data (Data 6. Fase Penyebaran (Deployment) Understanding) 3. Fase pengolahan data (Data Preparation)
Clustering Menurut Deka, Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari objek-objek yang mempunyai karakteristik yang umum di data yang cukup besar. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Menurut Oyelade, clustering dapat dibagi menjadi dua, yaitu hierarchical clustering dan non-hierarchical clustering.
Algoritma K-Means Clustering K-Means merupakan salah satu algoritma clustering. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Metode K-Means Clustering adalah proses untuk mengelompokkan data ke dalam sebuah cluster dengan titik pusat yang berbeda-beda setiap cluster. Proses K-Means Clustering tersebut meliputi 5 proses, yaitu [2]:
1) Menentukan Titik Pusat Cluster
Menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut:
2) Menghitung Jarak Data ke Setiap Cluster 3) Mengalokasikan Data kedalam Cluster 4) Menentukan Titik Pusat Cluster Baru 5) Memverifikasi Titik Pusat Cluster
D (i,j) = (đ?‘żđ?&#x;?đ?’Š − đ?‘żđ?&#x;?đ?’‹)đ?&#x;? + (đ?‘żđ?&#x;?đ?’Š − đ?‘żđ?&#x;?đ?’‹)đ?&#x;? + â‹Ż + (đ?‘żđ?’Œđ?’Š − đ?‘żđ?’Œđ?’‹)đ?&#x;? dimana: D (i,j) Xki Xkj
= Jarak data ke i ke pusat cluster j = Data ke i pada atribut data ke k = Titik pusat ke j pada atribut ke k
Algoritma K-Means Clustering
Pengujian Hasil Clustering K-Means Metode pengujian yang digunakan untuk menentukan kriteria penilaian bagus atau tidaknya hasil dari perhitungan Clustering KMeans adalah dengan menggunakan metode Between-Class Variation (BCV) dan Within-Class Variation (WCV) pada iterasi terakhir yang sering disebut dengan rasio.
Between-Class Variation (BCV) 1 BCV = đ?‘ đ?‘˜ Ďƒđ?‘˜đ?‘– = 1 đ?‘‘(đ?‘šđ?‘– , đ?‘šđ?‘– )
đ??ľđ??śđ?‘‰
Rasio = đ?‘Šđ??śđ?‘‰
Within-Class Variation (WCV) WCV = Ďƒđ?‘›đ?‘—=đ?‘– Ďƒđ?‘?∈đ?‘?đ?‘– đ?‘‘(đ?‘?, đ?‘šđ?‘– )2 Nilai Rasio
Kriteria
≤ 0,25
Sangat baik
0,25- 0,50
Baik
0,50- 0,75
Kurang baik
0,75– 1,00
Buruk
Algoritma K-Means Clustering
Metode Receiver Operating Characteristic (ROC) Tingkat akurasi diukur dengan cara menggunakan metode ROC. Selain mencari nilai akurasi pada metode ini juga dapat dicari nilai sensitivitas dan spesifitas [24]. Akurasi
=
Sensifitas = Spesifitas =
đ?‘‡đ?‘?+đ?‘‡đ?‘› đ?‘‡đ?‘?+đ?‘‡đ?‘›+đ??šđ?‘?+đ??šđ?‘› đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘› đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘?
Dimana: Tp = True positif (Nilai kebenaran pada nilai centeroid) Tn = True negative (Nilai centeroid hasil clustering) Fp = False positif (Nilai kebeneraan centeroid pada cluser lain) Fn = False Negative (Nilai kebeneraan centeroid terakhir pada cluser lain)
Nilai Rasio
Kategori
0,80-1,00
Sangat baik
0,60-0,80
Baik
0,40-0,60
Cukup Baik
0,20-0,40
Kurang Baik
0,00-0,20
Tidak Baik
Kerangka Pemikiran
Pengumpulan Data Pengambilan data di UPT Pusat Data dan Pengembangan IT Universitas Islam Nahdlatul Ulama Jepara cukup dengan melampirkan surat izin penelitian dari pihak UNISNU dan melampirkan proposal penelitian ke bagian akademik. Data yang diambil adalah data mahasiswa Universitas Islam Nahdlatul Ulama Jepara angkatan 2016 sampai dengan angkatan 2018.
Masalah Bagaimana menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara.
Metode Penelitian Algoritma
Tools
Evaluasi
K-Means Clustering (Euclidean Distance)
Microsoft Excel & RapidMiner Studio
Pengukuran Rasio dan Metode Receiver Operating Characteristic (ROC)
Tujuan atau Hasil 1. 2.
Menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara. Untuk mengetahui sebaran wilayah berdasarkan data mahasiswa angkatan 2016 sampai 2018.
Desain Penelitian
Lokasi Penelitian
Pengolahan Data
Pengumpulan Data
Perangkat Keras
Perangkat Lunak
Tahapan Metode Dalam penelitian ini, peneliti menggunakan salah satu metode dalam Data Mining yaitu metode K-Means Clustering. Dalam metode ini memiliki beberapa tahapan. Tahapan yang dilakukan adalah:
1. Pre-processing Data Proses dalam tahapan pre-processing adalah sebagai berikut: 1. Data Reduction 2. Data Cleaning 3. Data Transformation 4. Data Integration
K-Means Clustering Dari eksperimen ini di ambil sampel data Universitas Islam Nahdlatul Ulama Jepara, berikut ini adalah sampel data mahasiswa angkatan 2016 sampai angkatan 2018. No
NIM
1
161240000470
2
Nama
Kecamatan Asal
Asal Sekolah
IPK
Akhmad Toha
Batealit
SMK
3,66
161240000471
Bima Muluk Maulana Ishaq
Mlonggo
SMK
3,52
3
161240000473
Taufiq Hidayat
Pakis Aji
SMK
3,54
4
161240000474
Miftahul Huda
Mijen
SMK
2,96
5
161240000475
Muhammad Hidayatul Mustafid
Donorojo
SMK
2,62
6
161240000476
Anis Safitri
Bangsri
MA
3,48
…
………………….
………………….
………………….
………
21
181250000256
Jepara
SMK
3,82
…………………. Siti Marhamah
Transpormasi data dilakukan untuk mengubah data agar data dapat diolah dengan menggunakan metode K-Means Clustering. Data yang berjenis nominal seperti Kecamatan Asal dan Asal Sekolah harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka/numerikal.
Tabel Inisialisasi Data Kecamatan Asal
Tabel Inisialisasi Data Asal Sekolah
Kecamatan Asal
Frekuensi
Inisial
Asal Sekolah
Frekuensi
Inisial
Jepara
8
1
SMK
14
1
Batealit
4
2
SMA
4
2
Bangsri
2
3
MA
3
3
Tahunan
2
4
Donorojo
1
5
Mijen
1
6
Mlonggo
1
7
Pakis Aji
1
8
Pecangaan
1
9
Melakukan pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu: Tabel Titik Pusat Awal Setiap Cluster Titik Pusat
Kecamatan Asal
Asal Sekolah
IPK
Cluster 1
Mijen
SMK
2,956
Cluster 2
Bangsri
SMK
2,077
Cluster 3
Jepara
SMA
3,554
1.Tentukan jumlah cluster yang diinginkan
2.Tentukan titik pusat awal dari setiap cluster. 3.Tempatkan setiap data pada cluster.
Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama: D (1,1) = (2 − 6)2 + (1 − 1)2 + (3,663 − 2,956)2 = 4,062 Pusat cluster pertama adalah 4,062. D (1,2) = (2 − 3)2 + (1 − 1)2 + (3,663 − 2,077)2 = 1,875 Pusat cluster kedua adalah 1,875. D (1,3) = (2 − 1)2 + (1 − 2)2 + (3,663 − 3,554)2 = 1,418 Pusat cluster ketiga adalah 1,418.
4. Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. 5. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain.
Pengujian Metode BCV dan WCV
1. Menentukan iterasi keberapa akan dihitung Titik Pusat
Kecamatan Asal Sekolah Asal
BCV = (7,50 − 3,80)2 + (1,25 − 1,80)2 + (3,38 − 2,71)2 + BCV = (7,50 − 1,33)2 + (1,25 − 1,42)2 + (3,38 − 2,28)2 + BCV = (3,80 − 1,33)2 + (1,80 − 1,42)2 + (2,71 − 2,28)2 = 12,53
IPK
2. Menentukan jarak minimum centeroid WCV = 0,882 + 0,582 + 0,582 + 1,582 +. . . +0,552 + 0,762
Cluster 1
7,5
1,25
3,38
Cluster 2
3,8
1,8
2,71
Cluster 3
1,33
1,42
3,28
= 25,01
3. Menghitung perbandingan BCV dengan WCV Rasio =
12,53 25,01
= 0,050
Pengujian Metode ROC Tabel Nilai Centroid pada iterasi terakhir Tabel Standar Receiver Operating Characteristic (ROC) Nilai Rasio
Kategori
0,80-1,00
Sangat baik
0,60-0,80
Baik
0,40-0,60
Cukup Baik
0,20-0,40
Kurang Baik
0,00-0,20
Tidak Baik
Titik Pusat
Centroid Awal
Centroid Iterasi Terakhir
Cluster 1
2,96
3,38
Cluster 2
2,08
2,71
Cluster 3
3,17
3,28
Akurasi
=
2,96+3,38 2,96+3,38+3,17+3,28
= 0,50
Sensifitas
=
2,96 2,96+3,28
= 0,47
Spesifitas
=
2,96 2,96+3,17
= 0,48
TERIMA KASIH DAMAS FAHMI ASSENA 161240000500