Presentasi Proposal Skripsi |Damas Fahmi Assena

Page 1

SEMINAR PROPOSAL SKRIPSI

Pembimbing : 1. Harminto Mulyo, M.Kom 2. Nur Aeni Widiastuti, S.Pd., M.Kom

DAMAS FAHMI ASSENA 161240000500


UNISNU adalah sebuah perguruan tinggi di Indonesia yang merupakan penggabungan dari 3 perguruan tinggi yaitu STIENU, STTDNU dan INISNU. UNISNU memiliki 5 fakultas dan 19 program studi.

Latar Belakang Data Mahasiswa UNISNU 2016 - 2018 Jumlah Mahasiswa

1400 1350

Seleksi masuk mahasiswa di UNISNU lebih dikenal dengan istilah Penerimaan Mahasiswa Baru (PMB) Bisnis Intelligence (BI) digunakan untuk mengelompokan data mahasiswa dengan memanfaatkan proses data mining menggunakan metode smart clustering yaitu k-means.

1300 1250 1200 1150 1100 1050 2016

2017

Tahun

2018

K-means merupakan salah satu metode data non-hierarchical clustering yang dapat mengelompokkan data mahasiswa ke dalam beberapa cluster berdasarkan kemiripan dari data tersebut, sehingga data mahasiswa yang memiliki karakteristik yang sama dikelompokkan dalam satu cluster dan yang memiliki karakteristik berbeda dikelompokkan dalam cluster yang lain.


Latar Belakang 1) 2)

3)

Menurut Nor Syazwani Rasid dan Ahmad (2014) telah melakukan penelitian yang berjudul “Grouping Students Academic Performance Using One-Way Clustering”. Menurut Sugiharti dan Muslim (2016) telah menyelesaikan penelitian yang berjudul “On-Line Clustering of Lectures Performance of Computer Science Department of Semarang State University Using K-Means Algorithm”. Menurut Mardalius (2017) telah melakukan penelitian yang berjudul “Implementasi Algoritma K-Means Clustering Untuk Menentukan Kelas Kelompok Bimbingan Belajar Tambahan”.

Diharapkan penelitian dengan menerapkan metode k-means, mampu membantu kegiatan memberikan status mahasiswa kepada pelamar yang hendak menempuh studi (Admisi) pada Universitas Islam Nahdlatul Ulama Jepara untuk mengambil keputusan dalam menentukan wilayah promosi yang tepat sasaran dan mana yang menjadi prioritas wilayah dari mahasiswa terbanyak sehingga tidak terjadi penurunan jumlah mahasiswa pada tahun berikutnya dan juga untuk mendapatkan nilai akurasi dari kinerja metode k-means.


PENDAHULUAN Rumusan Masalah

Batasan Masalah Algoritma yang digunakan adalah Algoritma K-Means Clustering. Data mahasiswa Universitas Islam Nahdlatul Ulama angkatan 2016 sampai dengan angkatan 2018.

Atribut : kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa semester pertama dan kedua pada Universitas Islam Nahdlatul Ulama angkatan 2016 sampai dengan angkatan 2018.

Data Mining

Sebaran wilayah Cluster

Tujuan Penelitian 1) Menerapkan metode Data Mining dengan algoritma K-Means Clustering. 2) Mengetahui sebaran wilayah. 3) Cluster yang terbentuk.


PENDAHULUAN Manfaat Penelitian Bagi peneliti:

Bagi perguruan tinggi:

a) Data mahasiswa yang berjumlah ribuan dapat cepat diproses dan dipisahkan berdasarkan kemiripan data dengan metode data mining menggunakan algoritma K-Means Clustering. b) Hasil penelitian ini dapat memberikan gambaran wilayah mana yang berpontensi dalam penerimaan mahasiswa baru berdasarkan kecamatan asal mahasiswa, asal sekolah mahasiswa, dan IPK mahasiswa.

a) Bagi Universitas Islam Nahdlatul Ulama Jepara, dapat digunakan sebagai pertimbangan untuk memaksimalkan wilayah mana yang di prioritaskan untuk dilakukannya promosi. b) Bagi Admisi Universitas Islam Nahdlatul Ulama Jepara, membantu sebagai bahan pertimbangan untuk menentukan langkah selanjutnya dalam penerimaan mahasiswa baru.


Tinjauan Studi Dalam penelitian yang dilakukan sebelumnya dengan judul Penerapan Data Mining Untuk Menentukan Strategi Promosi Universitas PGRI Yogyakarta Menggunakan Algoritma Kmeans Clustering. Dalam Penelitian selanjutnya dengan judul Implementasi Data Mining Menggunakan Algoritma K-Means Clustering Untuk Mengetahui Pola Pemilihan 8 Program Studi IAIN Salatiga.


Tinjauan Pustaka Bussines Intelligence Business Intelligence (BI) adalah sebuah proses untuk meningkatkan keunggulan kompetitif perusahaan melalui pendayagunaan berbagai data, informasi, dan pengetahuan (knowledge). konsep BI menekankan pada penerapan 5 pendayagunaan informasi untuk keperluan spesifik bisnis, masing-masing adalah sebagai berikut : 1) Data sourcing. 2) Data analysis. 3) Situation awareness. 4) Risk analysis. 5) Decission support.


Data Mining Pengertian Data Mining Data mining adalah kegiatan yang meliputi pengumpulan, pemakaian data historis untuk menemukan keteraturan, pola atau hubungan dalam set data berukuran besar

Tahapan Data Mining Istilah data mining dan Knowledge Discovery in Database (KDD) sering kali digunakan secara bergantian untuk menjelaskan proses penggalian informasi tersembunyi dalam suatu basis data yang besar. Tahapan data mining ada 7 yaitu: [16] 1. Data Cleaning 2. Data Integration 3. Data Selection 4. Data Transformation 5. Data Mining 6. Pattern Evaluation 7. Knowledge Presentation


Data Mining Metode Data Mining Salah satu metode data mining adalah model Cross-Standard Industry for Data Mining (CRISP-DM) yang terdiri dari 6 fase, yaitu [1]: 1. Fase pemahaman bisnis (Business Un 4. Fase pemodelan (Modelling) derstanding) 5. Fase Evaluasi (Evaluation) 2. Fase pemahaman data (Data 6. Fase Penyebaran (Deployment) Understanding) 3. Fase pengolahan data (Data Preparation)

Clustering Menurut Deka, Clustering merupakan salah satu teknik data mining yang digunakan untuk mendapatkan kelompok-kelompok dari objek-objek yang mempunyai karakteristik yang umum di data yang cukup besar. Tujuan utama dari metode clustering adalah pengelompokan sejumlah data atau objek ke dalam cluster atau grup sehingga dalam setiap cluster akan berisi data yang semirip mungkin. Menurut Oyelade, clustering dapat dibagi menjadi dua, yaitu hierarchical clustering dan non-hierarchical clustering.


Algoritma K-Means Clustering K-Means merupakan salah satu algoritma clustering. Tujuan algoritma ini yaitu untuk membagi data menjadi beberapa kelompok. Metode K-Means Clustering adalah proses untuk mengelompokkan data ke dalam sebuah cluster dengan titik pusat yang berbeda-beda setiap cluster. Proses K-Means Clustering tersebut meliputi 5 proses, yaitu [2]:

1) Menentukan Titik Pusat Cluster

Menggunakan teori jarak Euclidean yang dirumuskan sebagai berikut:

2) Menghitung Jarak Data ke Setiap Cluster 3) Mengalokasikan Data kedalam Cluster 4) Menentukan Titik Pusat Cluster Baru 5) Memverifikasi Titik Pusat Cluster

D (i,j) = (đ?‘żđ?&#x;?đ?’Š − đ?‘żđ?&#x;?đ?’‹)đ?&#x;? + (đ?‘żđ?&#x;?đ?’Š − đ?‘żđ?&#x;?đ?’‹)đ?&#x;? + â‹Ż + (đ?‘żđ?’Œđ?’Š − đ?‘żđ?’Œđ?’‹)đ?&#x;? dimana: D (i,j) Xki Xkj

= Jarak data ke i ke pusat cluster j = Data ke i pada atribut data ke k = Titik pusat ke j pada atribut ke k


Algoritma K-Means Clustering

Pengujian Hasil Clustering K-Means Metode pengujian yang digunakan untuk menentukan kriteria penilaian bagus atau tidaknya hasil dari perhitungan Clustering KMeans adalah dengan menggunakan metode Between-Class Variation (BCV) dan Within-Class Variation (WCV) pada iterasi terakhir yang sering disebut dengan rasio.

Between-Class Variation (BCV) 1 BCV = đ?‘ đ?‘˜ Ďƒđ?‘˜đ?‘– = 1 đ?‘‘(đ?‘šđ?‘– , đ?‘šđ?‘– )

đ??ľđ??śđ?‘‰

Rasio = đ?‘Šđ??śđ?‘‰

Within-Class Variation (WCV) WCV = Ďƒđ?‘›đ?‘—=đ?‘– Ďƒđ?‘?∈đ?‘?đ?‘– đ?‘‘(đ?‘?, đ?‘šđ?‘– )2 Nilai Rasio

Kriteria

≤ 0,25

Sangat baik

0,25- 0,50

Baik

0,50- 0,75

Kurang baik

0,75– 1,00

Buruk


Algoritma K-Means Clustering

Metode Receiver Operating Characteristic (ROC) Tingkat akurasi diukur dengan cara menggunakan metode ROC. Selain mencari nilai akurasi pada metode ini juga dapat dicari nilai sensitivitas dan spesifitas [24]. Akurasi

=

Sensifitas = Spesifitas =

đ?‘‡đ?‘?+đ?‘‡đ?‘› đ?‘‡đ?‘?+đ?‘‡đ?‘›+đ??šđ?‘?+đ??šđ?‘› đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘› đ?‘‡đ?‘? đ?‘‡đ?‘?+đ??šđ?‘?

Dimana: Tp = True positif (Nilai kebenaran pada nilai centeroid) Tn = True negative (Nilai centeroid hasil clustering) Fp = False positif (Nilai kebeneraan centeroid pada cluser lain) Fn = False Negative (Nilai kebeneraan centeroid terakhir pada cluser lain)

Nilai Rasio

Kategori

0,80-1,00

Sangat baik

0,60-0,80

Baik

0,40-0,60

Cukup Baik

0,20-0,40

Kurang Baik

0,00-0,20

Tidak Baik


Kerangka Pemikiran

Pengumpulan Data Pengambilan data di UPT Pusat Data dan Pengembangan IT Universitas Islam Nahdlatul Ulama Jepara cukup dengan melampirkan surat izin penelitian dari pihak UNISNU dan melampirkan proposal penelitian ke bagian akademik. Data yang diambil adalah data mahasiswa Universitas Islam Nahdlatul Ulama Jepara angkatan 2016 sampai dengan angkatan 2018.

Masalah Bagaimana menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara.

Metode Penelitian Algoritma

Tools

Evaluasi

K-Means Clustering (Euclidean Distance)

Microsoft Excel & RapidMiner Studio

Pengukuran Rasio dan Metode Receiver Operating Characteristic (ROC)

Tujuan atau Hasil 1. 2.

Menerapkan metode Data Mining dengan algoritma K-Means Clustering untuk menentukan wilayah yang tepat untuk promosi Universitas Islam Nahdlatul Ulama Jepara. Untuk mengetahui sebaran wilayah berdasarkan data mahasiswa angkatan 2016 sampai 2018.


Desain Penelitian

Lokasi Penelitian

Pengolahan Data

Pengumpulan Data

Perangkat Keras

Perangkat Lunak


Tahapan Metode Dalam penelitian ini, peneliti menggunakan salah satu metode dalam Data Mining yaitu metode K-Means Clustering. Dalam metode ini memiliki beberapa tahapan. Tahapan yang dilakukan adalah:

1. Pre-processing Data Proses dalam tahapan pre-processing adalah sebagai berikut: 1. Data Reduction 2. Data Cleaning 3. Data Transformation 4. Data Integration


K-Means Clustering Dari eksperimen ini di ambil sampel data Universitas Islam Nahdlatul Ulama Jepara, berikut ini adalah sampel data mahasiswa angkatan 2016 sampai angkatan 2018. No

NIM

1

161240000470

2

Nama

Kecamatan Asal

Asal Sekolah

IPK

Akhmad Toha

Batealit

SMK

3,66

161240000471

Bima Muluk Maulana Ishaq

Mlonggo

SMK

3,52

3

161240000473

Taufiq Hidayat

Pakis Aji

SMK

3,54

4

161240000474

Miftahul Huda

Mijen

SMK

2,96

5

161240000475

Muhammad Hidayatul Mustafid

Donorojo

SMK

2,62

6

161240000476

Anis Safitri

Bangsri

MA

3,48

………………….

………………….

………………….

………

21

181250000256

Jepara

SMK

3,82

…………………. Siti Marhamah


Transpormasi data dilakukan untuk mengubah data agar data dapat diolah dengan menggunakan metode K-Means Clustering. Data yang berjenis nominal seperti Kecamatan Asal dan Asal Sekolah harus dilakukan proses inisialisasi data terlebih dahulu ke dalam bentuk angka/numerikal.

Tabel Inisialisasi Data Kecamatan Asal

Tabel Inisialisasi Data Asal Sekolah

Kecamatan Asal

Frekuensi

Inisial

Asal Sekolah

Frekuensi

Inisial

Jepara

8

1

SMK

14

1

Batealit

4

2

SMA

4

2

Bangsri

2

3

MA

3

3

Tahunan

2

4

Donorojo

1

5

Mijen

1

6

Mlonggo

1

7

Pakis Aji

1

8

Pecangaan

1

9


Melakukan pengelompokan data-data tersebut menjadi beberapa cluster perlu dilakukan beberapa langkah, yaitu: Tabel Titik Pusat Awal Setiap Cluster Titik Pusat

Kecamatan Asal

Asal Sekolah

IPK

Cluster 1

Mijen

SMK

2,956

Cluster 2

Bangsri

SMK

2,077

Cluster 3

Jepara

SMA

3,554

1.Tentukan jumlah cluster yang diinginkan

2.Tentukan titik pusat awal dari setiap cluster. 3.Tempatkan setiap data pada cluster.


Sebagai contoh, akan dihitung jarak dari data mahasiswa pertama ke pusat cluster pertama: D (1,1) = (2 − 6)2 + (1 − 1)2 + (3,663 − 2,956)2 = 4,062 Pusat cluster pertama adalah 4,062. D (1,2) = (2 − 3)2 + (1 − 1)2 + (3,663 − 2,077)2 = 1,875 Pusat cluster kedua adalah 1,875. D (1,3) = (2 − 1)2 + (1 − 2)2 + (3,663 − 3,554)2 = 1,418 Pusat cluster ketiga adalah 1,418.

4. Setelah semua data ditempat ke dalam cluster yang terdekat, kemudian hitung kembali pusat cluster yang baru berdasarkan rata-rata angggota yang ada pada cluster tersebut. 5. Setelah didapatkan titik pusat yang baru dari setiap cluster, lakukan kembali dari langkah ketiga hingga titik pusat dari setiap cluster tidak berubah lagi dan tidak ada lagi data yang berpindah dari satu cluster ke cluster yang lain.


Pengujian Metode BCV dan WCV

1. Menentukan iterasi keberapa akan dihitung Titik Pusat

Kecamatan Asal Sekolah Asal

BCV = (7,50 − 3,80)2 + (1,25 − 1,80)2 + (3,38 − 2,71)2 + BCV = (7,50 − 1,33)2 + (1,25 − 1,42)2 + (3,38 − 2,28)2 + BCV = (3,80 − 1,33)2 + (1,80 − 1,42)2 + (2,71 − 2,28)2 = 12,53

IPK

2. Menentukan jarak minimum centeroid WCV = 0,882 + 0,582 + 0,582 + 1,582 +. . . +0,552 + 0,762

Cluster 1

7,5

1,25

3,38

Cluster 2

3,8

1,8

2,71

Cluster 3

1,33

1,42

3,28

= 25,01

3. Menghitung perbandingan BCV dengan WCV Rasio =

12,53 25,01

= 0,050


Pengujian Metode ROC Tabel Nilai Centroid pada iterasi terakhir Tabel Standar Receiver Operating Characteristic (ROC) Nilai Rasio

Kategori

0,80-1,00

Sangat baik

0,60-0,80

Baik

0,40-0,60

Cukup Baik

0,20-0,40

Kurang Baik

0,00-0,20

Tidak Baik

Titik Pusat

Centroid Awal

Centroid Iterasi Terakhir

Cluster 1

2,96

3,38

Cluster 2

2,08

2,71

Cluster 3

3,17

3,28

Akurasi

=

2,96+3,38 2,96+3,38+3,17+3,28

= 0,50

Sensifitas

=

2,96 2,96+3,28

= 0,47

Spesifitas

=

2,96 2,96+3,17

= 0,48


TERIMA KASIH DAMAS FAHMI ASSENA 161240000500


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.