【 13736 】module 07 เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา (หน่วยที่ 10)

Page 1

Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

Module 07

เทคโนโลยีและเครื่องมือ ที่ใช้ในการจัดการบิกดาตา รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย ภาควิ ช าวิ ท ยาการคอมพิ วเตอร์ มหาวิ ท ยาลั ย เกษตรศาสตร์

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

1


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

โมดูลนี้

จะกล่าวถึง . . .

1) แนวคิดทั่วไป เทคโนโลยี เครื่องมือวิเคราะห์บิกดาตา ü ความรู้เบื้องต้น ü ประเภท เครื่องมือ

เทคโนโลยี วิเคราะห์บิกดาตา วิเคราะห์บิกดาตา

2) ดาตาวิชวลไลเซชัน การวิเคราะห์ข้อมูลสตรีม ü เทคโนโลยี

ü เทคโนโลยี

วิเคราะห์ดาตาวิซวลไลเซชัน ข้อมูลสตรีม เครื่องมือวิเคราะห์ข้อมูลสตรีม

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

2


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

แนวคิดทั่วไป เทคโนโลยี เครื่องมือวิเคราะห์บิกดาตา

วิเคราะห์บิกดาตา

ที่ช่วยในการวิเคราะห์บิกดาตา 13736 การจั ด การความรู้ แ ละบิ ก ดาตา

3


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

แนวคิดทั่วไป เทคโนโลยี เครื่องมือวิเคราะห์บิกดาตา วิเคราะห์บิกดาตา

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

4


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

ศาสตร์ ยวกับบิกดาตา

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

5


สถาปัตยกรรมบิกดาตา 6 Data Presentation Layer Recommendation

Realtime dashboard

1

Data Source

Data Collector Layer Data Ingestion Layer

4 DataQuery Layer

Statistical Analytics Text Analytics/Semantic Analytics Predictive Analytics

3 Data processing Layer Batch Processing

Realtime Processing

2

Stream Processing

Ambari

7 Data Security Layer 8

Hybrid Processing

Data Storage Layer

HDFS

KNOX

5 Analytics Layer

Data Monitoring Layer

GlusterFS

S3

Apache Ranger Zookeeper


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

ระดับที่ 1 Data Collector Layer an Data ingestion Layer

1

3

2

4

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

7


ระดับที่ 2 หน่วยจัดเก็บข้อมูล 1

2

3

4

5


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

ระดับที่ 3 การประมวลผลข้อมูล

ฮาดูป คลาวเดอรา เอะเมซอน อะซัวร์ ไมโครซอฟท์

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

9


ระดับที่ 4 การสืบค้นข้อมูล ต้องตอบสนอง

ü คลังข้อมูลค่ายอาปาเช (Apache) ü สร้างบนอาปาเชฮาดูป ü สามารถสืบค้น หาผลรวม และวิเคราะห์แบบ SQL เสมือนบนฐานข้อมูลแบบกระจายของฮาดูป ü เป็นซอฟต์แวร์ที่ประมวลผลกับบิกดาตา ü ทํางานแบบ MapReduce


ระดับที่ 4 การสืบค้นข้อมูล

ü ü ü ü ü

เป็นโอเพนซอร์ส ประมวลผลคําสั่ง SQL แบบอินเทอร์แอกทีฟ ประมวลผลบนแฟ้มข้อมูลแบบกระจาย HDFS มีส่วนต่อประสานกับ Hive สามารถต่อเชื่อมกับฐานข้อมูลเชิงสัมพั นธ์ดั้งเดิมได้

ü เป็นฐานข้อมูลเชิงคอลัมน์แบบกระจาย (distributed column-oriented database) ü พั ฒนาต่อยอดมาจาก HDFS ü สามารถประมวลผลข้อมูลแบบไม่มีโครงสร้างแบบสุ่มได้


ระดับที่ 5 การวิเคราะห์ เทคนิค

1) การวิเคราะห์โดยใช้หลักสถิติ (statistic analytics)

2) การวิเคราะห์ข้อความ

3) การวิเคราะห์เชิงทํานาย ü การเรียนรู้ของเครื่องจักร

4) การวิเคราะห์เชิงแนะนํา


ระดับที่ 5 การวิเคราะห์ เครื่องมือ 1) 2) 3) 4)

อาปาเชมาเฮาท์ แรปิดไมเนอร์ เวกา ไอบีเอ็ม เอสพี เอสเอส โมดูลเดอร์

5) ออราเคิลดาตาไมนิง 6) อาร์โปรเจกต์


ระดับที่ 6 การนําเสนอ ระดับการนําเสนอข้อมูล (presentation layer) เครื่องมือที่นําผลลัพธ์ ในรูปแบบเชิงกราฟิก ü เชื่อมโยงกับบิกดาตา ü นําเสนอแบบเรียลไทม์

1

2

เครื่องมือ

1) ทาบลิว 2) กูเกิลชาร์ต 3) ดี3

ü เป็นไลบรารีเขียนด้วยจาวาสคริปต์

3

4

4) โปรเซสซิง

ü เป็นไลบรารีเขียนด้วยจาวาสคริปต์ ü เขียนชุดคําสั่งติดต่อกับภาษา Processing ü เป็นภาษาที่เขียนชุดคําสั่งด้วยภาพ


ระดับที่ 7 ความมั่นคงปลอดภัยข้อมูล 1) ระบบความมั่นคงความปลอดภัยบิกดาตา ระยะที่ 1 : แหล่งข้อมูล ระยะที่ 2 : stored data ระยะที่ 3 : ข้อมูลผลลัพธ์

2) เทคโนโลยีด้านความมั่นคงปลอดภัยของบิกดาตา 1) การเข้ารหัส 2) การจัดการคีย์แบบศูนย์กลาง 3) การควบคุมการใช้งาน 4) การตรวจพบและป้องกัน 5) ความปลอดภัยทางกายภาพ ถ้าองค์กรมีศูนย์ข้อมูล


ระดับที่ 7 ความมั่นคงปลอดภัยข้อมูล

3) เครื่องมือด้านความมั่นคงปลอดภัยข้อมูล (1) คลาวด์วิคซ์ (2) อาปาเชน็อกซ์เกตเวย์ (3) อาปาเชแรนเจอร์ (4) ไอบีเอ็มการ์ดเดียม 1

2

3

4

น็อกซ์


ระดับที่ 8 การกํากับติดตามข้อมูล เครื่องมือ 1

2

1) ซูคีปเปอร์ (Zookeeper)

2) แอมบาริ (Ambari)

3

3) อาปาเชชูควา (Apache Chukwa)


Apache Ecosystem


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เทคโนโลยี วิเคราะห์ดาตาวิชวลไลเซชัน ข้อมูลสตรีม 1) เทคโนโลยีและเครื่องมือ ดาตาวิชวลไลเซชัน 2) เทคโนโลยีและเครื่องมือ วิเคราะห์ข้อมูลสตรีม

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

19


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เทคโนโลยีและเครื่องมือ ดาตาวิชวลไลเซชัน ความหมาย

ดาตาวิชวลไลเซชัน

ü data ข้อมูล ü วิชวลไลเซชัน (visualization) การมองเห็น จินตทัศน์ ü ดาตาวิชวลไลเซชัน การนําข้อมูลมาทําให้เห็น การนําข้อมูลมาแสดงในรูปแบบของรูปภาพ แผนภูมิ แผนที่

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

20


ประโยชน์

แผนภาพ

15 33 57 18 73 71 17 73 65 60 46 10 57 26 88 91 96 19 11 34 51 22 60 10 18 46 73 92 5817 99 92 29 12 60 75 79 92 13 22 68 55 29 22 97 46 83 33 60 57 47



Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

ปัจจัย

พิ จารณาจัดทําแผนภาพ

1) การเปรียบเทียบข้อมูล (comparison) 2) การกระจายข้อมูล 3) ความสัมพั นธ์ของข้อมูล (relationship) 4) องค์ประกอบข้อมูล (composition)

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

23


ประเภท 1) 2) 3)

วิชวลไลเซชัน สองมิติหรือแบบระนาบ สามมิติหรือเชิงปริมาตร เชิงเวลา


4)

วิชวลไลเซชัน หลายมิติ

Iris Data set

5 4.5

Sepal

4

Petal

3.5

Sepal/Petal Length

ประเภท

3 2.5 2 1.5 1 0.5

Sepal/Petal Width

0 0

2

4

6

8

10


ประเภท 5)

วิชวลไลเซชัน ต้นไม้และลําดับชั้น


ประเภท 6)

วิชวลไลเซชัน เชิงเครือข่าย


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เทคโนโลยีและเครื่องมือ วิเคราะห์ข้อมูลสตรีม ข้อมูลสตรีม (stream data)

ü เป็นข้อมูลทีเ่ กิดขึ้นอย่างต่อเนื่อง ü เกิดจากแหล่งเก็บข้อมูลหลาย ๆ แหล่ง ü จัดส่งข้อมูลทันทีในปริมาณขนาดเล็ก (เป็นกิโลไบต์)

ตัวอย่าง • ล็อกไฟล์ (log file) ที่เกิดจากผู้ใช้บริการในการเรียกประมวลผลเว็บ • ข้อมูลที่เกิดจากการใช้อุปกรณ์เคลื่อนที่ ในการเช็คอินสถานที่ต่างๆ • การซื้อขายในระบบออนไลน์ ทั้งที่ซื้อขายสินค้า เพี ยงคลิกเรียกดูรายการสินค้า (click stream) • ระบบเกมผ่านอินเทอร์เน็ต 13736 การจั ด การความรู้ แ ละบิ ก ดาตา

28


การวิเคราะห์ข้อมูลสตรีม


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เครื่องมือ วิเคราะห์ข้อมูลสตรีม • อาปาเช ฟลิงก์ (Apache Flink) ü ü ü ü

เป็นโอเพนชอร์ส ประมวลผลสตรีมแบบกระจาย ประมวลผลแบบแบทช์ ภาษาจาวา สเกลา (Scala) และ ไพธอน

• อาปาเช สปาร์ค (Apache Spark)

ü เป็นแพลตฟอรม์ที่ประมวลผลข้อมูลในหน่วยความจํา (in-memory distributed data analysis) ü สนับสนุนทั้งการประมวลผลแบบแบทช์ ü รองรับการประมวลผล MapReduce, in-memory processing

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

30


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เครื่องมือ วิเคราะห์ข้อมูลสตรีม • อาปาเช สตรอม (Apache Storm) ü ü ü ü ü

เป็นโอเพนชอร์ส สนับสนุนประมวลผลแบบกระจาย สนับสนุนประมวลผลทันเวลา พั ฒนาโดยทวิตเตอร์ Strom ณ เวลาจริง รวมกับ Hadoop ในการประมวลผลแบบแบทช์

• อะซัวร์ สตรีมมิง อะเนไลติกส์ (Azure Streaming Analytics) ü ผลิตภัณฑ์ของไมโครซอฟต์แบบ PaaS (Platform as a Service) ü เป็นระบบที่ทํางานบนคลาวด์ 13736 การจั ด การความรู้ แ ละบิ ก ดาตา

31


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เครื่องมือ วิเคราะห์ข้อมูลสตรีม

• สไตรอิม (Striim)

ü ประมวลผลแบบสตรีมและเรียลไทม์ ü บูรณาการเก็บข้อมูลจากหลายแหล่ง ü จุดสุดท้าย คือ การวิเคราะห์ข้อมูล (end-to-end)

• อินโฟร์สเฟียร์ (InfoSphere) ü ü ü ü ü ü ü ü

เป็นผลิตภัณฑ์ของบริษัท IBM บูรณาการฟังก์ชันเพิ่ มในการประมวลผลข้อมูลสตรีม มีประสิทธิผลในการประมวลผลสูง รองรับการขยายตัวข้อมูล วิเคราะห์ข้อมูลในเวลาจริง ใช้งานง่าย เหมาะสําหรับการประยุกต์ใช้งานในงานเล็ก ๆ ขยายการรองรับประมาณข้อมูลขนาดใหญ่ได้

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

32


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

เครื่องมือ วิเคราะห์ข้อมูลสตรีม • ฮาดูป (Hadoop)

ü เป็นเทคโนโลยีประสิทธิภาพสูง ü ประมวลผลด้วยวิธีการประมวลผลแบบกระจาย ที่ชื่อว่า แมปรีดิว (MapReduce) ü เป็นต้นแบบในการประมวลผลบิกดาตา วิเคราะห์เชิงลึก

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

33


Module 07 ▶ เทคโนโลยีและเครื่องมือที่ใช้ในการจัดการบิกดาตา อาจารย์ผู้สอน ▶ รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย

Module 07

เทคโนโลยีและเครื่องมือ ที่ใช้ในการจัดการบิกดาตา รองศาสตราจารย์ ดร.ชุลีรัตน์ จรัสกุลชัย ภาควิ ช าวิ ท ยาการคอมพิ วเตอร์ มหาวิ ท ยาลั ย เกษตรศาสตร์

13736 การจั ด การความรู้ แ ละบิ ก ดาตา

34


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.