Niwat's Senoir Project

Page 1

1

บทที่ 1 บทนำ 1.1 ที่มาและความสำคัญของปัญหา ศัพท์ภาษาอังกฤษมีอยู่มากมายโดยอาจพบจากการอ่านหนังสือนวนิยาย หนังสือพิมพ์ หนังสือ เรียน ซึ่งคนไทยส่วนหนึ่งไม่สามารถใช้ภาษาอังกฤษได้หรืออาจติดขัดในคำศัพท์ที่ไม่ทราบความหมาย ดัง นั้นจึงต้องมีเครื่องมือที่ใช้แปลศัพท์อังกฤษเป็นภาษาไทยโดยที่เครื่องมือเหล่านี้ควรจะพกพาได้สะดวก ทั้งนี้อุปกรณ์พกพามีหลากหลายรูปแบบโดยที่ส่วนหนึ่งเป็นแบบที่ใช้ระบบหน้าจอสัมผัสและอีกทั้งยังมี กล้องถ่ายรูป ดังนั้นจึงมีแนวคิดที่จะใช้กล้องและหน้าจอสัมผัสนี้สร้างแอปพลิเคชันแปลภาษาอังกฤษเป็น ภาษาไทยด้วยวิธีใช้งานที่แตกต่างจากการพิมพ์ เพื่อตอบโจทย์ที่ว่า “ เป็นไปได้ไหมที่เพียงแค่การสัมผัส หน้าจอเพียงครั้งเดียวก็สามารถได้ความหมายของศัพท์ที่ต้องการ “ โดยอาศัยภาพจากกล้องถ่ายรูปแล้วใช้ กระบวนการ OCR เพื่ออ่านคำศัพท์ในภาพ

1.2 วัตถุประสงค์ 1.2.1 เพื่อสร้างแอปพลิเคชันที่สามารถแปลคำศัพท์ภาษาอังกฤษเป็นภาษาไทยโดยใช้ OCR 1.2.2 เพื่อสร้างแอปพลิเคชันแปลคำศัพท์ภาษาอังกฤษที่ใช้งานง่าย สะดวก 1.2.3 เพื่อสร้างแอปพลิเคชันแปลคำศัพท์ที่สามารถใช้งานได้บนอุปกรณ์พกพา

1.3 ลักษณะและขอบเขตของโครงงาน 1.3.1 สามารถอ่านตัวอักษร A - Z และ a - z ในภาพได้ 1.3.2 Font ของภาษาอังกฤษที่รองรับคือ Times New Roman และ Font อื่นๆ รวมกันอย่างน้อย 3 Fonts 1.3.3 สามารถเลือกถ่ายภาพใหม่หรือภาพที่มีอยู่แล้วในเครื่อง (Photo Albums) 1.3.4 การทำงานของแอปพลิเคชันเป็นแบบ Snapshot คือ ผู้ใช้เลือกถ่ายภาพหรือเลือกภาพ (Photo Album) แล้วจึงนำเข้าสู่การประมวลผลภาพ 1.3.5 ตัวอักษรในภาพต้องคมชัดมากพอและไม่เล็กจนเกินไป อย่างน้อยต้องสามารถอ่านได้ด้วย มนุษย์ เพื่อประสิทธิภาพในการประมลผลภาพ 1.3.6 เลือกคำศัพท์โดยการลากแทบดำครอบที่ตัวอักษร


2

1.3.7 สามารถป้อนคำโดยตรงด้วยการพิมพ์คำศัพท์ได้ 1.3.8 การแปลคำศัพท์อ้างอิงจาก Google Translate ซึ่งต้องมีการเชื่อมต่ออินเตอร์เน็ตในขณะใช้ งานแอปพลิเคชัน 1.3.9 สร้างแอปพลิเคชันที่ทำงานบน iOS เวอร์ชัน 4.0 ขึ้นไปและมีกล้อง

1.4 อุปกรณ์และเครื่องมือที่ใช้ 1.4.1 ฮาร์ดแวร์ - คอมพิวเตอร์โน๊ตบุ๊ค (Macbook Pro 5,5 13 นิ้ว) - หน่วยประมวลผลกลาง Intel Core 2 Duo 2.26 GHz - หน่วยความจำหลัก 2 GB - ฮาร์ดดิสก์ ขนาด 160 GB - iPhone 3GS, iPhone 4 หรือ iPod Touch 4 Generation 1.4.2 ซอฟต์แวร์ - Mac OS X 10.6 (Snow Leopard) - Xcode - iOS SDK

1.5 ผลที่คาดว่าจะได้รับ 1.5.1 มีแอปพลิเคชันเพื่อแปลภาษาอังกฤษเป็นภาษาไทยที่เพียงแค่การสัมผัสครั้งเดียวก็สามารถ ได้ความหมายของศัพท์ที่ต้องการ 1.5.2 มีการนำแอปพลิเคชันที่ได้ไปใช้อย่างแพร่หลาย 1.5.3 เป็นแนวคิดเพื่อพัฒนาแอปพลิเคชันอื่น ๆ ต่อไป


4

บทที่ 2 ผลงานที่เกี่ยวข้อง 2.1 แอปพลิเคชันชื่อ : vTranslator

จัดทำโดย : Vlad Seryakov

รูปที่ 2.1 แอปพลิเคชัน vTranslator vTranslator เป็นแอปพลิเคชันที่ใช้ในการแปลภาษาโดยใช้ Google Translate ซึ่งตัวแปล ภาษาก็มีอยู่มากมายโดยที่ส่วนใหญ่แล้วการรับคำที่จะนำไปแปลผ่านทางคีย์บอร์ด แต่สำหรับ vTranslator จะแตกต่างตรงที่ใช้การถ่ายภาพคำที่ต้องการแปลแทน จากนั้น vTranslator ก็จะอ่านคำจากภาพที่ถ่ายได้ แล้วส่งไปให้กับ Google Translate แปลให้ กระบวนอ่านคำจากภาพหรือ Optical Character Recognition (OCR) ที่ vTranslator ต้องใช้ เพื่ออ่านคำมาจากเครื่องมือชื่อ Tesseract ที่เป็น Open Source อยู่ใน Google Code ข้อดี vTranslator เป็นฟรีแอปพลิเคชันที่ใคร ๆ ก็สามารถโหลดมาใช้งานได้ เพียงแค่มี iTunes ID หรือ Apple ID และเข้าไปดาวโหดลที่ Apple App Store ข้อเสีย การเลือกถ่ายคำที่จะนำมาแปลมีข้อจำกัดตรงที่กรอบซึ่งเป็นตัวระบุส่วนที่จะอ่านเล็กเกินไป และไม่สามารถปรับเปลี่ยนขนาดได้ ทำให้ในบางครั้งการถ่ายคำแค่เพียงคำเดียวก็อาจจะไม่พอและถ้านำ มาใช้กับการถ่ายคำเพียงคำเดียวการพิมพ์ผ่านคีย์บอร์ดจะเร็วและแม่นยำกว่าวิธีการถ่ายภาพ ซึ่งจะทำให้ เกิดภาระเพิ่มมากกว่าความสะดวก


5

2.2 แอปพลิเคชันชื่อ : Page Scanner จัดทำโดย : FastIntelligence

รูปที่ 2.2 แอปพลิเคชัน Page Scanner

รูปที่ 2.3 ส่วนของการสแกนภาพ

แทนที่การพิมพ์เพื่อคัดลอกข้อมูลที่เป็นตัวอักษรในกระดาษ การนำ Optical Character Recognition (OCR) เข้ามาช่วยทำหน้าที่ป้อนข้อความสู่คอมพิวเตอร์จะช่วยลดเวลาในการคัดลอกข้อมูล ได้ ม าก โดยหลั ก การทำงานก็ ค ื อ นำเอากระดาษไปสแกนผ่ า นเครื ่ อ งสแกนเพื ่ อ ให้ ไ ด้ เ ป็ น ไฟล์ ใ น คอมพิวเตอร์ซึ่งก็คือไฟล์ภาพ จากนั้นนำภาพที่ได้ไปอ่านเอาข้อความออกมาผ่านกระบวนการ OCR ซึ่ง การที่จะได้ภาพเพื่อนำมาอ่านเอาข้อความออกมายังมีสิ่งอื่นอีกที่ใช้แทนกันได้ โดยในที่นี้ก็คือกล้องถ่ายรูป ของโทรศัพท์มือถือที่มีความละเอียดสูงและคมชัดมากพอจะเทียบเท่ากับเครื่องสแกนได้ จึงมาเป็นแอปพลิ เคชันนี้ที่ทำเสมือนว่าเป็นเครื่องสแกนขนาดเล็กที่รวมเอาการทำงานของ OCR เข้าไว้ด้วยกัน ข้อดี แทนที่เครื่องสแกนอันใหญ่โต (เมื่อเทียบกับขนาดของมือถือ) ด้วยขนาดที่เล็กกระทัดรัด ของมือถือ ข้อเสีย ความแม่นยำในการอ่านคำจากภาพ (OCR)


6

บทที่ 3 ทฤษฏีและความรู้ที่เกี่ยวข้อง 3.1 Optical Character Recognition (OCR)

OCR คือการอ่านตัวอักษรในภาพดังเช่นกับการที่คนเรามองภาพแล้วอ่านตัวอักษรในภาพด้วยตา โดยคอมพิวเตอร์นั้นการมองคือการใช้กล้องรับแสงที่สะท้อนออกมาจากวัตถุและเก็บค่าของแสงแต่ละ ตำแหน่งในขณะหนึ่งไว้ซึ่งก็คือภาพนิ่ง จากนั้นภาพที่ได้จะถูกนำไปค้นหาตัวอักษรแล้วนำตัวอักษรที่ ค้นหาได้มาเปรียบเทียบว่าเป็นตัวอักษรตัวอะไร

3.2 Google Translate API

เป็นเครื่องมือที่ใช้ในการแปลภาษาที่มีหลากหลายภาษาให้เลือก อีกทั้งเครื่องมือแปลภาษานี้ยัง สามารถแปลคำศัพท์แบบกลุ่มคำหลาย ๆ คำรวมกันได้อีกด้วย ซึ่งถึงแม้ว่าการแปลแบบนี้จะยังเรียบเรียงคำ ไม่ค่อยดี แต่อย่างไรแล้วเครื่องมือตัวนี้ก็ยังถูกพัฒนาต่อไปอย่างต่อเนื่อง การใช้งานกระทำโดยการส่งผ่าน URL http://ajax.googleapis.com/ajax/services/language/translate? v=1.0&q=TEXT&langpair=SOURCE|DESTINATION โดยแทนที่คำที่ต้องการค้นหาแทนที่ตำแหน่ง TEXT ภาษาตั้งต้นที่ SOURCE ในลักษณะตัวย่อ เช่น en คือ English, ja คือ Japanese เป็นต้น และสุดท้ายคือภาษาที่ต้องการแปลไปที่ DESTINATION ใน ลักษณะตัวย่อเช่นเดียวกับภาษาตั้งต้น จากนั้นเราจะได้ข้อความที่เป็นผลการแปลอ้างอิงตาม URL ที่ส่งไป


7

บทที่ 4 ขั้นตอนและแผนการดําเนินงาน 4.1 ขั้นตอนการดำเนินงาน

4.1.1 ศึกษาข้อมูลเบี้ยงต้น ค้นหาข้อมูลความเป็นไปได้ของโครงงานที่จะนำเสนอว่ามีเป็นเป็นไปได้มากน้อยเพียงใด คือ 4.1.1.1 แนวคิดที่จะทำสามารถทำให้เป็นจริงได้หรือไม่ 4.1.1.2 มีแอปพลิเคชันอื่น ๆ ที่ใกล้เคียงกับแนวคิดที่จะทำ เพื่อศึกษาหาจุดอ่อนจุดแข็ง 4.1.2 เสนอโครงงาน ส่งเอกสารขอทำโครงงานพร้อมทั้งนำเสนอและให้คณะจารย์พิจารณาหัวข้อโครงงาน 4.1.3 ศึกษาทฤษฏีและความรู้ที่เกี่ยวข้อง 4.1.3.1 เรียนรู้ภาษา Objective-C ซึ่งใช้ในการพัฒนาแอปพลิเคชันบนระบบปฎิบัติการ iOS 4.1.3.2 ศึกษาหลักการทำงานของ Optical Character Recognition ซึ่งต้องนำมาใช้ในการอ่านตัว อักษรในภาพ 4.1.3.3 ศึกษาการใช้ Google Translate API เพื่อใช้ในการแปล 4.1.4 วิเคราะห์และออกแบบแอปพลิเคชัน วางแผนขั้นตอนการทำงานของแอปพลิเคชันทั้งในส่วนของการอ่านภาพ การแปลคำ ซึ่งรวมไป ถึงการนำการทำงานแต่ละส่วนมารวมเข้าด้วยกัน 4.1.5 เขียนโปรแกรม ลงมือสร้างการทำงานส่วนต่าง ๆ ขึ้นมาโดยการเขียนด้วภาษา Objective-C ร่วมกับ iOS SDK 4.1.6 ทดสอบและปรับปรุงแอปพลิเคชัน ทดสอบการทำงานของแอปพลิเคชันทั้งในเรื่องการใช้ เช่น หน่วยประมวลผล หน่วยความจำ เป็นต้น โดยอันดับแรกทดสอบในตัวจำลอง (Simulator) หลังจากนั้นจึงนำไปทดสอบบนอุปกรณ์จริงต่อ ไป 4.1.7 จัดทำเอกสาร ทำเอกสารรายละเอียดของโครงงานและวิธีใช้แอปพลิเคชันที่ได้จากแนวคิดตามโครงงานที่ได้นำ เสนอ


8

4.2 แผนการดำเนินงาน ขั้นตอนการดำเนินงาน

ส.ค. 53

ก.ย. 53

ต.ค. 53

พ.ย. 53

ศึกษาข้อมูลเบี้องต้น เสนอโครงงาน ศึกษาทฤษฏีและความรู้ที่เกี่ยวข้อง วิเคราะห์และออกแบบแอปพลิเคชัน เขียนโปรแกรม ทดสอบและปรังปรุงแอปพลิเคชัน จัดทำเอกสาร ตารางที่ 4.1 แผนการดำเนินงาน

ธ.ค. 53

ม.ค. 54

ก.พ. 54


9

บทที่ 5 วิธีการดำเนินงาน 5.1 ส่วนติดต่อผู้ใช้

รูปที่ 5.1 ส่วนเลือกภาษา

รูปที่ 5.2 หน้าต่างหลัก

เมื่อเรียกใช้งานแอปพลิเคชันนี้ขึ้นมาก็จะพบกับหน้าจอตามภาพทางด้านขวาโดยแต่ละส่วน มีหน้าที่ดังนี้ - กล่องข้อความด้านบน ใช้เพื่อเพื่อรับข้อความที่จะถูกนำไปแปล ซึ่งข้อความอาจจะมาจากการใช้ งานความสามารถในการดึงข้อความมาในภาพหรือพิมพ์โดยตรงผ่านคีบอร์ดของ iOS ก็ได้ นั่นคือเรา สามารถเพิ่ม ลบ หรือแก้ไขข้อความได้ตรงนี้ - กล่องข้อความด้านล่าง ใช้เพื่อแสดงผลลัพธ์จากการแปลข้อความ ดังนั้นข้อความในส่วนนี้จึง สามารถทำได้เพียงแค่คัดลอกเท่านั้น - ปุ่มรูปถังขยะ(มุมขวาล่าง) ใช้เพื่อล้างข้อความในกล่องข้อความทั้งสองออกทั้งหมด - ข้อความด้านบนกล่องข้อความทั้งสอง ใช้เพื่อแสดงภาษาสำหรับแต่ละส่วน โดยในส่วนบน หมายความถึงภาษาของข้อความที่จะถูกนำไปแปล และส่วนล่างก็คือภาษาที่จะได้จากการแปล - ปุ่ม Settings (มุมซ้ายบน) ใช้เพื่อเลือกภาษาสำหรับกล่องข้อความทั้งสองดังที่กล่าวมาแล้ว โดย จะมีหน้าต่างใหม่ปรากฏขึ้นมาตามรูปด้านซ้าย (ตัวอย่างภาพ) ซึ่งภาษาที่จะแปลออกมาได้จะอ้างอิงจาก ภาษาที่ Google Translate สามารถแปลได้ และภาษาที่จะถูกนำไปแปลคือภาษาที่ใช้ตัวอักษร a ถึง z และ A ถึง Z - ปุ่ม Translate (กลางล่าง) ใช้เพื่อสั่งแปลข้อความ - ปุ่มรูปกล้องถ่ายรูป (มุมขวาล่าง) ใช้เพื่อเปิดส่วนของกล้องถ่ายรูป ทั้งนี้เพื่อถ่ายรูปภาพข้อความ ที่ต้องการจะแปลความหมาาย - ปุ่มรูปกระดาษ (ด้านขวาติดกับปุ่มรูปกล้อง) ใช้เพื่อเลือกรูปภาพจากแหล่งภาพที่มีอยู่แล้ว (Photo Albums) - ปุ่ม Help (มุมขวาบน) ใช้เพื่อแสดงข้อความแนะนำการใช้งานแอปพลิเคชัน


10

5.2 การทำงานของ OCR

5.2.1 การแบ่งข้อความตามบรรทัด เมื่อได้ภาพมาแล้วอันดับแรกก็คือการคำออกไปแต่ละบรรทัด โดยเก็บค่าเอาไว้เป็นคู่อันดับ เช่น บรรทัดที่ 1 เริ่มต้นที่แถว 1 และสิ้นสุดที่แถว 15 เป็นต้น โดยการตรวจสอบหาเส้นแบ่งบรรทัด คือ ถ้าหาก แถวใดไม่มีค่าสีดำอยู่ในแถวเลยและอยู่ก่อนบรรทัดที่มีสีดำอยู่ถือว่าเป็นจุดเริ่มต้นบรรทัด และ ถ้าแถวนั้น ไม่มีสีดำอยู่เลยและอยู่หลังจากบรรทัดที่มีสีดำอยู่แสดงว่าเป็นแถวสิ้นสุดบรรทัด ดังตัวอย่างการขีดเส้น แบ่งบรรทัดตามรูป 5.2.2 การแบ่งตัวอักษรในแต่ละบรรทัด หลังจากค้นหาได้ตำแหน่งของแต่ละบรรทัดมาแล้วก็จะทำการแบ่งแต่ละตัวอักษรออกจากกัน โดยใช้หลักการลักษณะเดียวกับการพิจารณาบรรทัด คือ หาคอลัมที่ไม่มีสีดำซึ่งเริ่มจากแถวเริ่มต้นบรรทัด ไปยังแถวที่สิ้นสุดบรรทัด หากพบว่าเป็นคอลัมที่ไม่มีสีดำอยู่เลยและอยู่ก่อนคอลัมที่มีสีดำอยู่แสดงว่าเป็น คอลัมเริ่มต้น ซึ่งคอลัมสิ้นสุดก็คือคอลัมว่างที่อยู่หลังนั่นเอง เก็บข้อมูลตำแหน่งของแต่ละตัวอักษรไว้ เช่น ที่แถวที่ 1 มีตัวอักษรเริ่มต้นที่ 10 สิ้นสุดที่ 30 เป็นต้น 5.2.3 การหาตำแหน่งของเว้นวรรค หลังจากสองกระบวนการที่ผ่านมาแล้วสิ่งที่ได้คือตำแหน่งของตัวอักษรที่แน่นอนแต่ตัวอักษรทั้ง หลายก็ยังต้องพิจารณาหาเว้นวรรค เพื่อแบ่งตัวอักษรออกเป็นคำตามกลุ่มที่แบ่งด้วยเว้นวรรค หลักการ คือ หาค่าเฉลี่ยความห่างของแต่ละตัวอักษรออกมาแล้วนำค่าเฉลี่ยที่ได้มาเปรียบเทียบ กับความห่างของแต่ละตัวอักษร ถ้าตัวอักษรห่างกับอีกตัวอักษรมากกว่าค่าเฉลี่ยที่ได้แสดงว่าตัวอักษรสอง ตัวนั้นถูกขั้นด้วยเว้นวรรคนั่นเอง 5.2.4 การเปรียบเทียบเพื่อหาตัวอักษร หลักจากได้ตำแหน่งและวรรคแบ่งคำแล้วต่อไปก็จะนำเอาส่วนของตัวอักษรแต่ละตัวมาเปรียบ เทียบกับภาพตัวอักษรแต่ละฟอนต์ที่เตรียมเอาไว้ โดยทำการสเกลภาพตัวอักษรของฟอนต์ที่เตรียมไว้ให้ เท่ากับขนาดของฟอนต์ที่ตัดออกมาในอัตราส่วนที่เท่ากัน (ผลหารของความยาวและความสูง) จากนั้นนำ ภาพทั้งสองมาลบหาผลต่างกันหากภาพนั้นเหมือนกันก็จะลบกันได้พอดีหมายความว่าคือัตวอักษรตัวที่นำ มาเปรียบเทียบกันนั่นเอง ทำในขั้นตอนที่กล่าวมาไปในแต่ละบรรทัดจดหมดโดยหากพบว่ามีเว้นวรรคขั่นให้แทนที่ด้วย เว้นวรรคลงไป

5.3 การแปลคำศัพท์โดย Google Translate

หลังจากได้ข้อความออกมาแล้วต่อไปคือการส่งคำที่จะแปลไปยัง Google Translate โดยผ่านทาง URL คือ http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=TEXT&langpair= SOURCE|DESTINATION โดยคำจะถูกแทนตรงตำแหน่ง TEXT ซึ่งต้องแทนที่เว้นวรรคด้วย %20 และระบุภาษาที่จะแปลที่ ตำแหน่ง SOURCE และ DESTINATION เป็นแบบตัวย่อ เช่น en : English, th : Thai, ja : Japanese เป็นต้น SOURCE คือภาษาที่ถูกนำไปแปล DESTINATION คือภาษาที่จะให้แปลออกมา


11

เมื่อ URL ดังกล่าวถูกส่งไปและถูกประมวลผลแล้ว Google Translate จะให้ข้อความกลับมาใน รูปแบบดังนี้ {"responseData": {"translatedText":"TEXT"}, "responseDetails": null, "responseStatus": 200} ซึ่งจากข้อความที่ได้ก็จะตัดส่วน TEXT ที่เป็นคำแปลออกมาแสดงเป็นผลลัพธ์


12

บทที่ 6 ผลการดำเนินงาน ข้อจำกัด และข้อเสนอแนะ 6.1 ผลการดำเนินงาน

การดำเนินงานส่วนใหญ่แล้วเป็นไปตามที่คาดหวังเอาไว้ คือ ในส่วนของการแปลคำศัพท์ก็ สามารถทำได้โดยใช้เครื่องมือติดต่อทางอินเตอร์เน็ต (Google Translate) ส่วนรูปลักษณ์ของแอปพลิเคชัน จากการสอบถามแล้วพบว่าเป็นที่น่าพอใจคือดูแล้วใช้ไม่ยากและสวยงาม แต่ในส่วนของการอ่านคำจาก ผลที่ได้สมบูรณ์แบบตามที่คาดหวังไว้ทั้งหมด ซึ่งจากการทดลองแล้วพบว่ามีข้อจำกัดอยู่ซึ่งจะกล่าวถึงใน หัวข้อต่อไป

6.2 ข้อจำกัด

ในส่วนของการประมวลผลภาพเพื่อดึงตัวอักษรออกมาพบว่ามีข้อจำกัดดังนี้ - ภาพที่จะนำมาประมวลผลต้องเป็นภาพที่มีเพียงแค่ข้อความ ทั้งนี้เพราะว่าวิธีที่ใช้ในการ ประมวลผลภาพไม่ได้ถูกออกแบบมาเพื่อค้นหาข้อความจากภาพที่มีรูปต่าง ๆ ปะปนอยู่ เช่น ภาพ โปสเตอร์ ใบปลิว เป็นต้น แต่เพื่อการค้นหาข้อความจากภาพที่ประกอบไปด้วยตัวอักษรเพียงอย่างเดียว เช่น หนังสือนิยาย หนังสือเรียน (ที่มีเพียงบทบรรยาย ไม่มีรูปภาพ) เป็นต้น - การแยกตัวอักษรในแต่ละบรรทัดหากตัวอักษรติดกันหรือตำแหน่งคร่อมกัน เช่น fa จะไม่ สามารถแยกแยะตัวอักษรเช่นนี้ได้ ทั้งนี้เพราะในการพิจารณาแบ่งตัวอักษรพิจารณาโดยการแบ่งตาม ช่องไฟโดยดูจากส่วนบนของบรรทัดไล่ลงมายังส่วนล่างของบรรทัด ถ้าหากว่าจากบนสุดถึงล่างสุดเป็น ส่วนที่ว่างทั้งหมด(พิจารณาทีละหลัก)แสดงว่าเป็นช่องไฟหรือช่องว่าง ซึ่งถ้าสังเกตจากตัวอักษร f และ a ที่วางติดกันเป็น fa ส่วนปลายหัวของ f จะโค้งมาอยู่บนตัวอักษร a ดังนั้นจึงทำให้ไม่สามารถหาช่องไฟ ระหว่างตัวอักษรทั้งสองได้ตามหลักการพิจารณาที่กล่าวมา - เพื่อความแม่นยำในการเปรียบเทียบเพื่อจดจำตัวอักษร ขนาดของตัวอักษรในภาพควรจะเป็นตัว อักษรขนาด 15 พอยต์ ทั้งนี้เพราะการจดจำตัวอักษรใช้การนำภาพต้นฉบับของแต่ละตัวอักษรในแต่ละ ฟอนต์มาเปรียบเทียบกับแต่ละตัวอักษรในภาพ ซึ่งภาพต้นฉบับนี้ถูกเตรียมไว้ที่ขนาดฟอนต์ 15 พอยต์ ดัง นั้นถ้าขนาดของตัวอักษรในภาพเล็กกว่าหรือใหญ่กว่าจึงต้องมีการย่อหรือขยายภาพต้นฉบับเพื่อให้ สามารถนำไปเปรียบเทียบ ตรงนี้เองที่การย่อหรือขยายอาจทำให้ภาพต้นฉบับผิดเพี้ยนไป - ตัวอุปกรณ์ iOS นั้นสามารถใช้ได้ทั้ง iPhone, iPod Touch และ iPad ที่ใช้ iOS เวอร์ชัน 4.0 ขึ้น ไป แต่ในส่วนการใช้งานกล้องจะมีเพียงแค่ iPhone และ iPod Touch 4G เท่านั้น ส่วน iPad สามารถใช้งาน เกี่ยวกับรูปภาพได้จาก Photo Albums - ส่วนของกล้องที่ใช้ในการถ่ายภาพจะมีเพียงแค่ iPhone 3Gs และ iPhone 4 ที่มีระบบ AutoFocus ซึ่งทำให้สามารถถ่ายรูปภาพระบบใกล้ได้ชัดเจน แต่กล้องของ iPod Touch 4G จะขาดในส่วนนี้ไป ทำให้ภาพที่ได้อาจจะไม่คมชัดเพียงพอที่จะนำไปประมวลผลแล้วได้ผลลัพธ์ที่น่าพอใจ


13

6.3 ข้อเสนอแนะ

จากการศึกษาในระหว่างการทำงานพบว่ามีเครื่องมือที่น่าสนใจเกี่ยวกับการอ่านตัวอักษรจากใน ภาพที่ชื่อ Tesseractโดยเครื่องมือนี้ถูกเผลแพร่อยู่ในเว็บไซต์ย่อยของ Google ที่เกี่ยวข้องกับการเขียน โปรแกรมคอมพิวเตอร์ ซึ่งจากการทดสอบประสิทธิภาพของซอฟแวร์ที่ใช้งานเครื่องมีนี้ (ซอฟแวร์ใน คอมพิวเตอร์บนระบบปฏิบัติการ Mac OS X) พบว่ามีความแม่นยำสูงและรองรับฟอนต์ได้หลายรูปแบบ แต่ทั้งนี้การนำเครื่องมือ Tesseract มาใช้ในระบบปฏิบัติการ iOS ถือเป็นเรื่องยากเพราะเดิมนั้นเครื่องมือนี้ ไม่ได้ทำมาสำหรับ iOS ดังนั้นจึงมีขั้นตอนมากมายที่ต้องทำหากต้องการนำเครื่องมือนี้มาใช้งาน จากที่ได้กล่าวมาแล้วจึงขอแนะนำกับผู้อ่านหรือผู้ที่จะทำงานเกี่ยวข้องกับการอ่านตัวอักษรจาก ภาพให้ลองศึกษาและใช้งานเครื่องมือนี้เพราะจะช่วยให้งานมีประสิทธิภาพมากยิ่งขึ้น อีกทั้งหากจุด ประสงค์ในการทำงานไม่ได้อยู่ที่การสร้างวิธีการอ่านตัวอักษรแต่เป็นการนำไปใช้แล้วละก็ เครื่องมือนี้จะ ช่วยให้ผู้พัฒนาสามารถที่จะใช้เวลาพัฒนาตามจุดประสงค์ได้อย่างชุดเจน ไม่ต้องเสียเวลากับการพัฒนา เครื่องมือการอ่านตัวอักษรจากภาพ


14

บรรณานุกรม [1] Chaoji Li, 2011, “Page Scanner”, [แอปพลิเคชัน], เข้าถึงได้: http://itunes.apple.com/th/app/page-scanner/id368331275?mt=8 [2] Vlad Seryakov , 2010, “vTranslator”, [แอปพลิเคชัน], เข้าถึงได้: http://itunes.apple.com/us/app/vtranslator/id351260186?mt=8


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.