My Senoir Project (Full)

Page 1

1

บทที่ 1 บทนำ 1.1 ที่มาและความสำคัญของปัญหา ศัพท์ภาษาอังกฤษมีอยู่มากมายโดยอาจพบจากการอ่านหนังสือนวนิยาย หนังสือพิมพ์ หนังสือ เรียน ซึ่งคนไทยส่วนหนึ่งไม่สามารถใช้ภาษาอังกฤษได้หรืออาจติดขัดในคำศัพท์ที่ไม่ทราบความหมาย ดัง นั้นจึงต้องมีเครื่องมือที่ใช้แปลศัพท์อังกฤษเป็นภาษาไทยโดยที่เครื่องมือเหล่านี้ควรจะพกพาได้สะดวก ทั้งนี้อุปกรณ์พกพามีหลากหลายรูปแบบโดยที่ส่วนหนึ่งเป็นแบบที่ใช้ระบบหน้าจอสัมผัสและอีกทั้งยังมี กล้องถ่ายรูป ดังนั้นจึงมีแนวคิดที่จะใช้กล้องและหน้าจอสัมผัสนี้สร้างแอปพลิเคชันแปลภาษาอังกฤษเป็น ภาษาไทยด้วยวิธีใช้งานที่แตกต่างจากการพิมพ์ เพื่อตอบโจทย์ที่ว่า “เป็นไปได้ไหมที่เพียงแค่การสัมผัส หน้าจอเพียงครั้งเดียวก็สามารถได้ความหมายของศัพท์ที่ต้องการ” โดยอาศัยภาพจากกล้องถ่ายรูปแล้วใช้ กระบวนการ OCR เพื่ออ่านคำศัพท์ในภาพ

1.2 วัตถุประสงค์ 1.2.1 เพื่อสร้างแอปพลิเคชันที่สามารถแปลคำศัพท์ภาษาอังกฤษเป็นภาษาไทยโดยใช้ OCR 1.2.2 เพื่อสร้างแอปพลิเคชันแปลคำศัพท์ภาษาอังกฤษที่ใช้งานง่าย สะดวก 1.2.3 เพื่อสร้างแอปพลิเคชันแปลคำศัพท์ที่สามารถใช้งานได้บนอุปกรณ์พกพา !

1.3 ลักษณะและขอบเขตของโครงงาน 1.3.1 สามารถอ่านตัวอักษร A - Z และ a - z ในภาพได้ 1.3.2 Font ของภาษาอังกฤษที่รองรับคือ Times New Roman และ Font อื่นๆ รวมกันอย่างน้อย 3

Fonts 1.3.3 สามารถเลือกถ่ายภาพใหม่หรือภาพที่มีอยู่แล้วในเครื่อง (Photo Albums) 1.3.4 การทำงานของแอปพลิเคชันเป็นแบบ Snapshot คือ ผู้ใช้เลือกถ่ายภาพหรือเลือกภาพ (Photo Album) แล้วจึงนำเข้าสู่การประมวลผลภาพ 1.3.5 ตัวอักษรในภาพต้องคมชัดมากพอและไม่เล็กจนเกินไป อย่างน้อยต้องสามารถอ่านได้ด้วย มนุษย์ เพื่อประสิทธิภาพในการประมลผลภาพ


2

1.3.6 เลือกคำศัพท์โดยการลากแทบดำครอบที่ตัวอักษร 1.3.7 สามารถป้อนคำโดยตรงด้วยการพิมพ์คำศัพท์ได้ 1.3.8 การแปลคำศัพท์อ้างอิงจาก Google Translate ซึ่งต้องมีการเชื่อมต่ออินเตอร์เน็ตในขณะใช้ งานแอปพลิเคชัน 1.3.9 สร้างแอปพลิเคชันที่ทำงานบน iOS เวอร์ชัน 4.0 ขึ้นไปและมีกล้อง

1.4 อุปกรณ์และเครื่องมือที่ใช้ 1.4.1 ฮาร์ดแวร์ - คอมพิวเตอร์โน๊ตบุ๊ค (Macbook Pro 5,5 13 นิ้ว) - หน่วยประมวลผลกลาง Intel Core 2 Duo 2.26 GHz - หน่วยความจำหลัก 2 GB - ฮาร์ดดิสก์ ขนาด 160 GB - iPhone 3GS, iPhone 4 หรือ iPod Touch 4 Generation 1.4.2 ซอฟต์แวร์ - Mac OS X 10.6 (Snow Leopard) - Xcode - iOS SDK

1.5 ผลที่คาดว่าจะได้รับ 1.5.1 มีแอปพลิเคชันเพื่อแปลภาษาอังกฤษเป็นภาษาไทยที่เพียงแค่การสัมผัสครั้งเดียวก็สามารถ ได้ความหมายของศัพท์ที่ต้องการ 1.5.2 มีการนำแอปพลิเคชันที่ได้ไปใช้อย่างแพร่หลาย 1.5.3 เป็นแนวคิดเพื่อพัฒนาแอปพลิเคชันอื่น ๆ ต่อไป


3

บทที่ 2 ผลงานที่เกี่ยวข้อง

2.1 แอปพลิเคชันชื่อ : vTranslator จัดทำโดย : Vlad Seryakov

รูปที่ 2.1 แอปพลิเคชัน vTranslator vTranslator เป็นแอปพลิเคชันที่ใช้ในการแปลภาษาโดยใช้ Google Translate ซึ่งตัวแปลภาษาก็มี อยู่มากมายโดยที่ส่วนใหญ่แล้วการรับคำที่จะนำไปแปลผ่านทางคีย์บอร์ด แต่สำหรับ vTranslator จะแตก ต่างตรงที่ใช้การถ่ายภาพคำที่ต้องการแปลแทน จากนั้น vTranslator ก็จะอ่านคำจากภาพที่ถ่ายได้แล้วส่ง ไปให้กับ Google Translate แปลให้ กระบวนอ่านคำจากภาพหรือ Optical Character Recognition (OCR) ที่ vTranslator ต้องใช้เพื่อ อ่านคำมาจากเครื่องมือชื่อ Tesseract ที่เป็น Open Source อยู่ใน Google Code ข้อดี vTranslator เป็นฟรีแอปพลิเคชันที่ใคร ๆ ก็สามารถโหลดมาใช้งานได้ เพียงแค่มี iTunes ID หรือ Apple ID และเข้าไปดาวโหดลที่ Apple App Store ข้อเสีย การเลือกถ่ายคำที่จะนำมาแปลมีข้อจำกัดตรงที่กรอบซึ่งเป็นตัวระบุส่วนที่จะอ่านเล็กเกินไปและ ไม่สามารถปรับเปลี่ยนขนาดได้ ทำให้ในบางครั้งการถ่ายคำแค่เพียงคำเดียวก็อาจจะไม่พอและถ้านำมาใช้ กับการถ่ายคำเพียงคำเดียวการพิมพ์ผ่านคีย์บอร์ดจะเร็วและแม่นยำกว่าวิธีการถ่ายภาพ ซึ่งจะทำให้เกิด ภาระเพิ่มมากกว่าความสะดวก


4

2.2 แอปพลิเคชันชื่อ : Page Scanner จัดทำโดย : FastIntelligence

รูปที่ 2.2 แอปพลิเคชัน Page Scanner

รูปที่ 2.3 ส่วนของการสแกนภาพ

แทนที่การพิมพ์เพื่อคัดลอกข้อมูลที่เป็นตัวอักษรในกระดาษ การนำ Optical Character Recognition (OCR) เข้ามาช่วยทำหน้าที่ป้อนข้อความสู่คอมพิวเตอร์จะช่วยลดเวลาในการคัดลอกข้อมูล ได้มาก โดยหลักการทำงานก็คือนำเอากระดาษไปสแกนผ่านเครื่องสแกนเพื่อให้ได้เป็นไฟล์ใน คอมพิวเตอร์ซึ่งก็คือไฟล์ภาพ จากนั้นนำภาพที่ได้ไปอ่านเอาข้อความออกมาผ่านกระบวนการ OCR ซึ่ง การที่จะได้ภาพเพื่อนำมาอ่านเอาข้อความออกมายังมีสิ่งอื่นอีกที่ใช้แทนกันได้ โดยในที่นี้ก็คือกล้องถ่าย รูปของโทรศัพท์มือถือที่มีความละเอียดสูงและคมชัดมากพอจะเทียบเท่ากับเครื่องสแกนได้ จึงมาเป็น แอปพลิเคชันนี้ที่ทำเสมือนว่าเป็นเครื่องสแกนขนาดเล็กที่รวมเอาการทำงานของ OCR เข้าไว้ด้วยกัน ข้อดี แทนที่เครื่องสแกนอันใหญ่โต (เมื่อเทียบกับขนาดของมือถือ) ด้วยขนาดที่เล็กกระทัดรัดของมือ ถือ ข้อเสีย ความแม่นยำในการอ่านคำจากภาพ (OCR)


5

บทที่ 3 ทฤษฏีและความรู้ที่เกี่ยวข้อง 3.1 Optical Character Recognition (OCR) OCR คือการอ่านตัวอักษรในภาพดังเช่นกับการที่คนเรามองภาพแล้วอ่านตัวอักษรในภาพด้วยตา โดยคอมพิวเตอร์นั้นการมองคือการใช้กล้องรับแสงที่สะท้อนออกมาจากวัตถุและเก็บค่าของแสงแต่ละ ตำแหน่งในขณะหนึ่งไว้ซึ่งก็คือภาพนิ่ง จากนั้นภาพที่ได้จะถูกนำไปค้นหาตัวอักษรแล้วนำตัวอักษรที่ ค้นหาได้มาเปรียบเทียบว่าเป็นตัวอักษรตัวอะไร

3.2 Google Translate API เป็นเครื่องมือที่ใช้ในการแปลภาษาที่มีหลากหลายภาษาให้เลือก อีกทั้งเครื่องมือแปลภาษานี้ยัง สามารถแปลคำศัพท์แบบกลุ่มคำหลาย ๆ คำรวมกันได้อีกด้วย ซึ่งถึงแม้ว่าการแปลแบบนี้จะยังเรียบเรียงคำ ไม่ค่อยดี แต่อย่างไรแล้วเครื่องมือตัวนี้ก็ยังถูกพัฒนาต่อไปอย่างต่อเนื่อง การใช้งานกระทำโดยการส่งผ่าน URL http://ajax.googleapis.com/ajax/services/language/translate? v=1.0&q=TEXT&langpair=SOURCE|DESTINATION โดยแทนที่คำที่ต้องการค้นหาแทนที่ตำแหน่ง TEXT ภาษาตั้งต้นที่ SOURCE ในลักษณะตัวย่อ เช่น en คือ English, ja คือ Japanese เป็นต้น และสุดท้ายคือภาษาที่ต้องการแปลไปที่ DESTINATION ใน ลักษณะตัวย่อเช่นเดียวกับภาษาตั้งต้น จากนั้นเราจะได้ข้อความที่เป็นผลการแปลอ้างอิงตาม URL ที่ส่งไป


6

บทที่ 4 ขั้นตอนและแผนการดําเนินงาน 4.1 ขั้นตอนการดำเนินงาน 4.1.1 ศึกษาข้อมูลเบี้ยงต้น ค้นหาข้อมูลความเป็นไปได้ของโครงงานที่จะนำเสนอว่ามีเป็นเป็นไปได้มากน้อยเพียงใด คือ 4.1.1.1 แนวคิดที่จะทำสามารถทำให้เป็นจริงได้หรือไม่ 4.1.1.2 มีแอปพลิเคชันอื่น ๆ ที่ใกล้เคียงกับแนวคิดที่จะทำ เพื่อศึกษาหาจุดอ่อนจุดแข็ง 4.1.2 เสนอโครงงาน ส่งเอกสารขอทำโครงงานพร้อมทั้งนำเสนอและให้คณะจารย์พิจารณาหัวข้อโครงงาน 4.1.3 ศึกษาทฤษฏีและความรู้ที่เกี่ยวข้อง 4.1.3.1 เรียนรู้ภาษา Objective-C ซึ่งใช้ในการพัฒนาแอปพลิเคชันบนระบบปฎิบัติการ iOS 4.1.3.2 ศึกษาหลักการทำงานของ Optical Character Recognition ซึ่งต้องนำมาใช้ในการอ่านตัว อักษรในภาพ 4.1.3.3 ศึกษาการใช้ Google Translate API เพื่อใช้ในการแปล 4.1.4 วิเคราะห์และออกแบบแอปพลิเคชัน วางแผนขั้นตอนการทำงานของแอปพลิเคชันทั้งในส่วนของการอ่านภาพ การแปลคำ ซึ่งรวมไป ถึงการนำการทำงานแต่ละส่วนมารวมเข้าด้วยกัน 4.1.5 เขียนโปรแกรม ลงมือสร้างการทำงานส่วนต่าง ๆ ขึ้นมาโดยการเขียนด้วภาษา Objective-C ร่วมกับ iOS SDK 4.1.6 ทดสอบและปรับปรุงแอปพลิเคชัน ทดสอบการทำงานของแอปพลิเคชันทั้งในเรื่องการใช้ เช่น หน่วยประมวลผล หน่วยความจำ เป็นต้น โดยอันดับแรกทดสอบในตัวจำลอง (Simulator) หลังจากนั้นจึงนำไปทดสอบบนอุปกรณ์จริงต่อ ไป 4.1.7 จัดทำเอกสาร ทำเอกสารรายละเอียดของโครงงานและวิธีใช้แอปพลิเคชันที่ได้จากแนวคิดตามโครงงานที่ได้นำ เสนอ


7

4.2 แผนการดำเนินงาน ส.ค. 53

ขั้นตอนการดำเนินงาน

ก.ย. 53

ต.ค. 53

ศึกษาข้อมูลเบี้องต้น เสนอโครงงาน ศึกษาทฤษฏีและความรู้ที่เกี่ยวข้อง วิเคราะห์และออกแบบแอปพลิเคชัน เขียนโปรแกรม ทดสอบและปรังปรุงแอปพลิเคชัน จัดทำเอกสาร ตารางที่ 4.1 แผนการดำเนินงาน

พ.ย. 53

ธ.ค. 53

ม.ค. 54

ก.พ. 54


8

บทที่ 5 วิธีการดำเนินงาน

รูปที่ 5.1 ส่วนเลือกภาษา

รูปที่ 5.2 หน้าต่างหลัก

5.1 ส่วนติดต่อผู้ใช้ เมื่อเรียกใช้งานแอปพลิเคชันนี้ขึ้นมาก็จะพบกับหน้าจอตามภาพทางด้านขวาโดยแต่ละส่วน มีหน้าที่ดังนี้ - กล่องข้อความด้านบน ใช้เพื่อเพื่อรับข้อความที่จะถูกนำไปแปล ซึ่งข้อความอาจจะมาจากการ ใช้งานความสามารถในการดึงข้อความมาในภาพหรือพิมพ์โดยตรงผ่านคีบอร์ดของ iOS ก็ได้ นั่นคือเรา สามารถเพิ่ม ลบ หรือแก้ไขข้อความได้ตรงนี้ - กล่องข้อความด้านล่าง ใช้เพื่อแสดงผลลัพธ์จากการแปลข้อความ ดังนั้นข้อความในส่วนนี้จึง สามารถทำได้เพียงแค่คัดลอกเท่านั้น - ปุ่มรูปถังขยะ(มุมขวาล่าง) ใช้เพื่อล้างข้อความในกล่องข้อความทั้งสองออกทั้งหมด - ข้อความด้านบนกล่องข้อความทั้งสอง ใช้เพื่อแสดงภาษาสำหรับแต่ละส่วน โดยในส่วนบน หมายความถึงภาษาของข้อความที่จะถูกนำไปแปล และส่วนล่างก็คือภาษาที่จะได้จากการแปล - ปุ่ม Settings (มุมซ้ายบน) ใช้เพื่อเลือกภาษาสำหรับกล่องข้อความทั้งสองดังที่กล่าวมาแล้ว โดย จะมีหน้าต่างใหม่ปรากฏขึ้นมาตามรูปด้านซ้าย (ตัวอย่างภาพ) ซึ่งภาษาที่จะแปลออกมาได้จะอ้างอิงจาก ภาษาที่ Google Translate สามารถแปลได้ และภาษาที่จะถูกนำไปแปลคือภาษาที่ใช้ตัวอักษร a ถึง z และ A ถึง Z - ปุ่ม Translate (กลางล่าง) ใช้เพื่อสั่งแปลข้อความ - ปุ่มรูปกล้องถ่ายรูป (มุมขวาล่าง) ใช้เพื่อเปิดส่วนของกล้องถ่ายรูป ทั้งนี้เพื่อถ่ายรูปภาพข้อความ ที่ต้องการจะแปลความหมาาย - ปุ่มรูปกระดาษ (ด้านขวาติดกับปุ่มรูปกล้อง) ใช้เพื่อเลือกรูปภาพจากแหล่งภาพที่มีอยู่แล้ว (Photo Albums) - ปุ่ม Help (มุมขวาบน) ใช้เพื่อแสดงข้อความแนะนำการใช้งานแอปพลิเคชัน


9

5.2 การทำงานของ OCR 5.2.1 การแบ่งข้อความตามบรรทัด เมื่อได้ภาพมาแล้วอันดับแรกก็คือการคำออกไปแต่ละบรรทัด โดยเก็บค่าเอาไว้เป็นคู่อันดับ เช่น บรรทัดที่ 1 เริ่มต้นที่แถว 1 และสิ้นสุดที่แถว 15 เป็นต้น โดยการตรวจสอบหาเส้นแบ่งบรรทัด คือ ถ้าหากแถวใด ไม่มีค่าสีดำอยู่ในแถวเลยและอยู่ก่อนบรรทัดที่มีสีดำอยู่ถือว่าเป็นจุดเริ่มต้นบรรทัด และ ถ้าแถวนั้นไม่มีสี ดำอยู่เลยและอยู่หลังจากบรรทัดที่มีสีดำอยู่แสดงว่าเป็นแถวสิ้นสุดบรรทัด ดังตัวอย่างการขีดเส้นแบ่ง บรรทัดตามรูป 5.2.2 การแบ่งตัวอักษรในแต่ละบรรทัด หลังจากค้นหาได้ตำแหน่งของแต่ละบรรทัดมาแล้วก็จะทำการแบ่งแต่ละตัวอักษรออกจากกัน โดยใช้หลักการลักษณะเดียวกับการพิจารณาบรรทัด คือ หาคอลัมที่ไม่มีสีดำซึ่งเริ่มจากแถวเริ่มต้นบรรทัด ไปยังแถวที่สิ้นสุดบรรทัด หากพบว่าเป็นคอลัมที่ไม่มีสีดำอยู่เลยและอยู่ก่อนคอลัมที่มีสีดำอยู่แสดงว่าเป็น คอลัมเริ่มต้น ซึ่งคอลัมสิ้นสุดก็คือคอลัมว่างที่อยู่หลังนั่นเอง เก็บข้อมูลตำแหน่งของแต่ละตัวอักษรไว้ เช่น ที่แถวที่ 1 มีตัวอักษรเริ่มต้นที่ 10 สิ้นสุดที่ 30 เป็นต้น 5.2.3 การหาตำแหน่งของเว้นวรรค หลังจากสองกระบวนการที่ผ่านมาแล้วสิ่งที่ได้คือตำแหน่งของตัวอักษรที่แน่นอนแต่ตัวอักษรทั้ง หลายก็ยังต้องพิจารณาหาเว้นวรรค เพื่อแบ่งตัวอักษรออกเป็นคำตามกลุ่มที่แบ่งด้วยเว้นวรรค หลักการ คือ หาค่าเฉลี่ยความห่างของแต่ละตัวอักษรออกมาแล้วนำค่าเฉลี่ยที่ได้มาเปรียบเทียบกับความ ห่างของแต่ละตัวอักษร ถ้าตัวอักษรห่างกับอีกตัวอักษรมากกว่าค่าเฉลี่ยที่ได้แสดงว่าตัวอักษรสองตัวนั้น ถูกขั้นด้วยเว้นวรรคนั่นเอง 5.2.4 การเปรียบเทียบเพื่อหาตัวอักษร หลักจากได้ตำแหน่งและวรรคแบ่งคำแล้วต่อไปก็จะนำเอาส่วนของตัวอักษรแต่ละตัวมาเปรียบ เทียบกับภาพตัวอักษรแต่ละฟอนต์ที่เตรียมเอาไว้ โดยทำการสเกลภาพตัวอักษรของฟอนต์ที่เตรียมไว้ให้ เท่ากับขนาดของฟอนต์ที่ตัดออกมาในอัตราส่วนที่เท่ากัน (ผลหารของความยาวและความสูง) จากนั้นนำ ภาพทั้งสองมาลบหาผลต่างกันหากภาพนั้นเหมือนกันก็จะลบกันได้พอดีหมายความว่าคือัตวอักษรตัวที่นำ มาเปรียบเทียบกันนั่นเอง ทำในขั้นตอนที่กล่าวมาไปในแต่ละบรรทัดจดหมดโดยหากพบว่ามีเว้นวรรคขั่นให้แทนที่ด้วยเว้นวรรคลง ไป

5.3 การแปลคำศัพท์โดย Google Translate หลังจากได้ข้อความออกมาแล้วต่อไปคือการส่งคำที่จะแปลไปยัง Google Translate โดยผ่านทาง URL คือ http://ajax.googleapis.com/ajax/services/language/translate?v=1.0&q=TEXT&langpair= SOURCE|DESTINATION โดยคำจะถูกแทนตรงตำแหน่ง TEXT ซึ่งต้องแทนที่เว้นวรรคด้วย %20 และระบุภาษาที่จะแปลที่ตำแหน่ง SOURCE และ DESTINATION เป็นแบบตัวย่อ เช่น en : English, th : Thai, ja : Japanese เป็นต้น SOURCE คือ ภาษาที่ถูกนำไปแปล DESTINATION คือ ภาษาที่จะให้แปลออกมา เมื่อ URL ดังกล่าวถูกส่งไปและถูกประมวลผลแล้ว Google Translate จะให้ข้อความกลับมาในรูปแบบ ดังนี้


10

{"responseData": {"translatedText":"TEXT"}, "responseDetails": null, "responseStatus": 200} ซึ่งจาก ข้อความที่ได้ก็จะตัดส่วน TEXT ที่เป็นคำแปลออกมาแสดงเป็นผลลัพธ์


11

บทที่ 6 ผลการดำเนินงาน ข้อจำกัด และข้อเสนอแนะ 6.1 ผลการดำเนินงาน การดำเนินงานส่วนใหญ่แล้วเป็นไปตามที่คาดหวังเอาไว้ คือ ในส่วนของการแปลคำศัพท์ก็ สามารถทำได้โดยใช้เครื่องมือติดต่อทางอินเตอร์เน็ต (Google Translate) ส่วนรูปลักษณ์ของแอปพลิเคชัน จากการสอบถามแล้วพบว่าเป็นที่น่าพอใจคือดูแล้วใช้ไม่ยากและสวยงาม แต่ในส่วนของการอ่านคำจาก ผลที่ได้สมบูรณ์แบบตามที่คาดหวังไว้ทั้งหมด ซึ่งจากการทดลองแล้วพบว่ามีข้อจำกัดอยู่ซึ่งจะกล่าวถึงใน หัวข้อต่อไป

6.2 ข้อจำกัด ในส่วนของการประมวลผลภาพเพื่อดึงตัวอักษรออกมาพบว่ามีข้อจำกัดดังนี้ - ภาพที่จะนำมาประมวลผลต้องเป็นภาพที่มีเพียงแค่ข้อความ ทั้งนี้เพราะว่าวิธีที่ใช้ในการ ประมวลผลภาพไม่ได้ถูกออกแบบมาเพื่อค้นหาข้อความจากภาพที่มีรูปต่าง ๆ ปะปนอยู่ เช่น ภาพ โปสเตอร์ ใบปลิว เป็นต้น แต่เพื่อการค้นหาข้อความจากภาพที่ประกอบไปด้วยตัวอักษรเพียงอย่างเดียว เช่น หนังสือนิยาย หนังสือเรียน (ที่มีเพียงบทบรรยาย ไม่มีรูปภาพ) เป็นต้น - การแยกตัวอักษรในแต่ละบรรทัดหากตัวอักษรติดกันหรือตำแหน่งคร่อมกัน เช่น fa จะไม่ สามารถแยกแยะตัวอักษรเช่นนี้ได้ ทั้งนี้เพราะในการพิจารณาแบ่งตัวอักษรพิจารณาโดยการแบ่งตาม ช่องไฟโดยดูจากส่วนบนของบรรทัดไล่ลงมายังส่วนล่างของบรรทัด ถ้าหากว่าจากบนสุดถึงล่างสุดเป็น ส่วนที่ว่างทั้งหมด(พิจารณาทีละหลัก)แสดงว่าเป็นช่องไฟหรือช่องว่าง ซึ่งถ้าสังเกตจากตัวอักษร f และ a ที่วางติดกันเป็น fa ส่วนปลายหัวของ f จะโค้งมาอยู่บนตัวอักษร a ดังนั้นจึงทำให้ไม่สามารถหาช่องไฟ ระหว่างตัวอักษรทั้งสองได้ตามหลักการพิจารณาที่กล่าวมา - เพื่อความแม่นยำในการเปรียบเทียบเพื่อจดจำตัวอักษร ขนาดของตัวอักษรในภาพควรจะเป็นตัว อักษรขนาด 15 พอยต์ ทั้งนี้เพราะการจดจำตัวอักษรใช้การนำภาพต้นฉบับของแต่ละตัวอักษรในแต่ละ ฟอนต์มาเปรียบเทียบกับแต่ละตัวอักษรในภาพ ซึ่งภาพต้นฉบับนี้ถูกเตรียมไว้ที่ขนาดฟอนต์ 15 พอยต์ ดัง นั้นถ้าขนาดของตัวอักษรในภาพเล็กกว่าหรือใหญ่กว่าจึงต้องมีการย่อหรือขยายภาพต้นฉบับเพื่อให้ สามารถนำไปเปรียบเทียบ ตรงนี้เองที่การย่อหรือขยายอาจทำให้ภาพต้นฉบับผิดเพี้ยนไป - ตัวอุปกรณ์ iOS นั้นสามารถใช้ได้ทั้ง iPhone, iPod Touch และ iPad ที่ใช้ iOS เวอร์ชัน 4.0 ขึ้น ไป แต่ในส่วนการใช้งานกล้องจะมีเพียงแค่ iPhone และ iPod Touch 4G เท่านั้น ส่วน iPad สามารถใช้งาน เกี่ยวกับรูปภาพได้จาก Photo Albums - ส่วนของกล้องที่ใช้ในการถ่ายภาพจะมีเพียงแค่ iPhone 3Gs และ iPhone 4 ที่มีระบบ AutoFocus ซึ่งทำให้สามารถถ่ายรูปภาพระบบใกล้ได้ชัดเจน แต่กล้องของ iPod Touch 4G จะขาดในส่วนนี้ไป ทำให้ภาพที่ได้อาจจะไม่คมชัดเพียงพอที่จะนำไปประมวลผลแล้วได้ผลลัพธ์ที่น่าพอใจ


12

6.3 ข้อเสนอแนะ จากการศึกษาในระหว่างการทำงานพบว่ามีเครื่องมือที่น่าสนใจเกี่ยวกับการอ่านตัวอักษรจากใน ภาพที่ชื่อ Tesseractโดยเครื่องมือนี้ถูกเผลแพร่อยู่ในเว็บไซต์ย่อยของ Google ที่เกี่ยวข้องกับการเขียน โปรแกรมคอมพิวเตอร์ ซึ่งจากการทดสอบประสิทธิภาพของซอฟแวร์ที่ใช้งานเครื่องมีนี้ (ซอฟแวร์ใน คอมพิวเตอร์บนระบบปฏิบัติการ Mac OS X) พบว่ามีความแม่นยำสูงและรองรับฟอนต์ได้หลายรูปแบบ แต่ทั้งนี้การนำเครื่องมือ Tesseract มาใช้ในระบบปฏิบัติการ iOS ถือเป็นเรื่องยากเพราะเดิมนั้นเครื่องมือนี้ ไม่ได้ทำมาสำหรับ iOS ดังนั้นจึงมีขั้นตอนมากมายที่ต้องทำหากต้องการนำเครื่องมือนี้มาใช้งาน จากที่ได้กล่าวมาแล้วจึงขอแนะนำกับผู้อ่านหรือผู้ที่จะทำงานเกี่ยวข้องกับการอ่านตัวอักษรจากภาพให้ลอง ศึกษาและใช้งานเครื่องมือนี้เพราะจะช่วยให้งานมีประสิทธิภาพมากยิ่งขึ้น อีกทั้งหากจุดประสงค์ในการ ทำงานไม่ได้อยู่ที่การสร้างวิธีการอ่านตัวอักษรแต่เป็นการนำไปใช้แล้วละก็ เครื่องมือนี้จะช่วยให้ผู้พัฒนา สามารถที่จะใช้เวลาพัฒนาตามจุดประสงค์ได้อย่างชุดเจน ไม่ต้องเสียเวลากับการพัฒนาเครื่องมือการอ่าน ตัวอักษรจากภาพ


13

บรรณานุกรม [1] Chaoji Li, 2011, “Page Scanner”, [แอปพลิเคชัน], เข้าถึงได้: http://itunes.apple.com/th/app/pagescanner/id368331275?mt=8 [2] Vlad Seryakov , 2010, “vTranslator”, [แอปพลิเคชัน], เข้าถึงได้: http://itunes.apple.com/us/app/ vtranslator/id351260186?mt=8


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.