LibCamp#1 : Thai OCR Technology Topic
หลังจากพักทานอาหารว่างกันแล้วงาน LibCamp#1 ก็ดำเนินต่อไป
ผู้ที่ออกมาพูดคนที่ห้าของงาน LibCamp#1
คือ คุณวศิน สินธุภิญโญ จาก สวทช.
ซึ่งมาเล่าเกี่ยวกับเทคโนโลยีไทยโอซีอาร์ (Thai OCR Technology)
OCR ย่อมาจาก Optical character recognition
การทำงานของ OCR คือ นำไฟล์เอกสารที่อยู่ในรูปแบบของภาพ
นำมาผ่านโปรแกรมเพื่อถอดข้อความที่เป็นตัวอักษรออกมา
ลักษณะของ OCR ในปัจจุบันมีอยู่ 2 รูปแบบหลัก คือ
– แบบออนไลน์ คือ การเขียนตัวอักษรแล้วโปรแกรมก็จะเปลี่ยนลายมือของเราเป็นตัวอักษร
– แบบออฟไลน์ คือ การนำไฟล์ที่ได้จากการสแกนมาผ่านกระบวนการแปลงเป็นตัวอักษรทีหลัง
ประโยชน์ของการใช้ OCR
– เราสามารถนำผลลัพธ์ของการทำ OCR ไปแก้ไขได้
– เราสามารถนำข้อมูลที่ได้จากการทำ OCR ไปลงในฐานข้อมูลได้
– ลดเนื้อที่ในการจัดเก็บ (ไฟล์ข้อความมีขนาดเล็กกว่าไฟล์ภาพ)
– สามารถนำมาใช้ในการสืบค้นได้อย่างมีประสิทธิภาพ
นอกจากนี้แล้ว คุณวศิน ยังได้กล่าวถึงการพัฒนาโปรแกรม ARNthai ดังนี้
Arnthai 1.0 – เริ่มต้นในปี 1997 ใช้ได้กับ window 3.1 / 95
ความถูกต้องของการใช้งาน 90% และมีราคา 3,500 บาท
Arnthai 2.0 – เริ่มต้นในปี 1999 ใช้ได้กับ window 3.1 / 95
ความถูกต้องของการใช้งาน 95% และมีราคา 295 บาท
Arnthai 2.5 – เริ่มต้นในปี 2004 ใช้ได้กับ window 95 / 98 / Me / XP
ความถูกต้องของการใช้งาน 95% และมีราคา 180 บาท
นอกจากบรรยายแล้ว คุณวศินยังได้สาธิตการใช้โปรแกรม Arnthai ด้วย
นอกจากจะพัฒนาของภาษาไทยแล้ว ตอนนี้ยังมีการพัฒนาเพื่อให้ใช้ได้กับภาษาลาวด้วย
แบบนี้สิ เขาเรียกว่าเจ๋งจิงๆ สุดยอดดดดด!!!!