- Info@SaminRay.Com
- 88866172 021
تکنولوژی OCR چیست؟
تکنولوژی تبدیل متن چاپی به متن دیجیتالی با قابلیت ویرایش، جستجو و ذخیرهسازی در قالب مدارک الکترونیکی را تشخیص اپتیکال حروف یا OCR (Optical Character Recognition) مینامند.
تکنولوژی تبدیل متن چاپی به متن دیجیتالی با قابلیت ویرایش، جستجو و ذخیرهسازی در قالب مدارک الکترونیکی را تشخیص اپتیکال حروف یا OCR (Optical Character Recognition) مینامند. تکنولوژی OCR مبتنی بر تحلیل شکل و الگوهای حروف و اعداد موجود در متن هستند. معمولاً اجرای روشهای OCR در پنج مرحله انجام میشود: پیشپردازش تصویر (جهت حذف هرگونه نویز، افزایش کنتراست و وضوح تصویر ورودی)، تقسیمبندی تصویر پیشپردازش شده (تقسیم کلمات به حروف جداگانه)، استخراج ویژگی از تصاویر تقسیمبندی شده (ویژگیهای هر کاراکتر تقسیمبندی شده؛ مانند ویژگیهای شکلی، ارتفاع و عرض استخراج میشود)، انتخاب الگوی منطبق و تشخیص کاراکتر (کاراکترهای شناسایی شده به متن قابل خواندن توسط ماشین ترجمه میشوند).
انواع روشهای OCR:
روشهای مرسوم OCR را میتوان به چهار دسته کلی تقسیم کرد:
- روشهای مبتنی بر شناسایی الگو یا Pattern recognition: در این نوع روشها، یک پایگاهداده از الگوهای حروف و اعداد ساخته میشود و سپس مبتنی بر یک معیار شباهتسنجی بین این الگوها و داده ورودی، حروف شناسایی میشوند. در این روشها فرایند انتخاب الگوی منطبق مبتنی بر ویژگیهای استخراج شده از تصویر تقسیمبندی شده صورت میگیرد. اگرچه روشهای تشخیص الگو یک روش OCR محبوب هستند؛ اما دقت آنها بهشدت به کیفیت و اندازه پایگاهداده الگوهای کاراکتر بستگی دارد و از طرفی ممکن است برای تشخیص کاراکترهایی که در پایگاهداده وجود نداشته باشند، مناسب نیست.
- روشهای مبتنی بر فاصله نزدیکترین همسایه یا Nearest neighbor distance: در این روش بهازای هر حرف موردنظر، بررسی میشود که حروف مشابه آن در پایگاهداده در کدام کلاس قرار میگیرد تا نزدیکترین کلاس بهعنوان حرف موردنظر شناسایی شود. یکی از مزایای اصلی این نوع روشهای OCR، قابلاستفاده بودن برای پایگاهدادههای کوچک و کارایی مناسب در صورت نبود کاراکتر مشابه در پایگاهداده است. البته ذکر این نکته ضروری است که امکان کاهش دقت با افزایش اندازه پایگاهداده و همینطور روبروشدن با کاراکترهای بسیار شبیه به یکدیگر، در این نوع روشها وجود دارد.
- روشهای مبتنی بر مدل یا Model-based: این روشها از مدلهای آماری مانند مدلهای مارکوف پنهان یا HMM، ماشینهای بردار پشتیبان یاSVM و میدانهای تصادفی شرطی یا CRF برای تشخیص الگوها و اعداد استفاده میکنند. این روشها با استفاده از مدلسازی آماری بین الگوی کاراکترها و روابط آنها در تصویر ورودی کاراکتر را شناسایی میکنند. یکی از مزایای اصلی روشهای مبتنی بر مدل، توانایی آنها در مدیریت ساختارهای پیچیده کاراکتری در تصویر ورودی است. این روشها میتوانند وابستگیهای بین کاراکترها را به تصویر بکشند و از آنها برای بهبود دقت تشخیص استفاده کنند. ازطرفی دیگر، این روشها هزینه محاسباتی و پیچیدگی بالایی دارند و به همین دلیل قدرت پردازش قابلتوجه و مقادیر زیادی از دادههای آموزشی برای دستیابی بهدقت بالا نیاز دارند.
- روشهای مبتنی بر شبکههای عصبی یا Neural network: در این نوع روشها شبکههای عصبی برای شناسایی الگوهای حروف و اعداد استفاده میشوند. این روشها به دلیل دقت بالایی که دارند، بیشتر برای OCR در صنایع بزرگ مورداستفاده قرار میگیرد. این روشها که محبوبیت بالایی دارند از شبکههای عصبی مصنوعی برای تشخیص الگوهای کاراکترها و اعداد استفاده میکنند. در این روشها، یک شبکه عصبی بر روی مجموعهداده بزرگی از تصاویر کاراکترها آموزش داده میشوند تا کاراکترها را شناسایی و طبقهبندی کنند. یکی از مزیتهای اصلی روش شبکه عصبی، دقت و استحکام بالای آن در تشخیص کاراکترها، حتی در تصاویر نویز یا تخریب شده است. شبکه عصبی میتواند از دادههای ورودی یاد بگیرد و آن را با انواع مختلف کاراکترها و فونتها سازگارتر کند. بااینحال، روشهای مبتنی بر شبکه عصبی به مجموعهداده بزرگی از تصاویر برچسبدار برای آموزش نیاز دارد که میتواند زمانبر و از نظر محاسباتی پرهزینه باشد.
چند نمونه از موتورهای OCR مبتنی بر شبکه عصبی:
چندین مدل OCR وجود دارد که برای کاربردهای مختلف قابلاستفاده هستند. از جمله محبوبترین موتورهای OCR منبعباز عبارتاند از: Tesseract OCR (دارای قابلیت تشخیص بیش از 100 زبان)، ORopus (قابلیت تشخیص فونتهای خاص)، CuneiForm (قابلیت شناسایی اسناد نوشته شده به چندین زبان از جمله خط سیریلیک، یونانی و لاتین)،Microsoft OCR ، Amazon Texttract و Google Cloud Vision OCR.
توجه به این نکته ضروری است که دقت یک مدل OCR به عوامل متعددی از جمله کیفیت تصویر ورودی، فونت استفاده شده در سند و زبان شناسایی شده بستگی دارد.