• Info@SaminRay.Com
  • 88866172 021
218

تکنولوژی OCR چیست؟

تکنولوژی تبدیل متن چاپی به متن دیجیتالی با قابلیت ویرایش، جستجو و ذخیره‌سازی در قالب مدارک الکترونیکی را تشخیص اپتیکال حروف یا OCR (Optical Character Recognition) می‌نامند.

تکنولوژی تبدیل متن چاپی به متن دیجیتالی با قابلیت ویرایش، جستجو و ذخیره‌سازی در قالب مدارک الکترونیکی را تشخیص اپتیکال حروف یا OCR (Optical Character Recognition) می‌نامند. تکنولوژی OCR مبتنی بر تحلیل شکل و الگوهای حروف و اعداد موجود در متن هستند. معمولاً اجرای روش‌های OCR در پنج مرحله انجام می‌شود: پیش‌پردازش تصویر (جهت حذف هرگونه نویز، افزایش کنتراست و وضوح تصویر ورودی)، تقسیم‌بندی تصویر پیش‌پردازش شده (تقسیم کلمات به حروف جداگانه)، استخراج ویژگی از تصاویر تقسیم‌بندی شده (ویژگی‌های هر کاراکتر تقسیم‌بندی شده؛ مانند ویژگی‌های شکلی، ارتفاع و عرض استخراج می‌شود)، انتخاب الگوی منطبق و تشخیص کاراکتر (کاراکترهای شناسایی شده به متن قابل خواندن توسط ماشین ترجمه می‌شوند).

انواع روش‌های OCR:

روش‌های مرسوم OCR را می‌توان به چهار دسته کلی تقسیم کرد:

  1. روش‌های مبتنی بر شناسایی الگو یا Pattern recognition: در این نوع روش‌ها، یک پایگاه‌داده از الگوهای حروف و اعداد ساخته می‌شود و سپس مبتنی بر یک معیار شباهت‌سنجی بین این الگوها و داده ورودی، حروف شناسایی می‌شوند. در این روش‌ها فرایند انتخاب الگوی منطبق مبتنی بر ویژگی‌های استخراج شده از تصویر تقسیم‌بندی شده صورت می‌گیرد. اگرچه روش‌های تشخیص الگو یک روش OCR محبوب هستند؛ اما دقت آن‌ها به‌شدت به کیفیت و اندازه پایگاه‌داده الگوهای کاراکتر بستگی دارد و از طرفی ممکن است برای تشخیص کاراکترهایی که در پایگاه‌داده وجود نداشته باشند، مناسب نیست.
  2. روش‌های مبتنی بر فاصله نزدیک‌ترین همسایه یا Nearest neighbor distance: در این روش به‌ازای هر حرف موردنظر، بررسی می‌شود که حروف مشابه آن در پایگاه‌داده در کدام کلاس قرار می‌گیرد تا نزدیک‌ترین کلاس به‌عنوان حرف موردنظر شناسایی شود. یکی از مزایای اصلی این نوع روش‌های OCR، قابل‌استفاده بودن برای پایگاه‌داده‌های کوچک و کارایی مناسب در صورت نبود کاراکتر مشابه در پایگاه‌داده است. البته ذکر این نکته ضروری است که امکان کاهش دقت با افزایش اندازه پایگاه‌داده و همین‌طور روبروشدن با کاراکترهای بسیار شبیه به یکدیگر، در این نوع روش‌ها وجود دارد.
  3. روش‌های مبتنی بر مدل یا Model-based: این روش‌ها از مدل‌های آماری مانند مدل‌های مارکوف پنهان یا HMM، ماشین‌های بردار پشتیبان یاSVM و میدان‌های تصادفی شرطی یا CRF برای تشخیص الگوها و اعداد استفاده می‌کنند. این روش‌ها با استفاده از مدل‌سازی آماری بین الگوی کاراکترها و روابط آنها در تصویر ورودی کاراکتر را شناسایی می‌کنند. یکی از مزایای اصلی روش‌های مبتنی بر مدل، توانایی آن‌ها در مدیریت ساختارهای پیچیده کاراکتری در تصویر ورودی است. این روش‌ها می‌توانند وابستگی‌های بین کاراکترها را به تصویر بکشند و از آنها برای بهبود دقت تشخیص استفاده کنند. ازطرفی دیگر، این روش‌ها هزینه محاسباتی و پیچیدگی بالایی دارند و به همین دلیل قدرت پردازش قابل‌توجه و مقادیر زیادی از داده‌های آموزشی برای دستیابی به‌دقت بالا نیاز دارند.
  4. روش‌های مبتنی بر شبکه‌های عصبی یا Neural network: در این نوع روش‌ها شبکه‌های عصبی برای شناسایی الگوهای حروف و اعداد استفاده می‌شوند. این روش‌ها به دلیل دقت بالایی که دارند، بیشتر برای OCR در صنایع بزرگ مورداستفاده قرار می‌گیرد. این روش‌ها که محبوبیت بالایی دارند از شبکه‌های عصبی مصنوعی برای تشخیص الگوهای کاراکترها و اعداد استفاده می‌کنند. در این روش‌ها، یک شبکه عصبی بر روی مجموعه‌داده بزرگی از تصاویر کاراکترها آموزش داده می‌شوند تا کاراکترها را شناسایی و طبقه‌بندی کنند. یکی از مزیت‌های اصلی روش شبکه عصبی، دقت و استحکام بالای آن در تشخیص کاراکترها، حتی در تصاویر نویز یا تخریب شده است. شبکه عصبی می‌تواند از داده‌های ورودی یاد بگیرد و آن را با انواع مختلف کاراکترها و فونت‌ها سازگارتر کند. بااین‌حال، روش‌های مبتنی بر شبکه عصبی به مجموعه‌داده بزرگی از تصاویر برچسب‌دار برای آموزش نیاز دارد که می‌تواند زمان‌بر و از نظر محاسباتی پرهزینه باشد.

چند نمونه از موتورهای OCR مبتنی بر شبکه عصبی:

چندین مدل OCR وجود دارد که برای کاربردهای مختلف قابل‌استفاده هستند. از جمله محبوب‌ترین موتورهای OCR منبع‌باز عبارت‌اند از: Tesseract OCR (دارای قابلیت تشخیص بیش از 100 زبان)، ORopus (قابلیت تشخیص فونت‌های خاص)، CuneiForm (قابلیت شناسایی اسناد نوشته شده به چندین زبان از جمله خط سیریلیک، یونانی و لاتین)،Microsoft OCR ، Amazon Texttract و Google Cloud Vision OCR.

توجه به این نکته ضروری است که دقت یک مدل OCR به عوامل متعددی از جمله کیفیت تصویر ورودی، فونت استفاده شده در سند و زبان شناسایی شده بستگی دارد.

 

وبلاگ

برچسب های مطالب