پردازش رایانه‌ای زبان

رایانه و زبان - ۱۶

رایانه و زبان - ۱۶

رایانه و زبان- ۱۶
کاربردهای پردازش رایانه‌ای زبان 
نویسه‌خوان نوری (OCR) 
دکتر هادی ویسی

...................................................

زمانی که از یک صفحه نوشتاری در یک کتاب عکس می‌گیرید یا آن را اسکن می‌کنید، چون «تصویر» آن نوشته را دارید و نه متن الکترونیکی آن، امکان ویرایش آن «متن»، کپی کردن و استفاده از آن را ندارید. در این حالت می‌توانید آن را تایپ کنید و یا به سامانه‌های OCR بدهید تا به صورت خودکار متن داخل این تصویر را استخراج کنند. تبدیل کتاب‌های قدیمی اسکن شده به نسخه الکترونیکی برای استفاده از متن و قابل جستجو کردن آن (مانند پروژه Google Book)، استخراج متن از اسناد آرشیوهای دیجیتال، دیجیتالی کردن فرم‌های تکمیل شده به صورت دستی، تصحیح خودکار پاسخ‌نامه‌های آزمون‌ها، تشخیص پلاک خودرو در دوربین‌های راهنمایی و رانندگی و تبدیل تصویر دست‌نوشته به متن تایپی از جمله انواع و کاربردهای OCRها هستند. انجام OCR در زبان فارسی به دلیل متصل بودن نویسه‌ها به همدیگر، و وجود دندانه و نقطه و سرکش در برخی نویسه‌ها از زبان‌هایی مانند انگلیسی پیچیده‌تر است.
روش‌ها: سامانه‌های OCR با استفاده از روش‌های پردازش تصویر و یادگیری ماشین، برای استخراج متن یک صفحه از یک کتاب، ابتدا ساختار آن صفحه را تحلیل می‌کنند تا شکل و جدول و سایر اجزا را تفکیک کنند، سپس از بخش‌های متنی ویژگی استخراج می‌کنند (با روش‌های مهندسی ویژگی و یا یادگیری عمیق مانند شبکه CNN)، پس از آن به دسته‌بندی نویسه‌ها پرداخته (امروزه عمدتا با روش‌های یادگیری عمیق مانند شبکه LSTM) و در نهایت با پس‌پردازش نتیجه را بهبود می‌بخشند (مثلا اصلاح «تبات» به «نبات»). 
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبان» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکتر هادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: موسسه دهخدا رایانه و زبان دکتر هادی ویسی پردازش رایانه‌ای زبان نویسه‌خوان نوری OCR آموزش زبان فارسی مهندسی ویژگی یادگیری عمیق