پردازش رایانهای زبان
رایانه و زبان - ۱۶

رایانه و زبان- ۱۶
کاربردهای پردازش رایانهای زبان
نویسهخوان نوری (OCR)
دکتر هادی ویسی
...................................................
زمانی که از یک صفحه نوشتاری در یک کتاب عکس میگیرید یا آن را اسکن میکنید، چون «تصویر» آن نوشته را دارید و نه متن الکترونیکی آن، امکان ویرایش آن «متن»، کپی کردن و استفاده از آن را ندارید. در این حالت میتوانید آن را تایپ کنید و یا به سامانههای OCR بدهید تا به صورت خودکار متن داخل این تصویر را استخراج کنند. تبدیل کتابهای قدیمی اسکن شده به نسخه الکترونیکی برای استفاده از متن و قابل جستجو کردن آن (مانند پروژه Google Book)، استخراج متن از اسناد آرشیوهای دیجیتال، دیجیتالی کردن فرمهای تکمیل شده به صورت دستی، تصحیح خودکار پاسخنامههای آزمونها، تشخیص پلاک خودرو در دوربینهای راهنمایی و رانندگی و تبدیل تصویر دستنوشته به متن تایپی از جمله انواع و کاربردهای OCRها هستند. انجام OCR در زبان فارسی به دلیل متصل بودن نویسهها به همدیگر، و وجود دندانه و نقطه و سرکش در برخی نویسهها از زبانهایی مانند انگلیسی پیچیدهتر است.
روشها: سامانههای OCR با استفاده از روشهای پردازش تصویر و یادگیری ماشین، برای استخراج متن یک صفحه از یک کتاب، ابتدا ساختار آن صفحه را تحلیل میکنند تا شکل و جدول و سایر اجزا را تفکیک کنند، سپس از بخشهای متنی ویژگی استخراج میکنند (با روشهای مهندسی ویژگی و یا یادگیری عمیق مانند شبکه CNN)، پس از آن به دستهبندی نویسهها پرداخته (امروزه عمدتا با روشهای یادگیری عمیق مانند شبکه LSTM) و در نهایت با پسپردازش نتیجه را بهبود میبخشند (مثلا اصلاح «تبات» به «نبات»).
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبان» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکتر هادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.