پردازش رایانهای زبان
رایانه و زبان - ۱۷

رایانه و زبان- ۱۷
کاربردهای پردازش رایانهای زبان
خطایاب املایی
دکتر هادی ویسی
...................................................
خطایاب املایی از جمله ابزارهای عمومی و پرکاربرد پردازش متن است که امروزه در ویرایشگرهای معروفی مانند Word برای اکثر زبانها وجود دارد و در آن دو کار اصلی ۱- تشخیص خطای املایی و ۲- تصحیح آن (شناسایی واژههای صحیح مشابه با واژه دارای خطا و رتبهبندی آنها) انجام میشود. این ابزار، علاوه بر اینکه میتواند در زمان تایپ کردن و برای شناسایی و اصلاح خطاهای املایی مورد استفاده باشد، میتواند برای پسپردازش سامانههای OCR و اصلاح خطاهای آن به کار رود.
روشها: خطایاب املایی هرچند در ظاهر کار سادهای به نظر میرسد، اما چون یافتن خطاها نیازمند «ذخیره کلیه واژههای درست یک زبان» و «جستجو در آن» است و لیست کردن و نگهداری همه واژهها در یک زبان کار سادهای نیست (به دلیل تعداد زیاد واژههای ممکن، به ویژه در زبانهای داری ساختار ساختواژی پیچیده) و جستجو در آن (به دلیل زمانبر بودن، به ویژه در خطایابهای برخط). روش ساده و اولیه برای خطایابی املایی لیست کردن همه واژههاست اما به دلیل بیان شده، در همه زبانها و کاربردها مناسب نیست. لذا برای تشخیص خطا از روشهای تحلیل ساختواژی (Morphological Anaysis) استفاده میشود و در پیادهسازی آن از اتوماتا/مبدلهای حالت محدود (FST/FSA) استفاده میشود، هرچند روشهای نوظهوری مانند شبکه عصبی نیز پیشنهاد شده است. برای ارائه پیشنهاد تصحیح روش رایج، محاسبه معیار فاصله ویرایشی با روش کمینه فاصله ویرایشی (مانند لونشتاین) است و برای رتبهبندی هم، روش رایج استفاده از مدل زبانی آماری است.
...................................................
پینوشت: امروزه با همهگیر شدن نقش رایانهها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوریهای مرتبط با رایانه بیبهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبان» یادداشتهای کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشتها را آقای دکتر هادی ویسی، معاون علمی مؤسسهٔ لغتنامهٔ دهخدا، تهیه کرده و هر هفته یکی از آنها در وبگاه و شبکههای اجتماعیِ مؤسسهٔ لغتنامهٔ دهخدا منتشر میشود.