پردازش رایانه‌ای زبان

رایانه و زبان - ۱۷

رایانه و زبان - ۱۷

رایانه و زبان- ۱۷
کاربردهای پردازش رایانه‌ای زبان 
خطایاب املایی 
دکتر هادی ویسی
...................................................

خطایاب املایی از جمله ابزارهای عمومی و پرکاربرد پردازش متن است که امروزه در ویرایشگرهای معروفی مانند Word برای اکثر زبان‌ها وجود دارد و در آن دو کار اصلی ۱- تشخیص خطای املایی و ۲- تصحیح آن (شناسایی واژه‌های صحیح مشابه با واژه دارای خطا و رتبه‌بندی آنها) انجام می‌شود. این ابزار، علاوه بر اینکه می‌تواند در زمان تایپ کردن و برای شناسایی و اصلاح خطاهای املایی مورد استفاده باشد، می‌تواند برای پس‌پردازش سامانه‌های OCR و اصلاح خطاهای آن به کار رود. 
روش‌ها: خطایاب املایی هرچند در ظاهر کار ساده‌ای به نظر می‌رسد، اما چون یافتن خطاها نیازمند «ذخیره کلیه واژه‌های درست یک زبان» و «جستجو در آن» است و لیست کردن و نگهداری همه واژه‌ها در یک زبان کار ساده‌ای نیست (به دلیل تعداد زیاد واژه‌های ممکن، به ویژه در زبان‌های داری ساختار ساخت‌واژی پیچیده) و جستجو در آن (به دلیل زمان‌بر بودن، به ویژه در خطایاب‌های برخط). روش ساده و اولیه برای خطایابی املایی لیست کردن همه واژه‌هاست اما به دلیل بیان شده، در همه زبان‌ها و کاربردها مناسب نیست. لذا برای تشخیص خطا از روش‌های تحلیل ساخت‌واژی (Morphological Anaysis) استفاده می‌شود و در پیاده‌سازی آن از اتوماتا/مبدل‌های حالت محدود (FST/FSA) استفاده می‌شود، هرچند روش‌های نوظهوری مانند شبکه عصبی نیز پیشنهاد شده است. برای ارائه پیشنهاد تصحیح روش رایج، محاسبه معیار فاصله ویرایشی با روش کمینه فاصله ویرایشی (مانند لونشتاین) است و برای رتبه‌بندی هم، روش رایج استفاده از مدل زبانی آماری است. 
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبان» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکتر هادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: موسسه دهخدا اموزش زبان فارسی رایانه و زبان پردازش رایانه‌ای زبان دکتر هادی ویسی خطایاب املایی تشخیص خطای املایی OCR Morphological Anaysis کمینه فاصله ویرایشی شبکه عصبی مدل زبانی آماری پردازش متن