پردازش رایانه‌ای زبان

رایانه و زبان - ۱۸

رایانه و زبان - ۱۸

رایانه و زبان- ۱۸
کاربردهای پردازش رایانه‌ای زبان: بازیابی اطلاعات و پرسش-پاسخ متنی 
دکتر هادی ویسی
...................................................

اینترنت را بدون وجود موتورهای جستجویی مانند گوگل تصور کنید: دنیایی از اطلاعات که هم نمی‌دانیم وجود دارند و اگر هم بدانیم، نمی‌توانیم آنها را پیدا کنیم! بازیابی اطلاعات عنوان عمومی‌تر برای عمل جستجو است که در موتورهای جستجو انجام می‌شود. بازیابی اطلاعات در متن، نوعی تشابه‌یابی اسناد (Document Similarity) است که تشابه بین پرسش موردنظر شما و اسناد مرجع (اسناد آرشیو شده در یک سامانه و یا صفحات وب جمع‌آوری و نمایه شده توسط خزشگرهای (Crawler) موتورهای جستجو) اندازه‌گیری شده و سپس اسناد مشابه، بر اساس معیارهایی از جمله میزان تشابه و سایر شاخص‌های ارزش‌گذاری اسناد مشابه (مانند اعتبار صفحه/سایت حاوی آن سند در اینترنت) رتبه‌بندی می‌شوند. 
روش‌ها: هرچند کار جستجو در ظاهر یک مقایسه تطابق دو رشته متنی است اما آنچه در سامانه‌های بزرگ بازیابی اطلاعات می‌گذرد، فراتر است و در تشابه‌یابی متن، از روش‌های نوین پردازش زبان طبیعی استفاده می‌شود: مانند تحلیل ساخت‌واژی و ریشه‌یابی برای یافتن اسناد حاوی صورت‌های مختلف واژه، مثلا درنظر گرفتن اسناد حاوی «کتاب‌ها» به عنوان اسناد مشابه مرتبط با جستجوی «کتاب»؛ تحلیل معنایی، مثلا درنظر گرفتن اسناد حاوی «کامپیوتر» به عنوان اسناد مشابه مرتبط با جستجوی «رایانه». نسل جدید این سامانه‌ها با عنوان سامانه‌های «پرسش و پاسخ»، پا را فراتر از تشابه‌یابی ساده گذاشته و پرسش ورودی را از نظر «معنایی» تحلیل کرده و به جای بازگرداندن یک سند حاوی کلمات جستجو شده، یک پاسخ دقیق را به عنوان نتیجه نمایش می‌دهند، مانند «فضل‌االله رضا» در پاسخ به پرسش «دهمین رئیس دانشگاه تهران».
...................................................
پی‌نوشت: امروزه با همه‌گیر شدن نقش رایانه‌ها در ابعاد مختلف زندگی انسان، حوزهٔ زبان (نوشتاری و گفتاری) نیز از فناوری‌های مرتبط با رایانه بی‌بهره نبوده و رشد شتابان هوش مصنوعی منجر به خلق ابزارهای مدرنی در این حوزه شده است. «رایانه و زبان» یادداشت‌های کوتاهی در مورد نقش رایانه در زبان و یا نحوه استفاده از آن برای پردازش زبان، با تاکید بر زبان فارسی، است. این یادداشت‌ها را آقای دکتر هادی ویسی، معاون علمی مؤسسهٔ لغت‌نامهٔ دهخدا، تهیه کرده و هر هفته یکی از آنها در وب‌گاه و شبکه‌های اجتماعیِ مؤسسهٔ لغت‌نامهٔ دهخدا منتشر می‌شود.

کلید واژه ها: اموزش زبان فارسی موسسه دهخدا رایانه و زبان دکتر هادی ویسی پردازش رایانه‌ای زبان بازیابی اطلاعات و پرسش-پاسخ متنی تشابه‌یابی اسناد Document Similarity Crawler تحلیل ساخت‌واژی تحلیل معنایی تشابه‌یابی بازیابی اطلاعات