مقالات

متن‌کاوی نور از نگاه پژوهشی و فنی

مرکز تحقیقات کامپیوتری علوم اسلامی، در بیش از بیست سال فعالیت خود، تاکنون توانسته است با رقومی نمودن منابع مکتوب، حجم عظیمی از دادگان متنی را فراهم آورد. در مرحله بعد، به فرآوری و غنی‌سازی متون پرداخت و سپس با به کارگیری فناوری‌های رایانه‌ای، محیط پژوهشی مناسبی را در ارائه محتوای این متون به گونه‌ای کارآمد ایجاد نمود و در این مسیر، همواره به توسعه این امکانات می‌اندیشد. روایات مشابه، صرف ماشینی، برچسب‌گذاری، خلاصه‌ساز، خوشه‌بندی، اِعراب‌گذاری، رده‌بندی متن و نیز تحلیل صرفی و نحوی قرآن، از جمله محصولات نور است که تا کنون در حوزه متن‌کاوی تولید و عرضه شده است.

 

تحلیلگر هوشمند صرفی نور

در این مقاله قصد داریم به بررسی «تحلیلگر صرفی نور» که برنامه هوشمند پردازش صرفی زبان عربی است، بپردازیم. این سامانه، کلمات عربی را حتی‌الامکان با استفاده از قواعد معتبر زبان عربی تجزیه و تحلیل می کند و در صورت نیاز با حداقل استفاده از بانک‌های اطلاعاتی تعبیه شده در داخل سامانه، نتایج حاصل را به عنوان حالات معتبر مختلف صرفی برای هر کلمه ارائه می‌نماید.

 

ملاحظاتی در باب تأسیس یک نهاد پژوهشی میان‌رشته‌ای در حوزه «فناوری اطلاعات و علوم اسلامی»

مرکز تحقیقات کامپیوتری علوم اسلامی، خود نهادی است که مولود یک رویکرد میان‌رشته‌ای است و این رویکرد هم در نام کلی مرکز تجلّی یافته است. ادامه کار این مرکز و رسیدن آن به اهداف از پیش تعیین شده نیز به مدد همین رویکرد حاصل خواهد شد. این مرکز به همّت متخصصان و فناوران همکار خود توانسته است، بخشی از مرحله اساسی و حیاتی انتقال داده‌های علوم اسلامی به فضای دیجیتال و امکانات جستجو و بازیابی آنها را پوشش دهد و در این مسیر، به فربه‌تر کردن این امکانات می‌اندیشد. اکنون در موقعیتی قرار گرفته‌ایم که حجم عظیمی از داده‌های علوم اسلامی به محیط دیجیتال منتقل شده‌اند.

جستجوی هوشمند عبارات قرآنی در متون دیجیتال

برجسته کردن عبارات قرآنی در متون مکتوب - چه با تغییر در نوع نوشتار و چه با استفاده از علائم ویرایشی - موضوعی است که قرن‌ها مورد توجه مؤلفان، نسخه‌برداران و ناشران قرار گرفته است. همچنین، فهرست‌برداری از این عبارات و درج آنها به صورت آماری در بخش پایانی کتب نیز در تألیفات دهه‌های اخیر متداول بوده است.

 

امکان‌سنجی برچسب‌گذاری ادات سخن متون عربی در لایه نحو

قوانین سیستم تشخیص حدود جمله - انسان‌ها برای انتقال مقصود خود به مخاطب، از راه‌های مختلفی استفاده می‌کنند. یکی از متداول‌ترین روش‌ها، استفاده از تکلّم (گفتاری و نوشتاری) است. در پردازش سخن، گوینده با به کارگیری کلمات، در قالبی به نام جمله، هدف خود را به مخاطب می‌فهماند. برای فهم هدف متکلّم لازم است مخاطب، جملات او را از جنبه‌های گوناگون مانند: محدوده، معنا، اعراب و ... مورد بررسی قرار دهد و تنها بهره‌‌گیری از تجزیه کلمات و تکیه بر نقش آنها برای تشخیص جمله کافی نیست. شناخت محدوده جمله که تعیین ابتدا و انتهای جملات است، نخستین مرحله پردازش جمله به شمار می‌آید.

شناسایی واحدهای اسمی در زبان عربی

با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاش‌های محققان، روزبه‌روز بر این پیشرفت‌ها افزوده می‌شود و پژوهشگران در سراسر دنیا سعی در بهبود و پیاده‌سازی این روش‌ها در زبان‌های بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامه‌ها، کتب و ... لزوم استخراج و ساماندهی داده‌ها را بیش از پیش نمایان می‌سازد. یکی از مهم‌ترین مشکلات در سیستم‌‌های استخراج اطلاعات(IE)، شناسایی و سازماندهی واحد‌های اطلاعاتی است.

 

سیستم هوشمند برچسب‌گذار ادات سخن زبان عربی؛ لایه‌ صرف

جهت فهم زبان عربی، سه دانش مهم، نقش اساسی را بر عهده دارند که عبارت‌اند از: علم لغت، صرف و نحو. علم لغت، یعنی فهم معنای حقیقی یک کلمه و همچنین آشنایی با برخی معانی مجازی و کنایی یک کلمه یا یک عبارت. در کنار علم لغت، علم صرف و نحو نیز وجود دارد که مبتنی بر قواعدی است که فهم هوشمند از آنها را امکان‌پذیر می‌کند. بدون تردید، علم صرف را باید پیش‌نیاز علم نحو دانست. اینکه یک کلمه چه جایگاهی را در یک کلام دارد، ابتدا وابسته به این است که کلمه به خودی خود قابلیت کدام یک از نقوش نحوی را دارد؛ به طور مثال، فاعل یا مفعول شدن یک کلمه، در ابتدا وابسته به این است که آن کلمه اسم باشد و نه فعل یا حرف.

کاربردهای داده‌کاوی در علوم اسلامی

«داده‌کاوی» یا فرایند کشف دانش در پایگاه داده، زمینه‌ای نسبتاً نوظهور است. داده‌کاوی، پل ارتباطی میان علوم آمار، مهندسی کامپیوتر، هوش مصنوعی، شناسایی آماری الگو، یادگیری ماشین و محاسبات رایانشی نرم است. داده‌کاوی، فرآیند یا پروژه‌ای نسبتاً پیچیده برای شناسایی الگوها و مدل‌های صحیح، قابل استناد و مفید در حجم وسیعی از داده است؛ ‌به گونه‌ای که این الگوها و مدل‌ها برای انسان‌ها قابل درک باشند.