شناسایی واحدهای اسمی در زبان عربی

با توجه به ضرورت فعالیت در عرصه پردازش محاسباتی زبان و گسترش تلاش‌های محققان، روزبه‌روز بر این پیشرفت‌ها افزوده می‌شود و پژوهشگران در سراسر دنیا سعی در بهبود و پیاده‌سازی این روش‌ها در زبان‌های بومی خود دارند. افزایش چشمگیر اطلاعات در اشکال مختلف، مانند: منابع اینترنتی، روزنامه‌ها، کتب و ... لزوم استخراج و ساماندهی داده‌ها را بیش از پیش نمایان می‌سازد. یکی از مهم‌ترین مشکلات در سیستم‌‌های استخراج اطلاعات(IE)، شناسایی و سازماندهی واحد‌های اطلاعاتی است.

 

سیستم‌های IE، به دو گروه اصلی: نگرش‌های دانش مهندسی (که عموماً از سیستم‌های نقش‌محور استفاده می‌کنند) و نگرش‌های یادگیری ماشینی تقسیم می‌شوند. در این نگرش‌ها از فهرست اسامی جهت کمک به شناسایی واحد‌های اسمی (NE) استفاده می‌شود. البته سیستم‌های نقش‌محور معمولاً بیش از سیستم‌های یادگیری ماشینی، به این فهرست‌های اسامی متکی هستند. چنین فهرست‌هایی، نه تنها شامل مدخل‌های جغرافیایی از قبیل: نام شهرها، کشورها و غیره‌اند، بلکه نام افراد (به‌ویژه نام کوچک)، سازمان‌های بزرگ، ماه‌های سال، روزهای هفته، اعداد را نیز در بر می‌گیرند.

 

در این مقاله به بررسی پیشینه کارِ شناسایی واحد‌های اسمی پرداخته، سپس به ساختار اسم در زبان عربی و مشکلات شناسایی آن می‌پردازیم. در بخش بعد، به روش‌های شناسایی واحد‌های اسمی و در نهایت، به نتیجه‌گیری از مباحث مطروحه خواهیم پرداخت. (ادامه ...)