• Info@SaminRay.Com
  • 88866172 021
579

مقدمه‌ای بر sentiment analyzing

بطورکلی فرآیند تحلیل احساسات در پنج گام صورت می‌گیرد. در گام اول پیام‌های کاربر دریافت می‌شوند و سپس در گام بعدی فرآیند پیش‌پردازش صورت می‌گیرد.

 بطورکلی فرآیند تحلیل احساسات در پنج گام صورت می‌گیرد. در گام اول پیام‌های کاربر دریافت می‌شوند و سپس در گام بعدی فرآیند پیش‌پردازش صورت می‌گیرد. هدف اصلی از فرآیند پیش‌پردازش، حذف کارکترهای بی‌معنی و همین‌طور تبدیل متن به مجموعه‌ای از کارکترها که قابلیت برچسب‌گذاری مثبت یا منفی را داشته باشند، است. در گام سوم فرآیند استخراج  و انتخاب ویژگی صورت می‌گیرد. در این مرحله ابتدا پیام پیش‌پردازش شده به مجموعه‌ای از توکن‌ها تبدیل می‌شود. توکن‌ها نیز به بردار ویژگی با طول مشخص نگاشت می‌شوند. طول بردار ویژگی و چگونگی تبدیل آن ارتباط مستقیم با میزان کارایی و دقت مدل دارد.

طبقه‌بندی احساسات به‌عنوان گام چهارم شناخته می‌شود که در آن از تکنیک‌های طبقه‌بندی متن استفاده می‌شود. تکنیک‌های مرسوم که در این مرحله استفاده می‌شوند عبارت‌اند از، Naïve Bayes و ماشین بردار پشتیبان (SVM). شناسایی پولاریته از نتایج کسب شده در مرحله‌ی طبقه‌بندی احساسات استفاده می‌شود و مثبت، منفی یا خنثی بودن نظر را تخمین می‌زند. شناسایی پولاریته بعنوان آخرین مرحله در تحلیل احساسات شناخته می‌شود. همان‌طور که در شکل زیر دیده می‌شود، رویکردهای مورد استفاده در تحلیل احساسات به دو دسته کلی تقسیم می‌شوند، رویکردهای مبتنی بر واژگان و رویکردهای مبتنی بر یادگیری ماشین.

                                          

طبقه‌بندی رویکردهای تحلیل احساسات 

رویکردهای مبتنی بر واژگان که در بعضی مراجع به‌عنوان روش‌های rule-based شناخته می‌شوند، براساس "مجموعه واژگان احساسات" فرآیند تحلیل احساس پیام کاربر را صورت می‌دهند. این نوع رویکردها در تحلیل احساسات به دو تکنیک تقسیم می‌شوند: تکنیک‌های مبتنی بر فرهنگ لغت و تکنیک‌های مبتنی بر corpus. در تکنیک‌های مبتنی بر فرهنگ لغت، ابتدا یک تخمین اولیه از احساسات متن صورت می‌گیرد و سپس با استفاده از مترادف کلمات متن که در فرهنگ لغت وجود دارند، تخمین اولیه مورد بررسی قرار می‌گیرد. تکنیک‌های مبتنی بر corpus مبتنی بر دامنه لغات و برچسبی که برای آن‌ها درنظر گرفته شده است، احساس موجود در پیام کاربر را تخمین می‌زند. این روش نسبت به روش مبتنی بر فرهنگ لغت کارایی پائین‌تری دارد.

روش‌های مبتنی بر یادگیری ماشین به دو گروه نظارت شده و غیر نظارت شده تقسیم می‌شوند. این نوع روش‌ها مبتنی بر طبقه‌بندهای مختلف از جمله طبقه‌بندهای مبتنی بر درخت تصمیم (decision tree)، طبقه‌بندهای خطی (مانند شبکه‌های عصبی و SVM)، طبقه‌بندهای rule-based و طبقه‌بندهای احتمالاتی مانند Naïve Bayes، شبکه بیزین و حداکثر آنتروپی هستند. از مزیت‌های رویکردهای مبتنی بر یادگیری ماشین بر رویکردهای مبتنی بر واژگان می‌توان به مقیاس‌پذیری (قابلیت استفاده در کاربردهای خاص) و کارایی و دقت بالای این روش‌ها اشاره کرد. از طرفی دیگر این روش‌ها نیاز به داده‌های آموزشی برچسب‌دار دارند که ایجاد آن‌ها هزینه و زمان زیادی را صرف خواهد کرد.

 

وبلاگ

برچسب های مطالب