- Info@SaminRay.Com
- 88866172 021
مقدمهای بر sentiment analyzing
بطورکلی فرآیند تحلیل احساسات در پنج گام صورت میگیرد. در گام اول پیامهای کاربر دریافت میشوند و سپس در گام بعدی فرآیند پیشپردازش صورت میگیرد.
بطورکلی فرآیند تحلیل احساسات در پنج گام صورت میگیرد. در گام اول پیامهای کاربر دریافت میشوند و سپس در گام بعدی فرآیند پیشپردازش صورت میگیرد. هدف اصلی از فرآیند پیشپردازش، حذف کارکترهای بیمعنی و همینطور تبدیل متن به مجموعهای از کارکترها که قابلیت برچسبگذاری مثبت یا منفی را داشته باشند، است. در گام سوم فرآیند استخراج و انتخاب ویژگی صورت میگیرد. در این مرحله ابتدا پیام پیشپردازش شده به مجموعهای از توکنها تبدیل میشود. توکنها نیز به بردار ویژگی با طول مشخص نگاشت میشوند. طول بردار ویژگی و چگونگی تبدیل آن ارتباط مستقیم با میزان کارایی و دقت مدل دارد.
طبقهبندی احساسات بهعنوان گام چهارم شناخته میشود که در آن از تکنیکهای طبقهبندی متن استفاده میشود. تکنیکهای مرسوم که در این مرحله استفاده میشوند عبارتاند از، Naïve Bayes و ماشین بردار پشتیبان (SVM). شناسایی پولاریته از نتایج کسب شده در مرحلهی طبقهبندی احساسات استفاده میشود و مثبت، منفی یا خنثی بودن نظر را تخمین میزند. شناسایی پولاریته بعنوان آخرین مرحله در تحلیل احساسات شناخته میشود. همانطور که در شکل زیر دیده میشود، رویکردهای مورد استفاده در تحلیل احساسات به دو دسته کلی تقسیم میشوند، رویکردهای مبتنی بر واژگان و رویکردهای مبتنی بر یادگیری ماشین.
طبقهبندی رویکردهای تحلیل احساسات
رویکردهای مبتنی بر واژگان که در بعضی مراجع بهعنوان روشهای rule-based شناخته میشوند، براساس "مجموعه واژگان احساسات" فرآیند تحلیل احساس پیام کاربر را صورت میدهند. این نوع رویکردها در تحلیل احساسات به دو تکنیک تقسیم میشوند: تکنیکهای مبتنی بر فرهنگ لغت و تکنیکهای مبتنی بر corpus. در تکنیکهای مبتنی بر فرهنگ لغت، ابتدا یک تخمین اولیه از احساسات متن صورت میگیرد و سپس با استفاده از مترادف کلمات متن که در فرهنگ لغت وجود دارند، تخمین اولیه مورد بررسی قرار میگیرد. تکنیکهای مبتنی بر corpus مبتنی بر دامنه لغات و برچسبی که برای آنها درنظر گرفته شده است، احساس موجود در پیام کاربر را تخمین میزند. این روش نسبت به روش مبتنی بر فرهنگ لغت کارایی پائینتری دارد.
روشهای مبتنی بر یادگیری ماشین به دو گروه نظارت شده و غیر نظارت شده تقسیم میشوند. این نوع روشها مبتنی بر طبقهبندهای مختلف از جمله طبقهبندهای مبتنی بر درخت تصمیم (decision tree)، طبقهبندهای خطی (مانند شبکههای عصبی و SVM)، طبقهبندهای rule-based و طبقهبندهای احتمالاتی مانند Naïve Bayes، شبکه بیزین و حداکثر آنتروپی هستند. از مزیتهای رویکردهای مبتنی بر یادگیری ماشین بر رویکردهای مبتنی بر واژگان میتوان به مقیاسپذیری (قابلیت استفاده در کاربردهای خاص) و کارایی و دقت بالای این روشها اشاره کرد. از طرفی دیگر این روشها نیاز به دادههای آموزشی برچسبدار دارند که ایجاد آنها هزینه و زمان زیادی را صرف خواهد کرد.