الفهرس | Only 14 pages are availabe for public view |
Abstract فى الآونة الاخيرة، أصبحت شبكات التواصل الاجتماعي الموضوع الاكثر انتشارا فى مجال البحث ويرجع ذلك الى كثرة عدد مستخدميها. بالإضافة الى التركيز المتصاعد مؤخرا لتحليل الشعور الاجتماعي. يعد تويتر واحد من شبكات التواصل الاجتماعي والمدونات الصغيرة التي تسمح ببث المشاركات القصيرة والتي تسمى تويتس. يلعب تويتر دور مهم فى السماح للمستخدمين باكتشاف وبحث ومشاركة المعلومات الخاصة عن العلامات التجارية والمنتجات. وتستخدم الشركات شبكات التواصل الاجتماعي للحصول على معلومات اضافية وردود الافعال عن منتجاتها وخدماتها المتاحة. تحليل المشاعر مشكلة تصنيف اساسية بين ثلاثة اقسام (إيجابي – سلبى – محايد ). العديد من الاعمال السابقة تم انجازها باللغة الانجليزية بينما القليل تم انجازه باللغات الاخرى مثل اللغة العربية. وترجع اهمية اللغة العربية الى انها يتحدث بها مئات الملايين من الناس فى اكثر من 20 دولة. يركز هذا العمل على اكتشاف طرق لزيادة الدقة فى تحليل المشاعر باللغة العربية وخاصه اللهجة المصرية من خلال تحسين خطوه ما قبل المعالجة واستخدام خصائص اللغة العربية. وتعتمد الطريقة المقترحة على اولاً: يتم اختبار مقاييس التشابه المختلفة لتحديد ايهما تزيد الدقة فى تحليل المشاعر باللغة العربية. ثانيا: يتم استخدام Machine Learning بمصنفاته المختلفة ,وقد استخدمنا مجموعه بيانات لتقيم الطريقة المقترحة ومقارنتها بالطرق السابقة. وقد تم جمع البيانات من تويتر بعمل ابليكشن عليه وسحب tweets. وتم فلتره ال tweets لنختار منها العربية فقط ومن ثم تم فلتره noise, links, emotions وغيرها. وتقطيع tweetsالى tokens والتعامل مع كل token على حدى ومقارنها بما فى المعجم باستخدام طرق التشابه المختلفة سواء كانت Edit Based Similarity او Token Based Similarity واختيار افضلهم وهى Cosine Similarity وهى نوع من انواع Token Based Similarity . وبذلك تم تحديد المشاعر للتويتس من خلال جمع ال sentiment لكل token فى tweets. واستخدمنا انواع مختلفة من Machine Learning مثل Naïve Bayes , Perceptron, Support Vector Machine classifier and SGD وذلك لتحديد المشاعر لأى تويتس جديدة. وقد تم اختبار جميعهم والوصول لأفضل النتائج باستخدام Support Vector Machine . وتم قياس العديد من performance evaluation مثلAccuracy ,Precision, Recall, F-Score . وتم التطبيق العملي وكتابة الاكواد باستخدام لغة البايثون على نظام اللينكس. وأظهرت النتائج التجريبية أن الطريقة المقترحة قد حققت دقة إجمالية قدرها 92.98٪ باستخدام LinearSVC. |