اعتراضات اجتماعی در جوامع انسانی سابقهای به اندازه طول تاریخ دارد. به طوری که همواره اعتراضات در حوزههای مختلفی از جمله اقتصادی، فرهنگی، سیاسی و …، در هر گوشه از جهان به وقوع میپیوندد. این نوع از خیزشها و رویدادهای اجتماعی همواره در حال وقوع، ثبت و گزارشدهی توسط رسانهها و فضای مجازی هستند. اهمیت این رخدادها به قدری است که پژوهشگران و محققین حوزههای علوم اجتماعی، علوم کامپیوتر، آمار و بسیاری دیگر از حوزهها، همواره به دنبال شناخت و پیشبینی آنها میباشند. چراکه فراگیری و در دسترس بودن رسانههای موجود در فضای مجازی امکان ثبتِ رخدادها و تحلیل آنها را فراهم کرده است.
از سوی دیگر عدم وجود داده مناسب و کافی همواره یکی از دغدغههای پژوهشگرانِ حوزه علوم اجتماعی بوده است که با استفاده از روشهای آمارگیری و سنتی به جمعآوری دادههای مورد نظر خود میپرداختند. اما به لطف شبکههای اجتماعی و کلان دادههای تولید شده در آنها حجم انبوهی از داده برای تحلیل و آزمودن فرضیهها به راحتی در دسترس پژوهشگران قرار دارد.
رسانههای اجتماعی مانند حسگرهای ثبت داده عمل میکنند، از طرفی با ظهور اینترنت اشیا در آینده نزدیک و اتصال میلیونها دستگاه به یکدیگر حجم دادههای تولیدی چند برابر خواهد شد. از این رو عصر حاضر را عصر دیجیتال، اطلاعات و دادهها نیز مینامند (لائورو و همکاران، ۲۰۱۷). این عصر در حوزه نیازهای پژوهشهای علوم اجتماعی تغییرات شگرفی را به همراه داشته و فرصتهای جدیدی برای پژوهشگران این حوزه به ارمغان آورده است. با استفاده از مزایای ایجادشده، پژوهشگران قادر به مشاهده رفتارهای واقعی کاربران در فضای مجازی هستند؛ در حالی که تا قبل از آن جمعآوری اطلاعات این چنینی بسیار سخت و پرهزینه بود اما به کمک رسانههای اجتماعی پرسیدن سؤالات حساسیت برانگیز و پیادهسازی آزمایشهایی که در گذشته به سختی قادر به انجام آنها بودند، از طرق مختلف قابل اجراست. همچنین از آنجا که اغلب کاربرانِ این رسانهها از امکان تحلیل نظرات منتشر شده خود، آگاه نیستند، در بسیاری از مواقع افکار و نظرات واقعی خود را منعکس میکنند. مشخصاً در کنار تمام مزیتهای متصور برای این عصر، معایبی نیز برای آن قابل تصور است. عدم رعایت حریم خصوصی کاربران توسط محققان و گروههای مختلف یکی از مناقشه برانگیزترین چالشهای آن است. اگرچه هنوز تمام زوایای این عصر بر همگان مشخص نیست اما روندهای مورد بررسی نشان دهنده آغاز جریانی اثرگذار در زندگی شخصی و رفتاری جوامع است (سالگانیک، ۲۰۱۷).
با تمام این تفاسیر استفاده از دادههای تولید شده برای یافتن دلایل اعتراضات اجتماعی و پیشبینی زمان وقوع آنها یکی از موضوعات مورد علاقه پژوهشگران میباشد (فن استکلنبرگ و کلاندرمانس، ۲۰۱۳)، تلاش برای پاسخ به این سؤالات، با جمعآوری دادههای پیرامون و داخل سیستم و تبدیل آنها به دانش صورت میگیرد، از طرفی با پاسخگویی به برخی از سؤالات موجود میتوان زمینه کاهش عدم اطمینان در تصمیمگیری و دستیابی به هوشمندی را ایجاد کرد. هوشمندی شامل جمعآوری، پردازش و تحلیل دادههای محیطی و انتشار این اطلاعات در ارتباط با راهبردهای مورد نظر است شکل ۱ (کوزا، ۲۰۱۱).
خانواده هوشمندی نیز شامل هوش ژئو فضایی[۱]، هوش انسانی[۲]، هوش سیگنال[۳]، هوش اندازهگیری و اعتبار[۴]، هوش منابع باز[۵] و هوش فنی[۶] است. از سوی دیگر در پی اعتراضات سال ۲۰۱۱ در کشور انگلستان که به آشوبهای خیابانی انجامید، دولت انگلستان، ریشه شکلگیری این آشوبها را در شبکههای اجتماعی دانسته و خود را در پیشبینی و درک رخدادهای این فضا ناتوان دید. از آن پس، اومند و همکاران (۲۰۱۲) مفهومی به نام هوشمندی رسانههای اجتماعی[۷] را مطرح کردند که به عنوان یکی دیگر از اعضای خانواده هوشمندی شناخته شده و افراد در آن، به جمعآوری، پردازش و تحلیل دادههای رسانههای اجتماعی با رویکردی ترجیحاً مبتنی بر منابع آشکار و در صورت اجبار، مبتنی بر منابع پنهان میپردازند تا هوشمندی و بینش مورد نیاز خود را از این دادهها استخراج کنند.
دستیابی به هوشمندی در سازمانها نیازمند پیادهسازی مراحل چرخه هوشمندی میباشد. همانطور که در شکل ۲ مشخص است چرخه هوشمندی از فاز تشخیص نیاز به هوشمندی آغاز و با فازهای جمعآوری داده، تحلیل داده و بازخورد ادامه پیدا میکند (اخگر و همکاران، ۲۰۱۷).
چرخه هوشمندی متشکل از موارد زیر است:
۱- شناسایی نیازها (جهتدهی)
نقطه شروع هوشمندی در سازمانها، نیاز برنامهریزان و تصمیمگیران است. در واقع هوشمندی در چه راستایی نیاز است.
۲- جمعآوری دادههای هوشمندی (جمعآوری)
در این مرحله دادههای مورد نظر با توجه به نوع نیاز در مرحله اول جمعآوری میشوند.
۳- تبدیل دادهها به فرمهای قابل استفاده (پردازش)
پردازش و حذف دادههای غیر ضروری برای سهولت در استفاده از آنها و دستیابی به نتایج بهتر از اهداف این مرحله است.
۴- تبدیل دادهها به هوشمندی (تحلیل)
تحلیل دادهها با استفاده از روشهای مناسب و کسب دانش از نتایج حاصل از تحلیل آنها به هوشمندی میرسد.
۵- توزیع هوشمندی در بخشهای مناسب (انتشار)
در این مرحله هوشمندی کسب شده از تحلیل دادهها را با توجه به نیاز بخشهای مختلف سازمان در گروههای مختلف تقسیم کرده تا از آن برای پیشرفت سازمان استفاده شود.
۶- سنجش هوشمندی بر اساس نیازها (بازخورد)
در این مرحله هوشمندی بدست آمده در مرحلههای قبل، با توجه به نیاز اولیه بررسی و اعتبار سنجی میشود.
در هوشمندی تمام دادهها و رفتارهای سیاسی، اجتماعی، اقتصادی، حقوقی و … در مورد یک سازمان رصد و تحلیل میشوند. در نهایت هوشمندی به نظام برنامهریزی راهبردی سازمان متصل و بر تصمیمگیری راهبردی تأثیرگذار است (فانگ و همکاران ۲۰۰۷).
شبکههای اجتماعی با ایجاد بسترِ نشرِ آسان و گستردهِ محتوا، فرصتی برای تولید و تبادل اطلاعات فراهم کردهاند. با بررسی عمیقتر میتوان دریافت که این رسانهها در مقایسه با رسانههای سنتی قدرت بیشتری در تغییر رفتار فرد و اجتماع را به صورت نامحسوس یافتهاند و میتوانند لایههای درونی یک فرد و به تبع آن اجتماع را در شرایط عدم قطعیت محیط کنونی تغییر دهند.
با توجه به تغییرات ژرفی که فناوری اطلاعات در ابعاد زندگی انسان به وجود آورده است، بیشک در ماهیت رسانهها و چگونگی اداره آنها نیز دگرگونیهای عظیمی رخ داده است. با تحلیلِ دادههای موجود در انبارههای داده، میتوان از داده خام با سیر مراتب توصیف، تشخیص، پیشبینی و تجویز به هوشمندی دست یافت[۸]. لذا استفاده از شبکههای اجتماعی و پیشبینی تحولات آینده مسئله این پژوهش است.
پیشینه تحقیق
پژوهشهای زیادی با استفاده از دادههای موجود در فضای مجازی برای پیشبینی انواع رخدادها صورت گرفته است. پژوهشهای کیفی انجام شده نشان میدهد بیش از ۷۵ درصد ناآرامیهای اجتماعی از قبل برنامهریزی شده هستند بنابراین پیشبینی آنها امکانپذیر است (موثیاه و همکاران، ۲۰۱۵). کامپتون و همکاران (۲۰۱۳)، با استفاده از دادههای توئیتر درصدد پیشبینی ناآرامیهای مدنی منطقه آمریکای لاتین در آینده نزدیک برآمدهاند. سیستم پیاده شده توسط آنها دائماً در حال فیلتر کردن دادهها با توجه به متن و منطقه جغرافیایی است. در این روش، فیلترها به بازه گستردهای از دادههای عمومی توئیتر تسری پیدا کرده و موارد مشابه در یک گروه قرار میگیرند. همچنین با استفاده از کلید واژههایی توئیتهای مناسب انتخاب و با رگرسیون لجستیک طبقهبندی شدهاند و در نهایت با استفاده از منطقه جغرافیایی کاربران، به هر طبقه یک موقعیت مکانی مشخص تخصیص داده شده است.
علیخانی (۲۰۱۴)، به تحلیل اخبار با استفاده از لحن آنها پرداخته است برای پیادهسازی این نوع مدلبندی ابتدا کنشگران و کنشپذیران اصلی هر کشور تعیین و در ادامه روند لحن اخبار هر یک از آنها را مشخص کرده و نهایتاً با استفاده از تحلیل ممیزی[۹] و رگرسیون خطی به پیشبینی اعتراضات پرداخته است.
چن و نیل (۲۰۱۴)، با استفاده از آمار ناپارامتری به تشخیص رخدادها در گرافهای ناهمگون شبکههای اجتماعی پرداختند. آنها ابتدا شبکه اجتماعی را به عنوان سنسوری که محیط اطراف خود را ثبت میکند مدل کرده، سپس با استفاده از معناداری تجربی[۱۰] میزان دقت آنها را برای بازههای زمانی مختلف اندازه میگیرند. همچنین هرگونه تغییر یا کنش غیرمعمول زیر ذرهبین میرود تا خوشههای مربوط به تحرکات یا کنشها شناسایی شوند. نهایتاً امکان پیشبینی رویدادهایی نظیر ناآرامی مدنی و یا تشخیص شیوع بیماریهای نادر را با استفاده از دادههای توئیتر بررسی کردند.
کیائو و ونگ (۲۰۱۵)، به مطالعه موردیِ اشغال وال استریت در نیویورک و سنترال در هنگ کنگ پرداختند آنها شناسایی و پیشبینی رویدادهای اعتراضی با روش گراف-محور در سه مرحله تشخیص، پیشبینی و استفاده از پایگاه دادههای موجود را در دستور کار خود قرار داده و با استفاده از رگرسیون لجستیک احتمال وقوع رویداد در یک روز مشخص را بررسی کردند، دقت پیشبینی روش آنها ۹۶/۹۱ درصد است.
کرکماز و همکاران (۲۰۱۵)، با رویکرد تلفیق و ادغام منابع داده ناهمگون به پیشبینی ناآرامیها در آمریکای لاتین از نوامبر ۲۰۱۲ تا آگوست ۲۰۱۴ با استفاده از دادههای توئیتر، بلاگها و اخبار پرداختهاند، آنها با رویکرد لاسو[۱۱] از دادههای تنکِ[۱۲] خود مجموعهای از صفات را انتخاب کرده و با رگرسیون لجستیک به پیشبینی احتمال وقوع اعتراضات اجتماعی پرداختند.
ژائو و همکاران (۲۰۱۵)، دغدغه پیشبینی فضایی-زمانی رویداد در رسانههای اجتماعی را داشتند. آنها معتقدند، اغلب پژوهشگران در مطالعات داده محور خود تنها به جنبه زمانی موضوع توجه کرده و از جنبه فضایی آن غافل شدهاند. حال آنکه بهتر است نوع نگاه و رویکرد فضایی-زمانی را مد نظر قرار دهیم.
کرلف و همکاران (۲۰۱۶)، اعتراضات بالتیمور را مورد بررسی قرار داده و فرآیند تحرک اجتماعی[۱۳] که دارای چهار مرحله ابراز همدردی با دلیل[۱۴]، آگاهی از جنبش[۱۵]، انگیزه شرکت[۱۶] و قابلیت مشارکت[۱۷] است در نظر گرفته و پیامهای جمعآوری شده از توئیتر را مطابق این مراحل دستهبندی کردند، سپس به پیشبینی اتفاقات پیشِ رو با استفاده از پردازش زبان طبیعی، دستهبندی هیجانات و مدل رگرسیون لجستیک پرداختهاند.
وئو و گربر (۲۰۱۷)، معتقدند محتوای تولید شده در رسانههای اجتماعی به پیشبینی اعتراضات کمک میکنند. با این وجود همواره سؤالاتی در مورد عوامل مؤثر بر قدرت پیشبینی وجود دارد. آنها از متغیرهای پیشبینی کننده برای سنجش میزان اعتراض افراد با استفاده از پژوهشهای حوزه نظریه مشارکت استفاده کردهاند. سپس این متغیرها را در مورد توئیتر و انقلاب ۲۰۱۱ مصر آزموده و همبستگی مثبت قابل توجهی بین حجم توصیف اعتراضی در توئیتر و وقوع آنها پیدا کردند. نتایج این پژوهش قدرت پیشبینی رسانههای اجتماعی را به خوبی نشان میدهد. به طور خلاصه، آنها نشان میدهند که چگونه فعالانِ آنلاین، رفتارِ آفلاین را در خلال قیامهای مدنی شکل میدهند. جدول ۱ خلاصهای از پژوهشهای بررسی شده را نشان میدهد.
چارچوب نظری
جامعه شناسان نظریات مختلفی را برای قرار گرفتن هر فرد در بطن یک اعتراض اجتماعی متصور هستند. مفهومی به نام تحرک اجتماعی، یکی از متداولترین نظریههایی است که منجر به تصمیمگیری یک فرد برای شرکت در اعتراضات اجتماعی میشود. این مفهوم شامل چهار مرحله زیر است (کلاندرمانس و اوگما ۱۹۸۷).
ردیف | محقق/ سال | پژوهش | روش پژوهش |
۱ | کامپتون و همکاران/ ۲۰۱۳ | پیشبینی ناآرامیهای مدنی منطقه آمریکای لاتین در آینده نزدیک | با استفاده از کلید واژهها، توئیتهای مناسب انتخاب و با رگرسیون لجستیک طبقهبندی شدهاند. در نهایت با استفاده از منطقه جغرافیایی کاربران، به هر طبقه یک موقعیت مکانی مشخص تخصیص داده شده است. |
۲ | علیخانی/ ۲۰۱۴ | پیشبینی اعتراضات اجتماعی با استفاده از تحلیل متنی اخبار | تحلیل اخبار با استفاده از لحن آنها. برای پیادهسازی این نوع مدلبندی ابتدا کنشگران و کنشپذیران اصلی هر کشور تعیین و در ادامه روند لحن اخبار هر یک از آنها را مشخص کرده و نهایتاً با استفاده از تحلیل ممیزی و رگرسیون خطی به پیشبینی اعتراضات پرداخته است. |
۳ | کیائو و ونگ/ ۲۰۱۵ | رویکر محاسباتی برای تشخیص و پیشبینی رویدادهای اعتراضی اشغالی | پیشبینی رویدادهای اعتراضی با روش گراف-محور در سه مرحله تشخیص، پیشبینی و استفاده از پایگاه دادههای موجود را در دستور کار خود قرار داده و با استفاده از رگرسیون لجستیک احتمال وقوع رویداد در یک روز مشخص را بررسی کردند، دقت پیشبینی روش آنها ۹۶/۹۱ درصد است. |
۴ | کرلف و همکاران/ ۲۰۱۶ | پیشبینی اعتراضات اجتماعی با استفاده از رسانههای اجتماعی | اعتراضات بالتیمور را مورد بررسی قرار داده و فرآیند تحرک اجتماعی که دارای چهار مرحله ابراز همدردی با دلیل، آگاهی از جنبش، انگیزه شرکت و قابلیت مشارکت است در نظر گرفته و پیامهای جمعآوری شده از توئیتر را مطابق این مراحل دستهبندی کردند، سپس به پیشبینی اتفاقات پیشِ رو با استفاده از پردازش زبان طبیعی، دستهبندی هیجانات و مدل رگرسیون لجستیک پرداختهاند. |
۵ | وئو و گربر/ ۲۰۱۷ | پیشبینی ناآرامی مدنی با استفاده از رسانههای اجتماعی و تئوری مشارکت در اعتراضات | از متغیرهای پیشبینی کننده برای سنجش میزان اعتراض افراد با استفاده از پژوهشهای حوزه نظریه مشارکت استفاده کردهاند. سپس این متغیرها را در مورد توئیتر و انقلاب ۲۰۱۱ مصر آزموده و همبستگی مثبت قابل توجهی بین حجم توصیف اعتراضی در توئیتر و وقوع آنها پیدا کردند. نتایج این پژوهش قدرت پیشبینی رسانههای اجتماعی را به خوبی نشان میدهد. |
همدردی با دلیل
هر اعتراض بالقوهای دلیلی دارد که معمولاً بر آمده از شکایات افراد نسبت به مسائل است. نخستین قدم هر فرد پیش از مشارکت در اعتراض اجتماعی احساس همدردی کردن با دلیل آن است. این دلیل ممکن است همسو با دغدغه شخصی فرد نیز باشد. این مرحله پیش نیاز تمامی مراحل بعد است.
آگاهی از جنبش
در این مرحله یا فرد با جنبشی اعتراضی همگام شده و خود را در میان آن میبیند و یا به طریقی از وجود آن آگاهی مییابد.
انگیزه شرکت
در صورت برخورداری از دو شرط اول یعنی همدردی با دلیل و آگاهی از جنبش، فرد انگیزه شرکت پیدا میکند. اگرچه این تمام ماجرا نیست و ممکن است فرد با موانعی در راه پیوستن یا شرکت در اعتراض اجتماعی مواجه گردد.
قابلیت مشارکت
در این مرحله فرد یا موانعی سر راه مشارکت خود در اعتراض نمیبیند و یا تمامی موانع را از سر راه برداشته و آماده شرکت در اعتراضات است.
بنابراین آگاهی از مراحل فوق امکان تعیین جایگاه افراد در هر یک از این چهار مرحله را فراهم میکند. از طرفی اندازهگیری میزان پیشرفت هر یک از این مراحل برای بهبود پیشبینی و استنباط در مورد اعتراضات اجتماعی ضروری است.
روششناسی
همانطور که گفته شد پیشبینی اعتراضات اجتماعی با استفاده از دادههای شبکههای اجتماعی هدف این پژوهش است. واضح است دورههای اعتراضات، آغاز آنها و حتی طول مدت آنها از جمله موارد مهم و قابل اعتنا هستند. مشخصاً با توجه به مقالات بررسی شده در بخش پیشینه تحقیق روشهای مختلفی برای تحلیل دادهها وجود دارد تعیین روشِ مناسب برای پیشبینی با توجه به دادهها یکی از مهمترین گامهای هر پژوهش است. از این رو مطالعه موردی این تحقیق بررسیِ تجمعاتِ اعتراضی مالباختگانِ مؤسسات مالی و اعتباری با توجه به شبکههای اجتماعی و اخبار رسانهها است. دادههای خام این پژوهش با خزش شبکه اجتماعی توئیتر جمعآوری شدهاند، سپس پاکسازی دادهها و تبدیل آنها به فرمت مورد نظر برای ادامه روند پژوهش انجام گرفت. همچنین برای دستهبندی پیامها از نظریه تحرک اجتماعی استفاده شد، به این صورت که پیامهای مرتبط با سه مرحله نخست این نظریه با برچسب عدم وقوع اعتراض مشخص و پیامهای مرتبط با مرحله قابلیت مشارکت با برچسب وقوع اعتراض دستهبندی شدند. به علاوه با توجه به شرایط و هدف پژوهش، استفاده از تحلیل احساسات و مدل رگرسیون لجستیک نیز در دستور کار قرار گرفت. در ادامه دادهکاوی و رگرسیون لجستیک به طور مختصر تشریح میشود.
دادهکاوی
یکی از روشهای مرسوم برای درک وضعیت فعلی و حال و هوای جامعه در موضوعی مشخص و نیز ارائه پیشبینی، شناخت هیجان و احساسات از طریق شبکههای اجتماعی است. تحلیل احساسات با شناخت نظرات از پست وبلاگ، نظرات ارائه شده در شبکههای اجتماعی تا ویدئوها را شامل میشود. حجم نظرات به گونهای است که به صورت دستی و انسانی قابل تحلیل نمیباشند.
استخراج نظرات، نیازمند سامانههای تحلیل خودکار است. روشهای مختلفی در حوزه نظر کاوی به کار رفته است. در این پژوهش رویکرد مبتنی بر یادگیری ماشینی برای مسئله انتخاب، و پیادهسازی شد. در ادامه به معرفی روش تحقیق، دادهها و نتایج تجربی خواهیم پرداخت.
دادهها و شناسایی رخداد تجمعات
دادههای شبکههای اجتماعی از جمله توئیتر منبع مناسبی برای اطلاع از نظرات مردم در مورد مسائل اقتصادی، اجتماعی و سیاسی جامعه است. توئیتها کوتاه بوده و با مطالب روز جامعه ارتباط دارند. معمولاً هر توئیت در مورد یک مسئله خاص صحبت میکند. در مورد مسئله بحران بانکی سراغ دادههای توئیتر فارسی رفتیم. چرا که در طول سالهای اخیر استفاده از توئیتر برای پیامرسانی و بیان نظرات در کشورمان افزایش یافته است. شکل ۳ تعداد توئیتهای ارسال شده توسط کاربران فارسی زبان با موضوعات مرتبط با پژوهش را در بازه مورد نظر این پژوهش نشان میدهد روند صعودی پیامهای ارسال شده در حوزه بحران بانکی کاملا واضح است.
تعداد توئیتهای جمعآوری شده مرتبط با مطالعه موردی پژوهش تقریباً برابر با ۴۶۰ هزار مورد بود. پیامهای موجود متناسب با هدف پژوهش فیلتر و پاکسازی شد نهایتا ۹۰ هزار پیام مورد استفاده قرار گرفت. پس از پاکسازیِ دادهها نمونهای تصادفی از توئیتهای دارای هشتگ انتخاب و به صورت دستی برچسبگذاری شدند تا مشخص شود هر پیام در کدام یک از دستههای وقوع یا عدم وقوع تجمع اعتراضی قرار میگیرد. سپس تعلیم مدل بیز ساده با استفاده از دادههای برچسبگذاری شده در نظر گرفته شد شکل ۴ شماتیک سادهسازی شده مراحل انجام شده برای تحلیل احساسی را نشان میدهد، برای انجام این کار دادهها به دو دسته آموزش و آزمون تقسیم شد نتایج حاصل از ارزیابی این طبقهبندی با کمک معیار برای دو گروه «وقوع تجمع اعتراضی» و «عدم وقوع تجمع اعتراضی» به ترتیب برابر با ۰.۷۶ و ۰.۸۱ است که نشان دهنده دقت قابل قبول مدل استفاده شده برای دستهبندی دادهها میباشد. نهایتاً با استفاده از این مدل به دستهبندی خودکار سایر دادهها پرداخته شد.
هیجانات و تعیین قطبیت
هیجانات از دید روانشناسان تعاریف مختلفی دارند و بر اساس نیازمندی مسئله، رویکرد مناسب استفاده از آن انتخاب میشود. در مسائل محاسبات عاطفی[۱۸] و شناسایی ماشینیِ هیجانات، مجموعه دادههایی به منظور دستهبندی هیجانات تهیه شده است یکی از مهمترین این دستهبندیها LIWC[۱۹] است (پنبیکر و همکاران، ۲۰۱۵). این مجموعه یک لغتنامه هیجانی برای زبان انگلیسی است که هر کلمه آن میتواند به یک یا بیش از یک کلاس تعلق داشته باشد، چنین لغتنامهای در زبان فارسی در دسترس نیست.
در پژوهش حاضر بخشی از این لغتنامه ترجمه و اصلاح شد. دستههای مورد نظرِ این پژوهش اضطراب[۲۰]، عصبانیت[۲۱]، ترس[۲۲]، ناراحتی[۲۳]، اطمینان[۲۴] و منفی[۲۵] بود. بعد از ساخت لغتنامه هر یک از توئیتها بر اساس وجود یا عدم وجود شش دسته از کلمات هیجانی بررسی شدند. هر توئیتی در یک یا بیش از یک دسته هیجانی میتواند قرار گیرد. برخی توئیتها مطابق این دستهبندی بار هیجانی نداشتند. با این رویکرد تمام توئیتها برچسب دهی هیجانی شده و از این ویژگی در پیشبینی رخدادهای آتی در موضوع مورد نظر استفاده شد.
شناسایی قطبیت در دستهبندی هیجانات و تحلیل احساسات از مسائل روز و متداول به شمار میرود. برای تعیین قطبیت[۲۶] و سوی هر توئیت مشابه قبل ابتدا به صورت دستی به برچسبزنی نمونهای تصادفی از دادهها پرداخته شد. بازه قطبیت توئیتها از ۲- تا ۲ در نظر گرفته شد، نتایج ارزیابی طبقهبندی پیامها با استفاده از طبقهبندی بیز ساده در سه دسته منفی، خنثی و مثبت به ترتیب برابر با ۰.۹، ۰.۶۶ و ۰.۷۹ است که نشان دهنده دقت روش استفاده شده برای تشخیص طبقه هر پیام میباشد با توجه مقادیر محاسبه شده تشخیص توئیت هایی که مرتبط با وقوع اعتراضات هستند (طبقه منفی) ۹۰ درصد است. از ویژگی قطبیت (منفی و مثبت بودن بار احساسی) در پیشبینی رخدادهای آتی نیز استفاده شد.
رگرسیون لجستیک
پیشبینی گروهبندی دادهها با استفاده از رگرسیون لجستیک امری متداول است. تقسیم دادهها در دستههای وقوع یا عدم وقوع اعتراضات، گروههای مد نظر این پژوهش هستند. هرگاه متغیر وابسته مقادیر گسسته را اختیار کند از رگرسیون لجستیک استفاده میشود. متغیر وابسته ما در این پژوهش تجمع اعتراضی است، همانطور که قبلاً توضیح داده شد این متغیر مقادیر گسسته صفر و یک را اختیار میکند. محبوبیت استفاده از رگرسیون لجستیک به دلیل شکل و نوع رفتار تابع لجستیک است. این تابع به صورت
است. دامنه این تابع تمام اعداد حقیقی و برد آن بازه صفر و یک است. همین ویژگی یکی از دلایل محبوبیت این مدل رگرسیونی است. این مدل برای توصیف احتمال، که همواره مقادیری بین صفر و یک اختیار میکند طراحی شده است. بنابراین استفاده از آن برای برآورد ریسک پیشنهاد می شود چون همواره مقادیری بین صفر و یک اختیار میکند. منحنی S شکل تابع لجستیک بیان کننده این مطلب است که میزان ریسک برای مقادیر کوچک z کم است و پس از اینکه این مقادیر به آستانهی مورد نظر رسیدند مقدار ریسک افزایش خواهد یافت شکل ۵، همچنین برای مقادیر بزرگ z مقدار ریسک تقریباً نزدیک به یک باقی میماند (کلین بام و کلین ۲۰۱۰).
برای برازش یک مدل رگرسیون لجستیک مقدار z در تابع لجستیک را با برآورد میکنیم که در آن تا متغیرهای مستقل مدل هستند، تعداد متغیرهای مستقل هر تحقیق با توجه به نوع مسئله و هدف نهایی متفاوت است، سپس با برآورد پارامترهای موجود با روش حداکثر درستنمایی برآوردی از احتمال یا ریسک متغیر وابسته که در این پژوهش وقوع تجمع اعتراضی است را به دست میآوریم. در واقع احتمال تعلق یک رخداد به هر طبقه به صورت
تعریف میگردد. که در آن تا متغیرهای مستقل مدل است. به علاوه میتوان مدل فوق را برحسب لگاریتم نسبت بختها به صورت زیر نیز بازنویسی کرد
که در آن ضرایب رگرسیونی مربوط به هر متغیر مستقل موجود در مدل هستند. به لگاریتم نسبت بخت یا شانس گفته میشود. در نهایت مقدار احتمال محاسبه شده با استفاده از روش رگرسیون لجستیک معیار تصمیمگیری خواهد بود به این ترتیب که هرچه این مقدار برای هر روز بیشتر باشد احتمال وقوع تجمع در آن روز بیشتر است. برای انجام این پژوهش متغیر مستقل که تابعی از بار احساسی پیامها در هر روز میباشد در نظر گرفته شد. بنابراین مدل رگرسیون لجستیک به صورت
است. پارامترهای و موجود در مدل باید براورد شوند، جدول ۲ مقادیر براورد شده پارامترهای مدل فوق و دقت آن را نشان میدهد.
طراحی آزمایش و توصیف نتایج
در این بخش ابتدا دادههای جمعآوری شده را توصیف کرده و سپس مدل رگرسیون لجستیک مطلوب را به دادهها برازش میدهیم. رسم ابر واژه برای داشتن درکی صحیح از فضای موجود در پیامهای جمعآوری شده یکی از ابتداییترین گامهاست. ابر واژهی پیامهای جمعآوری شده پس از پاکسازی آنها مطابق با نیاز پژوهش در شکل ۶ قابل مشاهده است.
همانطور که گفته شد پیامهای جمعآوری شده در شش دسته هیجانی تقسیم شده است. تعداد پیامهای هر یک از این شش دسته در شکل ۷ مشخص شده است. متغیر مستقل استفاده شده در این پژوهش تابعی از نمرات احساسات و هیجاناتِ مرتبط با هر پیام است این متغیر توئیت نامگذاری شد. خلاصه نتایج حاصل از برازش مدل رگرسیونی در جدول ۲ قابل مشاهده است.
با توجه به مقدار احتمال و معیار اطلاع آکائیکی[۲۷] محاسبه شده در پایین جدول ۲ دقت مدل مورد نظر تأیید میشود. مقادیر معناداری محاسبه شده برای متغیرهای مدل نیز نشان دهنده اثرگذاری این متغیرها در پیشبینی نتایج است. با استفاده از مدل برازش شده به دادهها میتوان احتمال وقوع اعتراض را محاسبه کرد، ، که در آن ضرایب رگرسیونی محاسبه شدهاند کاکس (۱۹۵۸). یکی دیگر از معیارهای بررسی دقت مدل استفاده از ضریب تعیین مکفادن[۲۸] است که مشابه ضریب تعیین مدل رگرسیون خطی توانایی متغیر مستقل در پیشبینی متغیر وابسته را نشان میدهد هر چه مقدار این ضریب به ۱ نزدیکتر باشد نشاندهنده دقت بیشتر مدل در پیشبینی متغیر وابسته (وقوع اعتراض) است (مکفادن ۱۹۷۳، والکر و اسمیت، ۲۰۱۶).
ضریب تعیین مکفادن در این پژوهش برابر با است. با استفاده از نتایج فوق وجود ارتباط بین فعالیت در فضای مجازی و وقوع اعتراض تأیید میشود. برای بررسی دقت مدل برازش شده احتمال وقوع رخداد با توجه به دادههای جمعآوری شده در چهل روز مورد بررسی قرار گرفت مجددا در همین بازه زمانی نیز وقوع یا عدم وقوع رخداد به طور واقعی بررسی شدهاند، شکل ۸ سمت راست بیان کننده این مهم است. با توجه به شکل ۸ سمت راست میتوان نتیجه گرفت در روزهایی که احتمال وقوع یک رخداد بر اساس مدل برازش شده بیشتر از ۵۰ درصد است در دنیای واقعی نیز تجمع اعتراضی رخ داده است. مشابه تمام پژوهشهای این چنینی با استفاده از یک مجموعه داده آزمایش که پیش از برازش مدل انتخاب شده و هیچگونه همپوشانی با دادههای آموزش مدل ندارند، دقت مدلِ برازش شده مورد بررسی قرار گرفته است. نتیجه این بررسی در شکل ۸ سمت چپ قابل مشاهده است. دادههای آموزش شامل امتیاز احساسات محاسبه شده برای توئیتهای ارسالی در هر روز، احتمال وقوع اعتراض و وقوع یا عدم وقوع اعتراض است. برای محاسبه امتیاز احساس در هر روز نیاز به بررسی توئیتهای ارسالی مرتبط با موضوع پژوهش در آن روز و تعیین میزان بار احساسی هر توئیت میباشد.
از نتایج حاصل موارد زیر را میتوان استنباط کرد:
- همان طور که مشخص است هفتاد و پنج درصد از روزهایی که اعتراضی در آنها رخ نداده احتمال وقوع اعتراض کمتر از ۰.۲۵ است، بنابراین میتوان نتیجه گرفت در مواقعی که اعتراضی رخ نمیدهد تغییر معناداری در احتمال برآورد شده مشاهده نمیشود شکل ۸ سمت چپ.
- با توجه به تعدد اعتراضات در بازه زمانی انتخاب شده، احتمالات محاسبه شده تحت تأثیر این مسئله هستند ذکر این نکته ضروری است که مقیاس اعتراضات (تعداد افراد حاضر در اعتراضات) در محاسبات لحاظ نشده است که میتواند دلیلی بر عدم افزایش احتمال وقوع تجمع در بازه زمانی قبل از اولین اعتراض (۱۲ شهریور) است شکل ۸ سمت راست.
- احتمال وقوع اعتراض در روزهای قبل از اعتراضات اصلی و معنادار افزایش مییابد. به عنوان مثال بازه زمانی ۳۰ شهریور تا ۳ مهر موید این موضوع است. شکل ۸ سمت راست.
نتیجهگیری و پیشنهادها
در این مقاله از اطلاعات موجود در شبکه اجتماعی توئیتر برای پیشبینی اعتراضات اجتماعی استفاده شده است. دادههای شبکه اجتماعی همواره در دسترس بوده و برای مطالعه رخدادهای غیر منتظره بسیار مناسب هستند از طرفی اکثر کاربران از امکان تحلیل دادههای خود آگاه نیستند، بنابراین رفتارهای خود را تغییر نمیدهند. مواردی از این دست ارزش دادههای شبکههای اجتماعی برای تحلیلهای اجتماعی را دو چندان کرده است. یکی از چالشهای این تحقیق عدم دسترسی به اطلاعات و مجموعه دادههای مرتبط با درگیریها و تجمعات بود. به نظر میرسد در اختیار داشتن چنین مجموعه دادگانی میتواند برای انجام ارزیابیها مفید باشد.
بر خلاف بیشتر پژوهشها که از اطلاعات سطحی مانند تعداد پیامها در تحلیل استفاده میکنند، در این پژوهش از روشی مبتنی بر تحلیل محتوای متنی استفاده شده است. تحلیل هیجانات، شناسایی قطبیت، تحلیل احساس و رگرسیون لجستیک از اجزای روش مورد استفاده این پژوهش هستند. از طرفی دستهبندی پیامها بر اساس نظریه تحرک اجتماعی صورت گرفته است. نتایج بدست آمده نشان میدهد که افزایش احتمال وقوع اعتراضات با رشد تعداد پیامها مرتبط بوده و در روزهایی که اعتراضات گستردهتری رخ داده احتمال محاسبه شده توسط مدل، نسبت به سایر روزها بیشتر است که نشان دهنده دقت روش استفاده شده در این مقاله میباشد. بنابراین افزایش حجم دادهها و استفاده از منابع مختلف داده از قبیل پیامرسان تلگرام و سایتهای خبری و همچنین لحاظ کردن موقعیت مکانیِ اعتراضات در مدل مورد نظر برای انجام تحقیقات آتی و بهبود نتایج پیشنهاد میشود.
پانویس و ارجاع
[۱] Akhgar, B., Bayerl, P. S., & Sampson, F. (Eds.). (2017). Open Source Intelligence Investigation: From Strategy to Implementation. Springer.
[۲] Alikhani, E. (2014). Computational Social Analysis: Social Unrest Prediction Using Textual Analysis of News. State University of New York at Binghamton.
[۳] Chen, F., & Neill, D. B. (2014, August). Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1166-1175). ACM.
[۴] Compton, R., Lee, C., Lu, T. C., De Silva, L., & Macy, M. (2013, June). Detecting future social unrest in unprocessed twitter data:“emerging phenomena and big data”. In Intelligence and Security Informatics (ISI), 2013 IEEE International Conference On (pp. 56-60). IEEE.
[۵] Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society. Series B (Methodological), ۲۱۵-۲۴۲.
[6] Klandermans, B., & Oegema, D. (1987). Potentials, networks, motivations, and barriers: Steps towards participation in social movements. American sociological review, ۵۱۹-۵۳۱.
[۷] Kleinbaum, D. G., & Klein, M. (2010). Logistic regression: a self-learning text. Springer Science & Business Media.
[۸] Korkmaz, G., Cadena, J., Kuhlman, C. J., Marathe, A., Vullikanti, A., & Ramakrishnan, N. (2015, August). Combining heterogeneous data sources for civil unrest forecasting. In Advances in Social Networks Analysis and Mining (ASONAM), 2015 IEEE/ACM International Conference on (pp. 258-265). IEEE.
[۹] Korolov, R., Lu, D., Wang, J., Zhou, G., Bonial, C., Voss, C. & Ji, H. (2016, August). On predicting social unrest using social media. In Advances in Social Networks Analysis and Mining (ASONAM), 2016 IEEE/ACM International Conference on (pp. 89-95). IEEE.
[۱۰] Kuosa, T. (2011). Different approaches of pattern management and strategic intelligence. Technological Forecasting and Social Change, 78(3), 458-467.
[۱۱] Lauro, N., C., Amaturo, E., Grassia, M., G., Aragona, B., Marino, M. (2017). Data Science and Social Research. Springer.
[۱۲] McFadden, D. (1973). Conditional logit analysis of qualitative choice behavior
[۱۳] Muthiah, S., Huang, B., Arredondo, J., Mares, D., Getoor, L., Katz, G., & Ramakrishnan, N. (2015, January). Planned Protest Modeling in News and Social Media. In AAAI (pp. 3920-3927).
[۱۴] Omand, D., Bartlett, J., & Miller, C. (2012). Introducing social media intelligence (SOCMINT). Intelligence and National Security, ۲۷(۶), ۸۰۱-۸۲۳.
[۱۵] Pennebaker, J. W., Boyd, R. L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015.
[۱۶] Phung, N. D., Gaber, M. M., & Rohm, U. (2007, March). Resource-aware online data mining in wireless sensor networks. In Computational Intelligence and Data Mining, 2007. CIDM 2007. IEEE Symposium on (pp. 139-146). IEEE.
[۱۷] Qiao, F., & Wang, H. (2015, October). Computational approach to detecting and predicting occupy protest events. In Identification, Information, and Knowledge in the Internet of Things (IIKI), 2015 International Conference on (pp. 94-97). IEEE.
[۱۸] Salganik, M. J. (2017). Bit by bit: social research in the digital age. Princeton University Press.
[۱۹] Van Stekelenburg, J., & Klandermans, B. (2013). The social psychology of protest. Current Sociology, ۶۱(۵-۶), ۸۸۶-۹۰۵.
[۲۰] Walker, D. A., & Smith, T. J. (2016). Nine Pseudo R^ 2 indices for binary logistic regression models. Journal of Modern Applied Statistical Methods, ۱۵(۱), ۸۴۸-۸۵۴.
[۲۱] Wu, C., & Gerber, M. S. (2017). Forecasting Civil Unrest Using Social Media and Protest Participation Theory. IEEE Transactions on Computational Social Systems. [۲۲] Zhao, L., Chen, F., Lu, C. T., & Ramakrishnan, N. (2015, June). Spatiotemporal event forecasting in social media. In Proceedings of the 2015 SIAM International Conference on Data Mining (pp. 963-971). Society for Industrial and Applied Mathematics.
[۱] Geo-Spatial Intelligence (GEOINT)
[۲] Human Intelligence (HUMINT)
[۳] Signal Intelligence (SIGINT)
[۴] Measurement and Signature Intelligence (MASINT)
[۵] Open Source Intelligence (OSINT)
[۶] Technical Intelligence (TECHINT)
[۷] Social Media Intelligence (SOCMINT)
[۸] https://www.ibm.com/developerworks/community/blogs/jfp/entry/the_analytics_maturity_model?lang=en
[۹] Discriminant Analysis
[۱۰] Empirical P-value
[۱۱] Least Absolute Shrinkage and Selection Operator (LASSO)
[۱۲] Sparse
[۱۳] Mobilization
[۱۴] Sympathy to the cause
[۱۵] Awareness of the protest
[۱۶] Motivation to take part
[۱۷] Ability to take part
[۱۸] Affective Computing
[۱۹] Linguistic Inquiry and Word Count
[۲۰] Anx
[۲۱] Anger
[۲۲] Tentat
[۲۳] Sad
[۲۴] Certain
[۲۵] Negemo
[۲۶] Polarity
[۲۷] Akaike Information Criterion
[۲۸] McFadden
نویسندگان
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/۱۵ بهمن ۱۴۰۳
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/۱۵ بهمن ۱۴۰۳
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/