جایزه دیتاژورنالیسم دقیقه (1403)

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (۲۰۰۳۳)

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)

اعتراضات اجتماعی در جوامع انسانی سابقه‌ای به اندازه طول تاریخ دارد. به طوری که همواره اعتراضات در حوزه‌های مختلفی از جمله اقتصادی، فرهنگی، سیاسی و …، در هر گوشه از جهان به وقوع می‌پیوندد. این نوع از خیزش‌ها و رویدادهای اجتماعی همواره در حال وقوع، ثبت و گزارش­دهی توسط رسانه‌ها و فضای مجازی هستند. اهمیت این رخدادها به قدری ا‌ست که پژوهش‌گران و محققین حوزه‌های علوم اجتماعی، علوم کامپیوتر، آمار و بسیاری دیگر از حوزه‌ها، همواره به دنبال شناخت و پیش‌بینی آن‌ها می­باشند. چراکه فراگیری و در دسترس بودن رسانه‌های موجود در فضای مجازی امکان ثبتِ رخدادها و تحلیل آن‌ها را فراهم کرده است.

از سوی دیگر عدم وجود داده مناسب و کافی همواره یکی از دغدغه‌های پژوهش‌گرانِ حوزه علوم اجتماعی بوده است که با استفاده از روش‌های آمارگیری و سنتی به جمع‌آوری داده‌های مورد نظر خود می‌پرداختند. اما به لطف شبکه‌های اجتماعی و کلان داده‌های تولید شده در آن‌ها حجم انبوهی از داده برای تحلیل و آزمودن فرضیه‌ها به راحتی در دسترس پژوهش‌گران قرار دارد.

رسانه‌های اجتماعی مانند حس­گرهای ثبت داده عمل می‌کنند، از طرفی با ظهور اینترنت اشیا در آینده نزدیک و اتصال میلیون‌ها دستگاه به یکدیگر حجم داده‌های تولیدی چند برابر خواهد شد. از این رو عصر حاضر را عصر دیجیتال، اطلاعات و داده‌ها نیز می‌نامند (لائورو و همکاران، ۲۰۱۷). این عصر در حوزه نیازهای پژوهش‌‎های علوم اجتماعی تغییرات شگرفی را به همراه داشته و فرصت‌های جدیدی برای پژوهش‌گران این حوزه به ارمغان ‌آورده است. با استفاده از مزایای ایجادشده، پژوهش‌گران قادر به مشاهده رفتارهای واقعی کاربران در فضای مجازی هستند؛ در حالی که تا قبل از آن جمع‌آوری اطلاعات این چنینی بسیار سخت و پرهزینه بود اما به کمک رسانه‌های اجتماعی پرسیدن سؤالات حساسیت برانگیز و پیاده‌سازی آزمایش‌هایی که در گذشته به سختی قادر به انجام آن‌ها بودند، از طرق مختلف قابل اجراست. همچنین از آنجا که اغلب کاربرانِ این رسانه‌ها از امکان تحلیل نظرات منتشر شده خود، آگاه نیستند، در بسیاری از مواقع افکار و نظرات واقعی خود را منعکس می‌کنند. مشخصاً در کنار تمام مزیت‌های متصور برای این عصر، معایبی نیز برای آن قابل تصور است. عدم رعایت حریم خصوصی کاربران توسط محققان و گروه‌های مختلف یکی از مناقشه برانگیزترین چالش‌های آن است. اگرچه هنوز تمام زوایای این عصر بر همگان مشخص نیست اما روندهای مورد بررسی نشان دهنده آغاز جریانی اثرگذار در زندگی شخصی و رفتاری جوامع است (سالگانیک، ۲۰۱۷).

با تمام این تفاسیر استفاده از داده‌های تولید شده برای یافتن دلایل اعتراضات اجتماعی و پیش‌بینی زمان وقوع آن‌ها یکی از موضوعات مورد علاقه پژوهش‌گران می‌باشد (فن استکلنبرگ و کلاندرمانس، ۲۰۱۳)، تلاش برای پاسخ‌ به این سؤالات، با جمع‌آوری داده­های پیرامون و داخل سیستم و تبدیل آن‌ها به دانش صورت می‌گیرد، از طرفی با پاسخ‌گویی به برخی از سؤالات موجود می‌توان زمینه کاهش عدم اطمینان در تصمیم‌‎گیری و دست‌یابی به هوشمندی را ایجاد کرد. هوشمندی شامل جمع‌آوری، پردازش و تحلیل داده­های محیطی و انتشار این اطلاعات در ارتباط با راهبرد­های مورد نظر است شکل ۱ (کوزا، ۲۰۱۱).

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۱ رابطه بین داده، اطلاعات و هوشمندی

خانواده هوشمندی نیز شامل هوش ژئو فضایی[۱]، هوش انسانی[۲]، هوش سیگنال[۳]، هوش اندازه­گیری و اعتبار[۴]، هوش منابع باز[۵] و هوش فنی[۶] است. از سوی دیگر در پی اعتراضات سال ۲۰۱۱ در کشور انگلستان که به آشوب­های خیابانی انجامید، دولت انگلستان، ریشه شکل­گیری این آشوب­ها را در شبکه­های اجتماعی دانسته و خود را در پیش­بینی و درک رخدادهای این فضا ناتوان دید. از آن پس، اومند و همکاران (۲۰۱۲) مفهومی به نام هوشمندی رسانه­های اجتماعی[۷] را مطرح کردند که به عنوان یکی دیگر از اعضای خانواده هوشمندی شناخته شده و افراد در آن، به جمع­آوری، پردازش و تحلیل داده­های رسانه­های اجتماعی با رویکردی ترجیحاً مبتنی بر منابع آشکار و در صورت اجبار، مبتنی بر منابع پنهان می­پردازند تا هوشمندی و بینش مورد نیاز خود را از این داده­ها استخراج کنند.

دست‌یابی به هوشمندی در سازمان‌ها نیازمند پیاده‌سازی مراحل چرخه هوشمندی می‌باشد. همان‌طور که در شکل ۲ مشخص است چرخه هوشمندی از فاز تشخیص نیاز به هوشمندی آغاز و با فازهای جمع‌آوری داده، تحلیل داده و بازخورد ادامه پیدا می‌‌کند (اخگر و همکاران، ۲۰۱۷).

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۲ چرخه هوشمندی

چرخه هوشمندی متشکل از موارد زیر است:

۱- شناسایی نیازها (جهت‌دهی)

نقطه شروع هوشمندی در سازمان‌ها، نیاز برنامه‌ریزان و تصمیم‌گیران است. در واقع هوشمندی در چه راستایی نیاز است.

۲- جمع‌آوری داده‌های هوشمندی (جمع‌آوری)

در این مرحله داده‌های مورد نظر با توجه به نوع نیاز در مرحله اول جمع‌آوری می‌شوند.

۳- تبدیل داده‌ها به فرم‌های قابل استفاده (پردازش)

 پردازش و حذف داده‌های غیر ضروری برای سهولت در استفاده از آن‌ها و دست‌یابی به نتایج بهتر از اهداف این مرحله است.

۴- تبدیل داده‌ها به هوشمندی (تحلیل)

تحلیل داده‌ها با استفاده از روش‌های مناسب و کسب دانش از نتایج حاصل از تحلیل‌ آن‌ها به هوشمندی می­رسد.

۵- توزیع هوشمندی در بخش‌های مناسب (انتشار)

در این مرحله هوشمندی کسب شده از تحلیل داده‌ها را با توجه به نیاز بخش­های مختلف سازمان در گروه‌های مختلف تقسیم کرده تا از آن برای پیشرفت سازمان استفاده شود.

۶- سنجش هوشمندی بر اساس نیازها (بازخورد)

در این مرحله هوشمندی بدست آمده در مرحله‌های قبل، با توجه به نیاز اولیه بررسی و اعتبار سنجی می­شود.

در هوشمندی تمام داده‌­ها و رفتارهای سیاسی، اجتماعی، اقتصادی، حقوقی و … در مورد یک سازمان رصد و تحلیل می‌شوند. در نهایت هوشمندی به نظام برنامه‌ریزی راهبردی سازمان متصل و بر تصمیم‌گیری راهبردی تأثیرگذار است (فانگ و همکاران ۲۰۰۷).

شبکه‌های اجتماعی با ایجاد بسترِ نشرِ آسان و گستردهِ محتوا، فرصتی برای تولید و تبادل اطلاعات فراهم کرده‌اند. با بررسی عمیق‏تر می‏توان دریافت که این رسانه‌ها در مقایسه با رسانه‏های سنتی قدرت بیشتری در تغییر رفتار فرد و اجتماع را به صورت نامحسوس یافته‌اند و می‌توانند لایه‌های درونی یک فرد و به تبع آن اجتماع را در شرایط عدم قطعیت محیط کنونی تغییر دهند.

با توجه به تغییرات ژرفی که فناوری اطلاعات در ابعاد زندگی انسان به وجود آورده است، بی‌شک در ماهیت رسانه‏ها و چگونگی اداره آن‌ها نیز دگرگونی‏های عظیمی رخ داده است. با تحلیلِ داده‏های موجود در انباره‏های داده، می‏توان از داده خام با سیر مراتب توصیف، تشخیص، پیش‌بینی و تجویز به هوشمندی دست یافت[۸]. لذا استفاده از شبکه‌های اجتماعی و پیش‌بینی تحولات آینده مسئله این پژوهش است.

پیشینه تحقیق

پژوهش‌های زیادی با استفاده از داده‌های موجود در فضای مجازی برای پیش‌بینی انواع رخدادها صورت گرفته است. پژوهش‌های کیفی انجام شده نشان می‌دهد بیش از ۷۵ درصد ناآرامی‌های اجتماعی از قبل برنامه‌ریزی شده هستند بنابراین پیش‌بینی آن‌ها امکان‌پذیر است (موثیاه و همکاران، ۲۰۱۵). کامپتون و همکاران (۲۰۱۳)، با استفاده از داده‌های توئیتر درصدد پیش‌بینی ناآرامی‌های مدنی منطقه آمریکای لاتین در آینده نزدیک برآمده‌اند. سیستم پیاده شده توسط آن‌ها دائماً در حال فیلتر کردن داده‌ها با توجه به متن و منطقه جغرافیایی است. در این روش، فیلترها به بازه گسترده‌ای از داده‌های عمومی توئیتر تسری پیدا کرده و موارد مشابه در یک گروه قرار می‌گیرند. همچنین با استفاده از کلید واژه‌هایی توئیت­های مناسب انتخاب و با رگرسیون لجستیک طبقه‌بندی شده­اند و در نهایت با استفاده از منطقه جغرافیایی کاربران، به هر طبقه یک موقعیت مکانی مشخص تخصیص داده شده است.

علیخانی (۲۰۱۴)، به تحلیل اخبار با استفاده از لحن آن‌ها پرداخته است برای پیاده‌سازی این نوع مدل‌بندی ابتدا کنش‌گران و کنش‌پذیران اصلی هر کشور تعیین و در ادامه روند لحن اخبار هر یک از آن‌ها را مشخص کرده و نهایتاً با استفاده از تحلیل ممیزی[۹] و رگرسیون خطی به پیش‌بینی اعتراضات پرداخته است.

چن و نیل (۲۰۱۴)، با استفاده از آمار ناپارامتری به تشخیص رخدادها در گراف‌های ناهمگون شبکه‌های اجتماعی پرداختند. آن‌ها ابتدا شبکه اجتماعی را به عنوان سنسوری که محیط اطراف خود را ثبت می‌کند مدل کرده، سپس با استفاده از معناداری تجربی[۱۰] میزان دقت آن‌ها را برای بازه‌های زمانی مختلف اندازه می‌گیرند. همچنین هرگونه تغییر یا کنش غیرمعمول زیر ذره‌بین می‌رود تا خوشه‌های مربوط به تحرکات یا کنش‌ها شناسایی شوند. نهایتاً امکان پیش‌بینی رویدادهایی نظیر ناآرامی مدنی و یا تشخیص شیوع بیماری‌های نادر را با استفاده از داده‌های توئیتر بررسی کردند.

کیائو و ونگ (۲۰۱۵)، به مطالعه موردیِ اشغال وال استریت در نیویورک و سنترال در هنگ کنگ پرداختند آن‌ها شناسایی و پیش‎بینی رویدادهای اعتراضی با روش گراف-محور در سه مرحله تشخیص، پیش‌بینی و استفاده از پایگاه داده‌های موجود را در دستور کار خود قرار داده و با استفاده از رگرسیون لجستیک احتمال وقوع رویداد در یک روز مشخص را بررسی کردند، دقت پیش‌بینی روش آن‌ها ۹۶/۹۱ درصد است.

کرکماز و همکاران (۲۰۱۵)، با رویکرد تلفیق و ادغام منابع داده ناهمگون به پیش‌بینی ناآرامی‌ها در آمریکای لاتین از نوامبر ۲۰۱۲ تا آگوست ۲۰۱۴ با استفاده از داده‌های توئیتر، بلاگ‌ها و اخبار پرداخته‌اند، آن‌ها با رویکرد لاسو[۱۱] از داده‌های تنکِ[۱۲] خود مجموعه‌ای از صفات را انتخاب کرده و با رگرسیون لجستیک به پیش‌بینی احتمال وقوع اعتراضات اجتماعی پرداختند.

ژائو و همکاران (۲۰۱۵)، دغدغه پیش‌بینی فضایی-زمانی رویداد در رسانه‌های اجتماعی را داشتند. آن‌ها معتقدند، اغلب پژوهشگران در مطالعات داده محور خود تنها به جنبه زمانی موضوع توجه کرده و از جنبه فضایی آن غافل شده‌اند. حال آن‌که بهتر است نوع نگاه و رویکرد فضایی-زمانی را مد نظر قرار دهیم.

کرلف و همکاران (۲۰۱۶)، اعتراضات بالتیمور را مورد بررسی قرار داده و فرآیند تحرک اجتماعی[۱۳] که دارای چهار مرحله ابراز همدردی با دلیل[۱۴]، آگاهی از جنبش[۱۵]، انگیزه شرکت[۱۶] و قابلیت مشارکت[۱۷] است در نظر گرفته و پیام‌های جمع‌آوری شده از توئیتر را مطابق این مراحل دسته‌بندی کردند، سپس به پیش‌بینی اتفاقات پیشِ رو با استفاده از پردازش زبان طبیعی، دسته‌بندی هیجانات و مدل رگرسیون لجستیک پرداخته­اند.

وئو و گربر (۲۰۱۷)، معتقدند محتوای تولید شده در رسانه‌های اجتماعی به پیش‌بینی اعتراضات کمک می‌کنند. با این وجود همواره سؤالاتی در مورد عوامل مؤثر بر قدرت پیش‌بینی وجود دارد. آن‌ها از متغیرهای پیش‌بینی کننده برای سنجش میزان اعتراض افراد با استفاده از پژوهش‌های حوزه نظریه مشارکت استفاده کرده‌اند. سپس این متغیرها را در مورد توئیتر و انقلاب ۲۰۱۱ مصر آزموده و همبستگی مثبت قابل توجهی بین حجم توصیف اعتراضی در توئیتر و وقوع آن‌ها پیدا کردند. نتایج این پژوهش قدرت پیش‌بینی رسانه‌های اجتماعی را به خوبی نشان می‌دهد. به طور خلاصه، آن‌ها نشان می‌دهند که چگونه فعالانِ آنلاین، رفتارِ آفلاین را در خلال قیام‌های مدنی شکل می‌دهند. جدول ۱ خلاصه‌ای از پژوهش‌های بررسی شده را نشان می‌دهد.

چارچوب نظری

جامعه شناسان نظریات مختلفی را برای قرار گرفتن هر فرد در بطن یک اعتراض اجتماعی متصور هستند. مفهومی به نام تحرک اجتماعی، یکی از متداول‌ترین نظریه‌هایی است که منجر به تصمیم‌گیری یک فرد برای شرکت در اعتراضات اجتماعی می‌شود. این مفهوم شامل چهار مرحله زیر است (کلاندرمانس و اوگما ۱۹۸۷).

ردیفمحقق/ سالپژوهشروش پژوهش
۱کامپتون و همکاران/ ۲۰۱۳پیش‌بینی ناآرامی‌های مدنی منطقه آمریکای لاتین در آینده نزدیکبا استفاده از کلید واژه‌ها، توئیت­های مناسب انتخاب و با رگرسیون لجستیک طبقه‌بندی شده­اند. در نهایت با استفاده از منطقه جغرافیایی کاربران، به هر طبقه یک موقعیت مکانی مشخص تخصیص داده شده است.
۲علیخانی/ ۲۰۱۴پیش­بینی اعتراضات اجتماعی با استفاده از تحلیل متنی اخبارتحلیل اخبار با استفاده از لحن آن‌ها. برای پیاده‌سازی این نوع مدل‌بندی ابتدا کنش‌گران و کنش‌پذیران اصلی هر کشور تعیین و در ادامه روند لحن اخبار هر یک از آن‌ها را مشخص کرده و نهایتاً با استفاده از تحلیل ممیزی و رگرسیون خطی به پیش‌بینی اعتراضات پرداخته است.
۳کیائو و ونگ/ ۲۰۱۵رویکر محاسباتی برای تشخیص و پیش­بینی رویدادهای اعتراضی اشغالیپیش‎بینی رویدادهای اعتراضی با روش گراف-محور در سه مرحله تشخیص، پیش‌بینی و استفاده از پایگاه داده‌های موجود را در دستور کار خود قرار داده و با استفاده از رگرسیون لجستیک احتمال وقوع رویداد در یک روز مشخص را بررسی کردند، دقت پیش‌بینی روش آن‌ها ۹۶/۹۱ درصد است.
۴کرلف و همکاران/ ۲۰۱۶پیش­بینی اعتراضات اجتماعی با استفاده از رسانه­های اجتماعیاعتراضات بالتیمور را مورد بررسی قرار داده و فرآیند تحرک اجتماعی که دارای چهار مرحله ابراز همدردی با دلیل، آگاهی از جنبش، انگیزه شرکت و قابلیت مشارکت است در نظر گرفته و پیام‌های جمع‌آوری شده از توئیتر را مطابق این مراحل دسته‌بندی کردند، سپس به پیش‌بینی اتفاقات پیشِ رو با استفاده از پردازش زبان طبیعی، دسته‌بندی هیجانات و مدل رگرسیون لجستیک پرداخته­اند.
۵وئو و گربر/ ۲۰۱۷پیش­بینی ناآرامی مدنی با استفاده از رسانه­های اجتماعی و تئوری مشارکت در اعتراضاتاز متغیرهای پیش‌بینی کننده برای سنجش میزان اعتراض افراد با استفاده از پژوهش‌های حوزه نظریه مشارکت استفاده کرده‌اند. سپس این متغیرها را در مورد توئیتر و انقلاب ۲۰۱۱ مصر آزموده و همبستگی مثبت قابل توجهی بین حجم توصیف اعتراضی در توئیتر و وقوع آن‌ها پیدا کردند. نتایج این پژوهش قدرت پیش‌بینی رسانه‌های اجتماعی را به خوبی نشان می‌دهد.
جدول ۱ خلاصه‌ای از پژوهش‌های انجام شده در حوزه پیش‌بینی اعتراضات اجتماعی

همدردی با دلیل

هر اعتراض بالقوه‌ای دلیلی دارد که معمولاً بر آمده از شکایات افراد نسبت به مسائل است. نخستین قدم هر فرد پیش از مشارکت در اعتراض اجتماعی احساس همدردی کردن با دلیل آن است. این دلیل ممکن است همسو با دغدغه شخصی فرد نیز باشد. این مرحله پیش نیاز تمامی مراحل بعد است.

آگاهی از جنبش

در این مرحله یا فرد با جنبشی اعتراضی همگام شده و خود را در میان آن می‌بیند و یا به طریقی از وجود آن آگاهی می‌یابد.

انگیزه شرکت

در صورت برخورداری از دو شرط اول یعنی همدردی با دلیل و آگاهی از جنبش، فرد انگیزه شرکت پیدا می‌کند. اگرچه این تمام ماجرا نیست و ممکن است فرد با موانعی در راه پیوستن یا شرکت در اعتراض اجتماعی مواجه گردد.

قابلیت مشارکت

در این مرحله فرد یا موانعی سر راه مشارکت خود در اعتراض نمی‌بیند و یا تمامی موانع را از سر راه برداشته و آماده شرکت در اعتراضات است.

بنابراین آگاهی از مراحل فوق امکان تعیین جایگاه افراد در هر یک از این چهار مرحله را فراهم می‌کند. از طرفی اندازه‌گیری میزان پیشرفت هر یک از این مراحل برای بهبود پیش‌بینی و استنباط در مورد اعتراضات اجتماعی ضروری است. 

روش‌شناسی

همان‌طور که گفته شد پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه‌های اجتماعی هدف این پژوهش است. واضح است دوره‌های اعتراضات، آغاز آن‌ها و حتی طول مدت آن‌ها از جمله موارد مهم و قابل اعتنا هستند. مشخصاً با توجه به مقالات بررسی شده در بخش پیشینه تحقیق روش‌های مختلفی برای تحلیل داده‌ها وجود دارد تعیین روشِ مناسب برای پیش‌بینی با توجه به داده‌ها یکی از مهم‌ترین گام‌های هر پژوهش‌‌ است. از این رو مطالعه موردی این تحقیق بررسیِ تجمعاتِ اعتراضی مالباختگانِ مؤسسات مالی و اعتباری با توجه به شبکه‌های اجتماعی و اخبار رسانه‌ها است. داده‌های خام این پژوهش با خزش شبکه اجتماعی توئیتر جمع‌آوری شده‌اند، سپس پاک‌سازی داده‌ها و تبدیل آن‌ها به فرمت مورد نظر برای ادامه روند پژوهش انجام گرفت. همچنین برای دسته‌بندی پیام‌ها از نظریه تحرک اجتماعی استفاده شد، به این صورت که پیام‌های مرتبط با سه مرحله نخست این نظریه با برچسب عدم وقوع اعتراض مشخص و پیام‌های مرتبط با مرحله قابلیت مشارکت با برچسب وقوع اعتراض دسته‌بندی شدند. به علاوه با توجه به شرایط و هدف پژوهش، استفاده از تحلیل احساسات و مدل رگرسیون لجستیک نیز در دستور کار قرار گرفت. در ادامه داده‌کاوی و رگرسیون لجستیک به طور مختصر تشریح می‌شود.

داده‌کاوی

یکی از روش‌های مرسوم برای درک وضعیت فعلی و حال و هوای جامعه در موضوعی مشخص و نیز ارائه پیش‌بینی، شناخت هیجان و احساسات از طریق شبکه‌های اجتماعی است. تحلیل احساسات با شناخت نظرات از پست وبلاگ، نظرات ارائه شده در شبکه‌های اجتماعی تا ویدئوها را شامل می‌شود. حجم نظرات به گونه‌ای است که به صورت دستی و انسانی قابل تحلیل نمی‌باشند.

استخراج نظرات، نیازمند سامانه‌های تحلیل خودکار است. روش‌های مختلفی در حوزه نظر کاوی به کار رفته است. در این پژوهش رویکرد مبتنی بر یادگیری ماشینی برای مسئله انتخاب، و پیاده‌سازی شد. در ادامه به معرفی روش تحقیق، داده‌ها و نتایج تجربی خواهیم پرداخت.

داده‌ها و شناسایی رخداد تجمعات

داده‌های شبکه‌های اجتماعی از جمله توئیتر منبع مناسبی برای اطلاع از نظرات مردم در مورد مسائل اقتصادی، اجتماعی و سیاسی جامعه است. توئیت‌ها کوتاه بوده و با مطالب روز جامعه ارتباط دارند. معمولاً هر توئیت در مورد یک مسئله خاص صحبت می‌کند. در مورد مسئله بحران بانکی سراغ داده‌های توئیتر فارسی رفتیم. چرا که در طول سال‌های اخیر استفاده از توئیتر برای پیام‌رسانی و بیان نظرات در کشورمان افزایش یافته است. شکل ۳ تعداد توئیت‌های ارسال شده توسط کاربران فارسی زبان با موضوعات مرتبط با پژوهش را در بازه مورد نظر این پژوهش نشان می‌دهد روند صعودی پیام‌های ارسال شده در حوزه بحران بانکی کاملا واضح است.

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۳ روند تعداد پیام‌های جمع‌آوری شده

تعداد توئیت‌های جمع‌آوری شده مرتبط با مطالعه موردی پژوهش تقریباً برابر با ۴۶۰ هزار مورد بود. پیام‌های موجود متناسب با هدف پژوهش فیلتر و پاک‌سازی شد نهایتا ۹۰ هزار پیام مورد استفاده قرار گرفت. پس از پاک‌سازیِ داده‌ها نمونه‌ای تصادفی از توئیت‌های دارای هشتگ انتخاب و به صورت دستی برچسب‌گذاری شدند تا مشخص شود هر پیام در کدام یک از دسته‌های وقوع یا عدم وقوع تجمع اعتراضی قرار می‌گیرد. سپس تعلیم مدل بیز ساده با استفاده از داده‌های برچسب‌گذاری شده در نظر گرفته شد شکل ۴ شماتیک ساده‌سازی شده مراحل انجام شده برای تحلیل احساسی را نشان می‌دهد، برای انجام این کار داده‌ها به دو دسته آموزش و آزمون تقسیم شد نتایج حاصل از ارزیابی این طبقه‌بندی با کمک معیار  برای دو گروه «وقوع تجمع اعتراضی» و «عدم وقوع تجمع اعتراضی» به ترتیب برابر با ۰.۷۶ و ۰.۸۱ است که نشان دهنده دقت قابل قبول مدل استفاده شده برای دسته‌بندی داده‌ها می‌باشد. نهایتاً با استفاده از این مدل به دسته‌بندی خودکار سایر داده‌ها پرداخته شد.

هیجانات و تعیین قطبیت

هیجانات از دید روان‌شناسان تعاریف مختلفی دارند و بر اساس نیازمندی مسئله، رویکرد مناسب استفاده از آن انتخاب می‌شود. در مسائل محاسبات عاطفی[۱۸] و شناسایی ماشینیِ هیجانات، مجموعه داده‌هایی به منظور ‎دسته‌بندی هیجانات تهیه شده است یکی از مهم‌ترین این دسته‌بندی‌ها LIWC[۱۹] است (پن‌بیکر و همکاران، ۲۰۱۵). این مجموعه یک لغت‌نامه هیجانی برای زبان انگلیسی است که هر کلمه آن می‌تواند به یک یا بیش از یک کلاس تعلق داشته باشد، چنین لغت‌نامه‌ای در زبان فارسی در دسترس نیست.

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۴ مراحل استفاده شده برای تحلیل احساس و هیجان

در پژوهش حاضر بخشی از این لغت‌نامه ترجمه و اصلاح شد. دسته‌های مورد نظرِ این پژوهش اضطراب[۲۰]، عصبانیت[۲۱]، ترس[۲۲]، ناراحتی[۲۳]، اطمینان[۲۴] و منفی[۲۵] بود. بعد از ساخت لغت‌نامه هر یک از توئیت‌ها بر اساس وجود یا عدم وجود شش دسته از کلمات هیجانی بررسی شدند. هر توئیتی در یک یا بیش از یک دسته هیجانی می‌تواند قرار گیرد. برخی توئیت‌ها مطابق این دسته‌بندی بار هیجانی نداشتند. با این رویکرد تمام توئیت‌ها برچسب دهی هیجانی شده و از این ویژگی در پیش‌بینی رخدادهای آتی در موضوع مورد نظر استفاده شد.

شناسایی قطبیت در دسته‌بندی هیجانات و تحلیل احساسات از مسائل روز و متداول به شمار می‎رود. برای تعیین قطبیت[۲۶] و سوی هر توئیت مشابه قبل ابتدا به صورت دستی به برچسب‌زنی نمونه‌ای تصادفی از داده‌ها پرداخته شد. بازه قطبیت توئیت‌ها از ۲- تا ۲ در نظر گرفته شد، نتایج ارزیابی طبقه‌بندی پیام‌ها با استفاده از طبقه‌بندی بیز ساده در سه دسته منفی، خنثی و مثبت به ترتیب برابر با ۰.۹، ۰.۶۶ و ۰.۷۹ است که نشان دهنده دقت روش استفاده شده برای تشخیص طبقه هر پیام می‌باشد با توجه مقادیر محاسبه شده تشخیص توئیت هایی که مرتبط با وقوع اعتراضات هستند (طبقه منفی) ۹۰ درصد است. از ویژگی قطبیت (منفی و مثبت بودن بار احساسی) در پیش‌بینی رخداد‌های آتی نیز استفاده شد.

رگرسیون لجستیک

پیش‌بینی گروه‌بندی داده‌ها با استفاده از رگرسیون لجستیک امری متداول است. تقسیم داده‌ها در دسته‌های وقوع یا عدم وقوع اعتراضات، گروه‌های مد نظر این پژوهش هستند. هرگاه متغیر وابسته مقادیر گسسته را اختیار کند از رگرسیون لجستیک استفاده می‌شود. متغیر وابسته ما در این پژوهش تجمع اعتراضی است، همان‌طور که قبلاً توضیح داده شد این متغیر مقادیر گسسته صفر و یک را اختیار می‌کند. محبوبیت استفاده از رگرسیون لجستیک به دلیل شکل و نوع رفتار تابع لجستیک است. این تابع به صورت

است. دامنه این تابع تمام اعداد حقیقی و برد آن بازه صفر و یک است. همین ویژگی یکی از دلایل محبوبیت این مدل رگرسیونی است. این مدل برای توصیف احتمال، که همواره مقادیری بین صفر و یک اختیار می‌کند طراحی شده است. بنابراین استفاده از آن برای برآورد ریسک  پیشنهاد می شود چون همواره مقادیری بین صفر و یک اختیار می‌کند. منحنی S شکل تابع لجستیک بیان کننده‌ این مطلب است که میزان ریسک برای مقادیر کوچک z کم است و پس از اینکه این مقادیر به آستانه‌ی مورد نظر رسیدند مقدار ریسک افزایش خواهد یافت شکل ۵، همچنین برای مقادیر بزرگ z مقدار ریسک تقریباً نزدیک به یک باقی می‌ماند (کلین بام و کلین ۲۰۱۰).

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۵ تغییرات تابع لجستیک

برای برازش یک مدل رگرسیون لجستیک مقدار z در تابع لجستیک را با  برآورد می‌کنیم که در آن  تا  متغیرهای مستقل مدل هستند، تعداد متغیرهای مستقل هر تحقیق با توجه به نوع مسئله و هدف نهایی متفاوت است، سپس با برآورد پارامترهای موجود با روش حداکثر درستنمایی برآوردی از احتمال یا ریسک متغیر وابسته که در این پژوهش وقوع تجمع اعتراضی است را به دست می‌آوریم. در واقع احتمال تعلق یک رخداد به هر طبقه به صورت

تعریف می‌گردد. که در آن  تا  متغیرهای مستقل مدل است. به علاوه می‌توان مدل فوق را برحسب لگاریتم نسبت بخت‌ها به صورت زیر نیز بازنویسی کرد

که  در آن  ضرایب رگرسیونی مربوط به هر متغیر مستقل موجود در مدل هستند. به  لگاریتم نسبت بخت یا شانس گفته می‌شود. در نهایت مقدار احتمال محاسبه شده با استفاده از روش رگرسیون لجستیک معیار تصمیم‌گیری خواهد بود به این ترتیب که هرچه این مقدار برای هر روز بیشتر باشد احتمال وقوع تجمع در آن روز بیشتر است. برای انجام این پژوهش متغیر مستقل که تابعی از بار احساسی پیام‌ها در هر روز می‌باشد در نظر گرفته شد. بنابراین مدل رگرسیون لجستیک به صورت

است. پارامترهای  و  موجود در مدل باید براورد شوند، جدول ۲ مقادیر براورد شده پارامترهای مدل فوق و دقت آن را نشان می‌دهد.

طراحی آزمایش و توصیف نتایج

در این بخش ابتدا داده‌های جمع‌آوری شده را توصیف کرده و سپس مدل رگرسیون لجستیک مطلوب را به داده‌ها برازش می­دهیم. رسم ابر واژه برای داشتن درکی صحیح از فضای موجود در پیام‌های جمع‌آوری شده یکی از ابتدایی‌ترین گام‌هاست. ابر واژه‌ی پیام‌های جمع‌آوری شده پس از پاک‌سازی آن‌ها مطابق با نیاز پژوهش در شکل ۶ قابل مشاهده است.

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۶ ابر واژه پیام‌های جمع‌آوری شده

همان‌طور که گفته شد پیام‌های جمع‌آوری شده در شش دسته هیجانی تقسیم شده‌ است. تعداد پیام‌های هر یک از این شش دسته در شکل ۷ مشخص شده است. متغیر مستقل استفاده شده در این پژوهش تابعی از نمرات احساسات و هیجاناتِ مرتبط با هر پیام‌ است این متغیر توئیت نام‌گذاری شد. خلاصه نتایج حاصل از برازش مدل رگرسیونی در جدول ۲ قابل مشاهده است.

با توجه به مقدار احتمال و معیار اطلاع آکائیکی[۲۷] محاسبه شده در پایین جدول ۲ دقت مدل مورد نظر تأیید می‌شود. مقادیر معناداری محاسبه شده برای متغیرهای مدل نیز نشان دهنده اثرگذاری این متغیرها در پیش‌بینی نتایج است. با استفاده از مدل برازش شده به داده‌ها می‌توان احتمال وقوع اعتراض را محاسبه کرد، ، که در آن  ضرایب رگرسیونی محاسبه شده‌اند کاکس (۱۹۵۸). یکی دیگر از معیارهای بررسی دقت مدل استفاده از ضریب تعیین مک‌فادن[۲۸] است که مشابه ضریب تعیین مدل رگرسیون خطی توانایی متغیر مستقل در پیش‌بینی متغیر وابسته را نشان می‌دهد هر چه مقدار این ضریب به ۱ نزدیک‌تر باشد نشان‌دهنده دقت بیشتر مدل در پیش‌بینی متغیر وابسته (وقوع اعتراض) است (مک‌فادن ۱۹۷۳، والکر و اسمیت، ۲۰۱۶).

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۷ تعداد پیام‌های مرتبط با هر یک از دسته‌های هیجان

ضریب تعیین مک‌فادن در این پژوهش برابر با  است. با استفاده از نتایج فوق وجود ارتباط بین فعالیت در فضای مجازی و وقوع اعتراض تأیید می‌شود. برای بررسی دقت مدل برازش شده احتمال وقوع رخداد با توجه به داده‌های جمع‌آوری شده در چهل روز مورد بررسی قرار گرفت مجددا در همین بازه زمانی نیز وقوع یا عدم وقوع رخداد به طور واقعی بررسی شده‌اند، شکل ۸ سمت راست بیان کننده این مهم است. با توجه به شکل ۸ سمت راست می‌توان نتیجه گرفت در روزهایی که احتمال وقوع یک رخداد بر اساس مدل برازش شده بیشتر از ۵۰ درصد است در دنیای واقعی نیز تجمع اعتراضی رخ داده است. مشابه تمام پژوهش‌های این چنینی با استفاده از یک مجموعه داده آزمایش که پیش از برازش مدل انتخاب شده و هیچ‌گونه هم‌پوشانی با داده‌های آموزش مدل ندارند، دقت مدلِ برازش شده مورد بررسی قرار گرفته است. نتیجه این بررسی در شکل ۸ سمت چپ قابل مشاهده است. داده‌های آموزش  شامل امتیاز احساسات محاسبه شده برای توئیت‌های ارسالی در هر روز، احتمال وقوع اعتراض و وقوع یا عدم وقوع اعتراض است. برای محاسبه امتیاز احساس در هر روز نیاز به بررسی توئیت‌های ارسالی مرتبط با موضوع پژوهش در آن روز و تعیین میزان بار احساسی هر توئیت می‌باشد. 

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)
شکل ۸ احتمال وقوع اعتراض توسط سپرده‌گذاران مؤسسات مالی در مجموعه داده‌های آموزش (۴۰ روز) و آزمایش (۶ روز)

از نتایج حاصل موارد زیر را می‌توان استنباط کرد:

  • همان طور که مشخص است هفتاد و پنج درصد از روزهایی که اعتراضی در آنها رخ نداده احتمال وقوع اعتراض کمتر از ۰.۲۵ است، بنابراین می‌توان نتیجه گرفت در مواقعی که اعتراضی رخ نمی‌دهد تغییر معناداری در احتمال برآورد شده مشاهده نمی‌شود شکل ۸ سمت چپ.
  • با توجه به تعدد اعتراضات در بازه زمانی انتخاب شده، احتمالات‌ محاسبه شده تحت تأثیر این مسئله هستند ذکر این نکته ضروری است که مقیاس اعتراضات (تعداد افراد حاضر در اعتراضات) در محاسبات لحاظ نشده است که می‌تواند دلیلی بر عدم افزایش احتمال وقوع تجمع در بازه زمانی قبل از اولین اعتراض (۱۲ شهریور) است شکل ۸ سمت راست.
  • احتمال وقوع اعتراض در روزهای قبل از اعتراضات اصلی و معنادار افزایش می‌یابد. به عنوان مثال بازه زمانی ۳۰ شهریور تا ۳ مهر موید این موضوع است. شکل ۸ سمت راست.

نتیجه‌گیری و پیشنهاد‌ها

در این مقاله از اطلاعات موجود در شبکه‌ اجتماعی توئیتر برای پیش‌بینی اعتراضات اجتماعی استفاده شده است. داده‌های شبکه اجتماعی همواره در دسترس بوده و برای مطالعه رخدادهای غیر منتظره بسیار مناسب هستند از طرفی اکثر کاربران از امکان تحلیل داده‌های خود آگاه نیستند، بنابراین رفتارهای خود را تغییر نمی‌دهند. مواردی از این دست ارزش داده‌های شبکه‌های اجتماعی برای تحلیل‌های اجتماعی را دو چندان کرده است. یکی از چالش‌های این تحقیق عدم دسترسی به اطلاعات و مجموعه داده‌های مرتبط با درگیری‌ها و تجمعات بود. به نظر می‌رسد در اختیار داشتن چنین مجموعه دادگانی می‌تواند برای انجام ارزیابی‌ها مفید باشد.

بر خلاف بیشتر پژوهش‌ها که از اطلاعات سطحی مانند تعداد پیام‌ها در تحلیل استفاده می‌کنند، در این پژوهش از روشی مبتنی بر تحلیل محتوای متنی استفاده شده است. تحلیل هیجانات، شناسایی قطبیت، تحلیل احساس و رگرسیون لجستیک از اجزای روش مورد استفاده این پژوهش هستند. از طرفی دسته‌بندی پیام‌ها بر اساس نظریه تحرک اجتماعی صورت گرفته است. نتایج بدست آمده نشان می‌دهد که افزایش احتمال وقوع اعتراضات با رشد تعداد پیام‌ها مرتبط بوده و در روزهایی که اعتراضات گسترده‌تری رخ داده احتمال محاسبه شده توسط مدل، نسبت به سایر روزها بیشتر است که نشان دهنده دقت روش استفاده شده در این مقاله می‎باشد. بنابراین افزایش حجم داده‌ها و استفاده از منابع مختلف داده از قبیل پیام‌رسان تلگرام و سایت‌های خبری و همچنین لحاظ کردن موقعیت مکانیِ اعتراضات در مدل مورد نظر برای انجام تحقیقات آتی و بهبود نتایج پیشنهاد می­‌شود.

پانویس و ارجاع

[۱] Akhgar, B., Bayerl, P. S., & Sampson, F. (Eds.). (2017). Open Source Intelligence Investigation: From Strategy to Implementation. Springer.

[۲] Alikhani, E. (2014). Computational Social Analysis: Social Unrest Prediction Using Textual Analysis of News. State University of New York at Binghamton.

[۳] Chen, F., & Neill, D. B. (2014, August). Non-parametric scan statistics for event detection and forecasting in heterogeneous social media graphs. In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 1166-1175). ACM.

[۴] Compton, R., Lee, C., Lu, T. C., De Silva, L., & Macy, M. (2013, June). Detecting future social unrest in unprocessed twitter data:“emerging phenomena and big data”. In Intelligence and Security Informatics (ISI), 2013 IEEE International Conference On (pp. 56-60). IEEE.

[۵] Cox, D. R. (1958). The regression analysis of binary sequences. Journal of the Royal Statistical Society. Series B (Methodological), ۲۱۵-۲۴۲.

 [6] Klandermans, B., & Oegema, D. (1987). Potentials, networks, motivations, and barriers: Steps towards participation in social movements. American sociological review, ۵۱۹-۵۳۱.

[۷] Kleinbaum, D. G., & Klein, M. (2010). Logistic regression: a self-learning text. Springer Science & Business Media.

[۸] Korkmaz, G., Cadena, J., Kuhlman, C. J., Marathe, A., Vullikanti, A., & Ramakrishnan, N. (2015, August). Combining heterogeneous data sources for civil unrest forecasting. In Advances in Social Networks Analysis and Mining (ASONAM), 2015 IEEE/ACM International Conference on (pp. 258-265). IEEE.

[۹] Korolov, R., Lu, D., Wang, J., Zhou, G., Bonial, C., Voss, C. & Ji, H. (2016, August). On predicting social unrest using social media. In Advances in Social Networks Analysis and Mining (ASONAM), 2016 IEEE/ACM International Conference on (pp. 89-95). IEEE.

[۱۰] Kuosa, T. (2011). Different approaches of pattern management and strategic intelligence. Technological Forecasting and Social Change, 78(3), 458-467.

[۱۱] Lauro, N., C., Amaturo, E., Grassia, M., G., Aragona, B., Marino, M. (2017). Data Science and Social Research. Springer.

[۱۲] McFadden, D. (1973). Conditional logit analysis of qualitative choice behavior

[۱۳] Muthiah, S., Huang, B., Arredondo, J., Mares, D., Getoor, L., Katz, G., & Ramakrishnan, N. (2015, January). Planned Protest Modeling in News and Social Media. In AAAI (pp. 3920-3927).

[۱۴] Omand, D., Bartlett, J., & Miller, C. (2012). Introducing social media intelligence (SOCMINT). Intelligence and National Security۲۷(۶), ۸۰۱-۸۲۳.

[۱۵] Pennebaker, J. W., Boyd, R. L., Jordan, K., & Blackburn, K. (2015). The development and psychometric properties of LIWC2015.

[۱۶] Phung, N. D., Gaber, M. M., & Rohm, U. (2007, March). Resource-aware online data mining in wireless sensor networks. In Computational Intelligence and Data Mining, 2007. CIDM 2007. IEEE Symposium on (pp. 139-146). IEEE.

[۱۷] Qiao, F., & Wang, H. (2015, October). Computational approach to detecting and predicting occupy protest events. In Identification, Information, and Knowledge in the Internet of Things (IIKI), 2015 International Conference on (pp. 94-97). IEEE.

[۱۸] Salganik, M. J. (2017). Bit by bit: social research in the digital age. Princeton University Press.

[۱۹] Van Stekelenburg, J., & Klandermans, B. (2013). The social psychology of protest. Current Sociology۶۱(۵-۶), ۸۸۶-۹۰۵.

[۲۰] Walker, D. A., & Smith, T. J. (2016). Nine Pseudo R^ 2 indices for binary logistic regression models. Journal of Modern Applied Statistical Methods۱۵(۱), ۸۴۸-۸۵۴.

[۲۱] Wu, C., & Gerber, M. S. (2017). Forecasting Civil Unrest Using Social Media and Protest Participation Theory. IEEE Transactions on Computational Social Systems. [۲۲] Zhao, L., Chen, F., Lu, C. T., & Ramakrishnan, N. (2015, June). Spatiotemporal event forecasting in social media. In Proceedings of the 2015 SIAM International Conference on Data Mining (pp. 963-971). Society for Industrial and Applied Mathematics.

[۱] Geo-Spatial Intelligence (GEOINT)

[۲] Human Intelligence (HUMINT)

[۳] Signal Intelligence (SIGINT)

[۴] Measurement and Signature Intelligence (MASINT)

[۵] Open Source Intelligence (OSINT)

[۶] Technical Intelligence (TECHINT)

[۷] Social Media Intelligence (SOCMINT)

[۸] https://www.ibm.com/developerworks/community/blogs/jfp/entry/the_analytics_maturity_model?lang=en

[۹] Discriminant Analysis

[۱۰] Empirical P-value

[۱۱] Least Absolute Shrinkage and Selection Operator (LASSO)

[۱۲] Sparse

[۱۳] Mobilization

[۱۴] Sympathy to the cause

[۱۵] Awareness of the protest

[۱۶] Motivation to take part

[۱۷] Ability to take part

[۱۸] Affective Computing

[۱۹] Linguistic Inquiry and Word Count

[۲۰] Anx

[۲۱] Anger

[۲۲] Tentat

[۲۳] Sad

[۲۴] Certain

[۲۵] Negemo

[۲۶] Polarity

[۲۷] Akaike Information Criterion

[۲۸] McFadden

نویسندگان

پیش‌بینی اعتراضات اجتماعی با استفاده از داده‌های شبکه اجتماعی توئیتر (20033)

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *