داستان از توییت زیر شروع شد:
چند روز پیش یکدفعه علاقهمند شدم که روی اشعار فارسی سایت گنجور یک تحلیلی رو انجام بدم. خیلی سریع و با عجله (به دلیل اینکه سربازم و فرصت بسیار کمی دارم) یک کد نوشتم که کلمات منحصر به فرد رو از اشعار استخراج کنه و ابر کلمات تمام اشعار فارسی رو تولید کردم و بعدش اون رو توییت کردم. فکر نمیکردم انقدر بازخورد داشته باشه. فکر میکردم مثل بقیه توییت هایی که میزنم یه تعدادی از فالوور هام لایکش میکنن و تموم میشه. اما به شکل عجیبی در توییتر پخش شد! تازه سوتی هم دادم و تعداد کلمات رو اشتباه نوشتم!حالا ابر کلمات چیه؟ هر چقدر یک کلمه در ابر کلمات بزرگ تر باشه، یعنی تعداد تکرارش بیشتر بوده. مثلا در تصویر بالا کلمه دل از همه بیشتر تکرار شده پس از همه بزرگ تر نمایش داده شده. توی توییت بعدی نوشتم که اگر کلمات توقف رو حذف نکنیم تصویر اینجوری میشه:
حالا به چه کلماتی میگیم Stop Words یا کلمات توقف؟ به کلمات پر تکراری که جزو کلمات کلیدی به حساب نمیآیند مانند حروف اضافه («به»، «از» و …)، حروف ربط («که»، «پس» و …) و ضمایر («من»، ««او» و…) کلمات توقف گفته میشود. البته لیست کامل و دقیقی از کلمات توقف چه برای زبان فارسی و چه برای زبان انگلیسی وجود نداره. ممکنه در یک متن کلمه «سلام» کلمه توقف حساب بشه و در یک متن کلمه کلیدی و اصلی! در این لینک مجموعهای از کلمات توقف فارسی وجود داره که من از اون برای پروژه های مختلف استفاده میکنم.
اما همونطور که گفتم، نمیتونیم یک لیست از کلمات توقف رو برای همه پروژه ها استفاده کنیم. باید متناسب با هر پروژه، یک لیست جدید ایجاد کنیم. مثلا این لیست کلمه «مِی» رو به عنوان کلمه توقف در نظر گرفته و یکی از پایه های شعر فارسی رو حذف کرده! موقعی که داشتم توییت رو مینوشتم خیلی فرصت این رو نداشتم که کلمات توقف رو تغییر بدم و باعث شد چند تا از کلمه های مهم از ابر کلمات حذف بشه! اما الان یه مقدار بیشتر وقت گذاشتم و کمی این لیست رو تغییر دادم تا نتیجه دقیق تری داشته باشیم.بر اساس اطلاعاتی که در سایت گنجور نوشته شده است، این دیتابیس شامل ۱,۲۹۲,۲۴۷ بیت شعر است. همچنین تعداد کلمات منحصر به فرد در گنجور ۴۴۶,۵۶۹ عدد است که اینجا قرار دادم.
اگر ابر کلمات تمام اشعار فارسی رو ترسیم کنیم نتیجه به صورت زیر میشود:
اگر کلمات توقف را از دایره واژگان حذف نکنیم نتیجه به صورت زیر میشود:
در حال حاضر اشعار ۱۶۱ شاعر در سایت گنجور وجود داره. من ابر کلمات تک به تک این شعرا رو هم ترسیم کردم اما برای اینکه این پست طولانی نشه، تصاویر رو اینجا قرار دادم.
حالا میخوام بررسی کنم در دایره واژگان هر شاعر چه تعداد کلمات منحصر به فرد وجود داره که سایر شعرا از اون استفاده نکردند. لیست ۱۰ نفری که بیشترین کلمه منحصر به فرد رو دارند، در جدول زیر قرار دادم:
جدول زیر، تعداد تکرار هر یک از حروف الفبا در تمام اشعار گنجور را نشان میدهد:
از جدول بالا میشه فهمید که حروف ژ ، ث و ظ کمتر از سایر حروف در اشعار فارسی تکرار شدهاند. حالا میخوام بررسی کنم که کدام یک از شعرا بیشتر از سایرین از این حروف در اشعار خود استفاده کردهاند؟
- حرف ژ
- حرف ث
- حرف ظ
کدام یک از شعرا بیشترین تعداد نقطه را در اشعار خود بکار بردهاند؟
کدام یک از اشعار بیشترین تعداد نقطه را دارند؟
آذر بیگدلی » دیوان اشعار » مثنویات » شمارهٔ ۱۱ » ۲۶,۴۴۳ نقطه
عطار « جوهرالذات، دفتر دوم » تمامی اشیا از یک نور واحدند » ۱۸,۲۰۰ نقطه
فردوسی « شاهنامه ، پادشاهی کسری نوشین روان چهل و هشت سال بود » ۱۸,۰۳۷ نقطه
افسرالملوک عاملی « کوروش نامه » تحصیل اجازه خشایار از پدرش برای رفتن بشکار » ۱۷,۷۳۰ نقطه.
کدام یک از اشعار هیچ نقطهای ندارند؟
وطواط « قصاید » شمارهٔ ۱۴۲ – قصیدۀ محذوف النقط در مدح محمد نام
مجیرالدین بیلقانی « دیوان اشعار » قصاید » شمارهٔ ۵۵
خالد نقشبندی « قطعات » قطعه شماره ۳۹
نکته بامزه اینه که غزل شمارهٔ ۱۱۵۹ و غزل شمارهٔ ۹۳۹ از بیدل دهلوی فقط ۳ نقطه دارد و اون هم نقاط کلمه بیدل است!
لیست تعداد نقطه در هر یک از اشعار گنجور رو در این لینک قرار دادم.
از بین نام های ایرانی کدامیک بیشتر از بقیه در اشعار مورد استفاده قرار گرفتهاند؟
برای اینکه پاسخ این سوال رو پیدا کنیم ابتدا باید لیستی از نام های ایرانی در اختیار داشته باشیم. این لیست رو از سایت ثبت احوال برداشتم که شامل ۶۲۴۰ نام ایرانی است. لیست این نامها را اینجا قرار دادم.
در تصویر زیر میتوانید ابر کلمات اسامی ایرانی که در اشعار گنجور آماده است را مشاهده کنید:
لیست کامل نام ها و تعداد تکرار هر کدوم رو در این لینک قرار دادم.
نویسندگان
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/۱۵ بهمن ۱۴۰۳
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/
- شرکتکنندگان دومین جایزه دیتاژورنالیسم (۱۴۰۳)https://d-mag.ir/pauthor/anonymous/