سند طرح جامع پژوهش و مستندسازی داده‌محور

عنوان پروژه: «حافظه دیجیتال و حقیقت‌سنجی انتخابات ۱۴۰۳: تحلیل کلان‌داده‌ها و تغییر ریل سیاسی»

۱. مقدمه و بیان مسئله (The Problem Statement)

جامعه ایران پس از تجربه‌ی رشد قابل توجه در دهه‌ی هشتاد، در دهه‌ی نود وارد دوره‌ای از رکود و تغییرات شدید مدیریتی شد؛ تغییراتی که به انباشت عقب‌ماندگی‌ها و کاستی‌های مدیریتی انجامید. در ادامه، در دوره ریاست‌جمهوری آقای رئیسی نشانه‌هایی از تحرک در میان نخبگان و صنعت تولید کشور پدیدار شد و امید به تغییر افزایش یافت، اما همان سه سال نیز با بحران‌های پی‌درپی همراه بود؛ از همه‌گیری کرونا و ضرورت واکسیناسیون فوری، تا بحران‌های اجتماعی–امنیتی سال ۱۴۰۱، و سپس مشکلات اقتصادی–امنیتی ناشی از تغییر سیاست‌های اقتصادی و درگیری‌های منطقه‌ای با اسرائیل تا سال ۱۴۰۳.

با وجود این تحولات، فضای فرهنگی جامعه نشان می‌داد که مردم چندان از روندهای رشد و تغییرات ساختاری آگاه نیستند و تفاوت مسیرگذاری‌ها را درک نمی‌کنند. تلاش‌های گسترده در لایه‌های جامعه انقلابی برای آگاه‌سازی نیز نتوانست این شکاف را پر کند. در نهایت، مجموعه‌ای از عوامل همچون نفاق برخی جریان‌های منتسب به جبهه راست، ضعف در اجماع مردمی، تبلیغات پرهزینه احزاب چپ، و بهره‌برداری آن‌ها از شکاف‌ها و دوقطبی‌های موجود (از فیلترینگ و حجاب گرفته تا مسائل قومی، مذهبی و حتی بحث‌های داغی مانند «جنگ آری یا خیر») زمینه‌ساز نتیجه انتخابات شد. در این شرایط، جریان چپ توانست با دامن زدن به این موضوعات و استفاده از فضای قطبی‌شده، حدود سه میلیون رأی بیشتر کسب کند و آقای پزشکیان به عنوان چهاردهمین رئیس‌جمهور ایران انتخاب شد.

مسئله اصلی این است:

دلایل واقعی این تغییر رفتار انتخاباتی و تغییر ریل سیاسی چیست؟ (فراتر از تحلیل‌های سطحی رسانه‌ای).
حافظه تاریخی جامعه کوتاه است و روایت‌ها به سرعت دچار تحریف می‌شوند. چگونه می‌توان آنچه دقیقاً رخ داد (وعده‌ها، ادعاها، مناظرات) را "زنده" و "مستند" نگه داشت؟
فقدان یک مرجع شفاف و داده‌محور برای راستی‌ازمایی (Fact-checking) ادعاهای سیاسیون.
اهداف پروژه (Project Objectives)

هدف اصلی: ایجاد یک پایگاه دانش (Knowledge Base) هوشمند، جستجوپذیر و مبتنی بر هوش مصنوعی از تمامی رخدادهای انتخابات ۱۴۰۳.

اهداف فرعی:

مستندسازی دقیق تمامی مناظرات، سخنرانی‌ها و محتوای تولید شده در توییتر و تلگرام و خبرگزاری‌ها و شبکه‌های اجتماعی
روش‌های مورد استفاده دو طرف در جذب رای و میزان سوء استفاده از شکاف‌ها و دوقطبی‌ها و سطح برنامه‌ها و تعهدات داده شده و اهداف هر جبهه.
تبدیل فرمت‌های غیرمتنی (صوت و ویدیو) به متن قابل جستجو.
ایجاد امکان "پرسش و پاسخ" (Q&A) از داده‌ها برای کشف تناقضات و حقایق.
شناسایی الگوهای تغییر ذهنیت جامعه (Societal Mindset Shift) با استفاده از تحلیل احساسات (Sentiment Analysis).

۳. متدولوژی و راهکار فنی (Technical Methodology)

این پژوهش بر پایه علم داده (Data Science) و هوش مصنوعی (AI) با معماری زیر اجرا می‌شود:

الف) گردآوری داده (Data Collection)

منابع: آرشیو توییتر (X)، کانال‌های تلگرامی مرجع، ویدیوهای مناظرات صداوسیما، سخنرانی‌های میدانی نامزدها و دیگر شبکه‌های اجتماعی

ابزارها: استفاده از خزنده (Crawler)های پیشرفته مانند Octoparse و اسکریپت‌های اختصاصی پایتون برای جمع‌آوری بیگ‌دیتا (Big Data).

ب) پردازش و تبدیل (Processing)

تبدیل گفتار به نوشتار: استفاده از مدل‌های هوش مصنوعی مانند Whisper (OpenAI) برای استخراج متن دقیق از هزاران ساعت فایل ویدیویی و صوتی (مناظرات و سخنرانی‌ها).
تحلیل عکس‌ها و اینفوگرافیک‌ها و تیترهای تصویری (با مدل‌هایی همچون Gemma یا Llama یا Gemini)
تمیزکاری داده‌ها (Cleaning): حذف نویزها و استانداردسازی متون.

ج) ذخیره‌سازی و برداری‌سازی (Embedding & Storage)

تبدیل تمامی متون به وکتور (Vectorization) برای فهم معنایی جملات.
ذخیره‌سازی در دیتابیس‌های برداری مانند ChromaDB یا PostgreSQL (pgvector).

د) تحلیل و بازیابی (RAG & Analysis)

استفاده از معماری RAG (Retrieval-Augmented Generation).
به‌کارگیری مدل‌های زبانی بزرگ (LLMs) نظیر GPT-4 یا Gemini یا Gemma یا Llama برای تحلیل معنایی به عنوان دستیار پژوهشی هوشمند.
ایجاد "عامل‌های هوشمند" (AI Agents) برای دسته‌بندی موضوعی و یا تحلیل فراداده ها (مثلاً: اقتصاد، سیاست خارجی، فیلترینگ).

۴. خروجی نهایی (Deliverables)

خروجی این پروژه یک سند اینترنتی زنده (Web-based Documentation) یا یک پلتفرم وب خواهد بود که ویژگی‌های زیر را دارد:

موتور جستجوی معنایی: کاربر می‌پرسد: «آیا آقای پزشکیان درباره قیمت بنزین وعده‌ای داد؟» و سیستم دقیقاً ثانیه و متن جمله را از دل هزاران ساعت ویدیو پیدا می‌کند و به او نشان می‌دهد.
تایم‌لاین تحلیلی: نمایش روند تغییر نظرات و موج‌های اجتماعی از شروع تبلیغات تا روز رای‌گیری.
گزارش تناقضات: لیست‌کردن خودکار مواردی که ادعاهای مطرح شده با آمارهای واقعی یا گفته‌های قبلی فرد تناقض دارد.
دسترسی آزاد (Open Access): برای استفاده پژوهشگران، روزنامه‌نگاران و نخبگان.
مستندات با منابع و ارجاعات زنده (Live Refrences): ارجاعات و منابع مورد استفاده می‌تواند در لیست داکیومنت‌های مورد استفاده به صورت زنده به منبع اصلی اش داده شود که ارزش بالایی به دیتاها خواهد داد.

۵. مخاطبان هدف (Target Audience)

قشر نخبه و دانشگاهی: جهت ریشه‌یابی علمی تحولات سیاسی.
فعالین سیاسی و مدنی: جهت نظارت بر عملکرد دولت و مقایسه وعده با عمل.
نسل آینده پژوهشگران: به عنوان یک منبع دست‌اول و دست‌نخورده از تاریخ معاصر.
عموم مردم برای ارجاعات و رشد اطلاعات واقعی عرصه سیاست

۶. ضرورت و اهمیت (Significance)

جلوگیری از تحریف تاریخ: با "فریز کردن" داده‌ها در لحظه وقوع، امکان بازنویسی تاریخ توسط گروه‌های ذینفع در آینده از بین می‌رود.
شفافیت و پاسخگویی: این ابزار به مثابه یک "ماشین حقیقت‌سنج" عمل می‌کند که هزینه دروغ‌گویی یا وعده‌های بدون پشتوانه را برای سیاستمداران بالا می‌برد.
الگوی نوین پژوهش: گذار از پژوهش‌های سنتی و کیفی به پژوهش‌های کمی و مبتنی بر هوش مصنوعی در علوم انسانی ایران.

۷. گام‌های بعدی و شروع (Next Steps)

تشکیل تیم کوچک فنی (یک متخصص دیتا، یک توسعه‌دهنده وب).
انتخاب یک بازه زمانی مشخص (مثلاً فقط بازه تبلیغات دور اول و دوم) برای ساخت نسخه اولیه (MVP).
جمع‌آوری داده‌های اولیه و تست مدل‌های زبانی روی متون فارسی سیاسی.