منهجية البيانات

المنهج العلمي في جمع ومعالجة البيانات

في قطارات مصر، نتبع منهجاً علمياً صارماً في جمع ومعالجة وتحليل بيانات السكك الحديدية المصرية. هذه الوثيقة توضح بالتفصيل الطرق والتقنيات والخوارزميات التي نستخدمها لضمان أعلى مستوى من الدقة والموثوقية.

1. إطار العمل المنهجي

النهج العام

الأدلة الكمية: كل قرار مبني على البيانات الرقمية
التحليل الإحصائي: استخدام الإحصاء لتحليل الأنماط
التحقق المتعدد: عدة طرق للتحقق من صحة البيانات
التحديث المستمر: تطوير المنهجية بناءً على النتائج

المبادئ الأساسية

الشمولية (Comprehensiveness): تغطية جميع جوانب البيانات
الدقة (Accuracy): ضمان صحة كل معلومة
التوقيت (Timeliness): البيانات محدثة دائماً
الشفافية (Transparency): وضوح في كل خطوة
إمكانية التكرار (Reproducibility): النتائج قابلة للتكرار

2. مصادر البيانات والتحقق

التسلسل الهرمي للمصادر

المستوى الأول - المصادر الأساسية (95%)
- نظام التشغيل المركزي لهيئة السكك الحديدية (API مباشر للمواعيد والتأخير، تحديث كل 60 ثانية، معدل الدقة: 99.8%)
- قواعد بيانات المحطات الرسمية (معلومات المحطات والمرافق، تحديث يومي، التحقق الميداني شهرياً)
المستوى الثاني - المصادر الثانوية (4%)
- إعلانات رسمية من وزارة النقل
- بيانات من إدارات المحطات المحلية
- تقارير الصيانة والتطوير
المستوى الثالث - المصادر التكميلية (1%)
- استطلاعات المسافرين المعتمدة
- تقارير الجهات الدولية للنقل
- بيانات الطقس والأحداث الخاصة

عملية التحقق من المصادر

1. فحص صحة المصدر
   ├── هل المصدر رسمي؟
   ├── ما مستوى موثوقيته؟
   └── متى آخر تحديث؟

2. تحليل البيانات الواردة
   ├── هل البيانات منطقية؟
   ├── هل تتطابق مع الأنماط المعتادة؟
   └── هل توجد قيم شاذة؟

3. التحقق المتقاطع
   ├── مقارنة مع مصادر أخرى
   ├── فحص التناسق التاريخي
   └── التحقق من السياق العام

3. خوارزميات معالجة البيانات

خوارزمية تنظيف البيانات

def remove_duplicates(train_data):
    unique_trains = {}
    for train in train_data:
        key = f"{train.number}_{train.date}_{train.route}"
        if key not in unique_trains:
            unique_trains[key] = train
        else:
            if train.last_updated > unique_trains[key].last_updated:
                unique_trains[key] = train
    return list(unique_trains.values())

توحيد أسماء المحطات والتوقيت وأرقام القطارات

خوارزمية كشف القيم الشاذة

def detect_schedule_anomalies(train_schedule):
    anomalies = []
    for i in range(len(train_schedule.stops) - 1):
        distance = calculate_distance(
            train_schedule.stops[i], 
            train_schedule.stops[i+1]
        )
        time_diff = train_schedule.stops[i+1].time - train_schedule.stops[i].time
        speed = distance / time_diff.hours
        if speed > 200 or speed < 10:
            anomalies.append({
                'type': 'unrealistic_speed',
                'calculated_speed': speed,
                'segment': f"{train_schedule.stops[i].name} - {train_schedule.stops[i+1].name}"
            })
    return anomalies

خوارزمية التنبؤ بالتأخير

from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split

def train_delay_prediction_model(historical_data):
    features = extract_features(historical_data)
    delays = extract_delays(historical_data)
    X_train, X_test, y_train, y_test = train_test_split(
        features, delays, test_size=0.2, random_state=42
    )
    model = RandomForestRegressor(
        n_estimators=100,
        max_depth=10,
        random_state=42
    )
    model.fit(X_train, y_train)
    accuracy = model.score(X_test, y_test)
    return model, accuracy

دقة النموذج الحالية: 87.3% للتنبؤ بالتأخير خلال ±10 دقائق

4. عمليات التحقق والتحليل

def calculate_daily_accuracy_metrics(actual_times, predicted_times):
    mae = mean_absolute_error(actual_times, predicted_times)
    rmse = sqrt(mean_squared_error(actual_times, predicted_times))
    accuracy_5min = sum(
        abs(actual - predicted) <= 5 
        for actual, predicted in zip(actual_times, predicted_times)
    ) / len(actual_times) * 100
    return {
        'mae': mae,
        'rmse': rmse,
        'accuracy_5min': accuracy_5min
    }

تحليل موسمي وأسبوعي للأنماط
نظام إنذار مبكر عند انخفاض الدقة أو تأخر التحديثات

5. تقنيات معالجة البيانات الكبيرة

PostgreSQL وRedis وInfluxDB
معالجة البيانات المتدفقة (Stream Processing)
اختبارات وحدة وتكامل وأداء
تحسين الأداء: فهرسة ذكية، Cache، ضغط البيانات، توزيع جغرافي

6. ضمان الجودة والاختبارات

def test_distance_calculation():
    cairo_coords = (30.0626, 31.2497)
    alexandria_coords = (31.2001, 29.9187)
    calculated_distance = calculate_distance(cairo_coords, alexandria_coords)
    expected_distance = 208.5
    assert abs(calculated_distance - expected_distance) <= 5

اختبار تدفق البيانات، اختبار واجهات البرمجة، اختبار الأداء والحمولة

7. التحسين المستمر والتطوير

دورة تحسين مستمر: جمع بيانات → تحليل → تحسين → مراقبة
مؤشرات الأداء: دقة البيانات، وقت الاستجابة، التوفر، رضا المستخدمين
تقارير دورية: أسبوعية، شهرية، ربع سنوية، سنوية
مراجعات خارجية أكاديمية ومهنية وتقنية

آخر تحديث: يونيو 2025
الإصدار: 2.1
المراجعة القادمة: ديسمبر 2025
لأي استفسار تقني حول المنهجية، يُرجى التواصل معنا على: methodology@egypttrains.com