
- بواسطة x32x01 ||
انهيار البيانات في شركة DataVerse 
كان يوم الإثنين الصبح… وبدأ الكابوس!يوسف، محلل بيانات في شركة “DataVerse”، استقبل إيميل خطير من الإدارة:
المبيعات انهارت فجأة من 500 ألف لـ120 ألف دولار!
المطلوب: تفسير فوري.
اكتشاف الخطأ في الـ Dashboard
يوسف فتح لوحة التحكم بسرعة… لكن لقى إن البيانات مش محدثة بقالها أسبوعين!الـ SQL query فيها خطأ قاتل:
SQL:
WHERE region = 'MiddleEast'
بينما القيم الحقيقية في قاعدة البيانات كانت بالشكل ده

SQL:
region IN ('UAE', 'KSA', 'EGY', 'QAT', 'JOR')
المشكلة كانت في عدم توحيد التصنيفات بين أعضاء الفريق - كل واحد بيكتبها بطريقة مختلفة:
'Middle East', 'ME', أو أسماء الدول مباشرة.
الحل الذكي من يوسف
يوسف عمل Data Dictionary موحد علشان يضمن إن كل البيانات الإقليمية تبقى بتتابع نفس القاعدة.وكمان كتب سكريبت بسيط في Python ينظف القيم تلقائيًا أثناء الـ ETL:
Python:
def normalize_region(region):
middle_east = ['UAE', 'KSA', 'EGY', 'QAT', 'JOR', 'MiddleEast', 'ME']
if region in middle_east:
return 'Middle East'
return region
df['region'] = df['region'].apply(normalize_region)
النتيجة
- الـ Dashboard اشتغل تاني بدقة.
- الإدارة فهمت إن التراجع حقيقي لكن مش كارثي.
- يوسف بقى بطل اليوم في الشركة!
الدرس المستفاد
البيانات الغلط أغلى من البيانات الناقصة!قبل ما تبدأ تحليل، نظّف، وحّد، وراجع الـ pipelines كويس جدًا.
لأن Data Quality = Business Trust

التعديل الأخير: