
x32x01
أدارة أكتب كود
- بواسطة x32x01 ||
كان يوم الإثنين الصبح… وبدأ الكابوس!
(قصة حقيقية من داخل شركة بيانات)
في شركة “DataVerse”، كان يوسف محلل البيانات قاعد بيشرب القهوة ومبسوط إن الدنيا هادية… لحد ما جاله الإيميل.
الموضوع: انهيار مفاجئ في مبيعات قسم الشرق الأوسط!
الـ CMO كانت غاضبة جداً، والإدارة العليا طالبة تحليل فوري.
"إحنا كنا بنبيع بـ 500 ألف دولار شهرياً، دلوقتي بقينا 120 ألف؟! عايزين تفسير… النهاردة!"
يوسف بدأ يفكر بسرعة.
فتح الـ dashboard… بص على الفلاتر…
ولقى المفاجأة:
البيانات مبتتكلمش!
الـ Dashboard مش محدث بقاله أسبوعين!
و SQL query اللي بتسحب البيانات فيها شرط غلط:
بينما الحقيقة في قاعدة البيانات كانت:
المشكلة؟
الداتا كانت مش موحدة (Inconsistent labels)، وكل واحد في الفريق بيستخدم تصنيف مختلف.
واحد بيكتب 'Middle East'، واحد بيحط الدول، وواحد بيكتب 'ME'.
الحل؟
يوسف عمل حاجة بسيطة لكن فرقت:
عمل Data Dictionary موحد:
كل التصنيفات الإقليمية بقت موحدة ومعتمدة.
بنى Script صغير في Python للتنظيف:
طبق ده في الـ ETL pipeline بحيث البيانات تتنضف تلقائياً أول ما تدخل.
النتيجة؟
الـ Dashboard بدأ يشتغل صح.
الإدارة فهمت إن فيه تباطؤ حقيقي بس مش كارثي.
يوسف بقى الـ Hero بتاع اليوم!
الدرس؟
البيانات الغير نظيفة بتكلف وقت، فلوس، وثقة!
قبل ما تحلل، اتأكد إنك بتنضف، توحد، وتراجع الـ pipelines كويس.
(قصة حقيقية من داخل شركة بيانات)
في شركة “DataVerse”، كان يوسف محلل البيانات قاعد بيشرب القهوة ومبسوط إن الدنيا هادية… لحد ما جاله الإيميل.


"إحنا كنا بنبيع بـ 500 ألف دولار شهرياً، دلوقتي بقينا 120 ألف؟! عايزين تفسير… النهاردة!"

فتح الـ dashboard… بص على الفلاتر…
ولقى المفاجأة:

الـ Dashboard مش محدث بقاله أسبوعين!
و SQL query اللي بتسحب البيانات فيها شرط غلط:
SQL:
WHERE region = 'MiddleEast'
SQL:
region IN ('UAE', 'KSA', 'EGY', 'QAT', 'JOR')

الداتا كانت مش موحدة (Inconsistent labels)، وكل واحد في الفريق بيستخدم تصنيف مختلف.
واحد بيكتب 'Middle East'، واحد بيحط الدول، وواحد بيكتب 'ME'.

يوسف عمل حاجة بسيطة لكن فرقت:

كل التصنيفات الإقليمية بقت موحدة ومعتمدة.

Python:
def normalize_region(region):
middle_east = ['UAE', 'KSA', 'EGY', 'QAT', 'JOR', 'MiddleEast', 'ME']
if region in middle_east:
return 'Middle East'
return region
df['region'] = df['region'].apply(normalize_region)






البيانات الغير نظيفة بتكلف وقت، فلوس، وثقة!
قبل ما تحلل، اتأكد إنك بتنضف، توحد، وتراجع الـ pipelines كويس.