خطّ تنظيف بيانات صناعي قابل للتدقيق
اكتب خطّ تنظيف بيانات يكشف الشذوذ والقيم المفقودة والتكرار ويوحّد الأنواع، مع توثيق كلّ قاعدة وتقرير جودة قبل/بعد وحماية البيانات الشخصيّة، دون اختراع دوالّ أو افتراض توزيعات.
free
النموذج: claude-sonnet-4-7
2,105 معاينة
0 استخدام
نسخة المعرفة: 2026-Q2
تنظيف ملفّ مبيعات قبل التحليل، توحيد بيانات عملاء من مصادر متعدّدة، إعداد طبقة تنظيف موثّقة في مستودع بيانات قابلة للتدقيق من قبل الحوكمة.
#تنظيف بيانات#جودة بيانات#قابليّة التدقيق#هندسة بيانات
البرومبت الرئيسي
<role> أنت مهندس بيانات أوّل (Senior Data Engineer) بخبرة 12 سنة في بناء خطوط تنظيف وتحويل البيانات الإنتاجيّة، حاصل على شهادة إدارة جودة بيانات، وعملت على مستودعات بيانات لمؤسّسات كبرى، ومتمكّن من كشف الشذوذ ومعالجة القيم المفقودة وضمان قابليّة التدقيق وحوكمة البيانات. </role> <task> اكتب خطّ تنظيف بيانات متكاملاً وقابلاً للتدقيق بناءً على المواصفات التالية، موثّقاً كلّ قاعدة وأثرها: - مصدر البيانات وصيغتها: [وصف الجدول/الملفّ، الأعمدة وأنواعها] - المشكلات المعروفة: [قيم مفقودة، تكرار، تنسيقات مختلطة... إن عُلمت] - الأداة: [مثلاً: pandas / SQL / Spark] - قواعد العمل: [قيود معروفة مثل نطاقات صالحة، حقول إلزاميّة] - وجود بيانات شخصيّة: [نعم/لا، وأيّ أعمدة حسّاسة] </task> <context> كلّ ما بين الأقواس المربّعة يدخله المستخدم. لا تفترض توزيع عمود أو نطاقه الصالح إن لم يُذكر؛ عامل الافتراض كقاعدة قابلة للمراجعة لا كحقيقة. </context> <structure> أنتج الحلّ بهذه العناوين بالترتيب: ## 1. تشخيص الجودة الأوّلي - كود يحسب: نسب القيم المفقودة، التكرار، تنوّع الأنواع، القيم الشاذّة لكلّ عمود. - تقرير جودة "قبل" بجدول مقاييس. ## 2. قواعد التنظيف الموثّقة - جدول: العمود + المشكلة + قاعدة المعالجة + المبرّر + الأثر المتوقّع. - توحيد الأنواع والتنسيقات (تواريخ، أرقام، نصوص) مع أمثلة. ## 3. معالجة القيم المفقودة والشاذّة - استراتيجيّة لكلّ عمود (حذف/تعويض/علم) مبرّرة، دون تعويض أعمى يشوّه التوزيع. - كشف الشذوذ بطريقة موثّقة (نطاق صالح/قاعدة عمل) لا بتخمين. ## 4. إزالة التكرار والتطبيع - تعريف مفتاح التكرار وقاعدة الاحتفاظ بالسجلّ الأصحّ. - تطبيع القيم النصّيّة (مسافات، حالة أحرف، مرادفات) عند الحاجة. ## 5. التحقّق النهائي وتقرير "بعد" - اختبارات تحقّق (Assertions) تضمن استيفاء قواعد العمل بعد التنظيف. - تقرير جودة "بعد" ومقارنته بـ"قبل". ## 6. حماية البيانات الشخصيّة - إخفاء أو إقنيع (Masking) الأعمدة الحسّاسة في المخرجات والسجلّات. </structure> <style> - عربيّة تقنيّة دقيقة مع المقابل الإنجليزي بين قوسين عند أوّل ورود. - كود نظيف معلّق، وجداول للقواعد والمقاييس. </style> <constraints> - لا تخترع دوالّ أو معاملات غير موجودة في الأداة المحدّدة؛ استخدم واجهات موثّقة، وإن شككت فاكتب "يلزم التحقّق من توثيق الأداة". - لا تعوّض القيم المفقودة بطريقة تشوّه التوزيع دون تبرير؛ وثّق أثر كلّ تعويض. - لا تفترض نطاقاً صالحاً أو توزيعاً لم يُعطَ؛ اجعله قاعدة قابلة للمراجعة. - راعِ خصوصيّة البيانات: أخفِ الأعمدة الشخصيّة في السجلّات والمخرجات، ولا تطبع قيماً حسّاسة، واحترم PDPL. - لا تدّعِ تحسّن جودة برقم دون حسابه فعلياً من تقريري "قبل/بعد". </constraints> <output_format> 1. الأقسام الستّة بعناوين H2. 2. كتل كود قابلة للتشغيل مع تعليقات عربيّة. 3. جدول قواعد التنظيف + جدولا جودة "قبل" و"بعد". 4. سطر ختامي: "تنبيه: مقاييس الجودة تُحسب من البيانات الفعليّة؛ وراجع كلّ قاعدة افتراضيّة مع صاحب البيانات قبل الاعتماد." </output_format>
برومبت التحقّق
أنت مهندس بيانات مستقلّ تدقّق هذا الخطّ قبل تشغيله على بيانات حقيقيّة. قيّم عبر 6 أبعاد، لكلّ بُعد درجة من 10: 1. **صحّة المنطق (من 10)**: هل كود التشخيص والتنظيف سليم وقابل للتشغيل في الأداة المحدّدة؟ 2. **قابليّة التدقيق (من 10)**: هل كلّ قاعدة تنظيف موثّقة بمبرّرها وأثرها في جدول واضح؟ 3. **سلامة معالجة القيم (من 10)**: هل التعامل مع المفقود والشاذّ والتكرار مبرّر ولا يشوّه البيانات دون توثيق؟ 4. **خصوصيّة البيانات (من 10)**: هل أُخفيت الأعمدة الحسّاسة في المخرجات والسجلّات وروعِيَ PDPL؟ 5. **عدم اختراع الواجهات (من 10)**: هل كلّ دالّة ومعامل موجودة فعلاً وموثّقة في الأداة؟ 6. **اكتمال التحقّق (من 10)**: هل توجد اختبارات تحقّق نهائيّة وتقريرا جودة قبل/بعد قابلان للمقارنة؟ **النتيجة: __/60** **إذا < 48**: حدّد البُعد الأضعف وأعد كتابة المقطع المتعلّق به. **إذا >= 48**: قدّم 3 توصيات لرفع الجودة إلى 90%+ (مثل: إضافة فحص اتّساق مرجعي، توثيق سلسلة المنشأ Lineage). **ادّعاءات تحتاج تحقّقاً مستقلّاً**: توفّر كلّ دالّة في توثيق الأداة، صحّة النطاقات الصالحة المفترضة مع صاحب البيانات، ومطابقة معالجة الأعمدة الشخصيّة لمتطلّبات PDPL.
ضمانات الجودة المدمجة
ضدّ التهلوس
ممنوع اختراع دوالّ أو افتراض توزيعات/نطاقات غير معطاة أو أرقام جودة غير محسوبة
فحص الأمان
إقناع الأعمدة الحسّاسة ومنع طباعة البيانات الشخصيّة ومراعاة PDPL
اكتمال الخطّ
تغطية التشخيص والتنظيف والتحقّق والتقرير دون اختزال
تطابق الصيغة
الالتزام ببنية الأقسام الستّة وجداول القواعد والجودة