- بواسطة x32x01 ||
إيه هو الـWeb Scraping؟
ببساطة، Web Scraping هو فن استخراج البيانات من المواقع الإلكترونية بشكل أوتوماتيك ومنظم بدل ما تقعد تنسخها يدويًا.الفكرة إن الكود بتاعك يروح يجيب المعلومات اللي محتاجها في ثواني.
غالبًا بيستخدم لما يكون الموقع مش موفر API أو البيانات اللي محتاجها مش متاحة بالطريقة اللي تناسبك.
المجال يبدو بسيط لكن فعليًا، تعقيد المجال بيعتمد على ٣ حاجات:
الفرق بين Web Scraping وWeb Crawling
- Web Scraping: استخراج بيانات معينة من صفحة محددة وحفظها بطريقة معينة.
- Web Crawling: التنقل في كل صفحات الموقع أو الSitemap، وجمع الصفحات عشان تعمل منها Scraping لاحقًا.
دور الـWeb Scraping قبل الثورة الحالية للذكاء الصناعي
الـWeb Scraping كان ليه استخدامات كبيرة قبل انتشار الذكاء الصناعي:دور الـWeb Scraping في الثورة الحالية للذكاء الصناعي
الذكاء الصناعي بدون داتا مش هيشتغل، والداتا الكبيرة والمتنوعة موجودة على الإنترنت.لو عايز تتدرب موديل للتعرف على الصور أو الخرائط، كمان لازم تعمل scraping لجمع الصور من الإنترنت.
أمثلة على القضايا القانونية:
- Meta استخدمت ملايين الكتب لتدريب LLaMA بدون إذن.
- NY Times رفعت قضية على OpenAI لأخذ محتواها بدون حقوق.
- Getty Images رفعت قضية على Stability AI لأخذ 12 مليون صورة بدون تصريح.
Web Scraping هو شريان البيانات لكل أدوات الذكاء الصناعي الحديثة.
هل الـWeb Scraping قانوني؟
القانونية على حسب:- البيانات متاحة للعامة.
- مش محتاجة login.
- متخالفش شروط الاستخدام للموقع.
- عملت Scrape للبيانات المحمية login أو بيانات شخصية.
- استخدمت البيانات لمنافسة مباشرة.
أمثلة قضائية:
- LinkedIn ضد hiQ Labs: المحكمه قالت إن البيانات العامة مش محمية بالقانون.
- Meta ضد Bright Data: البيانات العامة على Facebook وInstagram قانونية لكن البيانات خلف login لا.
- Ryanair ضد Booking: أخذ بيانات السفريات مخالف للشروط، والمحكمة حكمت ضد Booking.
الأخلاقيات في المجال
- احترام قوانين الموقع وملف robots.txt.
- متعملش ضغط على السيرفر بكثرة Requests.
- متستخدمش بيانات شخصية بانتهاك الخصوصية (GDPR).
المشاكل البرمجية اللي بيواجهها المبرمجين
لو هتعمل Broad Scraping لمواقع كتير، هتواجه مشاكل أكبر وده محتاج مقال لوحده.
الخلاصة
الـWeb Scraping أداة قوية لاستخراج البيانات، وكان ليه دور قبل وبعد الثورة الحالية للذكاء الصناعي.القانونية والأخلاقيات مهمة جدًا، والمبرمج لازم يعرف يتعامل مع المشاكل التقنية المختلفة.