Back to Question Center
0

ويب سكرابينغ مع خبير سيمالت

1 answers:

ويب كشط، المعروف أيضا باسم الحصاد على شبكة الإنترنت، استخراج البيانات من المواقع. يمكن للبرامج حصاد الويب الوصول إلى شبكة الإنترنت مباشرة باستخدام هتب أو متصفح ويب. في حين قد يتم تنفيذ العملية يدويا من قبل مستخدم البرنامج، وتقنية عموما ينطوي على عملية تلقائية تنفيذها باستخدام زاحف الويب أو بوت.

ويب سكرابينغ هي عملية عندما يتم نسخ البيانات المنظمة من الويب إلى قاعدة بيانات محلية للاستعراضات والاسترجاع. أنها تنطوي على جلب صفحة ويب واستخراج محتواه. قد يتم تحليل محتوى الصفحة والبحث فيها وإعادة هيكلتها ونسخ بياناتها إلى جهاز تخزين محلي.

يتم إنشاء صفحات الويب بشكل عام من لغات الترميز القائمة على النص مثل شتمل و هتمل، وكلاهما يحتوي على جزء كبير من البيانات المفيدة في شكل نص. ومع ذلك، تم تصميم العديد من هذه المواقع للمستخدمين النهائيين البشري وليس للاستخدام الآلي. هذا هو السبب في إنشاء برامج كشط.

هناك العديد من التقنيات التي يمكن استخدامها لكشط الويب فعالة.

1. النسخ واللصق البشري

من وقت لآخر، حتى أفضل أداة كشط الويب ق لا يمكن أن تحل محل دقة وكفاءة دليل الإنسان نسخ ولصق..وهذا ينطبق في الغالب في الحالات التي وضعت فيها المواقع حواجز لمنع أتمتة الماكينة.

2. نمط النص مطابقة

هذا هو نهج بسيط إلى حد ما ولكن قوية تستخدم لاستخراج البيانات من صفحات الويب. ويمكن أن يستند إلى الأمر أونيكس غريب أو مجرد منشأة التعبير العادي للغة برمجة معينة، على سبيل المثال، بيثون أو بيرل.

3. برمجة هتب

يمكن استخدام برمجة هتب لكل من صفحات الويب الثابتة والديناميكية. يتم استخراج البيانات من خلال نشر طلبات هتب إلى ملقم ويب البعيد في حين الاستفادة من البرمجة مأخذ التوصيل.

4. هتمل تحليل

العديد من المواقع تميل إلى أن يكون مجموعة واسعة من الصفحات التي تم إنشاؤها ديناميكيا من مصدر البنية الأساسية مثل قاعدة بيانات. هنا، يتم ترميز البيانات التي تنتمي إلى فئة مماثلة إلى صفحات مماثلة. في تحليل هتمل، يقوم البرنامج عادة باكتشاف مثل هذا القالب في مصدر معين من المعلومات، ويسترجع محتوياته ثم يترجمه إلى نموذج تابع، ويشار إليه باسم المجمع.

5. تحليل دوم

في هذه التقنية، يتم تضمين برنامج في مستعرض ويب كامل مثل موزيلا فايرفوكس أو إنترنيت إكسبلورر لاسترداد المحتوى الديناميكي الذي تم إنشاؤه بواسطة البرنامج النصي من جانب العميل. قد تقوم هذه المتصفحات أيضا بتحليل صفحات الويب إلى شجرة دوم اعتمادا على البرامج التي يمكنها استخراج أجزاء من الصفحات.

6. التعرف على الشرح الدلالي

قد تتضمن الصفحات التي تنوي كشطها ترميزات دلالية وتعليقات توضيحية أو بيانات وصفية، والتي يمكن استخدامها لتحديد مقتطفات بيانات محددة. إذا تم تضمين هذه التعليقات التوضيحية في الصفحات، قد يتم عرض هذه التقنية كحالة خاصة لتحليل دوم. ويمكن أيضا تنظيم هذه التعليقات التوضيحية في طبقة نحوية، ثم تخزينها وإدارتها بشكل منفصل عن صفحات الويب. وهو يسمح لكاشطات استرداد مخطط البيانات وكذلك الأوامر من هذه الطبقة قبل أن يلغي الصفحات.

December 6, 2017
ويب سكرابينغ مع خبير سيمالت
Reply