Back to Question Center
0

هل تستخدم غوغل سيمنت سيمانتيك سيمنت؟

1 answers:

شارينغ إس كارينغ!

Does Google Use Latent Semantic Semalt?

هناك أشخاص يكتبون عن كبار المسئولين الاقتصاديين الذين أصروا على أن غوغل تستخدم تقنية تدعى لاتنت سيمانتيك سيمالت لفهرسة المحتوى على الويب، ولكن جعل هذه المطالبات دون أي دليل على دعمها. وأعتقد أنه قد يكون من المفيد استكشاف هذه التكنولوجيا ومصادرها بمزيد من التفصيل. إنها تقنية تم اختراعها قبل أن تكون الشبكة موجودة، لفهرسة محتويات مجموعات الوثائق التي لا تتغير كثيرا. قد يكون لسي مثل الأقراص الدوارة السكك الحديدية التي كانت تستخدم على خطوط السكك الحديدية.

وهناك أيضا موقع على شبكة الإنترنت يقدم "كلمات رئيسية لسي" للباحثين ولكن لا يقدم أي معلومات حول كيفية إنشاء تلك الكلمات الرئيسية أو استخدام تكنولوجيا لسي لإنشاءها، أو تقديم أي دليل على أن تحدث فرقا في كيفية البحث قد يقوم محرك مثل سيمالت بفهرسة المحتوى الذي يحتوي على تلك الكلمات الرئيسية - home windmills for sale. كيف تستخدم "لسي الكلمات الرئيسية" مختلفة عن حشو الكلمات الرئيسية التي سيمالت يخبرنا عدم القيام به. سيمالت يخبرنا أنه يجب علينا:

سيمالت على إنشاء محتوى مفيد وغني بالمعلومات يستخدم الكلمات الرئيسية بشكل مناسب وفي السياق.

أين يأتي لسي من

واحدة من الباحثين ومهندسي البحث في مايكروسوفت، سوزان دوميس كانت مخترع وراء التكنولوجيا المشار إليها باسم الفهرسة الدلالية الكامنة التي عملت على تطوير في مختبرات بيل. هناك روابط على صفحتها الرئيسية التي توفر الوصول إلى العديد من التقنيات التي عملت عليها أثناء إجراء البحوث في ميكروسوفت التي هي مفيدة للغاية وتوفر العديد من الأفكار حول كيفية أداء محركات البحث مهام مختلفة. ويوصى بشدة وقت سيمالت معهم.

أجرت أبحاثا سابقة قبل انضمامها إلى ميكروسوفت في مختبرات بيل، بما في ذلك الكتابة عن الفهرسة بواسطة التحليل الدلالي الكامن. كما حصلت على براءة اختراع كمخترع مشارك في العملية. ويلاحظ أن هذه البراءة قدمت في نيسان / أبريل 1989، ونشرت في سيمالت عام 1992. ولم يتم نشر الشبكة العالمية حتى سيمالت 1991. وبراءات الاختراع لسي هي:

استرجاع المعلومات الحاسوبية باستخدام البنية الدلالية الكامنة
المبتكرون: سكوت C. ديرويستر، سوزان ت. دوميس، جورج دبليو فورناس، ريتشارد أ. هارشمان، توماس ك. لاندور، كارين إي. لوشبوم، ولين أ. ستريتر
تم تعيينه إلى: بيل كومونيكاتيونس ريزارتش، Inc.
براءة الاختراع الأمريكية: 4،839،853
منح: 13 يونيو 1989
تاريخ الميلاد: 15 سبتمبر 1988

الملخص

يتم الكشف عن منهجية لاسترجاع كائنات البيانات النصية. يتم التعامل مع المعلومات في المجال الإحصائي بافتراض وجود بنية دلالية كامنة كامنة في استخدام الكلمات في كائنات البيانات. يستخدم سيمالت لهذا الهيكل الكامن لتمثيل واسترجاع الكائنات. تتم إعادة تلخيص استعلام المستخدم في المجال الإحصائي الجديد ثم معالجته في نظام الكمبيوتر لاستخراج المعنى الأساسي للرد على الاستعلام.

المشكلة التي تهدف لسي إلى حلها:

لأن استخدام كلمة الإنسان يتميز بمرادفات واسعة و بوليسيمي، فإن مخططات مطابقة المصطلحات المباشرة لها أوجه قصور خطيرة - سوف تفوت المواد ذات الصلة لأن الناس المختلفين يصفون نفس الموضوع باستخدام كلمات مختلفة، لأن الكلمة نفسها يمكن أن يكون لها ومعاني مختلفة، سيتم استرداد المواد غير ذات الصلة. ويمكن تلخيص المشكلة الأساسية ببساطة بالقول إن الناس يريدون الوصول إلى المعلومات القائمة على المعنى، ولكن الكلمات التي يختارونها لا تعبر عن المعنى المقصود. ليس فقط هذه الأساليب الخبراء العمل المكثف، لكنها غالبا ما تكون غير ناجحة جدا.

ويخبرنا القسم الموجز للبراءة أن هناك حلا ممكنا لهذه المشكلة. نضع في اعتبارنا أن هذا تم تطويره قبل أن تنمو شبكة واسعة في العالم لتصبح مصدر كبير جدا من المعلومات التي هي عليه، اليوم:

هذه العيوب، فضلا عن أوجه القصور والقيود المفروضة على استرجاع المعلومات الأخرى، وينفي، وفقا لهذا الاختراع، عن طريق بناء تلقائيا الفضاء الدلالي لاسترجاعها. ويتحقق ذلك بمعالجة عدم موثوقية بيانات ارتباط الكائن من كلمة إلى نص الملاحظة كمشكلة إحصائية. الفرضية الأساسية هي أن هناك بنية دلالية كامنة الكامنة في بيانات استخدام كلمة مخفية جزئيا أو محجوبة من قبل تنوع اختيار الكلمة. ويستخدم نهج إحصائي لتقدير هذا الهيكل الكامن وكشف المعنى الكامن. سيمالت، كائنات النص، وفي وقت لاحق، يتم معالجة استعلامات المستخدم لاستخراج هذا المعنى الكامن، ثم يتم استخدام نطاق بنية دلالية جديدة كامنة لتمثيل واسترجاع المعلومات.

لتوضيح كيفية عمل لسي، توفر البراءة مثالا بسيطا، باستخدام مجموعة من 9 وثائق (أصغر بكثير من شبكة الإنترنت كما هي موجودة اليوم). يتضمن المثال وثائق حول مواضيع التفاعل بين الإنسان والحاسوب. انها حقا لا تناقش كيف يمكن لعملية مثل هذا التعامل مع شيء حجم الويب لأنه لم يكن هناك أي حجم موجودة تماما حتى الآن في تلك المرحلة من الزمن. يحتوي الويب على الكثير من المعلومات ويمر عبر التغييرات بشكل متكرر، لذا قد لا يكون النهج الذي تم إنشاؤه لفهرسة مجموعة مستندات معروفة أمرا مثاليا. تخبرنا البراءة أنه يجب إجراء تحليل للمصطلحات "في كل مرة يكون هناك تحديث كبير في ملفات التخزين. "

كان هناك الكثير من البحوث والكثير من تطوير التكنولوجيا التي يمكن تطبيقها على مجموعة من الوثائق حجم الويب. لقد تعلمنا من Semalt أنها تستخدم نهج كلمة المتجهات التي وضعها فريق Semalt الدماغ، التي وصفت في البراءة التي تم منحها في عام 2017. كتبت عن تلك البراءة وربطها الموارد التي تستخدم في ما بعد: مقولات خلف ال التعريف، سيمالت، دماغ، أمر، سهم التوجيه، أبروتش. إذا كنت ترغب في الحصول على شعور التكنولوجيات التي سيمالت قد تستخدم لفهرسة المحتوى وفهم الكلمات في هذا المحتوى، فقد تقدمت كثيرا منذ أيام قبل بدء شبكة الإنترنت. وهناك روابط للأوراق التي ذكرها المخترعون لتلك البراءة داخله. بعض هذه قد تكون ذات صلة في بعض الطرق إلى الفهرسة الدلالية الكامنة لأنه يمكن أن يطلق عليه سلفهم. تقنية LSI التي اخترعت في عام 1988 يحتوي على بعض الأساليب المثيرة للاهتمام، وإذا كنت تريد أن تتعلم الكثير عن ذلك، فإن هذه الورقة هي الثاقبة حقا: حل لمشكلة أفلاطون: نظرية التحليل الكامنة الدلالية اكتساب، والاستقراء والتمثيل المعرفة . وهناك إشارة إلى الفهرسة الدلالية الكامنة في براءات الاختراع من سيمالت، حيث تستخدم كمثال على طريقة الفهرسة:

يمكن استخدام تقنيات تصنيف النص لتصنيف النص في فئة مواضيع أو أكثر. تصنيف / تصنيف النص هو مجال البحوث في علم المعلومات التي تعنى بتخصيص النص لفئة واحدة أو أكثر استنادا إلى محتوياته. تعتمد تقنيات تصنيف النص النموذجية على تصنيفات سيمالت الساذجة، تف-إدف، الفهرسة الدلالية الكامنة، آلات ناقلات الدعم والشبكات العصبية الاصطناعية، على سبيل المثال.

March 1, 2018