تحليل بيانات لـ 71.8 مليون صفحة عربية من الإنترنت المفتوح
في عالم مليء بتصارع نماذج الذكاء الاصطناعي، تقع اللغة العربية في مركز اهتمام أكبر مطوري النماذج اللغوية الضخمة. ونظراً لأن الكل الآن بات يعرف مدى أهمية وجود بيانات سليمة ومنقحة للغاية لتطوير مثل هذه النماذج، يتم طرح سؤال مهم: من هم أكبر جنود الظل الذين طوروا المحتوى العربي خلال سنوات مضت وكان محتواهم الأكبر تأثيراً في تشكيل النماذج اللغوية العربية؟
للإجابة على هذا السؤال، يجب أن ننظر إلى الأساس الذي بُنيت عليه هذه النماذج. قبل أن يجيبك ChatGPT بالعربية، كان هناك مشروع يزحف على الإنترنت منذ 2007، يجمع كل ما يُنشر. اسمه Common Crawl.
هذا المشروع المجاني مفتوح المصدر أصبح الوقود الخفي الذي تعمل عليه أغلب نماذج الذكاء الاصطناعي اليوم. وفقاً لدراسة مؤسسة Mozilla عام 2024، فإن 64% من 47 نموذج ذكاء اصطناعي رائد اعتمدت على بيانات Common Crawl في تدريبها بشكل أساسي.
الآن وقد عرفنا كيف تتغذى النماذج — السؤال التالي: ماذا يوجد في الجانب العربي من هذه البيانات؟
قمنا بتحليل كل المحتوى العربي في Common Crawl — 71.8 مليون صفحة ويب من 342,677 موقعاً عربياً، تمتد على 11 عاماً من 2013 إلى 2024. استخدمنا أحدث تقنيات الذكاء الاصطناعي في تحليل النصوص وفهم اللغات لاستخراج 45,182 موضوعاً فريداً من هذا الكمّ الهائل.
من بين أكثر من 342 ألف نطاق عربي، بدأت الصورة تتضح: هناك مصدر واحد يتفوق على الجميع بفارق كبير — ليس فقط في الحجم، بل في اتساع التغطية وعمق المحتوى.
من بين 342,677 موقع عربي... الجزيرة وحدها تُنتج 3,320 ضعف ما يُنتجه الموقع المتوسط.
هذه ليست مجرد إحصاءات — هي البصمة الرقمية التي تركتها الجزيرة في الذاكرة الجماعية للذكاء الاصطناعي العربي.
هذه الأرقام لم تُبنَ في يوم وليلة. لنعد بالزمن لنرى كيف تراكمت هذه الثروة المعرفية عاماً بعد عام.
لكن الحجم وحده لا يكفي — الأهم هو: ما الذي تتحدث عنه هذه الوثائق؟ الجزيرة لا تغطي فقط السياسة، بل تمتد من الرياضة إلى العلوم إلى الاقتصاد. وحدها تغطي أكثر من نصف المواضيع المكتشفة في الإنترنت العربي.
وأكثر من مجرد التغطية — في 116 مجموعة موضوعية من أصل 2,289 الجزيرة هي المصدر رقم واحد. هذا يعني أن أي نموذج ذكاء اصطناعي عربي تعلّم هذه المواضيع بشكل أساسي من عدسة الجزيرة الصحفية.
عندما يتحدث ChatGPT بالعربية عن الاتفاق النووي الإيراني، أو الأزمة الخليجية، أو الانتخابات الأمريكية...
فإن مصدره الأساسي هو — الجزيرة.
وراء كل مقال أسماء: دول، مؤسسات، شخصيات، أحداث. هذه الكيانات تشكّل شبكة معرفة ضخمة يتعلم منها الذكاء الاصطناعي كيف يربط بين الأسماء والسياقات والعلاقات.
وعندما نتجاوز الأرقام الأساسية وننظر بعمق في البيانات، تظهر أنماط مدهشة لم يكتشفها أحد.
الجزيرة نت ليست فقط أكبر موقع عربي في بيانات الإنترنت المفتوح — بل هي الأساس غير المرئي الذي بُني عليه فهم الآلة للغة العربية.
الجزيرة لم تكن فقط تخبر العالم العربي بالأخبار... بل كانت تُعلّم الآلة كيف تفهم العربية.
كل نموذج ذكاء اصطناعي تدرّب على بيانات الويب قد تشكّل — بشكل مباشر — بصحافة الجزيرة ومعاييرها التحريرية وقراراتها في التغطية.
هذا يعني أن اختياراتكم التحريرية لم تُشكّل الرأي العام فحسب — بل شكّلت أيضاً الطريقة التي ستفهم بها الآلات اللغة العربية لعقود قادمة. في عصر ترخيص البيانات للذكاء الاصطناعي، تمتلك الجزيرة أحد أثمن الأصول الرقمية العربية.
هذا التقرير من إنتاج SignalMatrix — تحليل بيانات عربي متقدم
هذا التقرير مبني على تحليل أرشيف الإنترنت المفتوح Common Crawl — المصدر الرئيسي لبيانات تدريب نماذج الذكاء الاصطناعي الكبرى عالمياً.