Powered by SignalMatrix

كيف شكّل محتوى الجزيرة
الذكاء الاصطناعي العربي

تحليل بيانات لـ 71.8 مليون صفحة عربية من الإنترنت المفتوح

0 وثيقة
0 مليون كلمة
0 موضوع
0 سنة من المحتوى
اكتشف القصة
01 / 10

من هم جنود الظل؟

في عالم مليء بتصارع نماذج الذكاء الاصطناعي، تقع اللغة العربية في مركز اهتمام أكبر مطوري النماذج اللغوية الضخمة. ونظراً لأن الكل الآن بات يعرف مدى أهمية وجود بيانات سليمة ومنقحة للغاية لتطوير مثل هذه النماذج، يتم طرح سؤال مهم: من هم أكبر جنود الظل الذين طوروا المحتوى العربي خلال سنوات مضت وكان محتواهم الأكبر تأثيراً في تشكيل النماذج اللغوية العربية؟

للإجابة على هذا السؤال، يجب أن ننظر إلى الأساس الذي بُنيت عليه هذه النماذج. قبل أن يجيبك ChatGPT بالعربية، كان هناك مشروع يزحف على الإنترنت منذ 2007، يجمع كل ما يُنشر. اسمه Common Crawl.

هذا المشروع المجاني مفتوح المصدر أصبح الوقود الخفي الذي تعمل عليه أغلب نماذج الذكاء الاصطناعي اليوم. وفقاً لدراسة مؤسسة Mozilla عام 2024، فإن 64% من 47 نموذج ذكاء اصطناعي رائد اعتمدت على بيانات Common Crawl في تدريبها بشكل أساسي.

02 / 10

71.8 مليون صفحة عربية تحت المجهر

الآن وقد عرفنا كيف تتغذى النماذج — السؤال التالي: ماذا يوجد في الجانب العربي من هذه البيانات؟

قمنا بتحليل كل المحتوى العربي في Common Crawl — 71.8 مليون صفحة ويب من 342,677 موقعاً عربياً، تمتد على 11 عاماً من 2013 إلى 2024. استخدمنا أحدث تقنيات الذكاء الاصطناعي في تحليل النصوص وفهم اللغات لاستخراج 45,182 موضوعاً فريداً من هذا الكمّ الهائل.

03 / 10

وبعد التحليل... كان هناك اسم واحد يتصدر الجميع

من بين أكثر من 342 ألف نطاق عربي، بدأت الصورة تتضح: هناك مصدر واحد يتفوق على الجميع بفارق كبير — ليس فقط في الحجم، بل في اتساع التغطية وعمق المحتوى.

من بين 342,677 موقع عربي... الجزيرة وحدها تُنتج 3,320 ضعف ما يُنتجه الموقع المتوسط.

04 / 10

أرقام تُشكّل ذاكرة الذكاء الاصطناعي

هذه ليست مجرد إحصاءات — هي البصمة الرقمية التي تركتها الجزيرة في الذاكرة الجماعية للذكاء الاصطناعي العربي.

لكي نستوعب هذا الحجم، دعونا نترجم الأرقام إلى ما يمكن تخيّله
05 / 10

من 2013 إلى 2024 — عقد من المحتوى

هذه الأرقام لم تُبنَ في يوم وليلة. لنعد بالزمن لنرى كيف تراكمت هذه الثروة المعرفية عاماً بعد عام.

06 / 10

50.9% من كل المعرفة العربية

لكن الحجم وحده لا يكفي — الأهم هو: ما الذي تتحدث عنه هذه الوثائق؟ الجزيرة لا تغطي فقط السياسة، بل تمتد من الرياضة إلى العلوم إلى الاقتصاد. وحدها تغطي أكثر من نصف المواضيع المكتشفة في الإنترنت العربي.

07 / 10

116 مجال معرفي تتصدرها الجزيرة كمصدر أول

وأكثر من مجرد التغطية — في 116 مجموعة موضوعية من أصل 2,289 الجزيرة هي المصدر رقم واحد. هذا يعني أن أي نموذج ذكاء اصطناعي عربي تعلّم هذه المواضيع بشكل أساسي من عدسة الجزيرة الصحفية.

عندما يتحدث ChatGPT بالعربية عن الاتفاق النووي الإيراني، أو الأزمة الخليجية، أو الانتخابات الأمريكية...
فإن مصدره الأساسي هو — الجزيرة.

08 / 10

83,593 كيان مسمى — خريطة المعرفة العربية

وراء كل مقال أسماء: دول، مؤسسات، شخصيات، أحداث. هذه الكيانات تشكّل شبكة معرفة ضخمة يتعلم منها الذكاء الاصطناعي كيف يربط بين الأسماء والسياقات والعلاقات.

09 / 10

اكتشافات لم يرها أحد من قبل

وعندما نتجاوز الأرقام الأساسية وننظر بعمق في البيانات، تظهر أنماط مدهشة لم يكتشفها أحد.

10 / 10

الجزيرة — المهندس غير المرئي للذكاء الاصطناعي العربي

الجزيرة نت ليست فقط أكبر موقع عربي في بيانات الإنترنت المفتوح — بل هي الأساس غير المرئي الذي بُني عليه فهم الآلة للغة العربية.

الجزيرة لم تكن فقط تخبر العالم العربي بالأخبار... بل كانت تُعلّم الآلة كيف تفهم العربية.

كل نموذج ذكاء اصطناعي تدرّب على بيانات الويب قد تشكّل — بشكل مباشر — بصحافة الجزيرة ومعاييرها التحريرية وقراراتها في التغطية.

هذا يعني أن اختياراتكم التحريرية لم تُشكّل الرأي العام فحسب — بل شكّلت أيضاً الطريقة التي ستفهم بها الآلات اللغة العربية لعقود قادمة. في عصر ترخيص البيانات للذكاء الاصطناعي، تمتلك الجزيرة أحد أثمن الأصول الرقمية العربية.

هذا التقرير من إنتاج SignalMatrix — تحليل بيانات عربي متقدم

المنهجية والمصادر

هذا التقرير مبني على تحليل أرشيف الإنترنت المفتوح Common Crawl — المصدر الرئيسي لبيانات تدريب نماذج الذكاء الاصطناعي الكبرى عالمياً.

بيانات التقرير

  • المصدر: Common Crawl — أرشيف الإنترنت المفتوح (منظمة غير ربحية منذ 2007)
  • الحجم الكلي المحلل: 71.8 مليون وثيقة عربية، 342,677 نطاق، 45,182 موضوع
  • الفترة الزمنية: مايو 2013 – أبريل 2024
  • التحليل: تقنيات الذكاء الاصطناعي لفهم النصوص العربية — SignalMatrix

مراجع Common Crawl ونماذج الذكاء الاصطناعي

  1. Baack, S. (2024). Training Data for the Price of a Sandwich. Mozilla Foundation. — mozillafoundation.org (64% من نماذج اللغة الكبرى بين 2019–2023 استخدمت Common Crawl)
  2. Common Crawl. (2025). Submission to the UK's Copyright and AI Consultation.commoncrawl.org (Common Crawl مصدر 70–90% من بيانات تدريب معظم النماذج الكبرى)
  3. Hugging Face. (2024). FineWeb — a 15T token dataset for training LLMs.huggingface.co (15 تريليون رمز من 96 دفعة Common Crawl — المجموعة المستخدمة في تحليلنا)
  4. Perełkiewicz & Poświata. (2024). A Review of the Challenges with Massive Web-mined Corpora. arXiv. — arxiv.org/2407.07630
  5. Stanford CRFM. GPT-3 dataset — Ecosystem Graphs.crfm.stanford.edu (GPT-3: 60% Common Crawl من أصل 500 مليار رمز)
  6. Meta AI. (2024). Introducing Meta Llama 3.ai.meta.com (LLaMA 1: 82% من بياناته مشتقة من Common Crawl)