Daily Beirut

الذكاء الإصطناعي

كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟

في نهاية عام 2021، واجهت شركة "أوبن إيه آي" تحديات في مجال الإمداد، حيث استنفد مختبر الذكاء الاصطناعي كل مخزونه من النصوص الإنجليزية عالية الجودة على الإنترنت أثناء تطوير أحدث نظام للذكاء الاصطناعي الخاص بها.

··قراءة 4 دقائق
كيف يحصد عمالقة التكنولوجيا بيانات الذكاء الاصطناعي؟
مشاركة

كانت الشركة في حاجة ماسة إلى مزيد من البيانات (وبكميات أكبر بكثير) لتدريب النسخة التالية من تقنياتها. لذا، قام باحثو "أوبن إيه آي" بتطوير أداة تسمى "ويسبر" (Whisper)، التي تستخدم لاستنساخ الأصوات من مقاطع الفيديو على يوتيوب، وإنتاج نصوص حوارية جديدة لجعل نظام الذكاء الاصطناعي أكثر ذكاءً.

في النهاية، قام فريق من "أوبن إيه آي" بإنشاء نسخة أكثر من مليون ساعة من مقاطع الفيديو على يوتيوب، وفقًا لبعض الأفراد. تم بعد ذلك تغذية النصوص في نظام يُدعى "جي بي تي - 4"، الذي كان واحدًا من أقوى نماذج الذكاء الاصطناعي في العالم، والذي شكل الأساس لأحدث نسخة من روبوت الدردشة "تشات جي بي تي".

بات السباق نحو القيادة في مجال الذكاء الاصطناعي يُشبه هدفًا يائسًا لجمع البيانات الرقمية اللازمة لتطوير هذه التكنولوجيا. وللحصول على تلك البيانات، قامت شركات التكنولوجيا، بما في ذلك "أوبن إيه آي"، و"غوغل"، و"ميتا" بتقليص الجهد والوقت والنفقات، وتجاهلت سياسات الشركات، وناقشت الالتفاف على القوانين، وفقًا لتحقيق أجرته "نيويورك تايمز".

في "ميتا"، التي تملك منصتي "فيسبوك" و"إنستاغرام"، ناقش مديرون ومحامون ومهندسون في العام الماضي شراء دار النشر "سايمون آند شوستر" لتأمين مصادر محتوى طويلة الأمد، وفقًا لسجلات اجتماعات داخلية حصلت عليها صحيفة "تايمز". كما ناقشوا مسألة جمع البيانات المحمية بحقوق الطبع والنشر عبر الإنترنت، حتى لو كان ذلك يعني مواجهة دعاوى قضائية. أشاروا إلى أن التفاوض على تراخيص مع الناشرين والفنانين وصناع الأخبار قد يحتاج إلى وقت طويل.

بالطبع، شرعت "غوغل" مثل "أوبن إيه آي" في استنساخ مقاطع الفيديو من يوتيوب لجمع النصوص لنماذج الذكاء الاصطناعي الخاصة بها، وفقًا لما ذكره خمسة أفراد مطلعين على ممارسات الشركة. ومن المحتمل أن ينتهك ذلك حقوق الطبع والنشر للفيديوهات التي تعود ملكيتها لمبتكريها.

كما قامت "غوغل" بتوسيع شروط الخدمة في العام الماضي. ووفقًا لأعضاء في فريق الخصوصية بالشركة ورسالة داخلية رأتها "نيويورك تايمز"، كانت أحد الدوافع وراء هذا التغيير هي السماح لـ"غوغل" بالاستفادة من "مستندات غوغل" المتاحة للجمهور، ومن مراجعات المطاعم على خرائط "غوغل"، وغيرها من المواد على الإنترنت لتطوير المزيد من منتجات الذكاء الاصطناعي الخاصة بها

.

توضح إجراءات هذه الشركات كيف أصبحت المعلومات عبر الإنترنت، مثل القصص الإخبارية، والأعمال الخيالية، والرسائل من منصات التراسل، ومقالات ويكيبيديا، وبرامج الحاسوب، والصور، والبودكاست، ومقاطع الأفلام، شريان حياة لصناعة الذكاء الاصطناعي المتزايدة؛ حيث يعتمد إنشاء أنظمة مبتكرة على وجود بيانات كافية لتعليم التقنيات اللازمة لإنتاج النصوص والصور والأصوات ومقاطع الفيديو فورًا، بطريقة تشبه ما يصنعه الإنسان.

إن حجم البيانات أمر بالغ الأهمية. وقد تعلمت روبوتات الدردشة الرائدة من مجموعات البيانات الرقمية التي تصل إلى 3 تريليون كلمة، أو ما يقرب من ضعف عدد الكلمات تقريباً المخزنة في مكتبة "بودليان" بجامعة أكسفورد، التي تجمع المخطوطات منذ عام 1602.

هذه الشركات تتطلع بشدة إلى البيانات الجديدة، حتى إن بعضها يعمل على تطوير معلومات "اصطناعية". وتتمثل هذه البيانات "الاصطناعية" في النصوص والصور والرموز التي تنتجها نماذج الذكاء الاصطناعي بمفردها، دون التدخل البشري.

أدى الاستخدام المتزايد لأعمال الأفراد من قبل شركات الذكاء الاصطناعي إلى إثارة قضايا قانونية حول حقوق النشر والترخيص. وقد رفعت جريدة "نيويورك تايمز" دعاوى قضائية ضد شركة "مايكروسوفت" وشركة "أوبن إيه آي" في العام الماضي لاستخدامهما مقالات إخبارية ذات حقوق نشر مرخصة، دون الحصول على ترخيص لتدريب روبوتات الدردشة العاملة بتقنيات الذكاء الاصطناعي. وأكدت "أوبن إيه آي" و"مايكروسوفت" أن استخدام المقالات كان "استخداماً منصفاً"، أو مسموحًا به قانونيًا، لأنهما غيّرا الأعمال لغرض مختلف.

في يناير (كانون الثاني) 2020، نشر جاريد كابلان، عالم الفيزياء النظرية في جامعة جونز هوبكنز، بحثاً رائداً حول الذكاء الاصطناعي، أشار إلى الحاجة الملحة إلى البيانات على الإنترنت لتطوير هذه التكنولوجيا. ووجد كابلان، بعد دراسته، أن كلما زادت كمية البيانات المتاحة لتدريب النماذج اللغوية الكبيرة (التي تُستخدم في روبوتات الدردشة على الإنترنت)، كلما كان أداؤها أفضل. فمثلما يتعلم الطالب المزيد من خلال قراءة المزيد من الكتب، يمكن للنماذج اللغوية الكبيرة أن تحدد الأنماط في النص بشكل أفضل، وتكون أكثر دقة مع المزيد من المعلومات.

استخدم الباحثون منذ فترة طويلة قواعد بيانات عامة وضخمة من المعلومات الرقمية لتطوير الذكاء الاصطناعي، بما في ذل

ك "ويكيبيديا" و"كومون كرول"، وهي قاعدة بيانات تضم أكثر من 250 مليار صفحة على شبكة الإنترنت تم جمعها منذ عام 2007. وغالباً ما "يُنظف" الباحثون البيانات بإزالة الخطاب الكراهية والنصوص غير المرغوب فيها قبل استخدامها في تدريب نماذج الذكاء الاصطناعي.

في عام 2020، كانت مجموعات البيانات صغيرة للغاية، وفقاً لمعايير اليوم. وقد عُدَّت قاعدة بيانات واحدة تحتوي على 30 ألف صورة من موقع "فليكر" للصور مصدراً حيوياً في ذلك الوقت.

بعد بحث كابلان، لم يعد هذا الكم من البيانات كافياً. فقد قال براندون دوديرشتات، الرئيس التنفيذي لشركة "نوميك" المتخصصة في الذكاء الاصطناعي بنيويورك، إن الأمر أصبح يتعلق "فقط بجعل الأشياء كبيرة حقًا".

في عام 2022، ذهب "ديب مايند"، مختبر الذكاء الاصطناعي المملوك لشركة "غوغل"، إلى أبعد من ذلك؛ إذ اختبر 400 نموذج للذكاء الاصطناعي، وتنوعت كمية بيانات التدريب وعوامل أخرى. وقد استخدمت النماذج ذات الأداء الأعلى بيانات أكثر مما توقعه كابلان في بحثه. أحد النماذج (يُدعى "شينشيلا") تم تدريبه على 1.4 تريليون رمز مميز.

وتم تجاوز هذا بسرعة. ففي العام الماضي، أصدر باحثون من الصين نموذجًا للذكاء الاصطناعي يُدعى "سكاي وورك"، تم تدريبه على 3.2 تريليون رمز من النصوص الإنجليزية والصينية. كشفت "غوغل" أيضاً عن نظام "بال إم 2" للذكاء الاصطناعي، الذي تجاوز حد 3.6 تريليون رمز مميز.

مشاركة

مقالات ذات صلة