منذ مدّة، شَرَع الذكاء الاصطناعيّ في إعادة تشكيل العالم بطرق جليّة. إذ تقود البيانات مجمل نظامنا الرقميّ العالميّ، وتكتشف تقنيات الذكاء الاصطناعيّ الأنماط عندما تكون موجودة في البيانات. في المقابل، تؤثِّر الهواتف والمنازل والمدن الذكيّة في طريقة عيشنا وتفاعلنا بعضنا بعضاً، كما تشارك أنظمة الذكاء الاصطناعيّ بشكل متزايد في قرارات التوظيف وتشخيص الحالات الطبيَّة والأحكام القضائيّة وغيرها. ووفق وجهة نظرك، يكون ذلك السيناريو مثالياً أو مريراً.
مراراً وتكراراً، تُحصى المخاطر المحتملة للذكاء الاصطناعيّ. من ضمن المخاوف الشائعة، تبرز الروبوتات القاتلة والبطالة الجماعيّة، فيما يخشى بعض الناس الانقراض البشريّ. في المقابل، تزعم تنبؤات أخرى متفائلة أنّ الذكاء الاصطناعيّ سيضخّ 15 تريليون دولار (11.7 تريليون جنيه إسترليني) في الاقتصاد العالميّ بحلول عام 2030، ويقودنا في نهاية المطاف إلى نوع من السكينة الاجتماعيّة.
قطعاً، تشكِّل دراسة التأثير الذي تحدثه تلك التقنيات في مجتمعاتنا ضرورة ملحّة. مثلاً، أحد المخاوف الخطيرة أنّ أنظمة الذكاء الاصطناعيّ تعزِّز التحيّز الاجتماعيّ القائم أصلاً ليصير مدمِّراً. في الواقع، حظيت أمثلة شهيرة عدة عن هذه الظاهرة باهتمام واسع النطاق، من بينها أنظمة في الترجمة الآلية المؤتمتة تقدِّم معلومات متحيِّزة جنسياً، ونُظُم في التعرّف إلى الصور التي تصنِّف أصحاب البشرة السوداء على أنّهم غوريلات.
اقرأ المزيد
يحتوي هذا القسم على المقلات ذات صلة, الموضوعة في (Related Nodes field)
في الحقيقة، تبرز هذه المشاكل لأنّ مثل تلك الأنظمة تستخدم أنماطاً رياضيّة يجري تصميمها كي تكون شبيه بعمل شبكات الجهاز العصبي عند الإنسان، وتعمل على وضع نماذج رقمية (عن أشياء العالم، وتوصف بأنها نماذج رياضية) تسند إلى مجموعات ضخمة من البيانات التي تستعمل في تدريب الآلات على إداء تلك العمليات المعقدة. بقول آخر، تُستَخدّم مجموعات البيانات (أرقام، صور، رسومات...) في عملية بناء النماذج الرياضية، وتسمّى أيضاً نماذج خوارزميّة بالإشارة إلى أن الخوارزمية تمثّل مجموعة مترابطة من المُعادلات الرياضية التي تُنظّم كي تخدم هدفاً محدداً.
واستناداً إلى ذلك، إذا كانت تلك البيانات شديدة الانتقائية في نواحٍ مختلفة، فلا شكّ في أنّ الأنظمة المستخدمة في تدريب الآلات (على صنع النماذج الرقمية أو الخوارزمية) ستتعلّم أيضاً التحيِّزات الكامنة في تلك البيانات الانتقائية. وتمثّل التكنولوجيات الذاتية التشغيل (بسبب مسألة التحيّز) مشكلة لأنّها يمكن أن تهمّش فئات عدة، من بينها النساء أو الأقليّات العرقيّة أو كبار السن، ما يضاعف الاختلالات الاجتماعيّة الموجودة حاضراً.
ومثلاً، في حال دُرِّبَتْ أنظمة الذكاء الاصطناعيّ استناداً إلى بيانات متعلقّة بعمليات اعتقال تنفّذها الشرطة، فإنّ أوجه التحيِّز (سواء أكان مقصوداً أم لا) تتجلّى في أن أنماط الاعتقالات الموجودة فعليّاً اليوم (وفيها انحيازات شتى) ستتكرّر بواسطة نظم الذكاء الاصطناعي الذي جرى تدريبه على تلك البيانات "المتحيّزة"، بما في ذلك قدرة الآلات على التعامل مع ما يُطلَبْ منها من صنع توقّعات تتصل بحالات أمنية. تداركاً للآثار الخطيرة المترتّبة عن ذلك، أفادت منظمات موثوقة عدة أخيراً بأنّه يتوجب تدريب جميع أنظمة الذكاء الاصطناعيّ على بيانات تتسم بالحياديّة والموضوعيّة. وضمن المبادئ التوجيهيّة الأخلاقيّة التي نشرتها "المفوضية الأوروبيّة" في وقت سابق من العام الحاليّ 2019، وردت التوصية تفيد بضرورة تذكّر أنه عندما تُجمع البيانات، يكون وارداً أن تحتوي على تحيِّزات غير بنّاءة اجتماعياً، وأخطاء ومغالطات. لذا ينبغي معالجة هذه الأمور قبل استعمال المعلومات في عملية تدريب الآلات على مجموعات معينة من البيانات.
التعامل مع البيانات المتحيِّزة
يبدو كل ما سبق منطقيّاً بما يكفي. لكن لسوء الحظ، في بعض الأحيان يكون من المستحيل ببساطة أن نضمن عدم تحيّز بعض مجموعات البيانات قبل عمليّة التدريب. ثمة مثل ملموس كفيل بإيضاح المسألة.
تُدرّب أنظمة الترجمة الآليّة الحديثة كافة، من بينها خدمة "ترجمة غوغل" على أزواج الجمل، بمعنى ترجمة نص من لغة إلى اخرى. مثلاً، يستخدم نظام الترجمة "إنكليزيّ- فرنسيّ" بيانات تربط جملة بالإنكليزيّة، مثل "إنها طويلة" she is tall مع الجملة الفرنسيّة المماثلة لها elle est grande. ربما يتوفّر 500 مليون زوج من تلك الأزواج في مجموعة معيّنة من بيانات التدريب، ما يساوي 1 مليار جملة منفصلة. ينبغي إزالة كل التحيّزات المرتبطة بنوع الجنس من مجموعة بيانات من هذا النوع إذا ما أردنا منع النظام الناشئ عن ذلك من إصدار نواتج لا تراعي الاعتبارات الجندرية على غرار ترجمة عبارة "بدأت النساء الاجتماع. لقد عملن بكفاءة"
The women started the meeting. They worked efficiently
بالعبارة الفرنسية Les femmes ont commencé la réunion. Ils ont travaillé efficacement!!! لقد حصلنا على تلك الترجمة الفرنسية باستخدام "ترجمة غوغل" في 11 أكتوبر (تشرين الأول) الماضي، وهي ترجمة غير صحيحة، لأنIls هو ضمير الجمع المذكر باللغة الفرنسيّة، ولكنه يظهر في المثال الوارد على الرغم من أنّ سياق الجملة يشير بوضوح إلى النساء. إنّه مثال تقليديّ عن المذكر الافتراضي الذي يفضّله النظام الآليّ بسبب التحيّزات في بيانات تدريب آلات الذكاء الاصطناعي.
بشكل عام، 70 في المئة من الضمائر المحدِّدة للجنس في مجموعات بيانات الترجمة تكون ضمائر تذكير، في مقابل 30 في المئة ضمائر تأنيث. والسبب أنّ النصوص المستخدمة لهذه الأغراض تشير غالباً إلى الرجال أكثر منها إلى النساء. وتالياً، بغية منع أنظمة الترجمة من تكرار تلك التحيّزات الموجودة، تتوجّب إزالة أزواج جمل محدّدة من البيانات، كي تصبح الضمائر المحددة للجنس متساوية بنسبة 50 في المئة للإناث و50 في المئة للذكور، في كلتا اللغتين الإنكليزيّة والفرنسيّة. ستمنع هذه الخطوة النظام من إعطاء احتمالات أكثر لضمائر المذكر.
فضلاً عن ذلك، ينبغي أن تكون الأسماء والصفات متعادلة بنسبة 50 في المئة للجنسين كليهما، بالطبع، لأنّها تشير إلى نوع الجنس في اللغتين (actor، actress= ممثل، ممثلة) (neuf، neuve= جديد، جديدة)، وقس على ذلك المنوال. وفي المقابل، يكون من شأن هذا الاختزال الجذريّ أن يُخفض حجم بيانات التدريب المتاحة إلى حد كبير، ما يقلّص جودة الترجمات الناتجة.
ولكن، حتى إذا كانت مجموعة البيانات الجزئية الناتجة متوازنة تماماً جندرّياً، فستظل غير حياديّة في حالات شتى أخرى (كالعرق والعمر). في الحقيقة، سيكون من الصعب إزالة كل أشكال التحيّز تماماً. إذا كرّس شخص واحد خمس ثوانٍ لكلّ جملة من المليار جملة الموجودة في بيانات التدريب، فسيستغرق الأمر 159 عاماً لدراستها كلها، مع افتراض استعداده للعمل طوال النهار والليل، من دون استراحات الغداء.
هل يتوفّر بديل؟
بناء على ما سبق، من غير المنطقيّ افتراض أن تكون مجموعات بيانات تدريب الذكاء الاصطناعي غير متحيّزة كلها. وفي العادة، يُفرضُ في بناء تلك النظم متطلبات عالية المستوى لأنّ "الذكاء الاصطناعيّ" يرمز إلى مجموعة متجانسة من النماذج الرياضيّة والمقاربات القائمة على معادلات رياضية وخوارزميات منسقة.
في الواقع ، تتطلّب مهمات الذكاء الاصطناعيّ المختلفة أنواعاً متباينة جداً من الأنظمة. ويُخفي التقليل من الحجم الكامل لذلك التنوّع، مجموعة من المشاكل الحقيقيّة التي تطرحها (مثلاً) بيانات التدريب الشديدة التحيّز. إنّه أمر مؤسف، لأنّه يعني إهمال حلول أخرى لمشكلة تحيّز البيانات.
ومثلاً يمكن الحدّ بشكل كبير من التحيّز في نُظم الترجمة الآلية المدرّبة في حال عُدِّل النظام بعد تدريبه على مجموعة بيانات أكبر، وغير حيادية حتماً. من المستطاع إنجاز ذلك عبر استخدام مجموعة بيانات أصغر وأقل تحيّزاً. قد تكون معظم البيانات متحيزة بشدة، ولكن يجب التحوّط على نحوٍ كافٍ كي لا يأتي النظام الذي يتدرّب عليها مُشابهاً لها في التحيّز. ولسوء الحظ، نادراً ما تناقش تلك المعطيات التقنية من قبل المكلّفين بوضع المبادئ التوجيهيّة والأطر التشريعيّة لبحوث الذكاء الاصطناعيّ.
في حال عزَّزت أنظمة الذكاء الاصطناعيّ التحيّزات الاجتماعيّة القائمة ببساطة، فإنها بذلك تعوق التغيير الاجتماعيّ الإيجابيّ بدلاً من أن تسهّله. إذا كانت تقنيات الذكاء الاصطناعيّ التي نستخدمها بشكل متزايد على أساس يوميّ أقل تحيزاً بكثير مما نحن عليه، فيمكنها أن تساعدنا في التعرف إلى أحكامنا المسبقة الكامنة ومواجهتها.
من المؤكّد أنّ ذلك ما يستوجب علينا العمل على تحقيقه. واستطراداً، يحتاج مطورو الذكاء الاصطناعيّ إلى التفكير بعناية أكبر حول العواقب الاجتماعيّة للأنظمة التي يتولون صنعها، وكذلك يحتاج أولئك الذين يكتبون عن الذكاء الاصطناعيّ إلى أن يفهموا بمزيد من التفصيل كيف تُصمّم (وتُبنى فعلياً) أنظمة الذكاء الاصطناعي. ذلك أنّنا في حال كنّا نقترب فعلاً إلى واحد من السيناريوهين، أمّا عالم تكنولوجيّ مثاليّ أو كارثة، فإنّنا لا ريب سنحبّذ السيناريو الأول.
(** ماركوس تومالين كبير الباحثين المساعدين، وستيفاني أولمان باحثة مشاركة في بحوث ما بعد الدكتوراه في قسم الهندسة في جامعة كامبريدج البريطانية. نشر هذا المقال للمرة الأولى في "ذي كونفرزيشين")
© The Independent