مستودع الـ 80 مليون صورة .. أشهر حاضنة للتحيز والتمييز بأنظمة الذكاء الاصطناعي

جمال محمد غيطاس

بواسطة

29 يوليو 2020

مطلع الشهر الحالي، أزال معهد ماساشوستس الأمريكي للتقنية “إم آي تي”، الأكثر احتراما وموثوقية ودقة في عالم التقنية والذكاء الاصطناعي عالميا، مستودعا رقميا، يضم مجموعة بيانات مكونة من 80 مليون صورة من على موقعه، بعد أن ظلت لعدة سنوات تستخدم من قبل الباحثين والعلماء والشركات التجارية في تعليم وتدريب أنظمة الذكاء الاصطناعي على كيفية التعرف على الوجوه، وأقدم المعهد علي هذا القرار بعدما تبين أن مجموعة البيانات تعد واحدة من اضخم حاضنات “التحيز والتمييز “ ضد بعض الأعراق والأقليات والأجناس داخل عالم الذكاء الاصطناعي عالميا، ولذا جاء قراره مصحوبا باعتذار علني للمجتمع الاكاديمي والبحثي العالمي، ولكل من تعرض للأذى نتيجة التحيز الكامن في هذه المجموعة.
كان باحثون من خارج المعهد قد أجروا مراجعة دقيقة ببعض أدوات التحليل المتقدمة، لمكونات هذه المجموعة من البيانات، ومدي تأثيرها علي النتائج التي تقدمها خوارزميات أنظمة الذكاء الاصطناعي المختلفة، التي يجري تدريبها علي هذه البيانات.
جاءت النتائج صادمة، حيث تبين أن مجموعة البيانات تقود الخوارزميات وأنظمة الذكاء الاصطناعي إلي تعلم ممارسات قائمة علي التحيز الصارخ، ومنها مثلا أن النساء الحوامل، والنساء بملابس البحر هم بالضرورة منحرفات، وأن ذوي البشرة السمراء من السود، أكثر ميلا للجريمة، ويوضعون في دوائر الاشتباه أكثر من البيض بمعدل ثلاثة أضعاف تقريبا، وإذا كان نظام الذكاء الاصطناعي الذي تدرب علي هذه البيانات، معني بالعمل في مجال الموارد البشرية، والاختيار من بين المتقدمين للوظائف، فهو يميل دوما إلي تفضيل الذكور علي الإناث في العديد من الوظائف لمجرد معيار الجنس، خاصة في وظائف الاطباء والمهندسين، ومجالات الصيرفة والمال والسمسرة، وإذا كان النظام الذي يتدرب علي هذه المجموعة من البيانات ذا صلة بمهام لها علاقة باللغات، فهو يصنف اللغات الآسيوية والناطقين بها علي أنهم من الدرجة الثانية، إلي غير ذلك من النتائج الصادمة.
قال الباحثون أن التحيز والتمييز ضد بعض المجموعات العرقية، أو التحيز ضد النساء، لا ينجم عن خطأ في خوارزميات الذكاء الاصطناعي في حد ذاتها، وإنما ناجم عن طبيعة مجموعة البيانات التي تدربت عليها، لأنه يتم إدخال مجموعة البيانات في الشبكات العصبية الخاصة بخوارزميات أنظمة الذكاء الاصطناعي، لتعليمها مهارة ربط الصورة بالكلمات، وهذا يعني أن أي نموذج للذكاء الاصطناعي يستخدم مجموعة البيانات سيتعلم بالضرورة كيفية الربط بين الصور والكلمات علي النحو الوارد بالصور أو النصوص القائمة في مجموعة البيانات.
وفي هذه الواقعة، تبين أن الطريقة التي تم بها جمع البيانات الأولية والصور المتضمنة فيها، وطريقة ترتيبها، اعتمدت بالأساس علي ممارسات بشرية في فترات سابقة طويلة المدي زمنيا، ومن ثم حملت هذه البيانات جميع الممارسات المبنية علي التحيز والتمييز والصور الذهنية الخاطئة، ضد كل من النساء، والسود من الجنسين، وضد بعض الأعراق الأخرى كالشعوب الآسيوية، وذلك علي مستوي التوصيف والتوقع والتنبؤ بسلوكيات معينة، وبحسب الباحثين فإن مجموعة البيانات الضخمة، تلوثت بما هو موروث من وقائع تحيز وتمييز قديم، شاب السلوكيات البشرية، التي نقلت عنها هذه البيانات، ومن ثم انتقلت عدوى التحيز والتمييز إلي أنظمة الذكاء الاصطناعي.
اعترف معهد “إم آي تي” بصحة النتائج التي توصل إليها هؤلاء الباحثون وناشد جميع الجهات البحثية والاكاديمية ومراكز التطوير بالشركات التجارية حول العالم، بالكف عن استخدام مجموعة البيانات المشار إليها في تطوير وتدريب وتعليم أي من انظمة الذكاء الاصطناعي، إذا كانوا قد قاموا بتحميلها من موقع المعهد، ووعد بأن يتم وضع مجموعات بيانات جديدة أكثر حيادية ونقاء ودقة.
ألقي اكتشاف وإزالة حاضنة تحيز عنصري بهذا الحجم، داخل معهد بهذا القدر من الاحترام والموثوقية، بمزيد من الظلال الكثيفة حول حيادية ونقاء ودقة أنظمة الذكاء الاصطناعي وعدالة سلوكها ونتائجها في تعاملها مع البشر، بمختلف ألوانهم وأعراقهم، إذ اعتبر الكثيرون أن الواقعة تعني تلقائيا أنه من المرجح أن يكون لدي العشرات وربما المئات من مراكز ومؤسسات تطوير انظمة الذكاء الاصطناعي الأخرى حول العالم، حاضنات تحيز أخرى، في الأغلب أكبر حجما وأشد عمقا وتأثيرا.
في دراسة أخري أجراها جوي باولامويني أحد خبراء الحاسب ومؤسس رابطة “العدالة الخوارزمية” تبين وجود تحيز وتمييز في أنظمة الذكاء الاصطناعي التي يبيعها عمالقة التكنولوجيا مثل آي بي إم ومايكروسوفت وأمازون، وذلك عند تخمين أو تقديم توصيات مبنية علي جنس الوجه، حيث تبين أن معدلات الخطأ في هذه الانظمة لا تزيد عن 1% في حالة الرجال ذوي البشرة البيضاء أو الفاتحة، بينما ترتفع الي النساء ذوات البشرة الداكنة إلي 35%، حتي أن هذه الأنظمة فشلت في تصنيف وجوه المذيعة الشهيرة أوبرا وينفري، وميشيل أوباما زوجة الرئيس الامريكي السابق باراك أوباما، وسيرينا ويليامز اسطورة التنس الامريكية بشكل صحيح، وقال الباحث عندما تشوه التكنولوجيا حتى هؤلاء النساء الشهيرات، يكون الوقت قد حان لإعادة النظر في كيفية بناء هذه الانظمة.
توالت الوقائع الجارية في هذا السياق، وأعلنت شركة آي بي إم ـ عملاق التقنية وأعرق الشركات العاملة في مجال الذكاء الاصطناعي ـ أنها قررت التوقف عن أنتاج انظمة التعرف علي الوجوه المعتمدة علي الذكاء الاصطناعي، لحين مراجعة الموقف كاملا، فيما أقر اثنان من مسئولي الذكاء الاصطناعي بشركة جوجل، هما أليس إيي مديرة الابتكار المسئول، وانجيلا ويليامز مديرة السيات في جوجل، بوجود ظاهرة التحيز والتمييز في أنظمة الذكاء الاصطناعي، وأنها تضر بالمجتمعات المهمشة بالفعل في أمريكا، وأن هناك العديد من الطرق التي يمكن من خلالها استخدام تكنولوجيا التعلم الآلي لإيذاء مجتمع السود والنساء والمجتمعات الأخرى على نطاق أوسع في جميع أنحاء العالم خاصة، حينما تستخدم في انظمة المعلومات التي تعتمد عليها جهات إنفاذ القانون، حيث تقود في هذه الحالة إلي احكام متحيزة مشوبة بالتمييز، على غرار ما حدث بقضية روبرت جوليان، وهو رجل أمريكي من أصل أفريقي يعيش في ديترويت، وتم اعتقاله خطأً بعد أن قام نظام التعرف على الوجه بمطابقة صورته بشكل غير صحيح مع لقطات أمنية لسرقة بائعة.
كان من أبرز التداعيات المترتبة علي الواقعة وما ارتبط بها من دراسات اخرى، أن الحديث عن أزمة التحيز والتمييز في انظمة الذكاء الاصطناعي، لم يعد مجرد همهمات وإشارات متناثرة، تظهر هنا وهناك، بل تحول أصبح حالة قلق جدية عميقة متزايدة الاتساع، ليس فقط داخل المحافل والدوائر البحثية والأكاديمية البحثية المتخصصة الضيقة، بل على مستوى الجمهور الواسع، لتصبح قضية “تحيز أنظمة الذكاء الاصطناعي” أحد الاوجه الجديدة الساخنة لقضية التحيز والتمييز عموما.