كيف يمكن للذكاء الاصطناعي أن يزيد عن غير قصد بعض أشكال العنصرية والتمييز؟
أجريت منذ عامين بحثًا متعمقًا في عدة من المخاوف الأخلاقية التي تحيط بنماذج الذكاء الاصطناعي مع التركيز على الشرق الأوسط. ومنذ ذلك الحين، واجه عالم التقنية تحولًا جذريًا مصحوبا بالصعود السريع للذكاء الاصطناعي التوليدي (Generative AI)ونماذج اللغات الكبيرة (Large Language Models). وفي ضوء هذه التغيرات، من الضروري إعادة النظر في المشكلات التى تمت مناقشتها في المقالة الأصلية.
وفيما يلي سأشرح التحديات المستمرة والتحيزات في الذكاء الاصطناعي في الشرق الأوسط وشمال أفريقيا ومناقشة كيفية تطور المخاوف المذكورة في المقالة الأصلية.
بشكلٍ عام، استخدام الذكاء الاصطناعي يعني خدمات أفضل مما يفيد بشكلٍ مباشر اى مؤسسة وعملائها. ولكن ماذا يحدث عند فشل نماذج الذكاء الاصطناعى اثناء استخدامها؟ تكلفة اخطاء النماذج مختلفة جذريًا للطرفين. فيما يخص المؤسسات، يحاول الذكاء الاصطناعي تحسين مقاييس النجاح والتي تدفع عادةً القرار نحو مخاطر أقل ونتائج موثوقة أكثر. وفي حين أن هذا يُعتبر منطقيا من وجهة نظر المؤسسة، قد يؤثر بالسلب على حياة الافراد.
وفيما يلي توضيح لبعض من اسباب فشل نماذج الذكاء الاصطناعي في الشرق الأوسط وشمال أفريقيا.
عدم وجود طريقة للطعن فى قرارات النماذج
ناقشت في مقالتي السابقة عدم وجود طريقة للطعن في القرارات المتخذة من الخوارزميات و اوضحت ذلك عن طريق بعض الامثلة لخوارزميات الرعاية الصحية التي تقلل بشكلٍ كبير ساعات الرعاية بدون عمليات شرح واضحة. إذ شهدت تامي دوبس، وهي أحد الأفراد المتأثرين، انخفاض ساعات الرعاية الأسبوعية الخاصة بها. وقد نتج هذا الانخفاض من عدم وجود شفافية ومحاسبة في عملية اتخاذ القرار في الخوارزمية مما ينتج عنه عدم وجود ملجأ فعال للأفراد المتأثرين. وقد كشف تحقيقٌ بواسطة the verge أن الخوارزمية قد اعتمدت فى قرارها على 60 عامل فقط من قائمة طويلة من العوامل مما أدى إلى انخفاض كبير في ساعات الرعاية بسبب تغييرات طفيفة فبعض العوامل.
وتتفاقم هذه المشكلة بسبب البيروقراطية، حيث إن العديد من البيانات التي تجمعها الحكومة لا يوجد لديها اية طريقة لتصحيحها أو تلك الطريقة مملة وبطيئة، مما يعني أن قرار الخوارزمية قد يستغرق أشهر أو سنوات لتصحيحه. ووفقًا لتعبير دانا بويد: "كثيرًا ما تُستخدم البيروقراطية للتهرب من المسؤولية...و اليوم تعمل الأنظمة الخوارزمية على توسيع البيروقراطية."
الاختلافات العرقية فى نماذج الذكاء الاصطناعي
تستخدم نماذج الذكاء الاصطناعي في وقتنا الحالي خصائص "التصحيح للعرق" للتصدي لحالات التحيز وإضفاء الإنصاف لهذه العملية، ولكن لسوء الحظ، لا تُنفّذ هذه النماذج دون مواجهة تحديات. ففي بعض الأوقات تعتمد هذه النماذج على بيانات متحيزة وقديمة مما ينتج عنه سوء تشخيص وسوء تخصيص للموارد عند تنفيذها في مجال الرعاية الصحية. ومن أمثلة ذلك خوارزمية معدل الترشيح الكبيبي المقدر (eGFR) المستندة إلى التصحيح نسبةً للعرق، والتي تُستخدم لتقدير خصائص الكُلى من خلال قياس مستويات الكرياتينين في الدم. ولسوء الحظ، تُظهر هذه الخوارزمية قيم عالية من معدل الترشيح الكبيبي المقدر للأفراد من ذوي البشرة السوداء، حيث تشير إلى أن وظائف كلى الأفراد من ذوي البشرة السوداء أفضل مما هى عليه على الرغم من معاناتهم من معدلات عالية من أمراض الكُلى و في مراحل متأخرة. ويكمن السبب وراء هذا التصحيح على الادعاء بأن الأفراد من ذوي البشرة السوداء يملكون تركيزات أعلى من الكرياتينين في الدم بسبب الاختلافات المحتملة في الكتلة العضلية.
تعرض استخدام قيم معدل الترشيح الكبيبي المقدر المستندة إلى العرق في عام 2020 إلى انتقادات حادة، مما دفع مؤسسة الكلى الوطنية والجمعية الأمريكية لأمراض الكلى إلى تشكيل فريق عمل مشترك لبحث هذه المشكلة. وفي عام 2021، تم التوصية بالتنفيذ الفوري لنسخة جديدة من خوارزمية معدل الترشيح الكبيبي المقدر. وقد كشفت دراسة منفذة في عام 2023 أن هذه الحسابات المعدلة تُحسّن من عمليات كشف أمراض الكُلى وتعيد تصنيف 16% تقريبًا من المرضى منخفضي المخاطر الصحية من ذوي البشرة السوداء مما يعيد إمكانية حصولهم على الرعاية المبكرة.
وعلى الرغم من ذلك، لا يزال مثل ذلك التصحيح موجودًا في العديد من خوارزميات الرعاية السريرية الأخرى مثل درجة مخاطر النوبة القلبية الخاصة بجمعية القلب الأمريكية ونظام الدرجات بواسطة كريس مور الخاص بحصوات الكلى، وهو ما يطرح أسئلة حول ضرورة التصحيح نسبةً للعرق وأثره في نماذج الذكاء الاصطناعي.
تعزيز الآراء – الفعلية والافتراضية
يمكن أن تنشئ الخوارزميات في حالة تصميمها بشكلٍ غير ملائم تعزيزا للاراء، وهو ما اكتشف في بعض من حالات التصنيف الائتماني للافراد؛ حيث تُقيّم المؤسسات المالية جدارة عملائها بناءً على سلوكيات الإنفاق والدفع الخاصة بهم باستخدام خوارزميات قائمة على البيانات. كما أن القرارات المالية السيئة -سواء بسبب التأخر في الدفع أو سوء استخدام بياناتك المالية- قد يُخفّض بشكلٍ كبير من تصنيفك الائتماني، وهو ما يؤثر بدوره على العديد من جوانب حياتك بدايةً من فرص العمل المحتملة وصولاً إلى الموافقة على القروض، ويؤثر بشكل أخص على الأشخاص منخفضي الدخل ممن لا يمكنهم تعويض زيادة النفقات بالادخار، وهو ما يعزز التوقع الأولي.
كما أن تعزيز الآراء واضح بشدة في وسائل التواصل الاجتماعي حيث يشكل الذكاء الاصطناعي وسيلة تعزز باستمرار من المعتقدات الحالية للمستخدمين.
ونظرًا لتغلغل وسائل التواصل الاجتماعي في كل جزء من حياتنا، يمكن للذكاء الاصطناعي إنشاء غرف للمستخدمين تقدم فقط وجهات نظر التي تعزز وجهات نظرهم الخاصة. و تقوم منصات وسائل التواصل الاجتماعي بهذا عبر طرق مختلفة مثل جمع البيانات بناءً على المستخدمين الذين تتابعهم، وكيفية تفاعلك مع المنشورات، وما تشاهدة على المواقع الإلكترونية الأخرى لبناء ملف تشابه للمستخدمين حيث يتم توفيقك مع الأفراد من ذوي الاهتمامات والآراء المماثلة. وفي حين أن ذلك خطير بحد ذاته، يصبح ذلك أسوأ بامتلاك الذكاء الاصطناعي التوليدي للقدرة على إنشاء محتوى يدعم أفكار محددة..
بسطت الأدوات المبنية حول نماذج اللغة الكبيرة مثل ThinkGPT أو AutoGPT مهمة إنشاء شخصيات وهمية عبر الإنترنت . فيتعرض المستخدمون الحقيقيون لمحتوى يؤكد بشكلٍ مستمر على معتقداتهم القائمة. و لذلك، تحاول منصات التواصل الاجتماعي ان تميز المستخدمين الحقيقيين من الروبوتات. فنصات مثل ميتا تدفع المستخدمين على التحقق من حساباتهم باوراق اثباتات شخصية. ولكن مع وجود الذكاء الاصطناعى، ما مدى صعوبة تزييف بعض الأعمال الورقية؟ يضل التحقق من صحة هذه المستندات تحديًا قائما ، وخصوصًا مع وجود الآليات المحدودة المتاحة للتحقق من صحتها. وهو ما يتسبب في الكثير من المخاطر المحتملة خصوصًا عندما يدخل في الأمر النوايا السيئة.
الفردية والتحيز التجميعي
تفترض النماذج التنبؤية أن الأشخاص ذوي السمات المتشابهة سيفعلون الشيء نفسه، لكن هل هذا افتراض عادل؟
في حين انه يمكن التبؤ بدقة بالسلوك الكلي أو الجماعي، إلا أن المعادلة مختلفة بالنسبة للفرد: فهي تعتمد فقط على تاريخ سلوك الشخص. ومع ذلك، حتى هذا قد لا يكون كافيا للتنبؤ. ومن المقولات التي أحبها شخصيًا والتي تشرح هذا التحيز من مارتن كليبمان الذي يقول:
" الكثير من البيانات ذات طبيعة إحصائية، ما يعني أنه حتى لو كان توزيع الاحتمالات في مجمله صحيحًا، فإن الحالات الفردية قد تكون خاطئة. على سبيل المثال، إذا كان متوسط العمر المتوقع في دولتك هو 80 عامًا، فهذا لا يعني أنه من المتوقع أن تموت في عيد ميلادك الثمانين. فمن خلال المتوسط والتوزيع الاحتمالي، لا يمكنك قول الكثير عن عمر شخص معين. وبالمثل، فإن مخرجات نظام التنبؤ تكون احتمالية وقد تكون خاطئة في الحالات الفردية."
نجد امثلة لهذا التحيز أيضًا فى تشخيص داء السكري ومراقبته. إذ أكدت دراسة أُجريت عام 2022 أن مستويات اختبار خضاب الدم السكري تختلف بشكلٍ كبير بين المجموعات العرقية. يمكن أن يؤدي اعتماد طريقة تشخيص اختبار خضاب الدم السكري عامة وموحدة إلى الخطأ في التشخيص لدى الإفراد من ذوي البشرة السوداء، مما يزيد من خطر الإصابة بنقص السكر في الدم، قلة التشخيص لدى الأفراد من ذوي البشرة البيضاء.
وهذا يعني أن السمات التي يمكن أن تعزز السلوك الجماعي ستؤدي إلى تنبؤات معممة على نحوٍ غير مبرر وتتعارض مع مفهوم الفردية البشرية.
التحيزات المنهجية
يمكن للتحيزات أن تتسبب في التسلل إلى البيانات في أشكال عديدة، فالعديد منها يمكن أن يكون غير ملاحظ مما يؤدي إلى نموذج تعلم آلي يعزز تلك التحيزات. ومن المصادر الواضحة للتحيز هو أن الأفراد والشركات والمجتمعات متحيزة حتى و ان بدت انها ليست كذلك. فتنجح بعض التحيزات دائمًا في التسلل.
وقد استكشفنا سابقًا تحيزات واضحة في خوارزميات التعلم الآلي حيث استكشفنا مدى تحيز قواعد البيانات للأوجه الإنسانية المتاحة فيما يخص الأفراد من ذوي البشرة البيضاء، وطريقة تصوير ترجمة اللغات غير المرتبطة بالجنس إلى لغات مرتبطة به لأفكار نمطية للأدوار الجنسانية، وكيف تعلم احد نماذج اللغات غير الشهرية GPT-3 رهاب الإسلام و اقرانه بالارهاب من على الإنترنت وعرضها فى معظم النصوص التي تم إنشاؤها و تحتوى على كلمة "المسلمون".
في هذه المرة سنستكشف التحيزات الواضحة فى نموزج Stable Diffusion. فإن Stable Diffusion هو نموزج تعلم عميق مفتوح المصدر. فهو قادر على ان يحول بسرعة النص إلى صور مرحة ومبتكرة .و لكن الجانب المظلم من Stable Diffusion انه اصبح آلة لتوليد التحيز. يتضح ذلك من خلال عنوان مقال بلومبرج التالي:
"العالم وفقًا لـ Stable Diffusion يديره مديرون تنفيذيون من الذكور من ذوي البشرة البيضاء، ونادرًا ما تجد أطباء أو محامين أو قضاة من السيدات. الرجال من ذوي البشرة الداكنة يرتكبون الجرائم في حين أن النساء من ذوي البشرة الداكنة يقلون البرجر"
في حين أن أدوات مثل Stable Diffusion تعمل بفاعلية عند توجيهها بشكلٍ ملائم، يمكنها كشف التحيزات الخفية التي تعلمتها في حالة التعزيز بمطالبات غير مفصلة. وتصبح نماذج التحيز هذه واضحة عند تقييم مطالبات محددة. كما أن المطالبات المصاحبة للوظائف ذات الرواتب العالية مثل "الأطباء" أو "المحامين" تصدر صور لأفراد بألوان بشرة أفتح. وفي حين أن المطالبات المصاحبة للمناصب ذات الدخل المنخفض مثل "حارس العقار" أو "أمين الخزينة" تصدر صور لأفراد بألوان بشر أغمق. فتظهر النماذج تحيزات مماثلة عند تعزيزها بصور مثل "إرهابي" أو "تاجر مخدرات" أو "سجين" مما يظلل النماذج النمطية الموجودة مسبقًا.
الخاتمة
بينما نتابع تطور الذكاء الاصطناعى باستمرار و نتابع آثاره الأخلاقية، من الضروري أن ندرك أن التقدم التقني السريع لا يزال يجلب الفرص والتحديات. وتؤكد الأمثلة الواقعية التي تم تسليط الضوء عليها في هذه المقالة على مدى ضرورة مواجهة الأبعاد الأخلاقية للذكاء الاصطناعي. ويشكل الاعتراف بهذه التحديات والتحيزات خطوة أساسية نحو مستقبل أكثر إنصافًا وغير متحيز. مع إعطاء الأولوية للشفافية والعدالة والمساءلة والتقييم المستمر وتحسين نماذج الذكاء الاصطناعي.
References:
Alaqeel, A., Gomez, R., & Chalew, S. A. (2022). Glucose-independent racial disparity in HbA1c is evident at onset of type 1 diabetes. Journal of Diabetes and Its Complications, 36(8), 108229. https://doi.org/10.1016/j.jdiacomp.2022.108229
Ford, C. N., et al., (2019). Racial differences in performance of HbA1c for the classification of diabetes and prediabetes among US adults of non-Hispanic black and white race. Diabetic Medicine : A Journal of the British Diabetic Association, 36(10), 1234–1242. https://doi.org/10.1111/dme.13979
Inker, L. A.,et al., (2021). New Creatinine- and Cystatin C-Based Equations to Estimate GFR without Race. The New England Journal of Medicine, 385(19), 1737–1749. https://doi.org/10.1056/NEJMoa2102953
Muiru, A. N., et al., (2023). Effect of Adopting the New Race-Free 2021 Chronic Kidney Disease Epidemiology Collaboration Estimated Glomerular Filtration Rate Creatinine Equation on Racial Differences in Kidney Disease Progression Among People With Human Immunodeficiency Virus: An Observational Study. Clinical infectious diseases: an official publication of the Infectious Diseases Society of America, 76(3), 461–468. https://doi.org/10.1093/cid/ciac731
Nicoletti, L., & Bass, D. (n.d.). Humans Are Biased. Generative AI Is Even Worse. Bloomberg.com. Retrieved October 30, 2023, from https://www.bloomberg.com/graphics/2023-generative-ai-bias/#:~:text=The%20world%20according%20to%20Stable
Powe, N. R. (2022). Race and kidney function: The facts and fix amidst the fuss, fuzziness, and fiction. Med, 3(2), 93–97. https://doi.org/10.1016/j.medj.2022.01.011
Vyas, D. A., Eisenstein, L. G., & Jones, D. S. (2020). Hidden in Plain Sight — Reconsidering the Use of Race Correction in Clinical Algorithms. New England Journal of Medicine, 383(9). https://doi.org/10.1056/nejmms2004740
Comments