مساله اخلاق و سوگیری در آرشیوهای دیجیتالی میراث فرهنگی؛ داده هرگز خام نیست

پیدایش مجموعه‌داده‌های بزرگ، متنوع و پیچیده و همچنین سیستم‌ها و روش‌های کامپیوتری پیشرفته و عمومی از جمله هوش مصنوعی، باعث شده ملاحظات اخلاقی در حوزه میراث فرهنگی دیجیتالی (Digital Cultural Heritage) پررنگ شود. این ملاحظات اخلاقی بر سوگیری‌ها در همه مراحل و ابعاد فرایندهای کاری میراث فرهنگی دیجیتالی تمرکز دارند. البته عبارت «سوگیری» اغلب به نوعی کلیشه در تحقیقات دیجیتالی و دنیای میراث فرهنگی تبدیل شده. باتیا فریدمن و هلن نیسنبائوم معتقدند سه نوع سوگیری در دنیای دیجیتالی وجود دارد:

۱. سوگیری‌های موجود ریشه در نهادها و راهکارهای اجتماعی‌ای دارند که قبل از سیستم وجود داشته‌اند.

۲. سوگیری فنی وقتی رخ می‌دهد که امکانات فنی مختلف سیستم بر اساس مفروضات غلط ساخته می‌شوند.

۳. سوگیری نوظهور در تماس مستقیم با کاربران به وجود می‌آید.

داده‌های «خام» و «پخته»

داده‌ها به ‌طور عمومی و دقیق‌تر در نهادهای میراث فرهنگی هرگز خام نیستند. می‌توانیم استعاره‌ای جالب از جفری باوکر، محقق زیرساخت اطلاعات، به عاریت بگیریم و بگوییم داده‌ها شاید هرگز خام نباشند اما همیشه از قبل «باعلاقه پخته شده‌اند». در واقع، عبارت «خام» معنای ضمنی طبیعی، خنثی یا حتی دست‌نخورده را منتقل می‌کند اما هرگونه تولید و جمع‌آوری داده در نهادهای فرهنگی از ابتدا با اهداف، مفروضات و انتخاب‌هایی همراه بوده که بی‌شباهت به نوعی پیش‌پردازش نیست. همان‌طور که لیزا گیتلمن و ویرجینیا جکسون در مقدمه کتاب‌شان با عنوان «داده خام یک ترکیب متضاد است» اشاره می‌کنند: «در سطحی خاص، جمع‌آوری و مدیریت داده شاید پیش‌فرض تفسیر باشد.»

هیچ فرایند جمع‌آوری داده‌ای در خلاء تاریخی یا نهادی انجام نمی‌گیرد. زمینه و مهم‌تر از آن سیاست جمع‌آوری، حفظ و انتشار، چرایی و چگونگی جمع‌آوری، چگونگی بازیافت و در نهایت چگونگی نگهداری و به‌اشتراک‌گذاری همیشه اهمیت دارند. اطلاعات در چرخه حیات مدیریت داده که کمتر در دسترس قرار دارند نیز حائز اهمیت است. سکوت، غیبت، حذف، فراموشی، نقص، خلأ، خط زدن و عدم قطعیت: هر مجموعه‌ای بدون استثنا سوگیری دارد و ایده مجموعه موزه فراگیر و متعادل یک توهم است و احتمال تحقق بسیار پایینی دارد. دلیلش این است که جمع‌آوری اقدامی عمیقاً انسانی و بنابراین ذهنی است و اصول روش‌شناختی و سیاست‌های نهادی وجود دارند.

شگفت‌آور نیست که سکوت و خلأ در پروژه‌های دیجیتالی‌سازی مجموعه‌های میراث فرهنگی ادامه پیدا می‌کنند و اغلب بزرگنمایی می‌شوند. پشت هر پروژه دیجیتالی‌سازی‌ای، یک فرایند تصمیم‌گیری طولانی و چندعاملی نهفته است. اسناد با تکیه بر این فرایند و بر اساس منابع انسانی و مالی، اولویت‌های فنی یا تحقیقاتی، نیازهای کاربر، الزامات حفاظتی و سیاست نهادی، دیجیتالی می‌شوند. این روند اغلب روایت‌ها و راهکارهای غالب در دنیای میراث را تقویت می‌کند. کل این تصمیم‌ها لایه دیگری از سکوت و سوگیری را به اسنادی می‌افزایند که راه‌شان را به مجموعه‌های دیجیتالی و کاتالوگ‌های آنلاین پیدا می‌کنند. بنابراین، آنچه امروز به ‌عنوان کاربران نهایی در قالب کاتالوگ‌های آنلاین می‌بینیم حاصل تجمیع یا حتی گزینش دلبخواهی اطلاعاتی است که درباره سرمایه‌های موزه جمع‌آوری و ذخیره شده‌اند. این کار در خلال سال‌ها راهکار مستندسازی در مخزن دیجیتالی نهایی‌شده انجام می‌شود و لایه‌ها و ماموران تصمیم‌گیری زیادی وجود دارد. در نتیجه، سوگیری‌ها به ‌طور تصاعدی افزایش می‌یابند.

خلأها و سوگیری‌ها

در عصر وفور اطلاعات و سیل کلان‌داده، شگفت‌آور نیست که غیبت داده هنوز به مشکلی بزرگ تبدیل نشده است. سازمان‌های میراث همواره تلاش کرده‌اند نمایش‌های عمومی اجرا کنند و کارهای پشت‌صحنه مستندسازی اشیا را انجام ندهند. بنابراین، اسناد مجموعه‌هایی که حالا دیجیتالی مدیریت می‌شوند اغلب جزئیات ندارند. پرورش‌دهنده‌های محتوا می‌دانند اسناد نسبی هستند و می‌کوشند هرجا می‌توانند بر این موضوع غلبه کنند. به‌ همین‌ طریق، محققان علوم انسانی و هنر به‌جای اینکه در سکوت محترمانه در اتاق‌های نهادها بنشینند و اسناد فرهنگی را بخوانند، با مجموعه‌های دیجیتالی کار می‌کنند و اخیراً منابع را «خلاف جریان آب» می‌خوانند. متخصصان اخیراً شروع کرده‌اند به برجسته کردن موارد غیبت از طریق تبدیل خلأ، حذف و سوگیری به موضوع تحقیقاتی و قرار دادن این موارد غیبت در راهکار تحقیقات دیجیتالی به‌ عنوان عوامل سازنده برای نتایج.

در تحقیقات اخیر می‌توانیم طیف متنوعی از روش‌های «برخورد با غیبت» در مجموعه‌ها را از نظر روشی و همچنین کارکردی ببینیم. محققان رویکردهای الگوریتمی موجود در قبال غیبت و سوگیری در علوم انسانی دیجیتالی را به طور کامل بررسی می‌کنند. افزایش حضور دیجیتالی، بازنمایی و تعامل با داده‌ها منجر به تداوم و احیای این رویکردها شده‌اند. محققان خواستار ارزیابی مجدد عوامل اجتماعی و فرهنگی‌ای هستند که باعث بروز غیبت در مجموعه‌های دیجیتالی می‌شوند. یکی از مثال‌های جالب، پروژه «چهره واقعی استرالیای سفید» (The real face of White Australia) بود که ابتدا «استرالیایی‌های نامرئی» ( Invisible Australians) نام داشت و به دست کیت بگنال و تیم شرات خلق شده بود. از طرف ‌دیگر، تامس پادیلا به‌روشنی می‌گوید: «غیبت داده را باید ویژگی جدایی‌ناپذیر تلقی کرد نه باگی که باید برطرف شود.» این نگرش بخشی از جنبش میان‌رشته‌ای برای «تایید کیفی سامانمند غیبت داده به‌ عنوان ابزار هموار کردن زمین برای ارائه مفهوم اصلاح‌شده نمایندگی» است.

یکی از روش‌های برخورد با خلأها و غیبت‌ها در مجموعه‌ها این است که آنها را مرئی سازیم. کتاب مهم لورن کلاین به نام «تصویر غیبت: سکوت آرشیو، تجسم داده و جیمز همینگز» (The Image of Absence: Archival Silence, Data Visualization, and James Hemings ) نشان می‌دهد چگونه مجموعه‌ فنونی که از رشته‌های زبان‌شناسی کامپیوتری و تجسم داده یا بصری‌سازی داده می‌آیند می‌توانند سکوت‌ آرشیو را در رشته وسیع‌تر دیجیتالی آشکار کنند.

مطلب عالی شانون مترن درباره «چگونه نقشه هیچ را بکشیم» (How to Map Nothing) نشان می‌دهد چگونه نقشه‌نگارها و مدیران اطلاعات در تلاش برای برجسته کردن سکوت‌ها و غیبت‌ها اخیراً با چند پروژه ترسیم نقشه و دیداری‌سازی دیجیتالی همکاری کرده‌اند تا هیچ را مستند کنند. این کار با کمک فنون پردازش و دیداری‌سازی جدید انجام می‌پذیرد؛ از جمله یادگیری ماشین.

یکی دیگر از راه‌های رسیدگی به خلأها و سوگیری‌ها در مجموعه‌های میراث فرهنگی، تغییر تفکر است به ‌گونه‌ای که مجموعه‌ها داده به شمار روند و اشیای گسسته محسوب نشوند. به ‌عبارت‌ دقیق‌تر، تغییر تفکر به معنی بررسی چگونگی حضور غیبت‌ها و سوگیری‌ها در کلان‌داده و تاثیر این غیبت و سوگیری بر نتایج و خروجی‌های فرایندهای تحلیل دیجیتالی است. انتقاد درباره اهمیت درک داده‌های نسبی یا سوگیرانه در تحقیقات دیجیتالی و میراث فرهنگی دیجیتالی، موضوع جدیدی نیست، به‌ویژه در سطح نظری و روش‌شناختی و حتی نهادی. اما مطالعات نسبتاً کمی انجام شده که پیامدهای داده‌های غایب یا داده‌های سوگیرانه در خروجی‌های تحقیق را واقعاً بررسی می‌کنند.

رایان و آهنرت (Ahnert) در مقاله اخیرشان درباره شبکه‌های نامه‌نگاری تاریخی و عظیم، بر این موضوع تمرکز کردند که نتایج تحلیل شبکه‌ای کمی تا چه حد تحت تاثیر داده‌های غایب قرار می‌گیرد. این محققان استدلال می‌کنند «یکی از جنبه‌های مهم این فرآوری داده، درک فقدان‌ها و علاوه ‌بر این، در صورت امکان، بررسی تاثیر فقدان بر نتایج کمی است. این نتایج می‌توانند برای مثال شاخص‌های شبکه باشند اما در حالت ‌کلی‌تر: همان فن ممکن است برای برنامه‌های استخراج‌شده از کار مطالعات ادبی کامپیوتری یا علوم انسانی فضایی به کار رود».

به‌ همین‌ ترتیب، متیو لینکولن و ساندرا ون کیونوون از ابزارهای آماری مانند شبیه‌سازی داده برای مدل‌سازی تاثیر فقدان داده‌های منبع بر نتایج و خروجی‌های کمی استفاده می‌کنند. به گفته این محققان، روش‌های آماری مذکور «به ما اجازه می‌دهند مفروضات متعدد و گاهی متضاد درباره ماهیت فقدان داده را درک کنیم. با این کار، این مفاهیم به ما امکان می‌دهند ارزیابی کنیم قضاوت‌های خاص چگونه ممکن است مفروضات‌شان را از طریق تغییراتی که در منابع‌مان ایجاد می‌کنیم اشاعه دهند».

در تحقیقی دیگر، گروهی از محققان از پروژه «زندگی با ماشین‌ها» استدلال می‌کنند: «باید نوع جدیدی از نقد منبع (source criticism) به وجود آید که به ‌طور آشکار به موضوعات نمایندگی و سوگیری در مجموعه‌های میراث فرهنگی رسیدگی می‌کند.» این کار را می‌توان از طریق اعمال فنون متن‌کاوی بر مجموعه‌های عظیم روزنامه‌های دیجیتالی‌شده انجام داد تا نقشه گذارهای فرهنگی را در مقیاسی کلان ترسیم کرد. محققان نامبرده «پایش محیطی» (Environmental Scan) را پیشنهاد می‌دهند که رویکردی جدید برای خواندن منابع تاریخی در مقیاس کلان در زمینه‌شان و رسیدگی به مشکلات سوگیری در میراث دیجیتالی است. آنها ادعا می‌کنند: «هدف‌مان نباید استفاده از بینش‌هایمان برای فرآوری کردن یک نمونه عالی باشد. این کار احمق‌هاست. برعکس، هدف باید استفاده از درک بهبودیافته‌مان درباره داده باشد تا تحلیل‌هایمان را آگاهانه و ظرافت‌هایی را به تفسیرهایمان اضافه کنیم.»

سرانجام، تقاضا برای استفاده از مجموعه‌های میراث فرهنگی به‌ عنوان داده‌های آموزشی مدل‌های زبانی بزرگ در حوزه یادگیری ماشین افزایش یافته است و ملاحظات جدیدی درباره سوگیری‌ها و غیبت‌ها در مجموعه‌ها وجود دارد. باید از طریق همکاری عمیق‌تر بین نهادها و صاحبان منافع، این موارد را بررسی کرد.

الگوی مدیریت مسئولانه سوگیری

رویکرد رادیکال مشابهی برای مدیریت سوگیری به ‌عنوان ویژگی ذاتی اسناد تاریخی و فرهنگی در بطن مباحث میان‌رشته‌ای پروژه «عملیات مسئولانه: علم داده، یادگیری ماشین و هوش مصنوعی در کتابخانه‌ها» نیز پیشه شده است. این کار جایگزین تلاش برای حذف یا از بین بردن سوگیری در داده‌هایمان است؛ «چیزی که باید درک و بیان شود نه حل».

گروه عملیات مسئولانه در ادامه نهادهای فرهنگی، متخصصان میراث و محققان را تشویق می‌کنند تا راهکارهایی اتخاذ کنند که به آنها کمک می‌کند درباره مجموعه‌داده‌ها و مدل‌هایشان شفاف باشند. چنین کاری از طریق کاربرد Datasheets و کارت‌های مدل انجام می‌شود. به گفته پادیلا، «عملیات مسئولانه مستلزم این است که رسیدگی مستمر به سوگیری‌های انسانی در داده‌های آموزشی، مدل‌های یادگیری زبان و خروجی‌ها انجام شود. برخلاف برخی نظراتی که سوگیری الگوریتمی یا سوگیری در داده را قابل محدودسازی تلقی می‌کنند، شاید بهتر باشد بر رویکردهایی تمرکز کنیم که هدف‌شان مدیریت سوگیری است. مدیریت سوگیری به‌جای تلاش برای حذف آن، از این درک حاصل شده که حذف امکان‌پذیر نیست زیرا حذف خود نوعی سوگیری است- در نهایت نوعی دور باطل است».

تغییر زاویه دید از حذف سوگیری به الگوی مدیریت مسئولانه سوگیری، این واقعیت را برجسته می‌کند و رسیدگی مسئولانه به سوگیری و غیبت در جریان‌های کاری متداول نهادهای میراث فرهنگی و راهکارهای تحقیقات دیجیتالی روزمره‌مان را اشاعه می‌دهد. در نهایت، به کار گرفتن چنین روحیه‌ای در کارمان در Congruence Engine که بخشی از برنامه «به ‌سوی جمع‌آوری ملی» است، باید جزو نیازمندی‌های زیرساخت مجموعه‌های میراث فرهنگی دیجیتالی باشد؛ به‌ویژه هنگام رسیدگی به داده‌های میراث فرهنگی در مقیاس کلان.

منبع: ساینس میوزم گروپ

توسط
پیوست
منبع
پیوست
Exit mobile version