مساله اخلاق و سوگیری در آرشیوهای دیجیتالی میراث فرهنگی؛ داده هرگز خام نیست
در تحقیقات اخیر میتوانیم طیف متنوعی از روشهای «برخورد با غیبت» در مجموعهها را از نظر روشی و همچنین کارکردی ببینیم. از طرف دیگر، تامس پادیلا بهروشنی میگوید: «غیبت داده را باید ویژگی جداییناپذیر تلقی کرد نه باگی که باید برطرف شود.» این نگرش بخشی از جنبش میانرشتهای برای «تایید کیفی سامانمند غیبت داده به عنوان ابزار هموار کردن زمین برای ارائه مفهوم اصلاحشده نمایندگی» است.
یکی از روشهای برخورد با خلأها و غیبتها در مجموعهها این است که آنها را مرئی سازیم. کتاب مهم لورن کلاین به نام «تصویر غیبت: سکوت آرشیو، تجسم داده و جیمز همینگز» (The Image of Absence: Archival Silence, Data Visualization, and James Hemings ) نشان میدهد چگونه مجموعه فنونی که از رشتههای زبانشناسی کامپیوتری و تجسم داده یا بصریسازی داده میآیند میتوانند سکوت آرشیو را در رشته وسیعتر دیجیتالی آشکار کنند.
مطلب عالی شانون مترن درباره «چگونه نقشه هیچ را بکشیم» (How to Map Nothing) نشان میدهد چگونه نقشهنگارها و مدیران اطلاعات در تلاش برای برجسته کردن سکوتها و غیبتها اخیراً با چند پروژه ترسیم نقشه و دیداریسازی دیجیتالی همکاری کردهاند تا هیچ را مستند کنند. این نتایج میتوانند برای مثال شاخصهای شبکه باشند اما در حالت کلیتر: همان فن ممکن است برای برنامههای استخراجشده از کار مطالعات ادبی کامپیوتری یا علوم انسانی فضایی به کار رود».
به همین ترتیب، متیو لینکولن و ساندرا ون کیونوون از ابزارهای آماری مانند شبیهسازی داده برای مدلسازی تاثیر فقدان دادههای منبع بر نتایج و خروجیهای کمی استفاده میکنند. با این کار، این مفاهیم به ما امکان میدهند ارزیابی کنیم قضاوتهای خاص چگونه ممکن است مفروضاتشان را از طریق تغییراتی که در منابعمان ایجاد میکنیم اشاعه دهند».
در تحقیقی دیگر، گروهی از محققان از پروژه «زندگی با ماشینها» استدلال میکنند: «باید نوع جدیدی از نقد منبع (source criticism) به وجود آید که به طور آشکار به موضوعات نمایندگی و سوگیری در مجموعههای میراث فرهنگی رسیدگی میکند.» این کار را میتوان از طریق اعمال فنون متنکاوی بر مجموعههای عظیم روزنامههای دیجیتالیشده انجام داد تا نقشه گذارهای فرهنگی را در مقیاسی کلان ترسیم کرد. برعکس، هدف باید استفاده از درک بهبودیافتهمان درباره داده باشد تا تحلیلهایمان را آگاهانه و ظرافتهایی را به تفسیرهایمان اضافه کنیم.»
سرانجام، تقاضا برای استفاده از مجموعههای میراث فرهنگی به عنوان دادههای آموزشی مدلهای زبانی بزرگ در حوزه یادگیری ماشین افزایش یافته است و ملاحظات جدیدی درباره سوگیریها و غیبتها در مجموعهها وجود دارد. باید از طریق همکاری عمیقتر بین نهادها و صاحبان منافع، این موارد را بررسی کرد.
الگوی مدیریت مسئولانه سوگیری
رویکرد رادیکال مشابهی برای مدیریت سوگیری به عنوان ویژگی ذاتی اسناد تاریخی و فرهنگی در بطن مباحث میانرشتهای پروژه «عملیات مسئولانه: علم داده، یادگیری ماشین و هوش مصنوعی در کتابخانهها» نیز پیشه شده است. این کار جایگزین تلاش برای حذف یا از بین بردن سوگیری در دادههایمان است؛ «چیزی که باید درک و بیان شود نه حل».
گروه عملیات مسئولانه در ادامه نهادهای فرهنگی، متخصصان میراث و محققان را تشویق میکنند تا راهکارهایی اتخاذ کنند که به آنها کمک میکند درباره مجموعهدادهها و مدلهایشان شفاف باشند. مدیریت سوگیری بهجای تلاش برای حذف آن، از این درک حاصل شده که حذف امکانپذیر نیست زیرا حذف خود نوعی سوگیری است- در نهایت نوعی دور باطل است».
تغییر زاویه دید از حذف سوگیری به الگوی مدیریت مسئولانه سوگیری، این واقعیت را برجسته میکند و رسیدگی مسئولانه به سوگیری و غیبت در جریانهای کاری متداول نهادهای میراث فرهنگی و راهکارهای تحقیقات دیجیتالی روزمرهمان را اشاعه میدهد. در نهایت، به کار گرفتن چنین روحیهای در کارمان در Congruence Engine که بخشی از برنامه «به سوی جمعآوری ملی» است، باید جزو نیازمندیهای زیرساخت مجموعههای میراث فرهنگی دیجیتالی باشد؛ بهویژه هنگام رسیدگی به دادههای میراث فرهنگی در مقیاس کلان.
منبع: ساینس میوزم گروپ
پیدایش مجموعهدادههای بزرگ، متنوع و پیچیده و همچنین سیستمها و روشهای کامپیوتری پیشرفته و عمومی از جمله هوش مصنوعی، باعث شده ملاحظات اخلاقی در حوزه میراث فرهنگی دیجیتالی (Digital Cultural Heritage) پررنگ شود. این ملاحظات اخلاقی بر سوگیریها در همه مراحل و ابعاد فرایندهای کاری میراث فرهنگی دیجیتالی تمرکز دارند. البته عبارت «سوگیری» اغلب به نوعی کلیشه در تحقیقات دیجیتالی و دنیای میراث فرهنگی تبدیل شده. باتیا فریدمن و هلن نیسنبائوم معتقدند سه نوع سوگیری در دنیای دیجیتالی وجود دارد:
۱. سوگیریهای موجود ریشه در نهادها و راهکارهای اجتماعیای دارند که قبل از سیستم وجود داشتهاند.
۲. سوگیری فنی وقتی رخ میدهد که امکانات فنی مختلف سیستم بر اساس مفروضات غلط ساخته میشوند.
۳. سوگیری نوظهور در تماس مستقیم با کاربران به وجود میآید.
دادههای «خام» و «پخته»
دادهها به طور عمومی و دقیقتر در نهادهای میراث فرهنگی هرگز خام نیستند. میتوانیم استعارهای جالب از جفری باوکر، محقق زیرساخت اطلاعات، به عاریت بگیریم و بگوییم دادهها شاید هرگز خام نباشند اما همیشه از قبل «باعلاقه پخته شدهاند». در واقع، عبارت «خام» معنای ضمنی طبیعی، خنثی یا حتی دستنخورده را منتقل میکند اما هرگونه تولید و جمعآوری داده در نهادهای فرهنگی از ابتدا با اهداف، مفروضات و انتخابهایی همراه بوده که بیشباهت به نوعی پیشپردازش نیست. همانطور که لیزا گیتلمن و ویرجینیا جکسون در مقدمه کتابشان با عنوان «داده خام یک ترکیب متضاد است» اشاره میکنند: «در سطحی خاص، جمعآوری و مدیریت داده شاید پیشفرض تفسیر باشد.»
هیچ فرایند جمعآوری دادهای در خلاء تاریخی یا نهادی انجام نمیگیرد. زمینه و مهمتر از آن سیاست جمعآوری، حفظ و انتشار، چرایی و چگونگی جمعآوری، چگونگی بازیافت و در نهایت چگونگی نگهداری و بهاشتراکگذاری همیشه اهمیت دارند. اطلاعات در چرخه حیات مدیریت داده که کمتر در دسترس قرار دارند نیز حائز اهمیت است. سکوت، غیبت، حذف، فراموشی، نقص، خلأ، خط زدن و عدم قطعیت: هر مجموعهای بدون استثنا سوگیری دارد و ایده مجموعه موزه فراگیر و متعادل یک توهم است و احتمال تحقق بسیار پایینی دارد. دلیلش این است که جمعآوری اقدامی عمیقاً انسانی و بنابراین ذهنی است و اصول روششناختی و سیاستهای نهادی وجود دارند.
شگفتآور نیست که سکوت و خلأ در پروژههای دیجیتالیسازی مجموعههای میراث فرهنگی ادامه پیدا میکنند و اغلب بزرگنمایی میشوند. پشت هر پروژه دیجیتالیسازیای، یک فرایند تصمیمگیری طولانی و چندعاملی نهفته است. اسناد با تکیه بر این فرایند و بر اساس منابع انسانی و مالی، اولویتهای فنی یا تحقیقاتی، نیازهای کاربر، الزامات حفاظتی و سیاست نهادی، دیجیتالی میشوند. این روند اغلب روایتها و راهکارهای غالب در دنیای میراث را تقویت میکند. کل این تصمیمها لایه دیگری از سکوت و سوگیری را به اسنادی میافزایند که راهشان را به مجموعههای دیجیتالی و کاتالوگهای آنلاین پیدا میکنند. بنابراین، آنچه امروز به عنوان کاربران نهایی در قالب کاتالوگهای آنلاین میبینیم حاصل تجمیع یا حتی گزینش دلبخواهی اطلاعاتی است که درباره سرمایههای موزه جمعآوری و ذخیره شدهاند. این کار در خلال سالها راهکار مستندسازی در مخزن دیجیتالی نهاییشده انجام میشود و لایهها و ماموران تصمیمگیری زیادی وجود دارد. در نتیجه، سوگیریها به طور تصاعدی افزایش مییابند.
خلأها و سوگیریها
در عصر وفور اطلاعات و سیل کلانداده، شگفتآور نیست که غیبت داده هنوز به مشکلی بزرگ تبدیل نشده است. سازمانهای میراث همواره تلاش کردهاند نمایشهای عمومی اجرا کنند و کارهای پشتصحنه مستندسازی اشیا را انجام ندهند. بنابراین، اسناد مجموعههایی که حالا دیجیتالی مدیریت میشوند اغلب جزئیات ندارند. پرورشدهندههای محتوا میدانند اسناد نسبی هستند و میکوشند هرجا میتوانند بر این موضوع غلبه کنند. به همین طریق، محققان علوم انسانی و هنر بهجای اینکه در سکوت محترمانه در اتاقهای نهادها بنشینند و اسناد فرهنگی را بخوانند، با مجموعههای دیجیتالی کار میکنند و اخیراً منابع را «خلاف جریان آب» میخوانند. متخصصان اخیراً شروع کردهاند به برجسته کردن موارد غیبت از طریق تبدیل خلأ، حذف و سوگیری به موضوع تحقیقاتی و قرار دادن این موارد غیبت در راهکار تحقیقات دیجیتالی به عنوان عوامل سازنده برای نتایج.
در تحقیقات اخیر میتوانیم طیف متنوعی از روشهای «برخورد با غیبت» در مجموعهها را از نظر روشی و همچنین کارکردی ببینیم. محققان رویکردهای الگوریتمی موجود در قبال غیبت و سوگیری در علوم انسانی دیجیتالی را به طور کامل بررسی میکنند. افزایش حضور دیجیتالی، بازنمایی و تعامل با دادهها منجر به تداوم و احیای این رویکردها شدهاند. محققان خواستار ارزیابی مجدد عوامل اجتماعی و فرهنگیای هستند که باعث بروز غیبت در مجموعههای دیجیتالی میشوند. یکی از مثالهای جالب، پروژه «چهره واقعی استرالیای سفید» (The real face of White Australia) بود که ابتدا «استرالیاییهای نامرئی» ( Invisible Australians) نام داشت و به دست کیت بگنال و تیم شرات خلق شده بود. از طرف دیگر، تامس پادیلا بهروشنی میگوید: «غیبت داده را باید ویژگی جداییناپذیر تلقی کرد نه باگی که باید برطرف شود.» این نگرش بخشی از جنبش میانرشتهای برای «تایید کیفی سامانمند غیبت داده به عنوان ابزار هموار کردن زمین برای ارائه مفهوم اصلاحشده نمایندگی» است.
یکی از روشهای برخورد با خلأها و غیبتها در مجموعهها این است که آنها را مرئی سازیم. کتاب مهم لورن کلاین به نام «تصویر غیبت: سکوت آرشیو، تجسم داده و جیمز همینگز» (The Image of Absence: Archival Silence, Data Visualization, and James Hemings ) نشان میدهد چگونه مجموعه فنونی که از رشتههای زبانشناسی کامپیوتری و تجسم داده یا بصریسازی داده میآیند میتوانند سکوت آرشیو را در رشته وسیعتر دیجیتالی آشکار کنند.
مطلب عالی شانون مترن درباره «چگونه نقشه هیچ را بکشیم» (How to Map Nothing) نشان میدهد چگونه نقشهنگارها و مدیران اطلاعات در تلاش برای برجسته کردن سکوتها و غیبتها اخیراً با چند پروژه ترسیم نقشه و دیداریسازی دیجیتالی همکاری کردهاند تا هیچ را مستند کنند. این کار با کمک فنون پردازش و دیداریسازی جدید انجام میپذیرد؛ از جمله یادگیری ماشین.
یکی دیگر از راههای رسیدگی به خلأها و سوگیریها در مجموعههای میراث فرهنگی، تغییر تفکر است به گونهای که مجموعهها داده به شمار روند و اشیای گسسته محسوب نشوند. به عبارت دقیقتر، تغییر تفکر به معنی بررسی چگونگی حضور غیبتها و سوگیریها در کلانداده و تاثیر این غیبت و سوگیری بر نتایج و خروجیهای فرایندهای تحلیل دیجیتالی است. انتقاد درباره اهمیت درک دادههای نسبی یا سوگیرانه در تحقیقات دیجیتالی و میراث فرهنگی دیجیتالی، موضوع جدیدی نیست، بهویژه در سطح نظری و روششناختی و حتی نهادی. اما مطالعات نسبتاً کمی انجام شده که پیامدهای دادههای غایب یا دادههای سوگیرانه در خروجیهای تحقیق را واقعاً بررسی میکنند.
رایان و آهنرت (Ahnert) در مقاله اخیرشان درباره شبکههای نامهنگاری تاریخی و عظیم، بر این موضوع تمرکز کردند که نتایج تحلیل شبکهای کمی تا چه حد تحت تاثیر دادههای غایب قرار میگیرد. این محققان استدلال میکنند «یکی از جنبههای مهم این فرآوری داده، درک فقدانها و علاوه بر این، در صورت امکان، بررسی تاثیر فقدان بر نتایج کمی است. این نتایج میتوانند برای مثال شاخصهای شبکه باشند اما در حالت کلیتر: همان فن ممکن است برای برنامههای استخراجشده از کار مطالعات ادبی کامپیوتری یا علوم انسانی فضایی به کار رود».
به همین ترتیب، متیو لینکولن و ساندرا ون کیونوون از ابزارهای آماری مانند شبیهسازی داده برای مدلسازی تاثیر فقدان دادههای منبع بر نتایج و خروجیهای کمی استفاده میکنند. به گفته این محققان، روشهای آماری مذکور «به ما اجازه میدهند مفروضات متعدد و گاهی متضاد درباره ماهیت فقدان داده را درک کنیم. با این کار، این مفاهیم به ما امکان میدهند ارزیابی کنیم قضاوتهای خاص چگونه ممکن است مفروضاتشان را از طریق تغییراتی که در منابعمان ایجاد میکنیم اشاعه دهند».
در تحقیقی دیگر، گروهی از محققان از پروژه «زندگی با ماشینها» استدلال میکنند: «باید نوع جدیدی از نقد منبع (source criticism) به وجود آید که به طور آشکار به موضوعات نمایندگی و سوگیری در مجموعههای میراث فرهنگی رسیدگی میکند.» این کار را میتوان از طریق اعمال فنون متنکاوی بر مجموعههای عظیم روزنامههای دیجیتالیشده انجام داد تا نقشه گذارهای فرهنگی را در مقیاسی کلان ترسیم کرد. محققان نامبرده «پایش محیطی» (Environmental Scan) را پیشنهاد میدهند که رویکردی جدید برای خواندن منابع تاریخی در مقیاس کلان در زمینهشان و رسیدگی به مشکلات سوگیری در میراث دیجیتالی است. آنها ادعا میکنند: «هدفمان نباید استفاده از بینشهایمان برای فرآوری کردن یک نمونه عالی باشد. این کار احمقهاست. برعکس، هدف باید استفاده از درک بهبودیافتهمان درباره داده باشد تا تحلیلهایمان را آگاهانه و ظرافتهایی را به تفسیرهایمان اضافه کنیم.»
سرانجام، تقاضا برای استفاده از مجموعههای میراث فرهنگی به عنوان دادههای آموزشی مدلهای زبانی بزرگ در حوزه یادگیری ماشین افزایش یافته است و ملاحظات جدیدی درباره سوگیریها و غیبتها در مجموعهها وجود دارد. باید از طریق همکاری عمیقتر بین نهادها و صاحبان منافع، این موارد را بررسی کرد.
الگوی مدیریت مسئولانه سوگیری
رویکرد رادیکال مشابهی برای مدیریت سوگیری به عنوان ویژگی ذاتی اسناد تاریخی و فرهنگی در بطن مباحث میانرشتهای پروژه «عملیات مسئولانه: علم داده، یادگیری ماشین و هوش مصنوعی در کتابخانهها» نیز پیشه شده است. این کار جایگزین تلاش برای حذف یا از بین بردن سوگیری در دادههایمان است؛ «چیزی که باید درک و بیان شود نه حل».
گروه عملیات مسئولانه در ادامه نهادهای فرهنگی، متخصصان میراث و محققان را تشویق میکنند تا راهکارهایی اتخاذ کنند که به آنها کمک میکند درباره مجموعهدادهها و مدلهایشان شفاف باشند. چنین کاری از طریق کاربرد Datasheets و کارتهای مدل انجام میشود. به گفته پادیلا، «عملیات مسئولانه مستلزم این است که رسیدگی مستمر به سوگیریهای انسانی در دادههای آموزشی، مدلهای یادگیری زبان و خروجیها انجام شود. برخلاف برخی نظراتی که سوگیری الگوریتمی یا سوگیری در داده را قابل محدودسازی تلقی میکنند، شاید بهتر باشد بر رویکردهایی تمرکز کنیم که هدفشان مدیریت سوگیری است. مدیریت سوگیری بهجای تلاش برای حذف آن، از این درک حاصل شده که حذف امکانپذیر نیست زیرا حذف خود نوعی سوگیری است- در نهایت نوعی دور باطل است».
تغییر زاویه دید از حذف سوگیری به الگوی مدیریت مسئولانه سوگیری، این واقعیت را برجسته میکند و رسیدگی مسئولانه به سوگیری و غیبت در جریانهای کاری متداول نهادهای میراث فرهنگی و راهکارهای تحقیقات دیجیتالی روزمرهمان را اشاعه میدهد. در نهایت، به کار گرفتن چنین روحیهای در کارمان در Congruence Engine که بخشی از برنامه «به سوی جمعآوری ملی» است، باید جزو نیازمندیهای زیرساخت مجموعههای میراث فرهنگی دیجیتالی باشد؛ بهویژه هنگام رسیدگی به دادههای میراث فرهنگی در مقیاس کلان.
منبع: ساینس میوزم گروپ