چرا ۸۵ درصد از مدلهای هوش مصنوعی شما ممکن است شکست بخورند؟
برای سازمانهایی در حوزهی زنجیره تأمین، بهویژه در صنایع توزیع، تولید، لجستیک و تعمیر و نگهداری، انتظار میرود هوش مصنوعی به گسترش اقتصاد چرخشی، بهبود تحویل محصولات، افزایش حاشیه سود و کاهش ریسکهای بازار کمک کند.
جمیل فرانسیس مدیرعامل شرکت فناوری کور (Kore Technologies) است، شرکتی که نرمافزار اتوماسیون داده ارائه میدهد و به سازمانها در پیشبرد رشد و سودآوری کمک میکند. طبق گفته گارتنر (از طریق VentureBeat)، 85 درصد از تمام مدلها پروژههای هوش مصنوعی به دلیل کیفیت پایین داده یا کمبود یا عدم وجود دادههای مرتبط شکست میخورند.
مدلهای هوش مصنوعی با دادههای ناقص شکست میخورند
کیفیت داده به شرایط دادهای مبتنی بر عواملی مانند دقت، سازگاری، کامل بودن، دادههای واقعی و در لحظه، ارتباط داشتن مجموعه دادهها با یکدیگر، منحصر به فرد بودن و یکپارچگی اشاره دارد. اگر عناصر کیفیت داده در هنگام آموزش مدلهای هوش مصنوعی حفظ نشوند، سازمانها به پتانسیل کامل هوش مصنوعی دست نخواهند یافت.
تروی دمیر، یکی از بنیانگذاران گکو روبوتیکس که در زمینه توسعه رباتها و نرمافزارهای بازرسی و نگهداری زیرساختهای صنعتی فعالیت میکند؛ در کمیته امنیت داخلی مجلس نمایندگان ایالات متحده در سال ۲۰۲۴ توضیح داد: کاربردهای هوش مصنوعی به اندازه دادههایی که روی آنها آموزش دیدهاند، بستگی دارند و هرچه دادههای با کیفیت در دسترس باشد کارایی آن بالاتر خواهد رفت.
بنابراین هوش مصنوعی قابل اعتماد به ورودیهای دادهای قابل اعتماد نیاز دارد. به طور خاص برای سازمانهای زنجیره تأمین، افزایش هزینههای عملیاتی مرتبط با دادههای ناقص میتواند در انبار اضافی، تأخیر در تحویل، کمبود موجودی یا هزینههای سوخت اضافی منعکس شود.
رایجترین شکستهای مدلهای هوش مصنوعی
برخی از رایجترین شکستهای مدلهای هوش مصنوعی که شامل دادههای ناکافی هستند عبارتند از:
بیشبرازش ( Overfitting ): زمانی که مدلهای هوش مصنوعی بیش از حد به الگوریتم پایبند هستند و دادههای آموزش ندیده را در نظر نمیگیرند. به عبارت دیگر، مدل به طور «بیش از حد» با دادههای آموزشی «برازش» پیدا میکند.
غفلت از موارد حاشیهای ( Edge-case neglection ): سناریویی که به ندرت رخ میدهد و توسط مدلهای هوش مصنوعی نادیده گرفته میشود، اما یکی از دلایل مهم شکست مدلهای هوش مصنوعی است. این مشکل زمانی رخ میدهد که مدل در طول آموزش، با نمونههای غیرمعمول یا نادر (موارد حاشیهای) به اندازه کافی مواجه نمیشود و در نتیجه، در مواجهه با این موارد در دنیای واقعی، عملکرد ضعیفی از خود نشان میدهد و حتی ممکن است اشتباهات بحرانی مرتکب شود.
وابستگی به همبستگی ( Correlation dependency ): زمانی که یک مدل هوش مصنوعی به دلیل همبستگی سطحی، فرضهای نادرستی میکند و منجر به نتایج غیرقابل اعتماد میشود. این مشکل زمانی رخ میدهد که مدل به جای شناسایی روابط علت و معلولی واقعی بین متغیرها، صرفاً به وجود همبستگی آماری بین آنها اکتفا میکند و بر اساس آن تصمیمگیری میکند.
سوگیری داده ( Data bias ): زمانی که مدلهای هوش مصنوعی بر اساس دادههای ناقص آموزش داده میشوند در نتیجه نتایجی را ایجاد میکنند که یک گروه خاص را در معرض ضرر قرار میدهد.
کمبرازش ( Underfitting ): زمانی که الگوریتمهای هوش مصنوعی برای آموزش موثر بر دادههای ارائه شده، به اندازه کافی قوی نیستند. نقطه مقابل بیشبرازش یعنی در کمبرازش، مدل به قدری ساده است که حتی نمیتواند الگوهای اصلی دادههای آموزشی را یاد بگیرد و در نتیجه هم در دادههای آموزشی و هم در دادههای جدید عملکرد ضعیفی دارد.
انحراف داده ( Data drift ): ناتوانی یک مدل هوش مصنوعی در تطبیق با تغییرات دادهها در طول زمان اتفاق میافتد. با این وجود، توانایی ادغام منابع داده مختلف به سازمان شما امکان میدهد تا مجموعه دادههای با کیفیتی را که برای توسعه و بهرهبرداری از مدلها و ابزارهای هوش مصنوعی مورد نیاز است، داشته باشد.
مدیریت کیفیت داده (DQM)
علاوه بر استفاده از یک روش یکپارچهسازی داده، سازمان باید رویکردی جامع برای اطمینان از استفاده مدلهای هوش مصنوعی از دادههای با بالاترین کیفیت اتخاذ کند. دو روش اصلی برای ایجاد زیرساختی برای اطمینان از کیفیت بالای داده وجود دارد:
۱.اجرای روشهای یکپارچهسازی داده
۲.ایجاد یک برنامه جامع مدیریت کیفیت داده (DQM)
فعال کردن و حفظ کیفیت داده ممکن است در زمانی که سازمان شما میخواهد به سرعت با هوش مصنوعی به بازار عرضه شود، پراهمیت است.
هوش مصنوعی به عنوان یکی از قدرتمندترین فناوریهای عصر حاضر، پتانسیل بالایی برای تحول در صنایع و کسبوکارها دارد. با این حال، علیرغم پیشبینیها مبنی بر توانمندی روزافزون این فناوری، دستیابی به مزایای واقعی آن بدون توجه به یک عامل حیاتی، یعنی «کیفیت داده»، تقریباً غیرممکن است. گزارشها نشان میدهند که درصد قابل توجهی از پروژههای هوش مصنوعی، حدود ۸۵ درصد، به دلیل مشکلات مرتبط با دادهها، از جمله کیفیت پایین، کمبود یا عدم وجود دادههای مناسب، با شکست مواجه میشوند. این موضوع اهمیت پرداختن به چالشهای مربوط به دادهها را در پروژههای هوش مصنوعی بیش از پیش نمایان میسازد.
هوش مصنوعی (AI) روزانه با تغییرات جالب در سیستمها توجه جهان را بیشتر به به خود جلب میکند. این فناوری نشان از تحول در مراقبتهای بهداشتی، تحریک رشد اقتصادی و تقویت نوآوری است. با این حال، وعدهها و قابلیتهای کامل هوش مصنوعی هنوز در مراحل ابتدایی خود هستند. با گذشت زمان، هوش مصنوعی میتواند همه صنایع اصلی و بازارهای سرمایه را به روشی مشابه انقلاب صنعتی متحول کند، همانطور که انقلاب صنعتی از دهه 1760 به بعد شهرنشینی، سرمایهداری، نوآوری و ساختارهای شرکتی را تقویت کرد.
برای سازمانهایی در حوزهی زنجیره تأمین، بهویژه در صنایع توزیع، تولید، لجستیک و تعمیر و نگهداری، انتظار میرود هوش مصنوعی به گسترش اقتصاد چرخشی، بهبود تحویل محصولات، افزایش حاشیه سود و کاهش ریسکهای بازار کمک کند.
جمیل فرانسیس مدیرعامل شرکت فناوری کور (Kore Technologies) است، شرکتی که نرمافزار اتوماسیون داده ارائه میدهد و به سازمانها در پیشبرد رشد و سودآوری کمک میکند. او در این مورد میگوید؛ با این حال، به همان اندازه که پیشبینی میشود هوش مصنوعی قدرتمند شود، دستیابی به مزایای مورد انتظار بدون کیفیت داده غیرممکن خواهد بود. طبق گفته گارتنر (از طریق VentureBeat)، 85 درصد از تمام مدلها پروژههای هوش مصنوعی به دلیل کیفیت پایین داده یا کمبود یا عدم وجود دادههای مرتبط شکست میخورند.
مدلهای هوش مصنوعی با دادههای ناقص شکست میخورند
کیفیت داده به شرایط دادهای مبتنی بر عواملی مانند دقت، سازگاری، کامل بودن، دادههای واقعی و در لحظه، ارتباط داشتن مجموعه دادهها با یکدیگر، منحصر به فرد بودن و یکپارچگی اشاره دارد. اگر عناصر کیفیت داده در هنگام آموزش مدلهای هوش مصنوعی حفظ نشوند، سازمانها به پتانسیل کامل هوش مصنوعی دست نخواهند یافت.
تروی دمیر، یکی از بنیانگذاران گکو روبوتیکس که در زمینه توسعه رباتها و نرمافزارهای بازرسی و نگهداری زیرساختهای صنعتی فعالیت میکند؛ در کمیته امنیت داخلی مجلس نمایندگان ایالات متحده در سال ۲۰۲۴ توضیح داد: کاربردهای هوش مصنوعی به اندازه دادههایی که روی آنها آموزش دیدهاند، بستگی دارند و هرچه دادههای با کیفیت در دسترس باشد کارایی آن بالاتر خواهد رفت.
بنابراین هوش مصنوعی قابل اعتماد به ورودیهای دادهای قابل اعتماد نیاز دارد. به گفته دمیر در این جلسه، حتی پیشرفتهترین مدلهای هوش مصنوعی که به دادههای ناقص متکی هستند، توانایی آمریکا را برای مدیریت و حفظ زیرساختهای حیاتی خود محدود میکنند. کیفیت پایین داده نه تنها بر امنیت ملی تأثیر منفی میگذارد، بلکه بر سود و زیان سازمانها نیز تأثیر میگذارد.
به عنوان مثال، طبق گزارش گارتنر در سال ۲۰۲۱، کیفیت پایین داده به طور متوسط سالانه ۱۲.۹ میلیون دلار برای سازمانها هزینه دارد. به طور خاص برای سازمانهای زنجیره تأمین، افزایش هزینههای عملیاتی مرتبط با دادههای ناقص میتواند در انبار اضافی، تأخیر در تحویل، کمبود موجودی یا هزینههای سوخت اضافی منعکس شود.
رایجترین شکستهای مدلهای هوش مصنوعی
برخی از رایجترین شکستهای مدلهای هوش مصنوعی که شامل دادههای ناکافی هستند عبارتند از:
بیشبرازش ( Overfitting ): زمانی که مدلهای هوش مصنوعی بیش از حد به الگوریتم پایبند هستند و دادههای آموزش ندیده را در نظر نمیگیرند. یعنی بیشبرازش زمانی اتفاق میافتد که یک مدل یادگیری ماشین، به جای یادگیری الگوهای کلی و معنادار در دادههای آموزشی، تمام جزئیات، نویزها و حتی دادههای پرت (outliers) موجود در دادههای آموزشی را نیز به خاطر میسپارد. به عبارت دیگر، مدل به طور «بیش از حد» با دادههای آموزشی «برازش» پیدا میکند.
غفلت از موارد حاشیهای ( Edge-case neglection ): سناریویی که به ندرت رخ میدهد و توسط مدلهای هوش مصنوعی نادیده گرفته میشود، اما یکی از دلایل مهم شکست مدلهای هوش مصنوعی است. این مشکل زمانی رخ میدهد که مدل در طول آموزش، با نمونههای غیرمعمول یا نادر (موارد حاشیهای) به اندازه کافی مواجه نمیشود و در نتیجه، در مواجهه با این موارد در دنیای واقعی، عملکرد ضعیفی از خود نشان میدهد و حتی ممکن است اشتباهات بحرانی مرتکب شود.
وابستگی به همبستگی ( Correlation dependency ): زمانی که یک مدل هوش مصنوعی به دلیل همبستگی سطحی، فرضهای نادرستی میکند و منجر به نتایج غیرقابل اعتماد میشود. این مشکل زمانی رخ میدهد که مدل به جای شناسایی روابط علت و معلولی واقعی بین متغیرها، صرفاً به وجود همبستگی آماری بین آنها اکتفا میکند و بر اساس آن تصمیمگیری میکند.
سوگیری داده ( Data bias ): زمانی که مدلهای هوش مصنوعی بر اساس دادههای ناقص آموزش داده میشوند در نتیجه نتایجی را ایجاد میکنند که یک گروه خاص را در معرض ضرر قرار میدهد.
کمبرازش ( Underfitting ): زمانی که الگوریتمهای هوش مصنوعی برای آموزش موثر بر دادههای ارائه شده، به اندازه کافی قوی نیستند. نقطه مقابل بیشبرازش یعنی در کمبرازش، مدل به قدری ساده است که حتی نمیتواند الگوهای اصلی دادههای آموزشی را یاد بگیرد و در نتیجه هم در دادههای آموزشی و هم در دادههای جدید عملکرد ضعیفی دارد.
انحراف داده ( Data drift ): ناتوانی یک مدل هوش مصنوعی در تطبیق با تغییرات دادهها در طول زمان اتفاق میافتد. ساختن یک پایه قوی برای مدلهای هوش مصنوعی هستند. زمانی رخ میدهد که توزیع دادههایی که مدل هوش مصنوعی با آنها آموزش دیده است، با توزیع دادههایی که مدل در دنیای واقعی با آنها مواجه میشود، به مرور زمان تغییر میکند. این تغییر میتواند به دلایل مختلفی رخ دهد و باعث کاهش دقت و کارایی مدل شود. به عبارت دیگر، مدلی که قبلاً عملکرد خوبی داشته، به دلیل تغییر در دادهها، دیگر نمیتواند به درستی پیشبینی کند.
یکپارچهسازی دادهها
توسعه تحول دیجیتال، در گذشته سیستمهای غیرمتصل را به صورت آنلاین آورده و تولید دادههای جهانی را به میزان قابل توجهی افزایش داده است. به عنوان مثال، طبق Statista، پیشبینی میشود که تولید دادههای جهانی تا پایان سال ۲۰۲۵ به بیش از ۱۸۰ زتابایت برسد. با وجود چنین حجم عظیمی از دادهها، داشتن دادههای با کیفیت با داشتن یک تصویر کامل از اطلاعات تولید شده توسط سازمان شما آغاز میشود.
رشد دادهها در سالهای اخیر برای سازمانهای زنجیره تأمین که معمولاً در پذیرش فناوریهای مدرن کندتر هستند، حتی عمیقتر است. اتصال منابع دادههای مختلف اپراتورهای زنجیره تأمین مانند پایگاههای داده ERP، TMS و WMS از طریق روشهای یکپارچهسازی داده امکانپذیر است. یکپارچهسازی داده، منابع، سیستمها و قالبهای اطلاعات مختلف را قبل از تمیز کردن و تبدیل دادهها به یک دیدگاه واحد، جمعآوری میکند.
روشهای مختلف یکپارچهسازی دادهها
چندین روش برای یکپارچهسازی دادهها وجود دارد، از جمله:
یکپارچهسازی مبتنی بر میانافزار :
دادههای بلادرنگ را از فناوریها، پایگاههای داده و ابزارهای مختلف پلزنی میکند. در این روش، از یک نرمافزار واسط (میانافزار) برای ارتباط و تبادل داده بین سیستمهای مختلف استفاده میشود. میانافزار به عنوان پلی بین سیستمهای ناهمگن عمل میکند و امکان تبادل دادهها را بدون نیاز به تغییرات اساسی در سیستمهای اصلی فراهم میکند. این روش برای یکپارچهسازی دادههای بلادرنگ (Real-time) بسیار مناسب است.
انعطافپذیری بالا، قابلیت تطبیق با سیستمهای مختلف، امکان تبادل داده در لحظه و کاهش پیچیدگی این روش یکپارچهسازی محسوب میشود. نصب و پیکربندی میانافزار نیازمند دانش فنی و تخصصی است. ممکن است لازم باشد تنظیمات پیچیدهای انجام شود تا میانافزار به درستی با سیستمهای مختلف سازگار شود. خرید، نصب و نگهداری میانافزار میتواند هزینهبر و زمانبر باشد.
استخراج، تبدیل و بارگذاری (ETL):
حجم زیادی از دادهها را از منابع مختلف داده، تقریباً در زمان واقعی، ترکیب میکند و دادهها را برای تجزیه و تحلیل در یک محیط ذخیرهسازی واحد مرحلهبندی میکند. این روش فرآیندی در علم داده و انبار داده است که دادهها را از منابع مختلف جمعآوری، پاکسازی، تغییر شکل و در نهایت در یک مخزن داده (مانند انبار داده یا Data Warehouse) بارگذاری میکند. هدف اصلی ETL، آمادهسازی دادهها برای تحلیل و گزارشگیری است.
استخراج، بارگذاری و تبدیل (ELT):
علاوه بر ETL، رویکرد دیگری به نام ELT (استخراج، بارگذاری، تبدیل) نیز وجود دارد. در ELT، ابتدا دادهها به صورت خام در مخزن داده بارگذاری میشوند و سپس عملیات تبدیل در همان مخزن انجام میشود. ELT معمولاً برای دادههای حجیم و محیطهای ابری مناسبتر است. دادهها هنگام ورود به محیط ذخیرهسازی تبدیل نمیشوند، بلکه به صورت فرمت اصلی خود ذخیره میشوند تا زمانهای بارگذاری سریعتر شود.
یکپارچهسازی نقطه به نقطه (P2P):
یک روش ساده برای اتصال مستقیم دو سیستم نرمافزاری به یکدیگر است. در این روش، از کد سفارشی (Custom Code) یا رابطهای برنامهنویسی کاربردی (API) برای ایجاد ارتباط مستقیم بین دو سیستم استفاده میشود. این روش نسبتاً ساده است و میتواند به سرعت پیادهسازی شود، به خصوص برای اتصال دو سیستم که نیاز به تبادل داده محدودی دارند. توسعهدهندگان کنترل کاملی بر فرآیند یکپارچهسازی دارند و میتوانند آن را دقیقاً مطابق با نیازهای خود پیکربندی کنند.
یکپارچهسازی مبتنی بر ابر :
یکپارچهسازی مبتنی بر ابر (Cloud-based Integration) به اتصال و تبادل داده بین برنامهها و سیستمهای مختلف از طریق زیرساخت ابری اشاره دارد. این نوع یکپارچهسازی، امکان اتصال برنامههای مستقر در ابر (Cloud-based Applications) با یکدیگر و همچنین اتصال آنها با سیستمهای درونسازمانی (On-Premise Systems) را فراهم میکند.
یکی از مهمترین ویژگیهای یکپارچهسازی ابری، انعطافپذیری و مقیاسپذیری آن است. با استفاده از این روش، سازمانها میتوانند به راحتی سیستمهای جدید را به زیرساخت خود اضافه یا حذف کنند و ظرفیت پردازش و ذخیرهسازی را بر اساس نیاز خود افزایش یا کاهش دهند.
انتخاب روش یکپارچهسازی داده به عوامل مختلفی مانند محیط میزبانی، نیازهای تجاری و فنی و بودجه بستگی دارد. با این وجود، توانایی ادغام منابع داده مختلف به سازمان شما امکان میدهد تا مجموعه دادههای با کیفیتی را که برای توسعه و بهرهبرداری از مدلها و ابزارهای هوش مصنوعی مورد نیاز است، داشته باشد.
مدیریت کیفیت داده (DQM)
علاوه بر استفاده از یک روش یکپارچهسازی داده، سازمان باید رویکردی جامع برای اطمینان از استفاده مدلهای هوش مصنوعی از دادههای با بالاترین کیفیت اتخاذ کند. در همین موضوع است که مدیریت کیفیت داده (DQM) وارد عمل میشود و اهمیت بیشتر پیدا میکند. طبق موسسه SAS ،DQM باجمعآوری فرهنگ سازمانی، سیاستها، فناوری و دادهها به تولید نتایج دقیق و مفید کمک میکند.
اولین قدم در اجرای DQM در تیم شما، حکمرانی داده است که مسئولیتها، استانداردها و نقشها را پوشش میدهد. حکمرانی داده شرکت شما باید نوع داده و مناطقی که اطلاعات در آنها ذخیره یا پردازش میشوند را در نظر بگیرد. به عنوان مثال، دادههای مرتبط با سلامت در ایالات متحده باید دستورالعملهای قانون قابلیت حمل و پاسخگویی بیمه سلامت (HIPAA) را در نظر بگیرند، در حالی که سازمانهای اروپایی باید قوانین مقررات عمومی حفاظت از دادهها (GDPR) را در نظر بگیرند.
دومین مورد در مدیریت، در تیم سازمانی باید فرهنگی ایجاد شود که تولید دادههای با کیفیت را اولویتبندی کنند. این کار از رهبری سازمان آغاز میشود و به تحلیلگران دادهای که سیستمهای داده را مدیریت میکنند، گسترش مییابد. اگر دادههای با کیفیت در مجموعه بهعنوان یک امر حیاتی در نظر گرفته نشود، مشکلاتی مانند دادههای ناقص و قدیمی به روال عادی تبدیل خواهند شد. در نهایت، سازمان باید فناوریهایی را اتخاذ کند که به پاکسازی، اعتبارسنجی، نظارت بر کیفیت و حل مشکلات داده کمک میکنند.
داشتن دادههای با کیفیت یک الزام برای توسعه مدلها و ابزارهای دقیق هوش مصنوعی است. به همین دلیل، سازمان شما باید اطمینان حاصل کند که دادههای انتخابشده برای آموزش مدلهای هوش مصنوعی دقیق، کامل و بهروز هستند. دو روش اصلی برای ایجاد زیرساختی برای اطمینان از کیفیت بالای داده وجود دارد:
۱.اجرای روشهای یکپارچهسازی داده
۲.ایجاد یک برنامه جامع مدیریت کیفیت داده (DQM)
فعال کردن و حفظ کیفیت داده ممکن است در زمانی که سازمان شما میخواهد به سرعت با هوش مصنوعی به بازار عرضه شود، پراهمیت است. با این حال، نادیده گرفتن این مرحله پرهزینه خواهد بود و سبب میشود احتمال شکست ۸۵ درصد از مدلهای هوش مصنوعی شما افزایش یابد.