- 09121990309 - 01343449625
- منطقه آزاد انزلی، مجتمع ستاره شمال، شماره 2218
دشمنان میتوانند به عمد سیستمهای هوش مصنوعی (AI) را اشتباه گرفته یا حتی «مسموم» کنند تا آنها را خراب کنند – و هیچ دفاعی بیخطری وجود ندارد که توسعهدهندگان آنها بتوانند از آن استفاده کنند. دانشمندان رایانه از مؤسسه ملی استاندارد و فناوری (NIST) و همکارانشان این آسیبپذیریها و سایر آسیبپذیریهای هوش مصنوعی و یادگیری ماشین (ML) را در یک انتشار جدید شناسایی کردند.
کار آنها با عنوان یادگیری ماشین متخاصم: طبقهبندی و اصطلاحات حملات و کاهشها (NIST.AI.100-2) ، بخشی از تلاش گستردهتر NIST برای حمایت از توسعه هوش مصنوعی قابل اعتماد است و میتواند به ایجاد چارچوب مدیریت ریسک هوش مصنوعی NIST کمک کند. در عمل. این نشریه که همکاری بین دولت، دانشگاه و صنعت است، قصد دارد به توسعه دهندگان و کاربران هوش مصنوعی کمک کند تا انواع حملاتی را که ممکن است انتظار داشته باشند همراه با رویکردهایی برای کاهش آنها – با درک اینکه هیچ گلوله نقره ای وجود ندارد، کنترل کنند.
Apostol Vassilev، دانشمند کامپیوتر NIST، یکی از نویسندگان این نشریه، گفت: “ما یک مرور کلی از تکنیک ها و روش های حمله ارائه می دهیم که همه انواع سیستم های هوش مصنوعی را در نظر می گیرند.” ما همچنین استراتژیهای کاهش فعلی گزارششده در ادبیات را توصیف میکنیم، اما این دفاعهای موجود در حال حاضر فاقد تضمین قوی هستند که خطرات را به طور کامل کاهش میدهند. ما جامعه را تشویق می کنیم که دفاع بهتری ارائه دهد.»
سیستمهای هوش مصنوعی در جامعه مدرن نفوذ کردهاند و در ظرفیتهایی از رانندگی وسایل نقلیه گرفته تا کمک به پزشکان در تشخیص بیماریها تا تعامل با مشتریان بهعنوان رباتهای گفتگوی آنلاین کار میکنند. برای یادگیری انجام این وظایف، آنها بر روی مقادیر زیادی داده آموزش می بینند: به عنوان مثال، یک وسیله نقلیه خودران ممکن است تصاویری از بزرگراه ها و خیابان ها با علائم جاده نشان داده شود، در حالی که یک ربات چت مبتنی بر یک مدل زبان بزرگ (LLM) ممکن است در معرض سوابق مکالمات آنلاین این دادهها به هوش مصنوعی کمک میکند تا پیشبینی کند که در یک موقعیت خاص چگونه پاسخ دهد.
یک مسئله مهم این است که خود داده ها ممکن است قابل اعتماد نباشند. منابع آن ممکن است وب سایت ها و تعاملات با مردم باشد. فرصتهای زیادی برای بازیگران بد وجود دارد که این دادهها را خراب کنند – هم در طول دوره آموزشی یک سیستم هوش مصنوعی و هم پس از آن، در حالی که هوش مصنوعی با تعامل با دنیای فیزیکی به اصلاح رفتارهای خود ادامه میدهد. این می تواند باعث شود که هوش مصنوعی به شیوه ای نامطلوب عمل کند. برای مثال، رباتهای چت ممکن است یاد بگیرند که با زبان توهینآمیز یا نژادپرستانه پاسخ دهند، وقتی که نردههای محافظ آنها توسط پیامهای مخرب بهدقت طراحیشده دور زده میشود.
واسیلیف گفت: “در بیشتر موارد، توسعه دهندگان نرم افزار به افراد بیشتری نیاز دارند تا از محصول خود استفاده کنند تا با قرار گرفتن در معرض بهتر شود.” اما هیچ تضمینی وجود ندارد که نوردهی خوب باشد. یک ربات چت میتواند اطلاعات بد یا سمی را هنگامی که با زبانی که به دقت طراحی شده است، منتشر کند.»
تا حدی به این دلیل که مجموعه دادههای مورد استفاده برای آموزش یک هوش مصنوعی بسیار بزرگ است که افراد نتوانند با موفقیت آن را نظارت و فیلتر کنند، هنوز هیچ راه اشتباهی برای محافظت از هوش مصنوعی در برابر هدایت اشتباه وجود ندارد. برای کمک به جامعه توسعه دهندگان، گزارش جدید مروری بر انواع حملاتی که محصولات هوش مصنوعی آن ممکن است متحمل شوند و رویکردهای مربوطه برای کاهش آسیب ارائه می دهد.
این گزارش چهار نوع اصلی حمله را در نظر می گیرد: فرار، مسمومیت، حریم خصوصی و حملات سوء استفاده. همچنین آنها را بر اساس معیارهای متعددی مانند اهداف و مقاصد مهاجم، قابلیت ها و دانش طبقه بندی می کند.
حملات فرار ، که پس از استقرار یک سیستم هوش مصنوعی رخ میدهند، سعی میکنند یک ورودی را تغییر دهند تا نحوه واکنش سیستم به آن را تغییر دهند. مثالها عبارتند از افزودن علامتها به علائم توقف تا یک وسیله نقلیه خودران آنها را بهعنوان علائم محدودیت سرعت تعبیر نادرست کند یا ایجاد خطهای گیجکننده برای منحرف کردن خودرو از جاده.
حملات مسمومیت در مرحله آموزش با معرفی داده های خراب رخ می دهد. به عنوان مثال میتوان موارد متعددی از زبان نامناسب را در سوابق مکالمه وارد کرد، به طوری که یک ربات چت این نمونهها را بهاندازه کافی معمولی برای استفاده در تعامل با مشتری خود تفسیر میکند.
حملات حریم خصوصی ، که در حین استقرار رخ میدهند، تلاشهایی برای یادگیری اطلاعات حساس در مورد هوش مصنوعی یا دادههایی است که روی آن آموزش داده شده است تا از آن سوء استفاده شود. یک حریف می تواند از یک چت بات سؤالات قانونی متعدد بپرسد، و سپس از پاسخ ها برای مهندسی معکوس مدل استفاده کند تا نقاط ضعف آن را پیدا کند – یا منابع آن را حدس بزند. افزودن نمونههای نامطلوب به آن منابع آنلاین میتواند باعث شود هوش مصنوعی رفتار نامناسبی داشته باشد، و اینکه هوش مصنوعی آن نمونههای نامطلوب خاص را بعد از این واقعیت از یاد نگیرد، میتواند دشوار باشد.
حملات سوء استفاده شامل درج اطلاعات نادرست در یک منبع، مانند یک صفحه وب یا سند آنلاین است که یک هوش مصنوعی سپس آن را جذب می کند. برخلاف حملات مسمومسازی فوقالذکر، حملات سوء استفاده میکنند تا اطلاعات نادرستی را از یک منبع قانونی اما در معرض خطر به هوش مصنوعی برای استفاده مجدد از سیستم هوش مصنوعی ارائه دهند.
آلینا اوپریا، استاد دانشگاه نورث ایسترن، یکی از نویسندگان این مقاله می گوید: «بیشتر این حملات نسبتاً آسان هستند و به حداقل دانش سیستم هوش مصنوعی و توانایی های محدود دشمن نیاز دارند. به عنوان مثال، حملات مسمومیت را می توان با کنترل چند ده نمونه آموزشی، که درصد بسیار کمی از کل مجموعه آموزشی است، انجام داد.
نویسندگان – که شامل محققین Robust Intelligence Inc. Alie Fordyce و Hyrum Anderson نیز می شوند – هر یک از این دسته از حملات را به زیرمجموعه هایی تقسیم کرده و رویکردهایی را برای کاهش آنها اضافه کرده اند، اگرچه نشریه تصدیق می کند که دفاعی که کارشناسان هوش مصنوعی تاکنون برای حملات خصمانه ابداع کرده اند. در بهترین حالت ناقص هستند. واسیلوف گفت که آگاهی از این محدودیت ها برای توسعه دهندگان و سازمان هایی که به دنبال استقرار و استفاده از فناوری هوش مصنوعی هستند، مهم است.
او گفت: «علیرغم پیشرفت قابل توجهی که هوش مصنوعی و یادگیری ماشین داشتهاند، این فناوریها در برابر حملاتی آسیبپذیر هستند که میتوانند باعث شکستهای دیدنی با عواقب وخیم شوند. مشکلات نظری در مورد ایمن سازی الگوریتم های هوش مصنوعی وجود دارد که هنوز حل نشده اند. اگر کسی جور دیگری بگوید، روغن مار می فروشد.»
:Reference