NIST انواع حملات سایبری را شناسایی می کند که رفتار سیستم های هوش مصنوعی را دستکاری می کنند

دی ۲۳, ۱۴۰۲

دشمنان می‌توانند به عمد سیستم‌های هوش مصنوعی (AI) را اشتباه گرفته یا حتی «مسموم» کنند تا آنها را خراب کنند – و هیچ دفاعی بی‌خطری وجود ندارد که توسعه‌دهندگان آنها بتوانند از آن استفاده کنند. دانشمندان رایانه از مؤسسه ملی استاندارد و فناوری (NIST) و همکارانشان این آسیب‌پذیری‌ها و سایر آسیب‌پذیری‌های هوش مصنوعی و یادگیری ماشین (ML) را در یک انتشار جدید شناسایی کردند.
کار آنها با عنوان یادگیری ماشین متخاصم: طبقه‌بندی و اصطلاحات حملات و کاهش‌ها (NIST.AI.100-2) ، بخشی از تلاش گسترده‌تر NIST برای حمایت از توسعه هوش مصنوعی قابل اعتماد است و می‌تواند به ایجاد چارچوب مدیریت ریسک هوش مصنوعی NIST کمک کند. در عمل. این نشریه که همکاری بین دولت، دانشگاه و صنعت است، قصد دارد به توسعه دهندگان و کاربران هوش مصنوعی کمک کند تا انواع حملاتی را که ممکن است انتظار داشته باشند همراه با رویکردهایی برای کاهش آنها – با درک اینکه هیچ گلوله نقره ای وجود ندارد، کنترل کنند.
Apostol Vassilev، دانشمند کامپیوتر NIST، یکی از نویسندگان این نشریه، گفت: “ما یک مرور کلی از تکنیک ها و روش های حمله ارائه می دهیم که همه انواع سیستم های هوش مصنوعی را در نظر می گیرند.” ما همچنین استراتژی‌های کاهش فعلی گزارش‌شده در ادبیات را توصیف می‌کنیم، اما این دفاع‌های موجود در حال حاضر فاقد تضمین قوی هستند که خطرات را به طور کامل کاهش می‌دهند. ما جامعه را تشویق می کنیم که دفاع بهتری ارائه دهد.»
سیستم‌های هوش مصنوعی در جامعه مدرن نفوذ کرده‌اند و در ظرفیت‌هایی از رانندگی وسایل نقلیه گرفته تا کمک به پزشکان در تشخیص بیماری‌ها تا تعامل با مشتریان به‌عنوان ربات‌های گفتگوی آنلاین کار می‌کنند. برای یادگیری انجام این وظایف، آنها بر روی مقادیر زیادی داده آموزش می بینند: به عنوان مثال، یک وسیله نقلیه خودران ممکن است تصاویری از بزرگراه ها و خیابان ها با علائم جاده نشان داده شود، در حالی که یک ربات چت مبتنی بر یک مدل زبان بزرگ (LLM) ممکن است در معرض سوابق مکالمات آنلاین این داده‌ها به هوش مصنوعی کمک می‌کند تا پیش‌بینی کند که در یک موقعیت خاص چگونه پاسخ دهد.
یک مسئله مهم این است که خود داده ها ممکن است قابل اعتماد نباشند. منابع آن ممکن است وب سایت ها و تعاملات با مردم باشد. فرصت‌های زیادی برای بازیگران بد وجود دارد که این داده‌ها را خراب کنند – هم در طول دوره آموزشی یک سیستم هوش مصنوعی و هم پس از آن، در حالی که هوش مصنوعی با تعامل با دنیای فیزیکی به اصلاح رفتارهای خود ادامه می‌دهد. این می تواند باعث شود که هوش مصنوعی به شیوه ای نامطلوب عمل کند. برای مثال، ربات‌های چت ممکن است یاد بگیرند که با زبان توهین‌آمیز یا نژادپرستانه پاسخ دهند، وقتی که نرده‌های محافظ آنها توسط پیام‌های مخرب به‌دقت طراحی‌شده دور زده می‌شود.
واسیلیف گفت: “در بیشتر موارد، توسعه دهندگان نرم افزار به افراد بیشتری نیاز دارند تا از محصول خود استفاده کنند تا با قرار گرفتن در معرض بهتر شود.” اما هیچ تضمینی وجود ندارد که نوردهی خوب باشد. یک ربات چت می‌تواند اطلاعات بد یا سمی را هنگامی که با زبانی که به دقت طراحی شده است، منتشر کند.»
تا حدی به این دلیل که مجموعه داده‌های مورد استفاده برای آموزش یک هوش مصنوعی بسیار بزرگ است که افراد نتوانند با موفقیت آن را نظارت و فیلتر کنند، هنوز هیچ راه اشتباهی برای محافظت از هوش مصنوعی در برابر هدایت اشتباه وجود ندارد. برای کمک به جامعه توسعه دهندگان، گزارش جدید مروری بر انواع حملاتی که محصولات هوش مصنوعی آن ممکن است متحمل شوند و رویکردهای مربوطه برای کاهش آسیب ارائه می دهد.
این گزارش چهار نوع اصلی حمله را در نظر می گیرد: فرار، مسمومیت، حریم خصوصی و حملات سوء استفاده. همچنین آنها را بر اساس معیارهای متعددی مانند اهداف و مقاصد مهاجم، قابلیت ها و دانش طبقه بندی می کند.
حملات فرار ، که پس از استقرار یک سیستم هوش مصنوعی رخ می‌دهند، سعی می‌کنند یک ورودی را تغییر دهند تا نحوه واکنش سیستم به آن را تغییر دهند. مثال‌ها عبارتند از افزودن علامت‌ها به علائم توقف تا یک وسیله نقلیه خودران آن‌ها را به‌عنوان علائم محدودیت سرعت تعبیر نادرست کند یا ایجاد خط‌های گیج‌کننده برای منحرف کردن خودرو از جاده.
حملات مسمومیت در مرحله آموزش با معرفی داده های خراب رخ می دهد. به عنوان مثال می‌توان موارد متعددی از زبان نامناسب را در سوابق مکالمه وارد کرد، به طوری که یک ربات چت این نمونه‌ها را به‌اندازه کافی معمولی برای استفاده در تعامل با مشتری خود تفسیر می‌کند.
حملات حریم خصوصی ، که در حین استقرار رخ می‌دهند، تلاش‌هایی برای یادگیری اطلاعات حساس در مورد هوش مصنوعی یا داده‌هایی است که روی آن آموزش داده شده است تا از آن سوء استفاده شود. یک حریف می تواند از یک چت بات سؤالات قانونی متعدد بپرسد، و سپس از پاسخ ها برای مهندسی معکوس مدل استفاده کند تا نقاط ضعف آن را پیدا کند – یا منابع آن را حدس بزند. افزودن نمونه‌های نامطلوب به آن منابع آنلاین می‌تواند باعث شود هوش مصنوعی رفتار نامناسبی داشته باشد، و اینکه هوش مصنوعی آن نمونه‌های نامطلوب خاص را بعد از این واقعیت از یاد نگیرد، می‌تواند دشوار باشد.
حملات سوء استفاده شامل درج اطلاعات نادرست در یک منبع، مانند یک صفحه وب یا سند آنلاین است که یک هوش مصنوعی سپس آن را جذب می کند. برخلاف حملات مسموم‌سازی فوق‌الذکر، حملات سوء استفاده می‌کنند تا اطلاعات نادرستی را از یک منبع قانونی اما در معرض خطر به هوش مصنوعی برای استفاده مجدد از سیستم هوش مصنوعی ارائه دهند.
آلینا اوپریا، استاد دانشگاه نورث ایسترن، یکی از نویسندگان این مقاله می گوید: «بیشتر این حملات نسبتاً آسان هستند و به حداقل دانش سیستم هوش مصنوعی و توانایی های محدود دشمن نیاز دارند. به عنوان مثال، حملات مسمومیت را می توان با کنترل چند ده نمونه آموزشی، که درصد بسیار کمی از کل مجموعه آموزشی است، انجام داد.
نویسندگان – که شامل محققین Robust Intelligence Inc. Alie Fordyce و Hyrum Anderson نیز می شوند – هر یک از این دسته از حملات را به زیرمجموعه هایی تقسیم کرده و رویکردهایی را برای کاهش آنها اضافه کرده اند، اگرچه نشریه تصدیق می کند که دفاعی که کارشناسان هوش مصنوعی تاکنون برای حملات خصمانه ابداع کرده اند. در بهترین حالت ناقص هستند. واسیلوف گفت که آگاهی از این محدودیت ها برای توسعه دهندگان و سازمان هایی که به دنبال استقرار و استفاده از فناوری هوش مصنوعی هستند، مهم است.
او گفت: «علی‌رغم پیشرفت قابل توجهی که هوش مصنوعی و یادگیری ماشین داشته‌اند، این فناوری‌ها در برابر حملاتی آسیب‌پذیر هستند که می‌توانند باعث شکست‌های دیدنی با عواقب وخیم شوند. مشکلات نظری در مورد ایمن سازی الگوریتم های هوش مصنوعی وجود دارد که هنوز حل نشده اند. اگر کسی جور دیگری بگوید، روغن مار می فروشد.»

:Reference

Information technology and Artificial intelligence

شیلدهای مغناطیسی چیست؟

راهنمای هکرها برای شکستن رمز عبور

NIST انواع حملات سایبری را شناسایی می کند که رفتار سیستم های هوش مصنوعی را دستکاری می کنند

برچسب ها