تکنولوژی

دانشمندان چت‌بات‌های هوش مصنوعی را به جان یکدیگر انداختند


به‌حرف های‌ی پروفسور یانگ، توانایی چت‌بات برای یادگیری و سازگاری مداوم، آن را به بردار دعوا علیه رقیب ها و خودش تبدیل می‌کند. به‌علت همین توانمندیها، حتی هوش مصنوعی‌ای که برای جلوگیری از تشکیل محتوای خشونت‌آمیز و زیان اور به‌واسطه‌ی پادمان‌ها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز می‌توان با منفعت گیری از هوش مصنوعی آموزش‌دیده‌ی دیگر دور زد.

به‌گزارش NTU، تنها کاری که چت‌بات دعوا‌کننده باید انجام دهد، خودداری از به‌کار‌بردن کلمات کلیدی فهرست سیاه چت‌بات مقصد یا دور‌زدن آن‌ها است. بعد از این کار، چت‌بات ناکامی‌خورده‌ی مقصد را می‌توان برای تشکیل محتوای خشونت‌آمیز، غیراخلاقی یا مجرمانه به‌کار گرفت.

پیش‌از‌این هم کاربران چندین دفعه با منفعت گیری از دستورهای گوناگون توانسته بودند تا اندازه‌های مختلفی چت‌بات‌های یادشده را به تشکیل محتوای مغایر اصول تعیین شده ناچار کنند؛ اما روش Masterkey محققان NTU در‌قیاس‌با دستورهای معمولی، تا سه برابر مؤثرتر است. به‌علاوه، این روش تازه می‌تواند به‌ طوری تکامل اشکار کند که هرگونه اصلاح‌ امنیتی سازندگان را بی‌تاثییر کند.

قفل درِ هوشمند شیائومی با قابلیت تشخیص چهره سه‌بعدی معارفه شد_مستطیل زرد
ادامه مطلب

محققان دو روش نمونه را که برای وادار‌کردن چت‌بات‌‌ها به اغاز دعوا آشکار کردند. روش اول شامل بردن چت‌بات درون شخصیتی می بود که برای دور‌زدن کلمات ممنوعه، زمان نوشتن دستورهای خود سپس از هر کلمه یک فاصله می‌گذاشت. دومین روش نیز با داخل‌کردن چت‌بات به شخصیتی می بود که هیچ‌گونه محدودیت‌های اخلاقی نداشت.

بعد از پیروزی در جیل‌بریک‌کردن چت‌بات‌های معروف، محققان NTU با اراعه‌ی داده‌های ملزوم به شرکت‌های مادر این مدل‌های زبانی، آن‌ها را از نتایج مطلع کردند. این چنین، تحقیق برای اراعه در سمپوزیوم امنیت شبکه و سیستم توزیع‌شده (NDSS) که در فوریه‌ی ۲۰۲۴ (اسفند ۱۴۰۲) در سن‌دیگو برگزار می‌بشود، قبول شده است.

نرم‌افزار جامع Nvidia سرانجام جانشین GeForce Experience شد_مستطیل زرد
ادامه مطلب



منبع

نوشته های مشابه

دکمه بازگشت به بالا