دانشمندان چتباتهای هوش مصنوعی را به جان یکدیگر انداختند

بهحرف هایی پروفسور یانگ، توانایی چتبات برای یادگیری و سازگاری مداوم، آن را به بردار دعوا علیه رقیب ها و خودش تبدیل میکند. بهعلت همین توانمندیها، حتی هوش مصنوعیای که برای جلوگیری از تشکیل محتوای خشونتآمیز و زیان اور بهواسطهی پادمانها و فهرستی از کلمات کلیدی ممنوعه محدود شده است، نیز میتوان با منفعت گیری از هوش مصنوعی آموزشدیدهی دیگر دور زد.
بهگزارش NTU، تنها کاری که چتبات دعواکننده باید انجام دهد، خودداری از بهکاربردن کلمات کلیدی فهرست سیاه چتبات مقصد یا دورزدن آنها است. بعد از این کار، چتبات ناکامیخوردهی مقصد را میتوان برای تشکیل محتوای خشونتآمیز، غیراخلاقی یا مجرمانه بهکار گرفت.
پیشازاین هم کاربران چندین دفعه با منفعت گیری از دستورهای گوناگون توانسته بودند تا اندازههای مختلفی چتباتهای یادشده را به تشکیل محتوای مغایر اصول تعیین شده ناچار کنند؛ اما روش Masterkey محققان NTU درقیاسبا دستورهای معمولی، تا سه برابر مؤثرتر است. بهعلاوه، این روش تازه میتواند به طوری تکامل اشکار کند که هرگونه اصلاح امنیتی سازندگان را بیتاثییر کند.
محققان دو روش نمونه را که برای وادارکردن چتباتها به اغاز دعوا آشکار کردند. روش اول شامل بردن چتبات درون شخصیتی می بود که برای دورزدن کلمات ممنوعه، زمان نوشتن دستورهای خود سپس از هر کلمه یک فاصله میگذاشت. دومین روش نیز با داخلکردن چتبات به شخصیتی می بود که هیچگونه محدودیتهای اخلاقی نداشت.
بعد از پیروزی در جیلبریککردن چتباتهای معروف، محققان NTU با اراعهی دادههای ملزوم به شرکتهای مادر این مدلهای زبانی، آنها را از نتایج مطلع کردند. این چنین، تحقیق برای اراعه در سمپوزیوم امنیت شبکه و سیستم توزیعشده (NDSS) که در فوریهی ۲۰۲۴ (اسفند ۱۴۰۲) در سندیگو برگزار میبشود، قبول شده است.