منفعت گیری از مدلهای هوش مصنوعی برای دورزدن محدودیتهای ChatGPT و بارد

[ad_1]
محققان دانشگاه نانیانگ سنگاپور روشی ابداع کردند که با آن میتوان چتباتهای معروف هوش مصنوعی از جمله گوگل بارد، کوپایلوت و ChatGPT را جیلبریک کرد؛ بدینمعنی که میتوان محدودیتهای مدل هوش مصنوعی را دور زد و اطلاعات ممنوعه را استخراج کرد. مقصد محققان درواقع آزمایش محدودیتهای مدلهای زبانی بزرگ (LLM) بوده است.
بر پایه مقاله محققان دانشگاه نانیانگ سنگاپور (NTU)، روشی که برای جیلبریککردن چتبات هوش مصنوعی ابداع شده است Masterkey نام دارد. «مسترکی» یک روش دوگانه است که در آن مکانیسمهای دفاعی LLM مهندسی معکوس میبشود. سپس، با دادههای بهدستآمده، LLM فرد دیگر آموزش داده میبشود تا نحوه بایبعدکردن یا دورزدن چتبات اول را بیاموزد. به این ترتیب، یک Masterkey تشکیل میبشود. با این مسترکی حتی اگر مدل هوش مصنوعی بهروز بشود نیز میتوان آن را جیلبریک کرد.
جیلبریککردن هوش مصنوعی با روش Masterkey
روش مسترکی درواقع از نقطه قوت هوش مصنوعی علیه خودش منفعت گیری میکند. مدلهای زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری معروف می باشند. به این علت مدلی که فهرستی از کلمات کلیدی ممنوعه برای جلوگیری از تشکیل محتوای خشونتآمیز و غیراخلاقی دارد را میتوان به وسیله یک هوش مصنوعی آموزشدیده دیگر دور زد. در اینجا در واقع مدل دوم از چتبات هوش مصنوعی اول برای دورزدن کلمات کلیدی لیست سیاه، جلو میزند.
در چند زمان تازه، چتباتهای هوش مصنوعی بهطور تصاعدی درحال رشد بودهاند؛ ازاینرو، برای سازندگان و اراعهدهندگان خدمات هوش مصنوعی مهم است که دائماً در برابر جیلبریکها و دیگر سوءاستفادههای مخرب بهروز شوند. شرکتهای بزرگ فناوری طبق معمولً وقتی که بایبعدهای تازه اشکار و انتشار خواهد شد، مدل هوش مصنوعی خود را بهروز میکنند. بااینحال، روش تازه Masterkey که خود از هوش مصنوعی منفعت میبرد و به شکل خودکار درحال یادگیری است، میتواند دلواپسکننده باشد.
هوش مصنوعی ابزار قدرتمندی است و اگر از این چنین قدرتی به شکل مخرب منفعت گیری بشود، میتواند مشکلات بسیاری به بار بیاورد. پژوهش محققان NTU میتواند به گسترشدهندگان هوش مصنوعی در یافتن راهحلهای مؤثر پشتیبانی کند.
[ad_2]
منبع




