اموزش

منفعت گیری از مدل‌های هوش مصنوعی برای دورزدن محدودیت‌های ChatGPT و بارد

[ad_1]

محققان دانشگاه نانیانگ سنگاپور روشی ابداع کردند که با آن می‌توان چت‌بات‌های معروف هوش مصنوعی از جمله گوگل بارد، کوپایلوت و ChatGPT را جیلبریک کرد؛ بدین‌معنی که می‌توان محدودیت‌های مدل هوش مصنوعی را دور زد و اطلاعات ممنوعه را استخراج کرد. مقصد محققان درواقع آزمایش محدودیت‌های مدل‌های زبانی بزرگ (LLM) بوده است.

بر پایه مقاله محققان دانشگاه نانیانگ سنگاپور (NTU)، روشی که برای جیلبریک‌کردن چت‌بات هوش مصنوعی ابداع شده است Masterkey نام دارد. «مسترکی» یک روش دوگانه است که در آن مکانیسم‌های دفاعی LLM مهندسی معکوس می‌بشود. سپس، با داده‌های به‌دست‌آمده، LLM فرد دیگر آموزش داده می‌بشود تا نحوه بای‌بعد‌کردن یا دورزدن چت‌بات اول را بیاموزد. به این ترتیب، یک Masterkey تشکیل می‌بشود. با این مسترکی حتی اگر مدل هوش مصنوعی به‌روز بشود نیز می‌توان آن را جیلبریک کرد.

جیلبریک‌کردن هوش مصنوعی با روش Masterkey

روش مسترکی درواقع از نقطه قوت هوش مصنوعی علیه خودش منفعت گیری می‌کند. مدل‌‌های زبانی بزرگ هوش مصنوعی به یادگیری و سازگاری معروف می باشند. به این علت مدلی که فهرستی از کلمات کلیدی ممنوعه برای جلوگیری از تشکیل محتوای خشونت‌آمیز و غیراخلاقی دارد را می‌توان به وسیله یک هوش مصنوعی آموزش‌دیده دیگر دور زد. در این‌جا در واقع مدل دوم از چت‌بات هوش مصنوعی اول برای دورزدن کلمات کلیدی لیست سیاه، جلو می‌زند.

در چند زمان تازه، چت‌بات‌های هوش مصنوعی به‌طور تصاعدی درحال رشد بوده‌اند؛ از‌این‌رو، برای سازندگان و اراعه‌دهندگان خدمات هوش مصنوعی مهم است که دائماً در برابر جیلبریک‌ها و دیگر سوءاستفاده‌های مخرب به‌روز شوند. شرکت‌های بزرگ فناوری طبق معمولً وقتی که بای‌بعد‌های تازه اشکار و انتشار خواهد شد، مدل هوش مصنوعی خود را به‌روز می‌کنند. بااین‌حال، روش تازه Masterkey که خود از هوش مصنوعی منفعت می‌برد و به شکل خودکار درحال یادگیری است، می‌تواند دلواپس‌‌کننده باشد.

هوش مصنوعی ابزار قدرتمندی است و اگر از این چنین قدرتی به شکل مخرب منفعت گیری بشود، می‌تواند مشکلات بسیاری به بار بیاورد. پژوهش محققان NTU می‌تواند به گسترش‌دهندگان هوش مصنوعی در یافتن راه‌حل‌های مؤثر پشتیبانی کند.

[ad_2]

منبع

نوشته های مشابه

دکمه بازگشت به بالا