تکنولوژی

رودست به گوگل؛ این ویدیو ثابت می‌کند ChatGPT از Gemini گسترش یافتهتر است [تماشا کنید]


ویدئویی در یوتیوب انتشار شده که دموی ساختگی از چت‌بات هوش مصنوعی جمنای گوگل را به‌صورت واقعی با ChatGPT انجام داده است.

چندی پیش گوگل ویدئویی را انتشار کرد که نشان می‌داد جمنای می‌تواند تصاویری را که در لحظه می‌بیند با دقت بالایی فهمیدن کند و خواست‌های صوتی را به‌طور همزمان جواب دهد.

زمان بسیاری نگذشته می بود که ساختگی‌ بودن ویدئو اشکار شد. حقیقت این می بود که جمنای به خواست‌های متنی جواب می‌داد و عکس‌ها باید آپلود می‌شدند و قابلیت فهمیدن و جواب‌گویی همزمان وجود نداشته است.

کانال یوتیوب Greg Technology در ویدئوی مختصر خود همین کار را به‌صورت واقعی با مدل هوش مصنوعی GPT-4 with Vision (یا GPT-4V) تکرار کرده است.

گِرِگ ابتدا به مصنوعی بودن ویدئوی گوگل اشاره می‌کند و سپس حالت‌هایی را با دستش مشخص می کند و از ChatGPT می‌خواهد آن‌ها را توصیف کند؛ در آخر هم نقاشی اردک را به او مشخص می کند. جواب GPT-4V به اکثر خواست‌ها درست است.

برای فهمیدن زیاد تر این ویدئو، باید به ویدیوی منتشرشده توسط گوگل با گفتن آشنایی با Gemini مراجعه کرد. سوندار پیچای، مدیرعامل گوگل در پست خود حرف های می بود: «بهترین راه برای فهمیدن قابلیت‌های شگفت‌انگیز جمنای این است که آن‌ها را در عمل ببینید.»

قضیه‌ی مهم‌ای که علتناامیدی بینندگان شد، این می بود که ویدیوی اراعه‌شده در زمان واقعی ضبط نشده می بود و به‌جای آن، جمنای به یک سری تصاویر ثابت جواب داده می بود. علاوه‌براین، همه تعامل صوتی بعداً در فرایند تدوین ویدیو، صداگذاری شده می بود و جمنای فقط به خواست‌های متنی جواب داده می بود.

GPT-4 در هفته‌های تازه به‌روزرسانی مهمی را دریافت کرده که مربوط به قابلیت دیداری و صوتی آن است. گِرِگ فکر کرد با GPT-4V، می‌تواند دموی هوش مصنوعی جمنای را بازسازی کند که همین کار را در میانه ویدئو با حالت‌های دست خود نشان داد.

یکی از چیزهایی که در این ویدئو می‌بینیم و می‌شنویم، فاصله‌ی بین خواست صوتی کاربر و جواب صوتی GPT-4V است. ویدئوی گوگل با این توضیح انتشار شد که «تأخیر افت یافته و جواب‌های جمنای سریع و مختصر شده‌اند»، اما اشکار شد که افت تأخیرها نتیجه‌ی یک ویدئوی ساختگی بوده است.



منبع

نوشته های مشابه

دکمه بازگشت به بالا