گوگل قابلیت تولید تصاویر افراد را در Gemini بهبود داده است
گوگل اعلام کرده است که مشکلات ایجاد شده در قابلیت خلق تصاویر افراد توسط Gemini را برطرف کرده است
در ماه فوریه، گوگل پس از دریافت شکایات کاربران درباره نمایش نادرست تاریخی توسط چتربات هوش مصنوعی Gemini، قابلیت تولید تصاویر افراد را موقتاً غیرفعال کرد. به عنوان مثال، Gemini بهطور نادرستی «یک لژیون رومی» را با گروهی از سربازان نژادی متنوع به تصویر کشید یا «جنگجویان زولو» را به شکلی کلیشهای و تنها سیاهپوست نشان داد.
ساندار پیچای، مدیر عامل گوگل، به دلیل این اشتباهات عذرخواهی کرد و دمیس حسابیس، یکی از بنیانگذاران بخش تحقیقاتی هوش مصنوعی گوگل، DeepMind، قول داد که اصلاحات لازم طی چند هفته آینده انجام شود. اگرچه این پروسه بیشتر از مدتزمان پیشبینی شده طول کشید، اما اکنون Gemini بار دیگر میتواند تصاویر افراد را تولید کند، البته تنها برای برخی از کاربران.
این قابلیت فعلاً فقط برای کاربران طرحهای پولی Gemini، از جمله Gemini Advanced، Business، و Enterprise، بهعنوان بخشی از یک آزمایش دسترسی زودهنگام و فقط به زبان انگلیسی، فعال شده است. گوگل هنوز اعلام نکرده است که این قابلیت چه زمانی به نسخه رایگان Gemini و دیگر زبانها اضافه خواهد شد.
سخنگوی گوگل به وبسایت TechCrunch گفت: “نسخه پیشرفته Gemini به کاربران ما اولویت دسترسی به ویژگیهای جدید را میدهد. این به ما کمک میکند تا بازخوردهای ارزشمند را جمعآوری کنیم و این ویژگی مورد انتظار را در ابتدا به مشترکین ممتاز خود ارائه دهیم.”
اما گوگل برای رفع مشکلات تولید تصاویر افراد چه تغییراتی انجام داده است؟ به گفته این شرکت، مدل Imagen 3، جدیدترین مدل تولید تصویر که در Gemini استفاده میشود، به گونهای طراحی شده که تصاویری «عادلانهتر» تولید کند. به عنوان مثال، این مدل بر اساس زیرنویسهای تولید شده توسط هوش مصنوعی آموزش داده شده که به تنوع و گستردگی مفاهیم مرتبط با تصاویر در دادههای آموزشی کمک میکند. گوگل همچنین اعلام کرده است که دادههای آموزشی این مدل برای حفظ ایمنی و رعایت مسائل انصافی فیلتر شده است.
با اینکه جزئیات دقیقتری درباره دادههای آموزشی Imagen 3 درخواست شد، سخنگوی گوگل تنها اشاره کرد که این مدل بر روی «یک مجموعه داده بزرگ شامل تصاویر، متن و حاشیهنویسیهای مرتبط» آموزش داده شده است.
او اضافه کرد: «ما پتانسیل تولید نتایج نامطلوب را از طریق آزمایشهای گسترده داخلی و خارجی و همکاری با کارشناسان مستقل به میزان قابل توجهی کاهش دادهایم. تمرکز ما بر آزمایش دقیق تولید تصاویر افراد قبل از بازگرداندن این قابلیت بوده است.»
در خبرهای دیگر، تمامی کاربران Gemini طی هفته جاری به مدل Imagen 3 دسترسی خواهند داشت، به استثنای تولید تصاویر افراد برای کاربران نسخه رایگان. گوگل مدعی است که Imagen 3 در مقایسه با نسخه قبلی خود، Imagen 2، پیامهای متنی را با دقت بیشتری به تصاویر ترجمه کرده و در تولیدات خود خلاقانهتر و دقیقتر عمل میکند. این مدل همچنین خطاها و مصنوعات کمتری تولید میکند و بهترین مدل Imagen برای رندر متن تا به امروز است.
برای کاهش نگرانیها درباره پتانسیل دیپفیک، Imagen 3 از SynthID استفاده میکند، روشی که توسط DeepMind برای اعمال واترمارکهای رمزنگاری نامرئی به رسانههای مبتنی بر هوش مصنوعی توسعه یافته است.
علاوه بر Imagen 3، گوگل قابلیت جدیدی به نام Gems را برای Gemini معرفی کرده است، البته فقط برای کاربران Gemini Advanced، Business، و Enterprise. Gems نسخههای سفارشی Gemini هستند که میتوانند به عنوان «متخصص» در موضوعات خاصی مانند آشپزی گیاهخواری عمل کنند. گوگل در یک پست وبلاگ توضیح داده است: «با Gems، میتوانید تیمی از متخصصان ایجاد کنید که به شما در پروژههای چالشبرانگیز، نوشتن ایدهها برای یک رویداد آینده، یا ایجاد عنوانهای عالی برای پستهای شبکههای اجتماعی کمک کنند.»
گوگل اعلام کرده است که Gems در 150 کشور و به اکثر زبانها در دسترس خواهد بود، اما هنوز در Gemini Live پشتیبانی نمیشود.
هنگامی که از گوگل پرسیده شد که آیا برنامهای برای اجازه انتشار و استفاده از Gems دیگر کاربران وجود دارد، پاسخ منفی بود. سخنگوی گفت: «در حال حاضر، ما بر روی یادگیری نحوه استفاده مردم از Gems برای خلاقیت و بهرهوری تمرکز کردهایم. فعلاً چیزی برای به اشتراک گذاشتن وجود ندارد.»
ما را دنبال کنید