مشکل مدل DeepSeek V3: شناسایی خود بهعنوان ChatGPT
«تجارت نیوز» گزارش می دهد:
مدل DeepSeek V3 بهطور اشتباه خود را ChatGPT معرفی میکند. احتمال استفاده از دادههای GPT-4 در آموزش این مدل، نگرانیهای اخلاقی ایجاد کرده است.
به گزارش تجارت نیوز،
در هفته جاری، آزمایشگاه برجسته هوش مصنوعی چین، DeepSeek، از مدل جدید خود با نام DeepSeek V3 رونمایی کرد. این مدل به دلیل عملکرد قوی در وظایفی همچون تولید متن، نگارش مقاله و کدنویسی مورد ستایش قرار گرفته است. با این حال، مشکلی عجیب در این مدل مشاهده شده است. DeepSeek V3 اغلب خود را بهعنوان ChatGPT، چتبات معروف OpenAI، معرفی میکند.
بررسیهای انجامشده در پلتفرمهای اجتماعی مانند X و آزمایشهای TechCrunch نشان داده که DeepSeek V3 در بسیاری از مواقع خود را ChatGPT معرفی میکند، بهویژه بهعنوان GPT-4 که در سال ۲۰۲۳ عرضه شد. از هشت پرسش مطرحشده، این مدل در پنج مورد خود را ChatGPT و در سه مورد دیگر DeepSeek V3 معرفی کرده است. این رفتار سؤالاتی را درباره منبع دادههای آموزشی این مدل و احتمال استفاده از خروجیهای OpenAI ایجاد کرده است.
خودشناسی اشتباه
اشکال این مدل تنها به معرفی اشتباه خود محدود نمیشود. هنگامی که از DeepSeek V3 درباره API خود سؤال میشود، این مدل بهاشتباه دستورالعملهای مربوط به API OpenAI را ارائه میدهد. همچنین، شوخیها و طنزهایی مشابه GPT-4 ارائه میکند که نشاندهنده شباهت در دادههای آموزشی است.
دلایل بروز مشکل
مدلهایی مانند DeepSeek V3 و ChatGPT بر اساس سیستمهای آماری عمل میکنند و از الگوهای موجود در حجم زیادی از دادههای متنی برای پیشبینی و تولید پاسخ استفاده میکنند. کیفیت و منبع دادههای آموزشی نقش مهمی در عملکرد این مدلها دارد.
DeepSeek اطلاعات دقیقی درباره مجموعهدادههای آموزشی DeepSeek V3 منتشر نکرده است. با این حال، مجموعهدادههای عمومی متعددی وجود دارد که شامل خروجیهای تولیدشده توسط GPT-4 هستند. در صورت استفاده از این دادهها، احتمال دارد مدل DeepSeek V3 بهطور ناخواسته بخشهایی از پاسخهای GPT-4 را حفظ و بازتولید کند.
مایک کوک، پژوهشگر هوش مصنوعی در کالج کینگ لندن، این نوع آموزش را مانند “فوتوکپی از فوتوکپی” توصیف کرد که باعث کاهش کیفیت و افزایش اشتباهات در مدل میشود.
پیامدهای اخلاقی و قانونی
استفاده از خروجی یک مدل هوش مصنوعی برای آموزش مدلهای رقیب ممکن است با شرایط خدمات OpenAI مغایرت داشته باشد. OpenAI صراحتاً استفاده از خروجیهای خود برای توسعه محصولات رقابتی را ممنوع کرده است. هرچند تاکنون OpenAI و DeepSeek درباره این موضوع اظهارنظر نکردهاند، اما سم آلتمن، مدیرعامل OpenAI، بهطور غیرمستقیم به این مسئله اشاره کرده و گفته: «کپیکردن چیزی که جواب داده آسان است، اما خلق چیزی جدید، سخت و پرریسک است.»
چالشهای صنعت هوش مصنوعی
مشکل شناسایی اشتباه در مدلهای هوش مصنوعی به DeepSeek V3 محدود نمیشود. مدل Gemini گوگل نیز در برخی موارد خود را بهعنوان چتبات Wenxinyiyan بایدو معرفی کرده است. این مسائل نشاندهنده چالشهای روزافزون در صنعت هوش مصنوعی، بهویژه آلودگی دادههای آموزشی با محتوای تولیدشده توسط هوش مصنوعی است.
نگرانیها و پیامدها
احتمال استفاده DeepSeek V3 از دادههای GPT-4، چه بهصورت عمدی یا از طریق مجموعهدادههای آلوده، نگرانیهای جدی را ایجاد کرده است. هیدی خالف، دانشمند ارشد هوش مصنوعی هشدار داده است که چنین رویههایی ممکن است به تکرار و تقویت اشتباهات و سوگیریهای مدلهای اصلی منجر شود.
رفتار DeepSeek V3 در معرفی اشتباه خود تنها یک نشانه از چالشهای بزرگتر در حفظ استانداردهای اخلاقی و فنی در دنیای پیچیده هوش مصنوعی است.