مشکل مدل DeepSeek V3: شناسایی خود به‌عنوان ChatGPT

«تجارت نیوز» گزارش می دهد:

مدل DeepSeek V3 به‌طور اشتباه خود را ChatGPT معرفی می‌کند. احتمال استفاده از داده‌های GPT-4 در آموزش این مدل، نگرانی‌های اخلاقی ایجاد کرده است.

فولاد سل

به گزارش تجارت نیوز،

در هفته جاری، آزمایشگاه برجسته هوش مصنوعی چین، DeepSeek، از مدل جدید خود با نام DeepSeek V3 رونمایی کرد. این مدل به دلیل عملکرد قوی در وظایفی همچون تولید متن، نگارش مقاله و کدنویسی مورد ستایش قرار گرفته است. با این حال، مشکلی عجیب در این مدل مشاهده شده است. DeepSeek V3 اغلب خود را به‌عنوان ChatGPT، چت‌بات معروف OpenAI، معرفی می‌کند.

بررسی‌های انجام‌شده در پلتفرم‌های اجتماعی مانند X و آزمایش‌های TechCrunch نشان داده که DeepSeek V3 در بسیاری از مواقع خود را ChatGPT معرفی می‌کند، به‌ویژه به‌عنوان GPT-4 که در سال ۲۰۲۳ عرضه شد. از هشت پرسش مطرح‌شده، این مدل در پنج مورد خود را ChatGPT و در سه مورد دیگر DeepSeek V3 معرفی کرده است. این رفتار سؤالاتی را درباره منبع داده‌های آموزشی این مدل و احتمال استفاده از خروجی‌های OpenAI ایجاد کرده است.

خودشناسی اشتباه

اشکال این مدل تنها به معرفی اشتباه خود محدود نمی‌شود. هنگامی که از DeepSeek V3 درباره API خود سؤال می‌شود، این مدل به‌اشتباه دستورالعمل‌های مربوط به API OpenAI را ارائه می‌دهد. همچنین، شوخی‌ها و طنزهایی مشابه GPT-4 ارائه می‌کند که نشان‌دهنده شباهت در داده‌های آموزشی است.

دلایل بروز مشکل

مدل‌هایی مانند DeepSeek V3 و ChatGPT بر اساس سیستم‌های آماری عمل می‌کنند و از الگوهای موجود در حجم زیادی از داده‌های متنی برای پیش‌بینی و تولید پاسخ استفاده می‌کنند. کیفیت و منبع داده‌های آموزشی نقش مهمی در عملکرد این مدل‌ها دارد.

DeepSeek اطلاعات دقیقی درباره مجموعه‌داده‌های آموزشی DeepSeek V3 منتشر نکرده است. با این حال، مجموعه‌داده‌های عمومی متعددی وجود دارد که شامل خروجی‌های تولیدشده توسط GPT-4 هستند. در صورت استفاده از این داده‌ها، احتمال دارد مدل DeepSeek V3 به‌طور ناخواسته بخش‌هایی از پاسخ‌های GPT-4 را حفظ و بازتولید کند.

مایک کوک، پژوهشگر هوش مصنوعی در کالج کینگ لندن، این نوع آموزش را مانند “فوتوکپی از فوتوکپی” توصیف کرد که باعث کاهش کیفیت و افزایش اشتباهات در مدل می‌شود.

پیامدهای اخلاقی و قانونی

استفاده از خروجی یک مدل هوش مصنوعی برای آموزش مدل‌های رقیب ممکن است با شرایط خدمات OpenAI مغایرت داشته باشد. OpenAI صراحتاً استفاده از خروجی‌های خود برای توسعه محصولات رقابتی را ممنوع کرده است. هرچند تاکنون OpenAI و DeepSeek درباره این موضوع اظهارنظر نکرده‌اند، اما سم آلتمن، مدیرعامل OpenAI، به‌طور غیرمستقیم به این مسئله اشاره کرده و گفته: «کپی‌کردن چیزی که جواب داده آسان است، اما خلق چیزی جدید، سخت و پرریسک است.»

چالش‌های صنعت هوش مصنوعی

مشکل شناسایی اشتباه در مدل‌های هوش مصنوعی به DeepSeek V3 محدود نمی‌شود. مدل Gemini گوگل نیز در برخی موارد خود را به‌عنوان چت‌بات Wenxinyiyan بایدو معرفی کرده است. این مسائل نشان‌دهنده چالش‌های روزافزون در صنعت هوش مصنوعی، به‌ویژه آلودگی داده‌های آموزشی با محتوای تولیدشده توسط هوش مصنوعی است.

نگرانی‌ها و پیامدها

احتمال استفاده DeepSeek V3 از داده‌های GPT-4، چه به‌صورت عمدی یا از طریق مجموعه‌داده‌های آلوده، نگرانی‌های جدی را ایجاد کرده است. هیدی خالف، دانشمند ارشد هوش مصنوعی هشدار داده است که چنین رویه‌هایی ممکن است به تکرار و تقویت اشتباهات و سوگیری‌های مدل‌های اصلی منجر شود.

رفتار DeepSeek V3 در معرفی اشتباه خود تنها یک نشانه از چالش‌های بزرگ‌تر در حفظ استانداردهای اخلاقی و فنی در دنیای پیچیده هوش مصنوعی است.

منبع خبر