همانطور که میدانید، هوش مصنوعی GPT-5 چند روز پیش معرفی شد. این مدل چندان مورد استقبال قرار نگرفت و بالعکس شاهد طوفانی از انتقادات از سوی کاربران و درخواست بازگشت مدلهای قدیمی بودیم. در واکنش، شرکت اعلام کرد که انتخابگر مدل بازگشته و کاربران اشتراکی دوباره میتوانند به چند مدل قدیمیتر هوش مصنوعی، دسترسی داشته باشند. با این اوصاف، OpenAI همچنان از قابلیتهای GPT-5 تمجید میکند، اما برخی توسعهدهندگان نظر دیگری دارند. در این مطلب نگاهی به عملکرد GPT-5 از نگاه توسعه دهندگان خواهیم داشت.
مهندسان نرمافزار دریافتهاند که مدل جدید GPT-5 شرکت OpenAI در تفکر و برنامهریزی برای حل مسائل کدنویسی به آنها کمک میکند، اما در خود کدنویسی عملکرد بهتری از مدلهای قبلی ندارد.
هفته گذشته، زمانی که OpenAI مدل GPT-5 را معرفی کرد، به مهندسان نرمافزار اعلام کرد که این مدل برای تبدیلشدن به یک «همکار کدنویسی واقعی» طراحی شده است که در تولید کد با کیفیت بالا و انجام وظایف خودکار یا «عاملیت» (agentic) نرمافزاری برتری دارد. اگرچه شرکت به صراحت این موضوع را بیان نکرد، به نظر میرسید هدف اصلی آن رقابت مستقیم با Claude Code از شرکت آنتروپیک باشد که به ابزار موردعلاقه بسیاری از توسعهدهندگان برای کدنویسی با کمک هوش مصنوعی تبدیل شده است.
GPT-5 ترکیبی از نقاط قوت و ضعف است
حالا توسعه دهندگان معتقدند که GPT-5 تاکنون ترکیبی از نقاط قوت و ضعف بوده است. این مدل در استدلال فنی و برنامهریزی وظایف کدنویسی عملکرد فوقالعادهای دارد، اما برخی میگویند که مدلهای جدید Opus و Sonnet از آنتروپیک همچنان کدهای بهتری تولید میکنند. بسته به اینکه توسعه دهندگان از کدام نسخه GPT-5 استفاده میکنند (با وضوح کم، متوسط یا زیاد)، مدل میتواند پرجزئیاتتر باشد که گاهی منجر به تولید خطوط کد غیرضروری یا تکراری میشود.
برخی از مهندسان نرمافزار نیز نحوه ارزیابی عملکرد کدنویسی GPT-5 توسط OpenAI را مورد انتقاد قرار دادند و استدلال کردند که معیارهای استفادهشده گمراهکننده هستند. یک شرکت تحقیقاتی، نموداری را که OpenAI برای نمایش قابلیتهای GPT-5 منتشر کرده بود، یک «جنایت آماری» نامید.
GPT-5 حداقل از یک جهت برجسته است: چندین نفر اشاره کردند که این مدل در مقایسه با مدلهای رقیب، گزینهای بسیار مقرونبهصرفهتر است. Sayash Kapoor، دانشجوی دکترای علوم کامپیوتر و پژوهشگر در دانشگاه پرینستون که یکی از نویسندگان کتاب «AI Snake Oil» است، میگوید: GPT-5 در تستهای ما عمدتاً توسط مدلهای هوش مصنوعی دیگر شکست میخورد، اما واقعاً ارزان است.
Kapoor میگوید او و تیمش از هفته گذشته که این مدل به صورت عمومی منتشر شده است، در حال انجام تستهای معیارسنجی برای ارزیابی قابلیتهای GPT-5 هستند. او خاطرنشان میکند که اجرای تست استاندارد تیمش، که میزان توانایی یک مدل زبانی در بازتولید نتایج 45 مقاله علمی را میسنجد، با GPT-5 در حالت وضوح متوسط، 30 دلار هزینه دارد. همین تست با استفاده از Opus 4.1 شرکت آنتروپیک، 400 دلار هزینه میبرد. در مجموع، Kapoor میگوید تیمش تاکنون حدود 20000 دلار برای تست GPT-5 هزینه کرده است.
اگرچه GPT-5 ارزان است، تستهای Kapoor نشان میدهند که این مدل دقت کمتری نسبت به برخی از رقبای خود دارد. مدل پیشرفته Claude به دقت 51 درصد دست یافت که براساس تعداد مقالات علمی که درست بازتولید شده، اندازهگیری میشود. نسخه متوسط GPT-5 دقت 27 درصدی را کسب کرد. (Kapoor هنوز تست را با GPT-5 در حالت وضوح بالا اجرا نکرده است، بنابراین این یک مقایسه غیرمستقیم است، زیرا Opus 4.1 قدرتمندترین مدل آنتروپیک محسوب میشود).
سخنگوی OpenAI، در پاسخ اشاره کرد که GPT-5 براساس «وظایف کدنویسی در دنیای واقعی و با همکاری آزمایشکنندگان اولیه در استارتاپها و شرکتها» آموزش دبده است. این شرکت همچنین برخی از معیارهای دقت داخلی خود برای GPT-5 را برجسته کرد که نشان میداد مدل «تفکر» GPT-5 که استدلال دقیقتری انجام میدهد، بالاترین امتیاز دقت را در میان تمام مدلهای OpenAI کسب کرده است. با این حال، «GPT-5 main» همچنان در مقیاس دقت خود OpenAI از مدلهای قبلی خود عقبتر بود.
Amie Rotherham، سخنگوی آنتروپیک، در بیانیهای گفت که ادعاهای عملکرد و مدلهای قیمتگذاری اغلب پس از اینکه توسعهدهندگان شروع به استفاده از آنها در محیطهای تولید میکنند، متفاوت به نظر میرسند. از آنجایی که مدلهای استدلالی میتوانند به سرعت توکنهای زیادی را در حین تفکر مصرف کنند، صنعت به سمت دنیایی در حال حرکت است که در آن قیمت براساس نتیجه اهمیت بیشتری نسبت به قیمت بر اساس توکن دارد.
تجربههای مثبت توسعه دهندگان با GPT-5
برخی از توسعه دهندگان میگویند که تاکنون تجربههای عمدتاً مثبتی با GPT-5 داشتهاند. Jenny Wang، مهندس، سرمایهگذار و خالق دستیار استایل شخصی Alta گفت به نظر میرسد که این مدل بهتر از سایر مدلها میتواند وظایف کدنویسی پیچیده را در یک بار تلاش کامل کند.
در تستهای Wang از GPT-5، او از مدل خواسته است که برای صفحه مطبوعاتی وبسایت شرکتش، کد تولید کند. GPT-5 این وظیفه را در یک مرحله تکمیل کرد، در حالی که در گذشته، Wang مجبور بود دستورات خود را در طول فرآیند بازبینی کند. با این حال، یک خطای قابلتوجه وجود داشت. Wang میگوید: نشانیهای اینترنتی (URLها) را توهمزایی کرد.
توسعهدهنده دیگری میگوید GPT-5 در حل مسائل فنی عمیق عالی است. پروژه سرگرمی فعلی این توسعهدهنده، نوشتن یک ابزار تحلیل شبکه برنامهریزیشده است که برای اهداف امنیتی به جداسازی کد نیاز دارد. این توسعهدهنده توضیح میدهد: من اساساً پروژهام و برخی از مسیرهایی را که در نظر داشتم به آن ارائه دادم و GPT-5 همه آنها را در نظر گرفت و چند توصیه به همراه یک جدول زمانی واقعبینانه ارائه داد. من تحت تأثیر قرار گرفتم.
تعدادی از شرکا و مشتریان سازمانی OpenAI، از جمله Cursor، Windsurf و Notion، به طور عمومی از مهارتهای کدنویسی و استدلال GPT-5 حمایت کردهاند. Notion همچنین در X به اشتراک گذاشت که این مدل سریع، کامل و 15 درصد بهتر از سایر مدلهایی است که تست کردهایم و کارهای پیچیده را انجام میدهد.
اما تنها چند روز پس از انتشار GPT-5، برخی از توسعه دهندگان در فضای آنلاین با شکایتهایی نظرات خود را بیان کردند. بسیاری گفتند که قابلیتهای کدنویسی GPT-5 برای مدلی که قرار بود پیشرفتهترین و فوقالعادهترین مدل از پرهیاهوترين شرکت هوش مصنوعی جهان باشد، ضعیفتر از انتظار به نظر میرسد.
Kieran Klassen، توسعهدهندهای که در حال ساخت یک دستیار هوش مصنوعی برای صندوقهای ورودی ایمیل است، میگوید: GPT-5 بسیار خوب است، اما به نظر میرسید اگر یک سال پیش منتشر میشد. او با اشاره به مدل آنتروپیک که در ژوئن 2024 راهاندازی شد، اضافه میکند: قابلیتهای کدنویسی آن مرا به یاد Sonnet 3.5 میاندازد.
Amir Salihefendić، بنیانگذار شرکت استارتاپی Doist، در پستی در شبکههای اجتماعی گفت که از GPT-5 در Cursor استفاده کرده و آن را بسیار ناامیدکننده توصیف کرد.
توسعهدهندهای به نام Mckay Wrigley در X نوشت که GPT-5 یک مدل چت روزمره فوقالعاده است، اما وقتی نوبت به کدنویسی میرسد، من همچنان از Claude Code + Opus استفاده خواهم کرد.
سایر توسعه دهندگان باور دارند که GPT-5 گاهی مفید است، اما اغلب با پرگوییهایش آزاردهنده میشود. البته کاربران میتوانند از آن بخواهند که کمتر پرحرف باشد یا حتی استدلال کمتری انجام دهد تا عملکرد بهتری داشته باشد یا ارزانتر شود.
Itamar Friedman، همبنیانگذار و مدیرعامل پلتفرم کدنویسی هوش مصنوعی Qodo، معتقد است که برخی از انتقادات به GPT-5 ناشی از انتظارات در حال تحول پیرامون انتشار مدلهای هوش مصنوعی است. او میگوید: فکر میکنم بسیاری از مردم به دلیل این حرکت به سمت هوش مصنوعی عمومی (AGI)، تصور میکردند که GPT-5 لحظه دیگری خواهد بود که همه چیز در مورد هوش مصنوعی به صورت کلی بهبود مییابد. در حالی که در واقع، این مدل در چند زیروظیفه کلیدی بهبود یافته است.
Friedman به قبل از سال 2022 به عنوان «BCE» (قبل از عصر چتجیپیتی) اشاره میکند، زمانی که مدلهای هوش مصنوعی به صورت جامع بهبود مییافتند. در دوران پس از ChatGPT، مدلهای جدید هوش مصنوعی اغلب در برخی موارد خاص بهتر هستند. Friedman میگوید: به عنوان مثال، Claude Sonnet 3.5، تنها مدلی بود که در کدنویسی بر همه مدلها برتری داشت. جمینای در بررسی کد، برای بررسی اینکه کد از کیفیت بالایی برخوردار است، بسیار خوب عمل کرد.
OpenAI همچنین به دلیل روششناسی که برای انجام تستهای معیارسنجی و ادعاهای عملکرد GPT-5 استفاده کرده، مورد انتقاد قرار گرفته است، اگرچه تستهای معیارسنجی در سراسر صنعت به طور قابلتوجهی متفاوت هستند.
SemiAnalysis، یک شرکت تحقیقاتی متمرکز بر بخش نیمههادی و هوش مصنوعی، خاطرنشان کرد که OpenAI تنها 477 از 500 تستی را که معمولاً در SWE-bench گنجانده شدهاند (یک چارچوب نسبتاً جدید در صنعت هوش مصنوعی برای تست مدلهای زبانی بزرگ) اجرا کرده است. (این تست برای عملکرد کلی مدل بود، نه فقط کدنویسی).
OpenAI میگوید که همیشه مدلهای هوش مصنوعی خود را روی یک زیرمجموعه ثابت 477 وظیفهای به جای 500 تست کامل در SWE-bench آزمایش میکند، زیرا آن 477 تست، مواردی هستند که شرکت آنها را در زیرساخت داخلی خود تأیید کرده است. McCallum همچنین به کارت سیستم GPT-5 اشاره کرد، که در آن ذکر شده است تغییرات در تنظیم وضوح مدل میتواند منجر به تغییر در عملکرد ارزیابی شود.