כמה ימים לאחר הצגתו,OpenII הפך את GPT-4.5 לזמין לקהל רחב יותר, התגברות על המגבלות הראשוניות כתוצאה ממחסור ב- GPU. בתחילה שמורים למשתמשים מקצוענים, עכשיו גםמנויים לתוכניות פלוס ותוכניות צוותהם יכולים להתנסות בפוטנציאל של מודל "מטרה כללית" זה, שמבטיח דיוק גבוה בתגובות, ירידה ב"הזיות "ואינטראקציה טבעית ואמפתטית יותר.
ההחלטה להרחיב את הגישה ל- GPT-4.5 משקפת את האמון ההולך וגובר של Openai בכישורי המודל שלו וביכולתו לנהל נפח גבוה יותר של בקשות. עם זאת, הרחבת הגישה מעלה גם שאלות לגבי ביצועי המודל בהקשרים אמיתיים ועל יכולתו לשמור על סטנדרטים גבוהים של איכות ואמינות.
התוצאות במדד
Epoch AI, מעבדה עצמאית המתמחה בהערכת ה- LLM, העמידה את GPT-4.5 למבחן, והשוואה בין מודלים אחרים של ספינות דגל.תוצאות ה- GPQA Diamond של Benchmark, רמת מתמטיקה 5 ו- Mock Aime 2024-2025הם מראים ש- GPT-4.5 ממשיך להשתפר בהשוואה לדגמי "הלא-סגירות", התגברות על דיוק GPT-4O וקבלת ציונים הדומים ל- Claude 3.7 Sonnet ללא מחשבה מורחבת.
כרגע ל- x/טוויטר יש בעיות
ולא ניתן לטעון את הפוסט
עם זאת, גם מגבלות מסוימות מופיעות. במדד הדורש יכולת נימוק מורכבת, GPT-4.5 מציג ביצועים נמוכים יותר בהשוואה לדגמים כמו O3-Mini, Deepseek-R1 ו- Claude 3.7 במחשבה מורחבת. בפרט, במדד האוטיס העגום, הדיוק של O3-mini עולה על 39 נקודות אחוז לזה של GPT-4.5, ומדגיש את הקשיים של GPT-4.5 בהתמודדות עם בעיות מתמטיות מתקדמות.
שאלה מכריעה נוספת נוגעת ל"זיהום "של אמת המידה.כפי שצוין על ידי ניתוח האטלנטיק, ניתן להכשיר את דגמי ה- IA על נתונים הכוללים את אותן שאלות המשמשות בבדיקות ההערכה, תוך פגיעה באמינות התוצאות. זה מעלה ספק ביכולתם של המודלים להכליל את הידע של האדם ולהתמודד עם בעיות חדשות ובלתי צפויות.
בינתייםאפל מציגה את הסיכומים שנוצרו על ידי ביקורות ה- AI בחנות האפליקציותו