OpenII הודיעה על שילוב יצירת התמונות ישירות בתוך CHATGPT, פונקציה חדשה בשם "Create Image".מבוסס על מודל ה- GPT-4O המולטי-מודל, טכנולוגיה זו מאפשרת לך ליצור תמונות מדויקות ומפורטות פשוט על ידי כתיבת שורת טקסט, ללא צורך לעבור מכלים חיצוניים כמו מ- THE-E. הפונקציה כבר נמצאת בשלב ההפעלה עבור כל רמות המנוי, כולל משתמשים בחינם, גם אם עם מגבלות שימוש הדומות לאלה של Dall-E (כשלוש תמונות ביום).
איכות מעולה בעקביות חזותית
לדברי גבריאל גו, ראש המחקר בפתיחה,GPT-4Oמציין קפיצה חשובה באיכותקיבולת חדשה בשם כריכהאו הקשר הנכון בין תכונות לאובייקטים. אם בעבר הדגמים לעתים קרובות מבולבלים צבעים וצורות - למשל, יצירת כוכב אדום במקום כחול - כעת ניתן להשיג תמונות עם 15-20 חפצים מובחנים ועקביים. זה מייצג צעד משמעותי קדימה מבחינת דיוק ואמינות חזותית.
היבט מפתח נוסף הוא תשואת הטקסט בתמונות: הכתבים שנוצרו הם קריאים בהרבה וללא שגיאות מהסטנדרטים הקודמים. "זו הייתה עבודה ארוכה שעשויה משיפורים קבועים קטנים", הסביר גו.המערכת מנצלת גישה רשותית, אשר בונה את השורה אחר שורה, בדומה כיצד לכתוב טקסט, במקום מודל ההפצה המסורתי המשמש את Dall-E, המייצר הכל בספירה אחת. זה יכול להיות אחד הסודות של הדיוק הגדול ביותר בפרטי הטקסט.
יישומים מעשיים והפגנות מפתיעות
במהלך הצגת הפונקציה החדשה, הצוות הראה דוגמאות לשימוש אמיתי: קומיקס רב -פגנים עם תווים קוהרנטיים, דיאגרמות מדעיות, פוסטרים של מידע וסמלי לוגו עם רקע שקוף. באחד הבדיקות,Chatgpt יצר תמונה של ניסוי הפריזמה של ניוטון, להשלים עם רכיבים שכותרתו כראוי. כל זאת מבלי שתצטרך להסביר מה היה הניסוי, בזכות ידיעת העולם המשולב במודל.
דור התמונות דורש כמה שניות יותר מבעבר, אךOpenII מדגיש כי האיכות מצדיקה את ההמתנהו "אנו מעדיפים להשתמש בכמה שניות נוספות אם זה מאפשר לנו להציע תוצאה שימושית באמת", אמר ג'קי שאנון, מוביל המוצר של צוות Multimodale.