ISS הדומה ל- Chatgpt מיומן עם 50 דולר ותוך פחות משעה: האם זה כך שנולד DeepSeek?

צוות חוקרים מסטנפורד ואוניברסיטת וושינגטון הציג לאחרונה אחד חדשמודל בינה מלאכותית להנמקה, המכונה "S1"ו מודל זה, על פי מה שדווח במאמר שפורסם בשבוע שעבר, יוכל להתחרות במודל OpenII, למרות שפותח עם תקציב מוגבל ובזמן קצר באופן מפתיע: 26 דקות בלבד.
כדי להשיג תוצאה זו, החוקרים השתמשו בטכניקה המכונה "זיקוק", המאפשרת לך להכשיר מודלים קטנים יותר של מס הכנסה על ידי ניצול הידע של מודלים גדולים יותר.

הזיקוק של מזל תאומים

במקרה זה, S1 הושלם באמצעות ה-תשובות המסופקות על ידי Gemini 2.0 Flash Thinking Experiptal, מודל ההנמקה של גוגל. מעניין לציין כי תנאי השירות של גוגל אוסרים את השימוש בדבורים שלה לפיתוח מודלים מתחרים, אך גוגל טרם הגיבה בעניין.

הלוגו של DeepSeek

מודל ה- S1 מבוסס על Qwen2.5, מודל קוד פתוח של ענן עליבאבא, והוכשר באמצעות מערך נתונים קטן יחסית, המורכב מ -1,000 שאלות בלבד. החוקרים גילו כי השימוש במערכות נתונים רחבות יותר לא הוביל לשיפורים משמעותיים בביצועי המודל. בנוסף, אימוני S1 דרשו שימוש ב- 16 NVIDIA H100 GPUs בלבד, מספר נמוך יחסית לסוג זה של פעילות. ניקלאס מונניגוף, חוקר סטנפורד שעבד על הפרויקט, אמר שאתה יכול לשכור הכל בכ- 20 דולר.

אַחֵרטכניקת המפתח ששימשה בפיתוח S1 הייתה "קנה המידה בזמן הבדיקה", המאפשר למודל לעבד מידע לפרק זמן ארוך יותר לפני מתן תשובה.Nvidia דיבר גם על כך כשדיפסק יצאו בפועל, החוקרים הובילו את המודל "לחשוב" יותר על ידי הוספת המילה "לחכות" לתגובתו, שיטה שלדבריהם הובילה לדיוק רב יותר בהנמקה.

התוצאות שהושגו על ידי S1 מבטיחות. לטענת החוקרים, "עולה על מודל O1-Preview (מודל Openai) בשאלות של מתמטיקה בתחרות של עד 27%מודל". בינתיים נותר להבין אם גם כןDeepseek נוצר באמת באמצעות זיקוקוכי ההשלכות החוקיות לגילוי מסוג זה יכולות להיות.

מה אתה חושב? ספר לנו את ההערות למטה.