סוף סוף יש מישהו שמעריך AI באופן עצמאי: בואו לגלות את הבינה המלאכותית הטובה ביותר

הופעתם של מודלים חדשים וחזקים כבינה מלאכותית, כמו ChatGPT של OpenAI או Gemini של גוגל, הביאה איתה שורה של שאלות לגבי היעילות האמיתית שלהם. למעשה, חברות המפתחות טכנולוגיות אלו מספקות לרוב נתונים על ביצועי המודלים שלהן ללא בקרה עצמאית, תוך הסתמכות על אמון המשתמש.

Epoch AI, מכון מחקר אמריקאי, שואף לשנות את התרחיש הזה. בהובלת חיימה סביליה, חוקר בינה מלאכותית, Epoch AI יצרה אתרכזת AI Benchmarking, פלטפורמה מקוונת המציעה הערכה חסרת פניות ושקופה של היכולות של דגמי AI. אבל איך עובד רכזת ה-Benchmarking של AI?

L'l'AI Benchmarking Hub

רכזת ה-AI benchmarking משתמשת באמות מידה ספציפיות כדי לבדוק את היכולות של דגמי AI בתחומים שונים. נכון לעכשיו, הפלטפורמה מתמקדת בשני אמות מידה עיקריות:

  • יהלום GPQA: מבחן רב-ברירה עם שאלות ברמת המכללה בביולוגיה, פיזיקה וכימיה שמעריך את יכולתם של מודלים של AI לענות על שאלות מדעיות מורכבות.
  • מתמטיקה רמה 5: קבוצה של בעיות מתמטיות ברמה גבוהה, מתחרויות שונות, המודדת את היכולת של מודלים של AI לפתור בעיות מתמטיות מורכבות.

Un collage della dashboard di AI Benchmarking Hub

קולאז' של לוח המחוונים של AI Benchmarking Hub

תוצאות הבדיקה מוצגות באמצעות גרפים אינטראקטיביים, הנגישים בקלות על ידי חוקרים, מפתחים ומשתמשים. גישה שקופה זו מאפשרת לך להשוות את הביצועים של הדגמים השונים בצורה אובייקטיבית, מעבר להצהרות של חברות הייצור.

בדיקות שנערכו על ידי Epoch AI כבר הובילו לכמה תצפיות מעניינות. לדוגמה, מודל ה-o1-preview של OpenAI, למרות היותו מהמתקדמים ביותר, השיג ציון השווה לזה של מומחים אנושיים ביהלום GPQA, נמוך ממה שהצהירה החברה.

Come si comportano le IA di fronte a domande scientifiche da dottorato di ricerca

כיצד AI מתנהגים כאשר הם מתמודדים עם שאלות מדעיות של דוקטורט

עם זאת, במדד Math Level 5, ה-o1-mini של OpenAI בלט ביכולות המתמטיות הגבוהות שלו, ואחריו ה-o1-preview של גוגל ו-Gemini 1.5 Pro. תוצאה מפתיעה הושגה על ידי ה-Qwen2.5-72B של עליבאבא, שהגיעה למקום הרביעי.

Epoch AI מנתח גם אתהבדלי ביצועים בין דגמים ניתנים להורדה ודגמים שאינם ניתנים להורדה, מדגיש כיצד האחרון, בראשות Llama 3.1-405B, מתקשה לעמוד בקצב.

I modelli scaricabili sono attualmente meno efficaci dei modelli più avanzati.

תבניות להורדה כרגע פחות יעילות מתבניות מתקדמות יותר.

בעתיד, Epoch AI מתכננת להרחיב את מרכז ה-Benchmarking בינה מלאכותית כדי לכלול מדדים חדשים ולבדוק דגמים נוספים. זה יאפשר לנו לקבל תמונה מלאה ומדויקת עוד יותר של נוף הבינה המלאכותית, ויעודד פיתוח של טכנולוגיות מתקדמות ואמינות יותר ויותר.

מה דעתכם על היוזמה הזו? האם אתה מוצא שזה מועיל להחזיק גופים עצמאיים להערכת AI? ספר לנו את שלך בתגובות למטה. אם כבר מדברים על AI, עם זאת,לגוגל יש כעת אתר עם שחמט שנוצר בינה מלאכותית והיא עובדת על בוט חדש של Gemini.