סוף סוף יש מישהו שמעריך AI באופן עצמאי: בואו לגלות את הבינה המלאכותית הטובה ביותר

הופעתם של מודלים חדשים וחזקים כבינה מלאכותית, כמו ChatGPT של OpenAI או Gemini של גוגל, הביאה איתה שורה של שאלות לגבי היעילות האמיתית שלהם. למעשה, חברות המפתחות טכנולוגיות אלו מספקות לרוב נתונים על ביצועי המודלים שלהן ללא בקרה עצמאית, תוך הסתמכות על אמון המשתמש.

Epoch AI, מכון מחקר אמריקאי, שואף לשנות את התרחיש הזה. בהובלת חיימה סביליה, חוקר בינה מלאכותית, Epoch AI יצרה אתרכזת AI Benchmarking, פלטפורמה מקוונת המציעה הערכה חסרת פניות ושקופה של היכולות של דגמי AI. אבל איך עובד רכזת ה-Benchmarking של AI?

L'l'AI Benchmarking Hub

רכזת ה-AI benchmarking משתמשת באמות מידה ספציפיות כדי לבדוק את היכולות של דגמי AI בתחומים שונים. נכון לעכשיו, הפלטפורמה מתמקדת בשני אמות מידה עיקריות:

יהלום GPQA: מבחן רב-ברירה עם שאלות ברמת המכללה בביולוגיה, פיזיקה וכימיה שמעריך את יכולתם של מודלים של AI לענות על שאלות מדעיות מורכבות.
מתמטיקה רמה 5: קבוצה של בעיות מתמטיות ברמה גבוהה, מתחרויות שונות, המודדת את היכולת של מודלים של AI לפתור בעיות מתמטיות מורכבות.

תוצאות הבדיקה מוצגות באמצעות גרפים אינטראקטיביים, הנגישים בקלות על ידי חוקרים, מפתחים ומשתמשים. גישה שקופה זו מאפשרת לך להשוות את הביצועים של הדגמים השונים בצורה אובייקטיבית, מעבר להצהרות של חברות הייצור.

בדיקות שנערכו על ידי Epoch AI כבר הובילו לכמה תצפיות מעניינות. לדוגמה, מודל ה-o1-preview של OpenAI, למרות היותו מהמתקדמים ביותר, השיג ציון השווה לזה של מומחים אנושיים ביהלום GPQA, נמוך ממה שהצהירה החברה.

עם זאת, במדד Math Level 5, ה-o1-mini של OpenAI בלט ביכולות המתמטיות הגבוהות שלו, ואחריו ה-o1-preview של גוגל ו-Gemini 1.5 Pro. תוצאה מפתיעה הושגה על ידי ה-Qwen2.5-72B של עליבאבא, שהגיעה למקום הרביעי.

Epoch AI מנתח גם אתהבדלי ביצועים בין דגמים ניתנים להורדה ודגמים שאינם ניתנים להורדה, מדגיש כיצד האחרון, בראשות Llama 3.1-405B, מתקשה לעמוד בקצב.

בעתיד, Epoch AI מתכננת להרחיב את מרכז ה-Benchmarking בינה מלאכותית כדי לכלול מדדים חדשים ולבדוק דגמים נוספים. זה יאפשר לנו לקבל תמונה מלאה ומדויקת עוד יותר של נוף הבינה המלאכותית, ויעודד פיתוח של טכנולוגיות מתקדמות ואמינות יותר ויותר.

מה דעתכם על היוזמה הזו? האם אתה מוצא שזה מועיל להחזיק גופים עצמאיים להערכת AI? ספר לנו את שלך בתגובות למטה. אם כבר מדברים על AI, עם זאת,לגוגל יש כעת אתר עם שחמט שנוצר בינה מלאכותית והיא עובדת על בוט חדש של Gemini.

L'l'AI Benchmarking Hub

Related articles

BioWare חושפת מתי יגיע העדכון הראשון של Dragon Age The Veilguard ותצוגה מקדימה של כמה חדשות

אם GTA 6 יעלה את מחיר AAA ל

מנהל המשחק ARMS מאשר שלא מתוכנן תוכן נוסף נוסף

טריילר השקה של Shadow Warrior 3 הוא מטא טריילר

Metal Gear Solid 2 חומר

המשחקים הנמכרים ביותר ביפן, Super Mario Party לפני Assassin's Creed Odyssey