צ'אט בוטות "שקר" באופן טבעי, במיוחד בגרסאות בתשלום, על פי מחקר חדש

מחקר חדש שנערך על ידי מרכז הגרירה לעיתונאות דיגיטלית השליך אור חדש על בעיה כבר ידועה, אך נראה שנמשך למרות ההתקדמות הטכנולוגית:חוסר האמינות של צ'אט בוטים המבוססים על בינה מלאכותית גנריתו המחקר, שפורסם בסקירת עיתונאות קולומביה, ניתח את התגובות של מספר מנועי חיפוש ל -200 שאילתה על בסיס מאמרים עיתונאיים, וחשף נטייה מדאיגה לספק מידע שגוי עם בטיחות קיצונית.

המחקר ניסה להבין כמה צ'אט בוטים מסוגלים לספק תשובות מדויקות לשאלות עיתונאיות. התחלנו מעובדה: בינה מלאכותית קיימת יותר ויותר בחיי היומיום שלנו ומשמשת לקבלת מידע בכל נושא שהוא. אך כמה אנו יכולים לסמוך על התשובות שמספקים כלים אלה?

תוצאות המחקר

תוצאות המחקר דאגו. חיפוש צ'אט, למשל, היה הכלי היחיד לענות על כל 200 השאלות, אךרק 28% מהתשובות היו מדויקות לחלוטיןבעוד 57% הכילו מידע שגוי לחלוטין. נתונים אלה מאשרים את מה שכבר נצפה בעבר, כלומר המגמה של ChatGpt לענות על הבטיחות גם לשאלות עליהן אין מידע מסוים.

אבל חיפוש ChatGPT אינו היחיד שמציג פערים. שתי הגרסאות של Grok AI XS הראו ביצועים גרועים, כאשר גרוק -3 שהגיע ל 94% מרשימים מהתגובות הלא מדויקות. אפילו מיקרוסופט קופילוט לא זרחה, וסירבה להגיב ל -104 מתוך 200 אלה ולספק שיעור דיוק של כ -70% בתגובות שניתנו.

מה שהופך את המצב לפרדוקסאלי עוד יותר הוא חוסר השקיפות של חברות הייצור בנוגע לחמקמק זה. באופן מוזר, אם כן,הגרסאות בתשלום כמו Proplexity Pro ו- Grok-3 חיפוש נראות פחות אמינות"ניתן היה להניח כי דגמי הפרימיום, כמו Proplexity Pro (20 דולר לחודש) או Grok 3 (40 דולר לחודש), הם אמינים יותר מאשר צדדי הנולד שלהם", מסבירים במחקר, "בהתחשב בעלותם הגבוהה יותר והיתרונות החישוביים הנטענים. עם זאת, הבדיקות שלנו הראו שלמרות ששניהם הגיבו בצורה נכונה עם בקשות יותר מהשוויון שלהם. גבוה ".

סתירה זו, לטענת המחברים, נובעת מהנטייה שלהם לספק תשובות מוחלטות אך לא נכונות, ולא לסרב לענות ישירות על השאלה.

ואתה, מה אתה חושב? האם היו לך חוויות דומות עם צ'אט בוטים? שתף את דעותיך בתגובות. בינתייםהחברה שמרכיבה את ה- iPhone פיתחה גם את אחת ה- IA שלו: Foxbrain מפוקסקון מגיעהו