הצטרפו אלינו לאטלנטה ב-10 באפריל וחקור את הנוף של כוח העבודה האבטחה. נחקור את החזון, היתרונות ומקרי השימוש של AI עבור צוותי אבטחה. בקש הזמנה כאן.
מחקר חדש מ DeepMind של גוגל יחידת המחקר מצאה שמערכת בינה מלאכותית יכולה להתעלות על בודקי עובדות אנושיים בהערכת הדיוק של מידע שנוצר על ידי מודלים שפות גדולים.
העיתון, שכותרתו "עובדות ארוכת טווח במודלים לשוניים גדולים" ופורסם על שרת טרום הדפסה arXiv, מציגה שיטה בשם Search-Augmented Factuality Evaluator (SAFE). SAFE משתמש במודל שפה גדול כדי לפרק טקסט שנוצר לעובדות בודדות, ולאחר מכן משתמש בתוצאות החיפוש של Google כדי לקבוע את הדיוק של כל טענה.
"SAFE משתמש ב-LLM כדי לפרק תגובה ארוכת טווח לקבוצה של עובדות בודדות ולהעריך את הדיוק של כל עובדה תוך שימוש בתהליך חשיבה רב-שלבי הכולל שליחת שאילתות חיפוש לחיפוש Google וקביעה אם עובדה נתמכת על ידי תוצאות חיפוש", הסבירו המחברים.
ביצועים 'על אנושיים' מעוררים ויכוחים
החוקרים העמידו את SAFE מול כותבים אנושיים על מערך נתונים של כ-16,000 עובדות, ומצאו שההערכות של SAFE תאמו את הדירוג האנושי ב-72% מהמקרים. יתרה מכך, במדגם של 100 חילוקי דעות בין SAFE לבין המדרגים האנושיים, השיפוט של SAFE נמצא כנכון ב-76% מהמקרים.
אירוע VB
סיור האימפקט של AI – אטלנטה
לבקש הזמנה
בעוד שהעיתון טוען ש"סוכני LLM יכולים להשיג ביצועי דירוג על-אנושיים", כמה מומחים שואלים מה באמת אומר כאן "על אנושי".
גארי מרקוסחוקר בינה מלאכותית ידועה ומבקרת תדיר של טענות מוגזמות, הציע בטוויטר שבמקרה זה, "על אנושי" עשוי להיות פשוט "טוב יותר מעובד קהל בתשלום נמוך, אלא בודק עובדות אנושי אמיתי".
"זה הופך את האפיון למטעה", אמר. "כמו לומר שתוכנת השחמט משנת 1985 הייתה על אנושית."
מרקוס מעלה נקודה נכונה. כדי להפגין באמת ביצועים על אנושיים, SAFE יצטרך להיות מודד מול בודקי עובדות אנושיים מומחים, לא רק עובדים במיקור המונים. הפרטים הספציפיים של המדרגים האנושיים, כגון כישוריהם, התגמול ותהליך בדיקת העובדות שלהם, חיוניים להקשר נכון של התוצאות.
חיסכון בעלויות והשוואת דגמים מובילים
יתרון ברור אחד של SAFE הוא העלות – החוקרים גילו שהשימוש במערכת הבינה המלאכותית היה זול בערך פי 20 מבודקי עובדות אנושיים. ככל שנפח המידע שנוצר על ידי מודלים של שפות ממשיך להתפוצץ, דרך חסכונית וניתנת להרחבה לאימות טענות תהיה חיונית יותר ויותר.
צוות DeepMind השתמש ב-SAFE כדי להעריך את הדיוק העובדתי של 13 מודלים שפות מובילים ב-4 משפחות (Gemini, GPT, Claude ו-PaLM-2) במדד חדש בשם LongFact. התוצאות שלהם מצביעות על כך שמודלים גדולים יותר יצרו בדרך כלל פחות שגיאות עובדתיות.
עם זאת, אפילו הדגמים בעלי הביצועים הטובים ביותר יצרו מספר לא מבוטל של טענות שווא. זה מדגיש את הסיכונים של הסתמכות יתר על מודלים של שפה שיכולים לבטא באופן שוטף מידע לא מדויק. כלי בדיקת עובדות אוטומטיים כמו SAFE יכולים למלא תפקיד מפתח בהפחתת הסיכונים הללו.
שקיפות וקווי בסיס אנושיים הם קריטיים
בעוד שקוד ה-SAFE ומערך הנתונים של LongFact היו קוד פתוח ב-GitHub, המאפשר לחוקרים אחרים לבחון את העבודה ולהתבסס עליה, עדיין נדרשת שקיפות רבה יותר סביב קווי הבסיס האנושיים המשמשים במחקר. הבנת הפרטים של הרקע והתהליך של עובדי ההמונים חיונית להערכת היכולות של SAFE בהקשר הנכון.
ככל שענקיות הטכנולוגיה דוהרות לפתח מודלים חזקים יותר ויותר עבור יישומים, החל מחיפוש ועד עוזרים וירטואליים, היכולת לבדוק עובדות אוטומטית את התפוקות של מערכות אלו עשויה להתברר כמכרעת. כלים כמו SAFE מייצגים צעד חשוב לקראת בניית שכבה חדשה של אמון ואחריות.
עם זאת, חיוני שהפיתוח של טכנולוגיות תוצאתיות כאלה יתרחש בשטח פתוח, עם קלט ממגוון רחב של בעלי עניין מעבר לכותלי חברה אחת. מידוד קפדני ושקוף מ