Google DeepMind חושפת מערכת AI 'על-אנושית' המצטיינת בבדיקת עובדות, חיסכון בעלויות ושיפור הדיוק

הצטרפו אלינו לאטלנטה ב-10 באפריל וחקור את הנוף של כוח העבודה האבטחה. נחקור את החזון, היתרונות ומקרי השימוש של AI עבור צוותי אבטחה. בקש הזמנה כאן.

מחקר חדש מ DeepMind של גוגל יחידת המחקר מצאה שמערכת בינה מלאכותית יכולה להתעלות על בודקי עובדות אנושיים בהערכת הדיוק של מידע שנוצר על ידי מודלים שפות גדולים.

Contents

ביצועים 'על אנושיים' מעוררים ויכוחים אירוע VB חיסכון בעלויות והשוואת דגמים מובילים שקיפות וקווי בסיס אנושיים הם קריטיים

העיתון, שכותרתו "עובדות ארוכת טווח במודלים לשוניים גדולים" ופורסם על שרת טרום הדפסה arXiv, מציגה שיטה בשם Search-Augmented Factuality Evaluator (SAFE). SAFE משתמש במודל שפה גדול כדי לפרק טקסט שנוצר לעובדות בודדות, ולאחר מכן משתמש בתוצאות החיפוש של Google כדי לקבוע את הדיוק של כל טענה.

"SAFE משתמש ב-LLM כדי לפרק תגובה ארוכת טווח לקבוצה של עובדות בודדות ולהעריך את הדיוק של כל עובדה תוך שימוש בתהליך חשיבה רב-שלבי הכולל שליחת שאילתות חיפוש לחיפוש Google וקביעה אם עובדה נתמכת על ידי תוצאות חיפוש", הסבירו המחברים.

ביצועים 'על אנושיים' מעוררים ויכוחים

החוקרים העמידו את SAFE מול כותבים אנושיים על מערך נתונים של כ-16,000 עובדות, ומצאו שההערכות של SAFE תאמו את הדירוג האנושי ב-72% מהמקרים. יתרה מכך, במדגם של 100 חילוקי דעות בין SAFE לבין המדרגים האנושיים, השיפוט של SAFE נמצא כנכון ב-76% מהמקרים.

אירוע VB

סיור האימפקט של AI – אטלנטה

בהמשך הסיור שלנו, אנחנו הולכים לאטלנטה לעצירת AI Impact Tour ב-10 באפריל. אירוע בלעדי זה, להזמנה בלבד, בשיתוף עם מיקרוסופט, יכלול דיונים ע"ה

לבקש הזמנה

בעוד שהעיתון טוען ש"סוכני LLM יכולים להשיג ביצועי דירוג על-אנושיים", כמה מומחים שואלים מה באמת אומר כאן "על אנושי".

בקריאה מהירה אני לא מצליח להבין הרבה על הנושאים האנושיים, אבל נראה שמשמעות על-אנושית טובה יותר מעובד קהל בתשלום נמוך, אלא בודק עובדות אנושי אמיתי? זה הופך את האפיון למטעה. (כמו לומר שתוכנת השחמט של 1985 הייתה על אנושית)….

– גארי מרקוס (@GaryMarcus) 28 במרץ 2024

גארי מרקוסחוקר בינה מלאכותית ידועה ומבקרת תדיר של טענות מוגזמות, הציע בטוויטר שבמקרה זה, "על אנושי" עשוי להיות פשוט "טוב יותר מעובד קהל בתשלום נמוך, אלא בודק עובדות אנושי אמיתי".

"זה הופך את האפיון למטעה", אמר. "כמו לומר שתוכנת השחמט משנת 1985 הייתה על אנושית."

מרקוס מעלה נקודה נכונה. כדי להפגין באמת ביצועים על אנושיים, SAFE יצטרך להיות מודד מול בודקי עובדות אנושיים מומחים, לא רק עובדים במיקור המונים. הפרטים הספציפיים של המדרגים האנושיים, כגון כישוריהם, התגמול ותהליך בדיקת העובדות שלהם, חיוניים להקשר נכון של התוצאות.

חיסכון בעלויות והשוואת דגמים מובילים

יתרון ברור אחד של SAFE הוא העלות – החוקרים גילו שהשימוש במערכת הבינה המלאכותית היה זול בערך פי 20 מבודקי עובדות אנושיים. ככל שנפח המידע שנוצר על ידי מודלים של שפות ממשיך להתפוצץ, דרך חסכונית וניתנת להרחבה לאימות טענות תהיה חיונית יותר ויותר.

צוות DeepMind השתמש ב-SAFE כדי להעריך את הדיוק העובדתי של 13 מודלים שפות מובילים ב-4 משפחות (Gemini, GPT, Claude ו-PaLM-2) במדד חדש בשם LongFact. התוצאות שלהם מצביעות על כך שמודלים גדולים יותר יצרו בדרך כלל פחות שגיאות עובדתיות.

עם זאת, אפילו הדגמים בעלי הביצועים הטובים ביותר יצרו מספר לא מבוטל של טענות שווא. זה מדגיש את הסיכונים של הסתמכות יתר על מודלים של שפה שיכולים לבטא באופן שוטף מידע לא מדויק. כלי בדיקת עובדות אוטומטיים כמו SAFE יכולים למלא תפקיד מפתח בהפחתת הסיכונים הללו.

שקיפות וקווי בסיס אנושיים הם קריטיים

בעוד שקוד ה-SAFE ומערך הנתונים של LongFact היו קוד פתוח ב-GitHub, המאפשר לחוקרים אחרים לבחון את העבודה ולהתבסס עליה, עדיין נדרשת שקיפות רבה יותר סביב קווי הבסיס האנושיים המשמשים במחקר. הבנת הפרטים של הרקע והתהליך של עובדי ההמונים חיונית להערכת היכולות של SAFE בהקשר הנכון.

ככל שענקיות הטכנולוגיה דוהרות לפתח מודלים חזקים יותר ויותר עבור יישומים, החל מחיפוש ועד עוזרים וירטואליים, היכולת לבדוק עובדות אוטומטית את התפוקות של מערכות אלו עשויה להתברר כמכרעת. כלים כמו SAFE מייצגים צעד חשוב לקראת בניית שכבה חדשה של אמון ואחריות.

עם זאת, חיוני שהפיתוח של טכנולוגיות תוצאתיות כאלה יתרחש בשטח פתוח, עם קלט ממגוון רחב של בעלי עניין מעבר לכותלי חברה אחת. מידוד קפדני ושקוף מ

Google DeepMind חושפת מערכת AI 'על-אנושית' המצטיינת בבדיקת עובדות, חיסכון בעלויות ושיפור הדיוק

ביצועים 'על אנושיים' מעוררים ויכוחים

אירוע VB

חיסכון בעלויות והשוואת דגמים מובילים

שקיפות וקווי בסיס אנושיים הם קריטיים

לעקוב אחרינו

חדשות פופולריות

גוגל הולכת בעקבות אפל על ידי הוספת עמלות מפתח חדשות באיחוד האירופי

ביצועים 'על אנושיים' מעוררים ויכוחים

אירוע VB

חיסכון בעלויות והשוואת דגמים מובילים

שקיפות וקווי בסיס אנושיים הם קריטיים

אולי תאהב גם

5 כלי הבינה המלאכותית שאתם חייבים להכיר

תלמידי "אחווה" בירכא כובשים את החלל: פריצת דרך מדעית עם שיגור לוויין ישראלי דרוזי

משרד הביטחון מחזק את עצמאות הייצור: חתימה על עסקאות ענק עם 'אלביט מערכות'

הכל על הרובוטקסי של אלון מאסק: מהפכה בדרכים! 🚖

וליד שרוף מעוספיא כובש את 'הכרישים' עם פטנט גאוני שישנה את עולם השחלת הכבלים

לעקוב אחרינו

ניוזלטר שבועי

חדשות פופולריות

גוגל הולכת בעקבות אפל על ידי הוספת עמלות מפתח חדשות באיחוד האירופי

שלח לנו חדשות