הצטרפו למנהיגים בבוסטון ב-27 במרץ ללילה בלעדי של נטוורקינג, תובנות ושיחה. בקש הזמנה כאן.
עבור ה-CTO של OpenAI Mira Murati, an ראיון בלעדי בוול סטריט ג'ורנל עם כותבת טור הטכנולוגיה האישית, ג'ואנה סטרן, אתמול נראתה כמו סמא-דאנק. הקליפים של מודל הטקסט לווידאו Sora של OpenAI, שהוצג בהדגמה בחודש שעבר ומוראטי אמר שיהיו זמינים לציבור בעוד כמה חודשים, היו "טובים מספיק כדי להפחיד אותנו" אבל גם מקסימים או שפירים מספיק כדי לגרום לנו לחייך. השור הזה בחנות חרסינה שלא שבר כלום! אוווווו.
אבל הראיון פגע בשפה וקפץ בפראות בערך ב-4:24, כשסטרן שאל את מוראטי באילו נתונים השתמשו כדי לאמן את סורה. תשובתו של מוראטי: "השתמשנו בנתונים זמינים לציבור וברישיון." אבל בזמן שהיא אישרה מאוחר יותר ש-OpenAI השתמשה בתוכן של Shutterstock (כחלק מהסכם נתוני ההדרכה לשש שנים שלהם שהוכרז ביולי 2023), היא נאבקה עם השאלות הנוקבות של סטרן לגבי האם סורה הוכשרה בסרטונים ביוטיוב, בפייסבוק או באינסטגרם.
"אני לא הולך להיכנס לפרטי הנתונים"
כשנשאלה לגבי יוטיוב, מוראטי עיקמה את פניה ואמרה "אני בעצם לא בטוחה לגבי זה". לגבי פייסבוק ואינסטגרם? היא השתוללה בהתחלה, ואמרה שאם הסרטונים יהיו זמינים לציבור, "ייתכן שיש" אבל היא "לא בטוחה, לא בטוחה בעצמה" לגבי זה, ולבסוף סגרה את זה באומרה "אני פשוט לא מתכוונת להיכנס ל פרטים של הנתונים שבהם נעשה שימוש – אבל הם היו נתונים זמינים לציבור או ברישיון."
אני די בטוח שאנשי יחסי ציבור רבים לא חשבו שהראיון הוא יצירת מופת של יחסי ציבור. ולא היה שום סיכוי שמוראטי היה מספק פרטים בכל מקרה – לא עם התביעות הקשורות לזכויות יוצרים, כולל התביעות הגדולות ביותר הוגש על ידי הניו יורק טיימסמול OpenAI כרגע.
אבל בין אם אתה מאמין ש-OpenAI השתמשה בסרטוני YouTube כדי לאמן את סורה או לא (זכור, The Information דיווח ביוני 2023 ש-OpenAI "השתמשה בחשאי בנתונים מהאתר כדי לאמן כמה מדגמי הבינה המלאכותית שלו") העניין הוא שעבור רבים השטן באמת הוא בפרטי הנתונים. מאבקי זכויות יוצרים בינה מלאכותית מתבשלים כבר יותר משנה, ובעלי עניין רבים, מסופרים, צלמים ואמנים ועד עורכי דין, פוליטיקאים, רגולטורים וחברות ארגוניות, רוצים לדעת אילו נתונים אימנו את סורה ומודלים אחרים – ולבחון האם הם באמת היו בפומבי זמין, מורשה כראוי וכו'.
אירוע VB
סיור AI Impact – בוסטון
לבקש הזמנה
זו לא רק בעיה עבור OpenAI
גם נושא נתוני ההדרכה אינו רק עניין של זכויות יוצרים. זה גם עניין של אמון ושקיפות. אם OpenAI אכן התאמן ב-YouTube או בסרטונים אחרים שהיו "זמינים לציבור", למשל – מה זה אומר אם "הציבור" לא ידע זאת? וגם אם זה היה מותר על פי חוק, הציבור מבין?
זה גם לא רק בעיה עבור OpenAI. איזו חברה היא בהחלט משתמשים בסרטוני YouTube ששותפו באופן ציבורי כדי להכשיר את דגמי הסרטונים שלהם? בוודאות גוגל, שבבעלותה YouTube. ואיזו חברה בהחלט משתמש בפייסבוק ואינסטגרם ששותפו בפומבי תמונות וסרטונים כדי להכשיר את הדגמים שלה? Meta, בעלת פייסבוק ואינסטגרם, אישר שזה עושה בדיוק את זה. שוב – חוקי לחלוטין, אולי. אבל כשהסכמי תנאי השירות משתנים בשקט – משהו שה-FTC הוציא אזהרה לגביו לאחרונה – האם הציבור באמת מודע?
לבסוף, זה לא רק בעיה עבור חברות הבינה המלאכותית המובילות והדגמים הסגורים שלהן. סוגיית נתוני ההדרכה היא סוגיית בינה מלאכותית יסודית שבאוגוסט 2023 אמרתי שיכולה לעמוד בפני התחשבנות – לא רק בבתי המשפט בארה"ב, אלא בבית המשפט של דעת הקהל.
כפי שאמרתי באותו קטע, "עד לאחרונה, מעטים מחוץ לקהילת הבינה המלאכותית שקלו לעומק כיצד מאות מערכי הנתונים שאפשרו ל-LLMs לעבד כמויות עצומות של נתונים וליצור פלט טקסט או תמונה – נוהג שהתחיל ללא ספק עם שחרור של ImageNet ב-2009 מאת Fei-Fei Li, עוזר פרופסור באוניברסיטת פרינסטון – י