מחקר חדש מציע תובנות מעמיקות בנוגע להבנת הטקסט על ידי מודלים גדולים של שפה (LLMs) כמו ChatGPT ו-Bard. האם הם באמת מבינים את התוכן שלהם, או האם הם רק "תוכנות לומדות סטוכסטיות", כפי שהוגדרו במאמר של אמילי בנדר ואחרים בשנת 2021? המונח מרמז כי LLMs יוצרות טקסט על ידי שילוב של מידע שנראה קודם לכן בלי הבנה אמיתית.

ג'וף הינטון, חלוץ בתחום ה-AI, מדגיש את החשיבות של פתרון הוויכוח הזה להערכת הסכנות הפוטנציאליות של ה-AI. מחקר חדש של סנג'יב ארורה ואנירוד גויאל מאתגר את הנחת התוכנה הלומדת הסטוכסטית. הם מציעים כי ככל ש-LLMs גדלים בגודל ובנתונים, הם לא רק משפרים בכישורים השפתיים האישיים שלהם, אלא גם מפתחים כישורים חדשים על ידי שילוב כישורים בדרכים שמצביעות על הבנה מעבר למה שנמצא בנתוני האימון.

LLMs פועלים כרשתות נוירונים מלאכותיות ענקיות, המתאמנות לחזות מילים במשפטים ונבדקות על נתונים שלא נראו קודם. הופעתן המפתיעה של יכולות מגוונות ב-LLMs, כמו פתרון בעיות מתמטיות או הבנת מצבים מנטליים, אינה תוצאה מובנת מהשיטה שבה הן מאומנות.

Breaking News Banner

 

ארורה וגויאל השתמשו בתורת הגרפים האקראיים כדי לדגם את התנהגות ה-LLMs, תוך מיקוד בגרפים דו-צדדיים המייצגים טקסט וכישורים. התיאוריה שלהם, המבוססת על חוקי הקנה מידה הנוירוניים, מציעה כי ככל שה-LLMs גדלים בגודל ובנתוני אימון, הם רוכשים כישורים חדשים ושילובים שלהם, מה שמצביע על כך שהם לא רק מחקים את נתוני האימון.

התיאוריה הזו נבדקה אמפירית, והוכיחה ש-LLMs כמו GPT-4 יכולים לייצר טקסט באמצעות מספר כישורים בדרכים שסביר להניח שלא היו נמצאות בנתוני האימון. זה מציע צורה של הכללה ויצירתיות, לא רק שכפול של נתונים שנראו קודם. המאמר מסכם כי הממצאים האלה מאתגרים את תפיסת התוכנה הלומדת הסטוכסטית ומעלים שאלות לגבי ההתקדמות המהירה של יכולות ה-LLMs.

 

פרסומת*

קורס בחינם