האם Chatbots מבינים את מה שהם אומרים? תיאוריה חדשה
מחקר חדש מאתגר את התפיסה של "תוכנות לומדות סטוכסטיות" ומציע כי ל-LLMs יש יכולת הבנה אמיתית
מחקר חדש מציע תובנות מעמיקות בנוגע להבנת הטקסט על ידי מודלים גדולים של שפה (LLMs) כמו ChatGPT ו-Bard. האם הם באמת מבינים את התוכן שלהם, או האם הם רק "תוכנות לומדות סטוכסטיות", כפי שהוגדרו במאמר של אמילי בנדר ואחרים בשנת 2021? המונח מרמז כי LLMs יוצרות טקסט על ידי שילוב של מידע שנראה קודם לכן בלי הבנה אמיתית.
ג'וף הינטון, חלוץ בתחום ה-AI, מדגיש את החשיבות של פתרון הוויכוח הזה להערכת הסכנות הפוטנציאליות של ה-AI. מחקר חדש של סנג'יב ארורה ואנירוד גויאל מאתגר את הנחת התוכנה הלומדת הסטוכסטית. הם מציעים כי ככל ש-LLMs גדלים בגודל ובנתונים, הם לא רק משפרים בכישורים השפתיים האישיים שלהם, אלא גם מפתחים כישורים חדשים על ידי שילוב כישורים בדרכים שמצביעות על הבנה מעבר למה שנמצא בנתוני האימון.
LLMs פועלים כרשתות נוירונים מלאכותיות ענקיות, המתאמנות לחזות מילים במשפטים ונבדקות על נתונים שלא נראו קודם. הופעתן המפתיעה של יכולות מגוונות ב-LLMs, כמו פתרון בעיות מתמטיות או הבנת מצבים מנטליים, אינה תוצאה מובנת מהשיטה שבה הן מאומנות.
ארורה וגויאל השתמשו בתורת הגרפים האקראיים כדי לדגם את התנהגות ה-LLMs, תוך מיקוד בגרפים דו-צדדיים המייצגים טקסט וכישורים. התיאוריה שלהם, המבוססת על חוקי הקנה מידה הנוירוניים, מציעה כי ככל שה-LLMs גדלים בגודל ובנתוני אימון, הם רוכשים כישורים חדשים ושילובים שלהם, מה שמצביע על כך שהם לא רק מחקים את נתוני האימון.
התיאוריה הזו נבדקה אמפירית, והוכיחה ש-LLMs כמו GPT-4 יכולים לייצר טקסט באמצעות מספר כישורים בדרכים שסביר להניח שלא היו נמצאות בנתוני האימון. זה מציע צורה של הכללה ויצירתיות, לא רק שכפול של נתונים שנראו קודם. המאמר מסכם כי הממצאים האלה מאתגרים את תפיסת התוכנה הלומדת הסטוכסטית ומעלים שאלות לגבי ההתקדמות המהירה של יכולות ה-LLMs.
פרסומת*