האם Chatbots מבינים את מה שהם אומרים? תיאוריה חדשה

מחקר חדש מאתגר את התפיסה של "תוכנות לומדות סטוכסטיות" ומציע כי ל-LLMs יש יכולת הבנה אמיתית

מאת lior testa
עודכן 31.01.2024 23:30

כדי לעשות פעולה זו עליך להתחבר

בהצטרפותכם למערכת, תוכלו ליהנות מהיתרונות הבאים:

גישה לתוכן ללא פרסומות.

אפשרות לשנות את שפת הממשק לשפה שאתם מעדיפים.

אפשרות להתאים את גודל הטקסט.

הזדמנות לדווח על תוכן לא הולם או פרסום לא מתאים.

אפשרות לשמור מאמרים ותוכן שאתם אוהבים לקריאה מאוחרת.

הזדמנות להתבטא ולהגיב על המאמרים שתקראו.

התחבר עם סיסמה

התאמת גודל טקסט

מצאתם טעות בכתבה? ספרו לנו

מחקר חדש מציע תובנות מעמיקות בנוגע להבנת הטקסט על ידי מודלים גדולים של שפה (LLMs) כמו ChatGPT ו-Bard. האם הם באמת מבינים את התוכן שלהם, או האם הם רק "תוכנות לומדות סטוכסטיות", כפי שהוגדרו במאמר של אמילי בנדר ואחרים בשנת 2021? המונח מרמז כי LLMs יוצרות טקסט על ידי שילוב של מידע שנראה קודם לכן בלי הבנה אמיתית.

ג'וף הינטון, חלוץ בתחום ה-AI, מדגיש את החשיבות של פתרון הוויכוח הזה להערכת הסכנות הפוטנציאליות של ה-AI. מחקר חדש של סנג'יב ארורה ואנירוד גויאל מאתגר את הנחת התוכנה הלומדת הסטוכסטית. הם מציעים כי ככל ש-LLMs גדלים בגודל ובנתונים, הם לא רק משפרים בכישורים השפתיים האישיים שלהם, אלא גם מפתחים כישורים חדשים על ידי שילוב כישורים בדרכים שמצביעות על הבנה מעבר למה שנמצא בנתוני האימון.

LLMs פועלים כרשתות נוירונים מלאכותיות ענקיות, המתאמנות לחזות מילים במשפטים ונבדקות על נתונים שלא נראו קודם. הופעתן המפתיעה של יכולות מגוונות ב-LLMs, כמו פתרון בעיות מתמטיות או הבנת מצבים מנטליים, אינה תוצאה מובנת מהשיטה שבה הן מאומנות.

ארורה וגויאל השתמשו בתורת הגרפים האקראיים כדי לדגם את התנהגות ה-LLMs, תוך מיקוד בגרפים דו-צדדיים המייצגים טקסט וכישורים. התיאוריה שלהם, המבוססת על חוקי הקנה מידה הנוירוניים, מציעה כי ככל שה-LLMs גדלים בגודל ובנתוני אימון, הם רוכשים כישורים חדשים ושילובים שלהם, מה שמצביע על כך שהם לא רק מחקים את נתוני האימון.

התיאוריה הזו נבדקה אמפירית, והוכיחה ש-LLMs כמו GPT-4 יכולים לייצר טקסט באמצעות מספר כישורים בדרכים שסביר להניח שלא היו נמצאות בנתוני האימון. זה מציע צורה של הכללה ויצירתיות, לא רק שכפול של נתונים שנראו קודם. המאמר מסכם כי הממצאים האלה מאתגרים את תפיסת התוכנה הלומדת הסטוכסטית ומעלים שאלות לגבי ההתקדמות המהירה של יכולות ה-LLMs.

פרסומת*

תגובות 0