HomeVideos

מכונות לומדות - פודקאסט התוכנית לתואר שני בלמידת מכונה - פרק 11

Now Playing

מכונות לומדות - פודקאסט התוכנית לתואר שני בלמידת מכונה - פרק 11

Transcript

618 segments

0:14

ברוכים הבאים לפרק החדש בפודקאסט מכונות

0:17

למדות. איתנו היום בזום פרופסור רוני קציר

0:21

מאוניברסיטת תל אביב. הוא ראש המעבדה

0:24

בשנות חישובית. ואם אני יכול לסכם את

0:27

המחקר שלו במשפט, הוא מסתכל על הדמיון בין

0:31

איך רשתות נוירונים אלמז בין השער חושבות

0:35

לבין איך בני אדם חושבים דמיון והבדלים. א

0:39

התחום הזה של קוגניציה הוא לא זר לך

0:41

אלישי. אז אני אתן לך לפתוח ולהרים לרוני.

0:45

בשאלה הראשונה.

0:47

>> האמת שאני חושב שרוני זה אחד האנשים שהכי

0:50

קל להרים להם בדס.

0:54

ודווקא כשאני חושב על ה בכלל על תחום בין

0:59

קוגניציה

1:01

ולשלות נורונים ותמיד מחזירו אותי לספר של

1:04

אשר גדל ובך אתה מכיר אותו

1:06

>> קראתי

1:07

>> זה ספר שנכתב באמת לפני לפני כמה עשורים

1:09

>> כן

1:10

>> ו

1:12

זה פשוט מדהים לראות גם עכשיו אחרי פשוט

1:15

כמה סורים אחרי שהוא נכתב עד כמה כמה

1:17

דברים שנאמרו שם הם עדיין רלוונטים אחד

1:19

הדברים שכשהם אוורים שהם עורים שם אגב לקח

1:22

המון זמן לתרגם אותו או לעברית

1:24

>> אני קראתי באנגלית לפני איזה 20 שנה

1:26

>> כן אז הוא ממש לקח הרבה זמן לתרגם אותו

1:28

ואחד הדברים שאומרים שם זה שככל שאנחנו

1:30

מתקדמים המלאכותית ולפיתוח של המודלים

1:33

החישובים אנחנו יותר מבינים מה היא לא

1:38

הקוגניציה האנושית כלומר שאנחנו מסתכלים

1:41

עכשיו על רשנות ניורונים א

1:44

אלללמים וכולי תוך כדי כך אנחנו גם

1:47

מתכננים אותם עובדים עליהם מאמנים אותם

1:50

אנחנו בעצם סוג של מבינים מה אנחנו לא

1:52

יותר מאשר שר מה אנחנו כן אבל יש משהו

1:55

מאוד מעניין בעבודות של פרופסור קציר שאני

1:59

מוצא בהם איזשהו איזשהו ניסיון קצת א

2:03

לחזור קצת

2:05

למעמד האנושי על אופן שבו אנחנו חושבים על

2:09

שפה וככה אני דווקא ארים לאחת מהבות

2:13

האחרונות של פרופסור קציר וזה הפיתוח של

2:16

אותו דבר שנקרא minimal description

2:18

length שבו אם אני ככה מרדד את כל הטזה

2:23

המתמטית הארוכה הזאת למשפט אחד. בסוף זה

2:27

בא ואומר אה אנחנו לא רק רוצים לאמן את

2:31

הרשת על אהרים

2:34

של נתונים, אנחנו גם רוצים להשאיר שמה

2:37

איזשהו מקום להפשטות.

2:40

והיכולת שלנו לבטא משהו מאוד מורכב.

2:44

באמצעות איזשהו דבר נורא קצר ושאני יכול

2:49

להכיל אותו.

2:51

יכול לייצר איזשהו מודל שיכול להיות

2:53

ההכללה שלו היא יותר משמעותית. אז אני לא

2:56

יודע אם עשיתי צדק עם העבודה שלך. א

3:00

אבל בוא תשתף אותנו קצת מה מה הוביל אותך

3:03

לכיוון הזה

3:05

ותספר לנו קצת על מה עשיתם שם.

3:09

אז אותי מעניין במיוחד איך אנחנו חושבים,

3:13

איך המערכת הקוגניטיבית שלנו עובדת וך

3:16

הידע הלשוני שלנו נראה, איך אנחנו לומדים

3:19

אותו. ו אה הידע הזה הוא בעצמו באופן מאוד

3:26

מהותי משהו חישובי. אז ב בשנות ה50 של

3:29

המאה הקודמת כלומר א העבודות המוקדמות של

3:33

נועם חומסקי שאנחנו

3:36

נולדים עם משהו שהוא שהוא במהותו חישובי א

3:39

כשאנחנו יודעים שפה כשאנחנו יודעים עברית

3:41

או אנגלית או גרמנית או כל שפה אחרת אנחנו

3:44

יושבת אצלנו איזשהיא תוכנית מחשב שהיא

3:48

הידע הזה הדקדוק ו ואז אנחנו יכולים לשאול

3:52

איך התוכניות האלה נראות ואיך נראית שפת

3:54

התכנות שהתוכניות האלה כתובות ואיך אנחנו

3:57

לומדים לומדים את התוכניות ואיך אנחנו

3:58

מבצאים אותם. כל מיני שאלות שהן באמת

4:00

באופן מאוד בסיסי ומהותי חישוביות.

4:06

והעבודה

4:08

הבלשנית, העבודה הקוגניטיבית בכלל היא

4:10

מןורס אנגרנ כזה. מנסים להבין את המערכת,

4:13

את שפת התכנות, את הרכישה, את התוכניות

4:15

עצמן. אמ ועם הללמים האלה עכשיו יש לנו

4:21

מין יצור אחר לידינו שאנחנו גם יכולים

4:24

לשאול לגביו שאלות כאלה. וזה עוזר לפעמים

4:27

לחדד את השאלות שאנחנו שואלים לגבי עצמנו.

4:30

אז מה שפת התכנות שהללמים האלה א מגיעים

4:34

איתה ואיך הם לומדים את התוכניות ואיך

4:36

נראות את התוכניות האלה אמ

4:40

ובאמת המinמום description link שהזכרת זה

4:43

איזשהו משהו שבו הלמים מאוד שונים מאיתנו.

4:46

אז א כשרשתות נוירונים מתאמנות על לפעמים

4:51

באמת כמו שהזכרת אה אה כמויות מידע עצומות

4:57

הם לומדים באיזשהיא דרך ש אה לא באמת

5:00

מביעה בחשבון את הפשטות של ה של התוכנית

5:04

אז הם האימון של הרשתות הוא כזה שהוא מנסה

5:08

להבין את קורפוס האימון מאוד מאוד טוב שהם

5:11

מנסות להיות מסוגלות לנבא אותו בצורה ממש

5:13

מוצלחת אה אבל אם הן מנבות אותו בצורה

5:17

מוצלחת בזה שהן שומרות מערכות נורא נורא

5:21

מסובכות של בשקולות, זה בסדר מבחינת

5:23

האימון הזה. ואנחנו כבני אדם לא בדיוק

5:26

עובדים ככה. אנחנו כן מנסים, אנחנו מביאים

5:29

בחשבון את היכולת שלנו לנבא את הקורפוס

5:32

הרבה פעמים עם קורפוסים הרבה הרבה יותר

5:34

קטנים אבל אנחנו לומדים וזה אפשר להראות

5:39

באופן שמביא בחשבון גם את המורכבות של

5:42

התוכנית עצמה. אנחנו אוהבים פשטות. אנחנו

5:45

אוהבים שהשערות שלנו גם כמדענים בוגרים

5:48

וגם כילדים קטנים אה אנחנו אוהבים שהשרות

5:52

שלנו הן פשוטות ואלגנטיות וזה בעצם המרות

5:56

של מינימום description הרעיון הזה של אתר

5:59

של אוקם א וזה משהו שאין לרשתות א

6:04

>> כן

6:05

>> אז יש פה אז יש פה באמת כמה דברים א כי

6:09

מצד אחד אנחנו אומרים יש משהו מאוד מאוד

6:13

מוצלח

6:14

בדבר הזה שנקרא שפה. בסוף שפה זה המצאה

6:19

קוגניטיבית

6:21

והיכולת שלנו לבטא את העולם באמצעות שפה

6:25

זו מהפכה עצומה. מהפכה קוגניטיבית עצובה.

6:27

ואנחנו היום רואים שאם ניקח הדבר הזה את

6:31

ההמצאה הזאת של השפה ונזין

6:34

אותה לתוך רשת עצומה כזאת אנחנו מבינים

6:37

שאנחנו יכולים ממש לייצג את העולם עם

6:39

מילים. אני לא חושב שאנחנו הרבה פעמים

6:41

מתייחסים לזה כמובן מאליו. אבל זה אחד

6:44

הדברים הכי לא מובנים מאליהם שאפשר לחשוב

6:47

עליהם כי לעובדה שאנחנו יכולים לתאר את

6:49

המציאות על שלל המורכבות שלה באמצעות

6:51

מילים ואז לקחת את המילים האלה

6:55

להכניס אותם לתוך מכונה ותשתמשי במילים

6:58

האלה בשביל לתאר את העולם לפורס אנגנירנג

7:01

של העולם מתוך השפה זה איזשהו תהליך שהוא

7:06

קודם כל הוא הוא מדהים זה ממש פלא הנדסי

7:08

אני כשאני מסתכל היום ואני גם עכשיו שאני

7:11

עובד עם המודלים גם המודלים אתה יודעת GPT

7:14

וכולי.

7:15

המהנדס שבי בא ואומר זה פשוט מדהים שזה

7:19

עובד ככה. זה פשוט מדהים שהיצוג

7:23

של המציאות באמצעות השפה, ההמצאה

7:26

הקוגניטיבית הזאת, הצליחה להגיע למכונה

7:28

בצורה כזאת שאפשר לעשות ממש רוורס

7:31

אנגינירנג למציאות מתוך השפה. אני אגב אני

7:34

לא בטוח בכלל שרוני יסכים איתך שזה מה

7:36

שקורה שם כי אתה יודע ישית תענו שזה פשוט

7:40

משלימים באופן הסתברותי את המילה הבאה פה

7:43

אתה מייחס המון סוכנות

7:45

>> אני מייחס הרבה סוכנות לסיפור אז שאלה

7:48

הייתי שמח לשמוע מהרון אני חושב על זה

7:51

>> אה אז אני חושב שה קודם כל מבחינת ההמצאה

7:57

הקוגניטיבית זאת המצאה של האבולוציה

7:59

הביולוגית כלומר אנחנו בני אדם מגיעים ל

8:03

לעולם כבר עם איזשהו משהו ש שנוצר באיזשהו

8:07

תהליך שאנחנו לא מבינים אותו ואנחנו לא

8:09

יודעים בדיוק מתי הוא קרה ואיך. אנחנו

8:11

מגיעים מוכנים ל אה להתנהלות הזאת הלשונית

8:16

שלנו. הידע הלשוני שלנו א התשתית הזאת שפת

8:20

התכנות זה משהו שאנחנו מגיעים איתו. אנחנו

8:22

לא צריכים להמציא אותו. ה אנחנו פשוט

8:25

בנויים ככה. ואז את השפות עצמן,

8:28

התוכניות עצמן זה משהו שמשתנה לו לאורך

8:31

זמן ובין תרבויות

8:33

וחברות והכל, אבל התשתית עצמה, המחשב

8:37

שעליו הדברים רצים, מספר התכנות ומנגנון

8:39

הלמידה, כל זה מגיע מראש

8:42

ומאוד יכול להיות שהוא מעורב באופן מאוד

8:44

עמוק באיך שאנחנו חושבים ובמה שמבחין

8:47

בינינו לבין בעלי חיים אחרים,

8:50

אה, שלאף אחד מהם אין משהו דומה לזה. א

8:55

אנחנו חולקים כל מיני דברים במערכת

8:57

הקוגניטיבית אבל לא אבל פה יש בשפה יש

9:01

איזשהו משהו שלמיתב ידיעתנו יש רק לנו

9:04

ואין אין לאחרים א שפת התכנות שלנו היא

9:09

באמת משהו כנראה ייחודי בעולם הטבע אמ

9:13

ווהוא שונה גם מהאלמים וכן הללמים מסוגלים

9:18

לעשות עבודה מאוד מאוד מרשימה

9:22

ודרך זה שכמו שעידי אמר הניבוי הזה של ה

9:26

של התו הבא הם איכשהו מצליחים דרך הדבר

9:28

הזה לעשות דברים די די מדהימים אבל בלי

9:34

בהכרח לחלוק איתנו שום דבר מעניין ויש

9:36

סיבות טובות לחשוב שהם הן באמת המכונות

9:39

האלה לא חולקות איתנו את הדבר הזה המהותי

9:41

שלנו ואפשר להסתכל זה גם הדברים שאנחנו

9:44

עושים במעבדה להסתכל מקרוב על איך איך

9:47

רשתות לומדות איך הללמים האלה לומדים

9:50

לעומת איך אנחנו לומדים

9:52

והן לא מסוגלות ללמוד הרבה פעמים עם חוקים

9:55

שכל ילד ילמד מאיזה חמש דוגמאות ו עניין

10:00

הפשטות המינימום דקפtion הוא אני חושב

10:02

מאוד מהותי כאן הן לא לומדות ככה ואז הן

10:06

ממש מפספסות את החוקיות אבל מסוגלות לקרב

10:09

את זה באופן שנראה פשוט מדהים הם מתנהגות

10:13

באופן שיכול לעבוד על כולנו עד שלא דוחפים

10:16

אותן מספיק רחוק מעבר לקורפוס האימון ואז

10:19

רואים שהן באמת לא הבינו את החוק הנכון

10:21

וכשאתה מוסיף את האלמנט הזה של המinמimal

10:24

description lה כן רואה אותן מתקרבות

10:29

לצורת חשיבה שלנו

10:32

>> אז כן באופנים מסוימים אז א אז כשהתחלנו

10:37

לאמן רשתות עם מינימום length פתאום

10:41

קיבלנו רשתות קטנות יפות כאלה שאתה ממש

10:45

יכול להסתכל פנימה ולראות את הסיפור שהן

10:47

מספות אתה נותן להם איזשהו דפוס

10:51

ומלא יותר מידי דוגמאות הן מתאמנות

10:53

ומגיעות למשהו שאתה יכול לראות שהן הבינו

10:55

בדיוק פה צריך איזה מונה פה צריך איזשהו

10:58

חוק פה צריך להשלים איזשהו משהו והן

11:00

לומדות את זה לבד רק מזה שהוספת את את

11:03

הפשטות את המinמum descriptפtion link

11:05

במקום שיטת האיבון המקובלת הן עדיין שונות

11:08

מאיתנו בדרכים אחרות כי עדיין שפת התכנות

11:10

שלהן אחרת היצוגים נראים אחרת אבל הן כן

11:13

מסוגלות לבטע אינדוקציה מן קפיצות כאלה של

11:16

הכללה שנראות הרבה הרבה יותר אנשיות כן

11:22

אז אני זאת אומרת חוזר לשאלה הזו של האלהם

11:27

שחוזה את המילה הבאה אם אם בצורה כל כך

11:32

פשוטה אפשר לשחזר את הדבר המיוחד שרוני

11:35

מדבר עליו האם באמת כל כך מיוחד מה שיש

11:38

לנו אם אפשר להעתיק אותו עם כלי כזה פשוט

11:43

>> אמ אז מה שיש לנו הוא אה א

11:50

הוא משהו שאי אפשר באמת להעתיק אותו עם

11:52

משהו כל כך פשוט. כלומר, האלמים כשהם

11:55

מתנהגים, כשההתנהגות האלהמית נראית נורא

11:58

אנושית, זה רק קירוב. כלומר, הם הם

12:01

מסוגלים לעשות משהו א א שנראה אנושי, אבל

12:07

הוא באמת לא. ושוב אפשר לדחוף אותן אפשר

12:10

לדחוף את האלה להם מעבר לקורפוס האימון

12:12

ולראות שהם באמת לא הצליחו לעשות את מה

12:15

שאנחנו עושים. לפעמים מהרבה הרבה פחות

12:17

דוגמאות. גמרא ללמוד חוק ללמוד חוק של

12:21

חיבור פשוט או של א אה דפוס כזה של העתקה

12:25

או פלינדרומים או כל מיני דברים נורא נורא

12:27

נורא פשוטים ששוב כל ילד יכול לעשות בקלות

12:32

א האליללמים מסוגלים רק להעמיד פנים שהם

12:35

עשו אותו אז זה לא א עכשיו הבעיה היא לא

12:38

באמת בניבוי של הטב הבא כשלעצמו כי וזה

12:43

משהו שהולך אחורה גם המון בעצם לאותן שנים

12:46

של ההתחלה של

12:48

העבודה הבלשנית הגנרטיבית. אז באותן שנים

12:52

רי סולומונוף א

12:55

הסתכל על ניסה לחשוב על איך מדענים מסיקים

12:58

מסקנות ואיך מתמטיקאים עובדים ובכלל איך

13:02

אינטליגנציה עובדת והגיע למסקנה שאפשר

13:06

לבנות ניבוי אופטימלי דרך ניסיון לחזות את

13:10

התו הבא אבל באופן הרבה יותר הרבה יותר

13:15

מבוסס מתמטית ועם עיקרון פשטות בעצם

13:18

עיקרון הפשטות בגרסה

13:20

פורמלית המתמטית שלו זה ההמצאה שלו זה אצל

13:23

רי סולמונוף או הגילוי של הדבר הזה הוא

13:26

אצל רי סולמונוף בסוף שנות ה-50 תחילת

13:28

שנות ה-60 ו ואפשר לבנות מכונה עקרונית

13:34

יש שמה בעיות א זה לא זה לא משהו שהוא

13:37

פרקטי אבל אפשר לבנות מכונה עקרונית

13:40

שעובדת לפי ניבוי התו הבא ומגיעה לידע ממש

13:45

נכון אמיתי של החוקים אה הללמים עושים

13:49

איזשה איזשהו קירוב לדבר הזה, אבל הוא

13:51

קירוב מאוד מאוד מאוד חלקי והן לא באמת

13:53

לומדות את החוקים והן לא מגיעות למה שיש

13:55

אצלנו מה שצנו זה אחרת והוא דורש גם את

13:59

עיקרון הפשטות הזה שיש לנו מסולומונוף

14:02

ואלך וגם אבל את ה את מערכת היצוג המתאימה

14:06

את שפת התכנות המתאימה ושפת התכנות

14:08

האלהמית היא לא הספה הנכונה הם מגיעות

14:11

לעולם המכונות האלה עם ספת תכנות שהיא

14:14

לגמרי לגמרי אחרת משלנו

14:16

>> כן אז תראה בס אני דיברנו על זה בדיוק

14:19

לפני שהתחלנו את הפודקאסט

14:22

וזה שיש לך עמדת א הייתה לך עמדת כניסה

14:26

אה מאוד נכונה נגיד ככה לעולם הזה שאלים

14:29

עשית את הראשון למתמטיקה ואחרי זה המשכת

14:32

לבלשנות

14:34

והנה נדמה פתאום נראה שאולי שפה זה כל מה

14:37

שצריך אבל אחד הדברים שאנחנו דווקא רואים

14:41

בחוץ היום בפיתוחים האחרונים שנסים בעסים

14:44

בעולמות של ai זה ששפה יש לזה יש לה כוח

14:48

אדיר כן בלפתח את ה בלבנות איזשהיא

14:53

בינה מלאכותית אבל שזה לא מספיק

14:57

שחוץ מהLM אנחנו צריכים גם VL כלומר אנחנו

15:01

צריכים איזשה VLM הוא המודלים שהם איזשהו

15:04

קורפוס ויזואלי וצריך לדבר גם על איזשהו

15:08

רפרטואר של רפרטואר מוטורי ובסוף אם אנחנו

15:12

לא מוסיפים את המוטוריקה ואת הויזואל אז

15:17

האלה

15:19

לא יוכל לפרוץ מעבר למה שהוא כבר למה שהוא

15:22

כבר פרץ. זה נשמע לך כמו הכיוון המולטי

15:26

מודלי הזה. זה נשמע לך ששמה דברים הולכים.

15:31

>> אה

15:33

זה נשמע לי א הגיוני ש שהטקסט לבדו לא

15:38

יספיק. א אבל כן אבל אה אבל אני לא אני לא

15:44

יודע באמת מה צריך בשביל אה בשביל שה

15:48

המודלים למטרות ההנדסיות שלהם יצליחו כמו

15:50

שצריך כי פה מדובר על איזשהו פרויקט אחר

15:54

כלומר הפרויקט של הרוורס אנגineרנג של

15:56

המדע הקוגניטיבי והפרויקט ההנדסי הישיר

15:59

שלבנות מכונות שטובות לנו ומתנהלות בעולם

16:04

באופן הגיוני הם הם פרויקטים נפרדים מה

16:08

שמה שנכון להתמקד בו באחד זה לא בהכרח מה

16:12

שנכון להתמקד בו בשני. כן.

16:14

>> אחת מהשאלות גם ש ככה שואלים הרבה בתחום

16:17

שלנו זה האם

16:20

ההשקה בין מדעי המוח והקוגניציה

16:24

להנדסה למדעי המחשב ולמינה מלאכותית האם

16:27

מה שהקוטי כבר מצתה את עצמה? כלומר, האם

16:29

עכשיו זה שאנחנו לומדים בלשנות תיאורטית

16:33

לבני אדם ואיך הם רוכשים שפה עם חומסקי מה

16:36

הכללים הסינטקטיים שמאפשרים למידה של

16:39

סוגים שונים של שפות עם מערכת חישובית אחת

16:41

וכל הדברים האלה, האם ההבנה שלנו על

16:45

הקוגניציה מצתה את עצמה מבחינת היכולת שלה

16:50

לתרום לדור הבא של הללם

16:54

או שלא?

16:56

>> אני לא חושב שהיא מצטה את עצמה. לא א אני

16:59

חושב ש אה ככל שאנחנו אה מסתכלים יותר על

17:04

הקוגניציה אנחנו למרות ששוב הפרויקטים

17:07

מאוד מאוד נפרדים ובעיקרון יש דברים שאפשר

17:10

לעשות למטרות הנדסיות שיהיו מצוינים ולא

17:14

יהיה להם שום קשר לקוגניציה עדיין כשאנחנו

17:17

מסתכלים על מי אנחנו וחוקרים את השאלות

17:20

הקוגניטיביות אנחנו מקבלים לאורך הדרך כל

17:23

מיני תובנות שהן מאוד מועילות גם לעבודה

17:26

ההנדסית אה אני חושב שמimמום

17:29

descriptioning זה בדיוק מסוג הדברים

17:31

שאנחנו מקבלים מהכיוון הזה. אנחנו מסתכלים

17:34

על איך אנשים מבצאים קפיצות אינדוקטיביות

17:38

כילדים או כמדענים בוגרים ומקבלים מזה

17:41

משהו שיכול מאוד לשפר את רשתות.

17:43

>> תסביר תסביר רגע קפיצות אינדוקטיביות.

17:45

תסביר למה הכוונה.

17:47

אוקיי, אז אנחנו רואים כמה דוגמאות של

17:51

איזה משהו, נניח מחרוזות

17:55

כמו AB, AABB, AA BBB, משהו נורא נורא

18:00

פשוט ואנחנו ישר מבינים טוב ההמשך הולך

18:03

להיות עוד מהסוג הזה של איזה רצף Aים ואז

18:06

רצף Bם באותו אורך משהו בסגנון שאלות

18:10

פסיכומטרי שאתה אמור להבין את הכלל כן

18:12

>> נכון בדיוק יש איזה כלל והוא יכול להיות

18:14

נורא נורא פשוט עכשיו עכשיו אנחנו גם

18:17

כולנו יודעים שאחרי איזשהו רצף כזה התחלתי

18:20

יש אינסוף דרכים להמשיך את ה את הסדרה

18:24

הזאת ואם

18:26

אם מקשים אלינו אנחנו יכולים להמציא

18:28

איזשהו סיפור לפעמים משוגע בשביל להצדיק

18:32

את ה את הסדרה אבל אנחנו נוטים לבצע

18:35

קפיצות

18:37

שנראות די דומות בינינו לבין עצמנו לכן

18:39

אפשר לשאול את השאלות האלה בפסיכומטרי כי

18:41

אנחנו כולנו

18:43

יודעים איך נראות קפיצות טובות

18:46

מהחמש דוגמאות הראשונות לדוגמה השישית או

18:48

לדוגמה ה-20

18:50

אנחנו מגיעים מוכנים לקפיצות כאלה מעבר

18:54

לאיזשהיא התחלה אנחנו רואים איזשהן כמה

18:56

דוגמאות ואנחנו מכלילים והכללה הזאת היא

19:00

החללה שאנחנו א יכולים לנסות לאפיין

19:05

וההתקדמות המדעית היא תמיד דרך קפיצות

19:09

כאלה אנחנו רואים כמה תצפיות לגבי העולם

19:12

וכמו בפסיכומטרי אנחנו יכולים להסכים לגבי

19:15

איך הגיוני להכליל כאן וילדים יודעים

19:19

להכליל ובין תרבויות מכלילים באותו אופן

19:22

בהרבה מהמקרים האלה א אנחנו מכונות הכללה

19:26

מאוד טובות ומאוד דומות אנחנו יש אחידות

19:30

גדולה בהכללות האלה שלנו לא תמיד אנחנו

19:33

רואים את זה ישר אבל אנחנו יכולים להסכים

19:35

אם מישהו מזהה את את הדפוס והוא מספר לנו

19:38

אנחנו יכולים להסכים שזאת ההחללה הנכונה

19:40

או להתעקש שזה לא החללה

19:43

הללם ממכלילים אחרת

19:46

אה באופן שנראה גם שהיינו מופתעים לראות

19:50

אותו ממדען גם משבט אחר או מילדים

19:55

או אפילו מדען ממעדים לא היינו מצפים שהוא

19:57

יחליל כמו האלהמים

20:00

זה מעניין כאילו אתה מזכיר לי את הדטהסט

20:03

שפרנסוא שולה עובד עליו אתה בטח מכיר הrkg

20:08

שזה בודק בדיוק את יכולת ההכללה של הל

20:12

מקבלים משימות נורא קשות ש א ואמנו גם בני

20:15

אדם לא מסוגלים להחליל כלומר נניח לצבוע

20:18

בפנים רק צורות שהן סגורות או צורות שהשפה

20:22

שלהם נורודה וכאלה דברים

20:25

ולאחרונה אלה אלם עם מהדור האחרון הם

20:29

מצליחים לא רע

20:31

עם האתגרים האלה אז זה עושה רושם שיכול

20:33

להיות ההחללה הזו

20:34

>> קיימת עובדת

20:35

>> לעבור פסיכומטרי הם מסוגלים או גם את זה

20:38

אתה אומר גם את זה הם מזעייפים

20:40

>> אני חושב שבכל המקרים האלה יש לא מעט

20:43

העמדת פנים מצד האלה אליהם בלי לדעת שהוא

20:45

מעמיד פנים כמובן א אבל אה כשהרשתות

20:50

מתאמנות על כל כך הרבה מידע עבירות כל כך

20:54

הרבה דוגמאות של בעיות הכללה כי הן כבר

20:57

מתאמנות על קורפוסים כל כך גדולים ש שזה

21:00

כולל גם דוגמאות כאלה של בעיות הכללה וזה

21:04

מאפשר להן אז לעבור את המבחנים האלה

21:07

בהצלחה שנחשבת מספיק טובה היא לא מושלמת

21:10

אבל היא נחשבת מספיק טובה כי כי זה מספיק

21:13

קרוב להן לקורפוס האימון, אבל הן לא באמת

21:15

לומדות א כמו שצריך.

21:19

אפילו אם ניתן להן קורפוס שהוא עוד יותר

21:21

גדול והוא כולו בעיות הכללה כאלה עדיין

21:24

נכון להיום עם שיטות האימון הקיימות הן

21:28

אלה שלא כוללות מינימום desפiption actן

21:30

או משהו שהוא מאוד קרוב לזה הם יחלילו

21:33

באופן שלא יראה אנושי רק שיהיה לנו נורא

21:36

קשה לתפוס אותן כי אם על דוגמאות עד אורך

21:41

אלף או מיליון או כמה שלא יהיה זה יראה

21:43

מספיק דומה להכללה אנושית לנו יהיה מאוד

21:46

קשה לראות שאם נדחוף את זה עוד הרבה והלאה

21:49

אה זה כבר יפסיק להראות אנושי.

21:51

>> השאלה שעולה לי בעקבות זה אני כשאני יושב

21:54

לפתור פסיכומטרי איך אתה יודע שאני לא

21:56

מעמיד פנים? איך אני יודע שאני לא מעמיד

21:58

פנים שאני יודע את הכללים האלה? איך אני

22:00

יודע שאם אני אפתור את ה בעיית ההכללה

22:03

מיליון ואחת גם אני לא אכליל בצורה שהיא

22:06

לא אנושית? אז א

22:09

>> אז

22:11

אז אני יכול לשאול אותך מה הכלל ואתה תוכל

22:13

לנסח אותו בצורה ממש מדוייקת? תוכל לכתוב

22:16

תוכנית ש א תגלם את ה את הכלל הזה אה ו

22:23

ואם שואלים אנשים ש

22:27

שלא יודעים לכתוב תוכנית אז אז גם איתם

22:29

אפשר לבדוק את זה כי אפשר לתת להם פשוט אז

22:32

נניח הם מצליחים לפתור את זה עד איזשהו

22:34

אורך מסוים ואז כבר מתחיל להיות להם קשה

22:37

אבל אז נשים אותם באיזה חדר שקט ניתן להם

22:39

לטון לישון טוב בלילה לפני ניתן להם דף

22:42

ועת כדי שהם יוכלו לעבוד יותר בצורה

22:44

מסודרת והם יוכלו להחליל את זה הלאה.

22:48

האלהמים לא, הם הם באמת למדו את הכלל הלא

22:50

נכון ואפשר אפילו להסתכל על מה הם מנסים

22:54

ללמוד בחלק מהמקרים בדוגמאות מספיק קטנות

22:57

ולראות ש שהם ממש מנסים להגיע לאיזשהיא

23:00

פינה לא נכונה במרחב ההשרות להכללה לא

23:03

טובה. זה זה מתקשר לעבודה שבעקבותיה

23:07

הזמנתי אותך לדבר איתנו פה וגם בפורום של

23:10

התואר ש

23:13

עבדתם על GPT2

23:16

וראיתם שהוא נגיד קל לו ללמוד דברים

23:19

מזויים באותה מידה שקל לו ללמוד דברים

23:23

אמיתיים בעוד שלי

23:25

>> אני הולך ללמוד עברית כנראה קל יותר

23:27

מללמוד שפה שהיא מומצת באופן א א מוכבון

23:34

להטל אנשים נכון אז תספר לנו קצת על

23:37

העבודה הזו

23:38

>> כן אז זאת עבודה שבאמת משלימה את העבודה

23:41

על על מינימום דcפtionים רשתות זה הצד

23:45

השני של ה א של סוג ההכללה שאנחנו עושים

23:49

אז ההכללות שלנו הן איזשהו שילוב של

23:52

הקריטריון הזה של איזה השרות אנחנו

23:54

מעדיפים שזה ממודפני או קריטריונים אחרים

23:58

א שינתן שתי השרות אנחנו איך אנחנו יכולים

24:01

להגיד זאת יותר טובה מזאת. אה, החלק השני

24:04

של עיקרון ההכללה הוא מערכת היצוגים וזאת

24:10

בעצם שפת התכנות הזאת שאנחנו נולדים איתה.

24:12

ואז אנחנו יכולים לשאול כשבני אדם מנסים

24:16

להתמודד עם איזשהו א עם איזשהו דפוס למשל

24:20

דפוס של ספה אמיתית או דפוס מסוג שאין לנו

24:23

בכל מיני שפות האם אנחנו יכולים

24:27

ללמוד להסתכל על איך אנשים מכלילים אה

24:30

ולהסיק מזה כל מיני מסקנות לגבי שפת

24:33

התכנות שלנו ובאמת אפשר לראות שגם

24:38

ילדים שנחספים לאיזשהו קורפוס מסוים על

24:41

פני כמה שנות שנות חיים מבצאים קפיצה

24:44

אינדוקטיבית כזאת הכללה א באופן שיטתי

24:48

שהולך לכיוון מסוים וזה הולך לכיוונים

24:50

האלה של הדברים שאנחנו מוציאים בשפה אחרי

24:52

שפה ולא מוציאים בהרבה שפות דמיוניות

24:55

שהיינו יכולים להמציא לעצמנו

24:58

>> אתה יכול לתת דוגמה ספציפית למה מה אמיתי

25:01

ומה מומצע בשפה

25:04

>> כן אז יש כל מיני דברים שאנחנו יודעים שהם

25:08

שאנחנו מוצאים בהמון המון נוספות אה

25:12

ולמשל שיש לנו הכללות שמבוססות על מבנה

25:16

היררכי. אז בכל השפות שאנחנו מכירים

25:20

המבנים שלנו אנחנו לא סתם עובדים ברמה של

25:23

מחרוזות אלא מאחורי הקלים. המחרוזות האלה

25:27

משקפות לנו איזשהו מבנה עם הרבה יותר

25:31

מורכבות מבנית. דברים שאפשר לחשוב עליהם

25:34

כעצים או כגרפים אחרים. וזה משהו שיש לנו

25:39

בכל בכל השפות. עכשיו המבנים האלה משמשים

25:43

אותנו גם לכל מיני תהליכים. יש תהליכים

25:46

תחביריים למשל שמאוד מאוד רגישים למבנה

25:50

הזה, למבנה הגרפי הזה. ו תלויות שמבוססות

25:55

על המבנה הגרפי הזה הן תלויות שבחלקן

25:59

הן מאוד טבעיות לנו ואנחדים לומדים את זה

26:02

מאוד בקלות ואנחנו מוצאים את זה בשפה אחרי

26:05

שפה. תלויות שהן ליניאריות ברמת המחרוזת

26:08

זה משהו שהוא מאוד נדיר ואולי לא קיים

26:11

בכלל בתלויות תחביריות ואם ננסה ללמוד את

26:15

זה יהיה לנו יותר קשה א ויש טענות שזה גם

26:19

כשאנחנו כן לומדים דברים כאלה אז א זה

26:23

אפשר לזהות שחלקים אחרים במוח מטפלים בזה

26:27

יש ניסיונות להבין איך איך ואיפה זה מטופל

26:31

ברמת הפעילות המוחית אמ וזה הכללות שאפשר

26:35

היה לדמיין מכונות אחרות, לא אנחנו, שזה

26:38

היה להן מאוד טבעי, מכונות שאולי יש להם

26:40

מבנה גרפי כזה, אולי אפילו כמו אצלנו, אבל

26:43

התלויות יכולות להיות מנוסחות ברמה

26:45

הליניארית של המחרוזת. זה פשוט לא אנחנו.

26:49

>> מהמם? זה כמו שבסוף, כשחומסקי בא ותייר את

26:53

הכללים הסטינטקטיים ככה הבסיסיים, אני לא

26:56

חושב שהוא קישר את זה ישירות לרשות

26:58

ניורונים. כן? בסוף אנחנו לא נולדים עם

27:01

איזשהו לוחלק. אנחנו כן יש איזשהי מערכת

27:04

עצבית ש שמגלמת את החוקים התחבירים האלה

27:09

באופן שמאפשר למי שגדל בסין לרכוש את השפה

27:12

הסינית ומי שגדל בישראל לרכוש את השפה את

27:15

השפה העברית ואז שאנחנו מתחילים עם רשת

27:18

ניירורונים כזאת שהיא עצומה אז כן יש שמה

27:23

איזשהו סוג של לוח הלק והלוח ה חלק הזה

27:26

יכול גם ללמוד א שפות שהם שפות לא

27:29

מציאותיות שפות לא אמיתיות שפות שאנחנו

27:32

כבני בני אדם לא היינו יודעים לרכוש אותם

27:37

ופה זה הדבר הזה מעלה לי את השאלה זה האם

27:39

אנחנו הניסיון שלנו להלץ את המכונה להתנהג

27:44

כמונו לחשוב בכללים שיותר מזוהים עם

27:47

הקוגניציה שלנו אם אנחנו לא מגבילים את

27:50

המכונות האלה בצורה בצורה כלשהיא

27:56

>> אז כן כשאנחנו מענים אותן על אה על

27:59

הטקסטים שלנו שזה מה שאנחנו בדרך כלל ל

28:02

עושים אז אנחנו דוחפים אותן ל לקרב את ה

28:06

את סוג הדברים שאנחנו עושים זה לא צריך

28:09

להיות בדיוק אבל זה לקרב את סוג הדברים

28:10

שאנחנו עושים אין מבחינתן אין לא בדיוק

28:14

לוח חלק כי אין אי אפשר באמת ללמוד עם לוח

28:17

חלק אבל הן מגיעות הרבה יותר ניטרליות הן

28:20

יש להן הרבה הרבה פחות מההכנה הביולוגית

28:23

שלנו לסוג הדברים שאנחנו מוציאים אצלנו

28:27

בשפות א הן הרבה יותר ניטרליות מבחינה

28:30

בלשנית א ובעיקרון הן היו יכולות גם ללמוד

28:35

דברים שהם מאוד מאוד לא אנושיים ולא לא

28:38

טבעיים לנו וין לא עשות את זה כי אנחנו לא

28:41

מאמנים אותן על על קורפוסים כאלה כן

28:43

>> אז אז מה לדעתך הצעד הבא מה הבאלנק שלנו

28:47

היום האם אנחנו צריכים עוד דטא אם אנחנו

28:50

צריכים דטה יותר איכותי האם אנחנו צריכים

28:53

מודלים חדשים האם זה עניין של חומרה

28:57

שאנחנו צריכים עכשיו וזה מה שמגביל אותנו

29:00

מה הבדלנק איך שאתה רואה של התחום שאם

29:04

נפתור אותו נקבל את הפריצה הבאה.

29:09

את השאלה היא מה המטרה בדיוק כי לפרויקט

29:13

ההנדסי לא לפרויקט הקוגניטיבי לפרויקט אז

29:17

לפרויקט ההנדסי יש מטרות ש אה חלקן

29:24

מתממשקות באופן באופן מעניין עם הפרויקט

29:28

הקוגניטיבי אבל לפעמים גם לא וחלק מפריצות

29:31

הדרך וזה אני

29:34

יש

29:35

מומחים לתחום הזה שיוכל תוכלו בטח לספק

29:39

לכם הרבה יותר אה הרבה יותר תובנות לגבי

29:43

הצעדים הבאים ופריצות הדרך הבאות. אני

29:46

עוסק בצד הקוגניטיבי של הדברים. אמ ואני

29:50

אני בטוח שיש דברים שהם לחלוטין נפרדים

29:52

מזה ושיכולים להיות מאוד רלוונטיים

29:54

לפריצות הדרך הבאות. אני כן חושב שלפרויקט

29:58

הקוגניטיבי יש המון מה לתרום ל

30:02

לפיתוח ההללמי בין השאר בשביל להבין

30:06

ההלמים האלה הרי גם אנחנו רוצים שהם ילמדו

30:10

מפחות מידע זה לא נוח שאנחנו צריכים לאמן

30:13

אותם על כל כך הרבה מידע א ואת זה אנחנו

30:16

יכולים לשפר על ידי זה שאנחנו הופכים את

30:18

האלמים יותר דומים לנו א על ידי דברים כמו

30:22

minimמום description link על ידי זה

30:24

שמנסים להבין אם אפשר להכניס משהו

30:26

ממהיצוגים, ממערכת היצוגים האנושית לאלמים

30:30

ספק להפוך את צפת התכנות שלהם לקצת יותר

30:32

דומה לשלנו, גם אם לא לגמרי, רק בשביל שהם

30:35

יופלו ללמוד יותר טוב מפחות. א אבל גם כל

30:39

מיני דברים אחרים כמו זה שה מכיוון שהם

30:42

נכנסים לכל תחום בחיינו והם כל כך שונים

30:45

מאיתנו לנסות לזהות איפה זה יכול להיות

30:47

בעייתי. למשל לנו יש הבחנה מהותית מאוד

30:51

בין נכונות מצד אחד לבין הסתברות מצד שני

30:56

>> השאלה אח השאלה אח השאלה האחרונה שככה

30:59

הייתי רוצה ככה בדקה האחרונה שיש לנו דקות

31:03

האחרון שיש לנו

31:05

>> זה כשאתה רואה את המכונה באה ומפגינה

31:08

איזשהם יכולות קוגניטיביות כאלה ואחרות מה

31:13

זה יותר זה יותר מרגש אותך או יותר מפחיד

31:16

אותך

31:18

אז נכון לעכשיו אני לא רואה אותן מראות

31:22

באמת משהו קוגניטיבי עמוק הן כן מאוד מאוד

31:26

מרשימות ברמה ההנדסית א מה ש מה שמפחיד

31:31

אותי בעיקר לגביהן כרגע זה שהם א כלי

31:35

שיכול לבלבל אנשים בכל מיני דרכים לשמש

31:40

לכל מיני מטרות של אה התעיה ציבורית א

31:44

וודברים שכבר כבר קוראים בכל מיני מקומות

31:49

ווזה יותר מדאיג מאשר איזשהיא קוגניציה

31:52

אמיתית שמתפתחת שמה או איזשהם רצונות

31:54

אמיתיים של המכונות שנכון עכשיו הם

31:58

>> טוב א אני לא רוצה לסיים בכזו נעימה

32:01

שלילית אז אני אשאל אותך רוני

32:03

>> זה חיו זה חיובי משאיר אותנו ייחודיים

32:05

דווקא

32:06

>> לא הפחד מזה שהאלה אליהם זה יעשה לנו

32:09

נזקים יש לנו צריך לדבר על ה על הדברים

32:12

הטובים גם והייתי רוצה לשאול שאלה אחרונה

32:15

ובאמת פה נסיים איפה אתה רואה א את התחום

32:19

עוד שנה עוד שנתיים ספציפית מנקודת המבט

32:22

שלך מה כלומר נניח הטכנולוגיה ממשיכה

32:25

להתפתח בקצב הזה מה איך זה משפיע על המחקר

32:28

שלך מה אתה יכול לממש עם זה

32:31

>> אז נכון עכשיו כל עוד הפרויקט ההנדסי

32:34

מתקדם בכיוון הנוכחי שלו של להפוך את

32:36

הללמים ליותר גדולים יותר מהירים להתאמן

32:39

על יותר מידע וולהצליח לקרב דברים יותר

32:42

טוב זה זה לא באמת אז מאפשר לפרויקט הזה

32:49

להשפיע על הדברים שאנחנו חוקרים

32:52

בקוגניציה, אבל זה כן הופך לכלי יותר

32:55

ויותר טוב לכל מיני א מטרות של עומדן של

33:00

אינפורמציה בקורפוס א לזיהוי של כל מיני

33:04

תבניות. אז כלי עבודה שהוא מאוד מאוד טוב.

33:07

הוא כבר מאוד מועיל ואני חושב שהוא יהפוך

33:10

לעוד יותר מועיל. אה

33:12

>> טוב

33:12

>> אז זה אולי משהו חיובי לחיום. תודה רבה.

33:15

אז א אני אגיד תודה לאלישע על השאלות

33:17

המעניינות. תודה לרוני על התשובות

33:20

המעניינות. תודה למאזינים שלנו שהקשיבו

33:22

לנו ואנחנו ניפגש בפרק הבא.

33:26

>> מעולה. תודה רון.

Interactive Summary

בפודקאסט "מכונות לומדות", פרופסור רוני קציר מאוניברסיטת תל אביב דן בהבדלים המהותיים בין רשתות נוירונים (LLMs) לבין הקוגניציה האנושית. השיחה מתמקדת בעיקרון ה-Minimal Description Length (MDL), הגורס כי בני אדם שואפים לפשטות ואלגנטיות בלמידה והכללה, בעוד שמכונות לומדות מבוססות בעיקר על כמויות אדירות של דאטה ללא העדפה מובנית לפשטות. קציר מסביר כי בני אדם נולדים עם תשתית חישובית מולדת המאפשרת הכללה מהירה ממספר דוגמאות מועט, בניגוד למודלי שפה המבצעים קירובים סטטיסטיים שלעיתים רק מעמידים פנים של הבנה.

Suggested questions

5 ready-made prompts