מאמר חדש שפורסם בכתב העת היוקרתי Nature במרץ 2026 מציג הישג שנשמע כמו מדע בדיוני. חוקרים מחברת Sakana AI ומכמה אוניברסיטאות בנו מערכת בשם The AI Scientist, שמסוגלת לנהל תהליך מחקר מדעי שלם בעצמה, מהרעיון הראשוני ועד למאמר המוגמר. וכדי להוכיח את זה, מאמר שהמערכת הפיקה לבד אפילו עבר ביקורת עמיתים בסדנה של כנס מוביל בתחום הלמידה החישובית. בכתבה הזו נסביר מה המערכת עושה, מה היא הצליחה, איך היא עובדת, ומה המשמעות, גם לעולם העסקי.
מה The AI Scientist עושה
הרעיון מאחורי המערכת שאפתני. במקום לעזור לחוקר במשימה אחת, היא לוקחת על עצמה את כל מחזור החיים של המחקר. היא מייצרת רעיונות מחקר, כותבת את הקוד, מריצה ניסויים, מנתחת ומשרטטת את התוצאות, כותבת את המאמר המדעי המלא, ואפילו מבצעת ביקורת עמיתים על עצמה. המיקוד הוא במחקר בתחום הלמידה החישובית, כי שם הניסויים מתרחשים כולם על המחשב, בלי צורך במעבדה פיזית.
כדי לעשות את זה, המערכת מבוססת על מודלי יסוד מובילים, אותם מודלי שפה גדולים שמפעילים את כלי הבינה המלאכותית של היום, והיא עוטפת אותם במערכת מורכבת של סוכנים שעובדים יחד. המערכת פועלת בשני מצבים, אחד ממוקד שמקבל תבנית קוד התחלתית מאדם, ואחד פתוח לגמרי שמחפש כיוונים בעצמו וכותב את הקוד מאפס.
הניסוי שעשה את הכותרות
החלק שמשך את תשומת הלב הוא מבחן אמיתי. החוקרים הגישו שלושה מאמרים שהמערכת הפיקה לסדנה בכנס ICLR לשנת 2025, בהסכמה מלאה של מארגני הכנס ובאישור ועדת אתיקה. המאמרים נכנסו יחד עם 43 מאמרים אחרים לתהליך ביקורת, והשופטים ידעו שחלק מההגשות נכתבו על ידי בינה מלאכותית, אבל לא אילו מהן, כך שהתהליך היה עיוור.
אחד משלושת המאמרים קיבל ציון ממוצע של 6.33, ציון שעבר את רף הקבלה הממוצע של הסדנה, ודירג אותו בין 45 האחוזים העליונים של המאמרים שהוגשו. המארגנים אמרו שהמאמר היה ככל הנראה מתקבל, אלמלא נמשך בכוונה לפי נוהל שנקבע מראש בגלל שנכתב על ידי AI. מעניין לציין שהמאמר שהתקבל דיווח דווקא על תוצאה שלילית, מה שהתאים למיקוד של אותה סדנה. שני המאמרים האחרים לא עברו את הרף. כל התהליך, מהרעיון ועד הכתיבה, נעשה ללא שום התערבות אנושית בתוכן עצמו.
איך זה עובד מאחורי הקלעים
המערכת עובדת בארבעה שלבים. בשלב הראשון היא מייצרת מאגר של רעיונות והשערות בתוך תחום מחקר שמגדירים לה, וכדי לוודא שהרעיונות חדשים היא בודקת אותם מול הספרות הקיימת ומשליכה כל רעיון שדומה מדי למשהו שכבר נעשה. בשלב השני היא מריצה את הניסויים, ובמצב הפתוח היא אף משתמשת בחיפוש מתוחכם שמנסה כמה כיוונים במקביל ובוחר את המבטיחים. בשלב השלישי היא כותבת את המאמר בפורמט של כנס מדעי, כולל בניית רשימת המקורות, ובשלב הרביעי המאמר עובר ביקורת.
רכיב מעניין במיוחד הוא הסוקר האוטומטי. הוא בנוי לפי ההנחיות של אחד הכנסים המובילים בתחום, מפיק ציונים מספריים ורשימת חוזקות וחולשות, ומגיע להחלטה אם לקבל או לדחות. החוקרים מצאו שהסוקר האוטומטי מגיע לרמת דיוק שדומה לזו של שופטים אנושיים. ממצא חשוב נוסף עלה מהמחקר, ולפיו איכות המאמרים שהמערכת מייצרת משתפרת באופן עקבי ככל שמודלי היסוד שבבסיסה משתפרים, וגם ככל שמקצים לה יותר משאבי חישוב. המשמעות היא שגרסאות עתידיות צפויות להיות חזקות בהרבה.
המבט העסקי
למרות שמדובר במחקר מדעי, יש כאן מסר חשוב לעולם העסקי. עד היום נטינו לחשוב שאוטומציה וסוכני AI מתאימים בעיקר למשימות חוזרות ופשוטות. The AI Scientist מראה שהכיוון הולך רחוק הרבה יותר, אל עבר אוטומציה של עבודה מורכבת, רב שלבית, ואפילו יצירתית. אותה ארכיטקטורה בדיוק, שמתכננת, מבצעת, מנתחת, מתקנת את עצמה, ובודקת את התוצאה, היא בדיוק סוג המבנה שיניע בעתיד אוטומציה של תהליכים עסקיים מתוחכמים.
מעבר לכך, יש כאן שני לקחים מעשיים. הראשון הוא שהמערכות האלה משתפרות מעצמן ככל שהמודלים מתחזקים, כך שגם עסק שלא מתרשם היום, כדאי לו לעקוב, כי קצב השיפור מהיר. השני הוא שגם במערכת המתקדמת הזו, בני אדם עדיין סיננו את הפלט ובחרו את התוצרים הטובים, מה שמחזק את העיקרון שאוטומציה חכמה היא שילוב של מכונה ואדם, ולא החלפה מלאה.
ההסתייגות, מה המערכת עדיין לא יודעת
חשוב מאוד לשמור על פרופורציות, והחוקרים עצמם מקפידים על כך. ראשית, רק אחד משלושה מאמרים התקבל, ולסדנאות יש רף קבלה נמוך בהרבה מאשר לכנס המרכזי, שבעים אחוז קבלה בסדנה לעומת כשליש בלבד בכנס הראשי. כלומר המערכת עדיין רחוקה מהיכולת לעמוד ברמה של מחקר אנושי מהשורה הראשונה, ובוודאי לא באופן עקבי.
שנית, יש למערכת כשלים אופייניים. לעיתים היא מייצרת רעיונות שטחיים, טועה ביישום, חסרה עומק מתודולוגי, או הוזה פרטים, למשל מקורות שאינם נכונים. גם לא ברור עד כמה היא מסוגלת לחידושים מושגיים אמיתיים, מהסוג של קפיצות המדרגה הגדולות במדע. ולבסוף, החוקרים עצמם מצביעים על הסיכונים, ובהם הצפת מערכת ביקורת העמיתים והכנסת רעש לספרות המדעית, ולכן הם נהגו באחריות, קיבלו את כל האישורים הנדרשים, ומשכו את כל המאמרים אחרי הביקורת כדי לא ליצור תקדים בעייתי.
בשורה התחתונה The AI Scientist הוא ציון דרך אמיתי, והוא מראה שתהליך הגילוי המדעי כבר אינו בהכרח עניין אנושי בלבד. עם זאת, הוא עדיין רחוק מלהחליף חוקרים, וסובל ממגבלות ברורות של איכות, עומק ואמינות. הסיפור האמיתי כאן הוא לא שהמערכת מושלמת היום, אלא הכיוון וקצב ההתקדמות, כי ככל שהמודלים שמאחוריה ימשיכו להשתפר, כך היא תלך ותתחזק. עבור מי שעוקב אחרי עולם הבינה המלאכותית והאוטומציה, זו הצצה מרתקת אל עד כמה רחוק היכולות האלה יכולות להגיע.
1. מה זה The AI Scientist ומה הוא עושה?
The AI Scientist הוא מערכת שבנו חוקרים מחברת Sakana AI וכמה אוניברסיטאות, שמסוגלת לנהל תהליך מחקר מדעי שלם בעצמה, מהרעיון הראשוני ועד למאמר המוגמר. במקום לעזור לחוקר במשימה אחת, היא לוקחת על עצמה את כל מחזור החיים של המחקר: מייצרת רעיונות מחקר, כותבת את הקוד, מריצה ניסויים, מנתחת ומשרטטת את התוצאות, כותבת את המאמר המדעי המלא, ואפילו מבצעת ביקורת עמיתים על עצמה. המיקוד הוא במחקר בתחום הלמידה החישובית, כי שם הניסויים מתרחשים כולם על המחשב בלי צורך במעבדה פיזית.
2. מה היה הניסוי שעשה את הכותרות?
החוקרים הגישו שלושה מאמרים שהמערכת הפיקה לסדנה בכנס ICLR לשנת 2025, בהסכמת מארגני הכנס ובאישור ועדת אתיקה. המאמרים נכנסו יחד עם 43 מאמרים אחרים לתהליך ביקורת עיוור, שבו השופטים ידעו שחלק מההגשות נכתבו על ידי AI אבל לא אילו מהן. אחד משלושת המאמרים קיבל ציון ממוצע של 6.33, שעבר את רף הקבלה הממוצע של הסדנה ודירג אותו בין 45 האחוזים העליונים. המארגנים אמרו שהמאמר היה ככל הנראה מתקבל, אלמלא נמשך בכוונה לפי נוהל שנקבע מראש בגלל שנכתב על ידי AI. שני המאמרים האחרים לא עברו את הרף, וכל התהליך נעשה ללא התערבות אנושית בתוכן.
3. איך המערכת עובדת מאחורי הקלעים?
המערכת עובדת בארבעה שלבים. בשלב הראשון היא מייצרת מאגר של רעיונות והשערות בתוך תחום מחקר שמגדירים לה, ובודקת אותם מול הספרות הקיימת כדי להשליך כל רעיון שדומה מדי למשהו שכבר נעשה. בשלב השני היא מריצה את הניסויים, ובמצב הפתוח אף משתמשת בחיפוש מתוחכם שמנסה כמה כיוונים במקביל. בשלב השלישי היא כותבת את המאמר בפורמט של כנס מדעי כולל רשימת מקורות, ובשלב הרביעי המאמר עובר ביקורת. רכיב מעניין במיוחד הוא הסוקר האוטומטי, שמגיע לרמת דיוק שדומה לזו של שופטים אנושיים. ממצא חשוב נוסף הוא שאיכות המאמרים משתפרת באופן עקבי ככל שמודלי היסוד שבבסיסה משתפרים וככל שמקצים לה יותר משאבי חישוב.
4. מה המשמעות לעולם העסקי?
למרות שמדובר במחקר מדעי, יש כאן מסר חשוב. עד היום נטינו לחשוב שאוטומציה וסוכני AI מתאימים בעיקר למשימות חוזרות ופשוטות, אבל The AI Scientist מראה שהכיוון הולך רחוק הרבה יותר, אל עבר אוטומציה של עבודה מורכבת, רב-שלבית ואפילו יצירתית. אותה ארכיטקטורה שמתכננת, מבצעת, מנתחת, מתקנת את עצמה ובודקת את התוצאה היא בדיוק סוג המבנה שיניע בעתיד אוטומציה של תהליכים עסקיים מתוחכמים. שני לקחים מעשיים: המערכות האלה משתפרות מעצמן ככל שהמודלים מתחזקים, כך שכדאי לעקוב גם אם לא מתרשמים היום, ובני אדם עדיין סיננו את הפלט ובחרו את התוצרים הטובים, מה שמחזק את העיקרון שאוטומציה חכמה היא שילוב של מכונה ואדם.
5. מה המערכת עדיין לא יודעת לעשות?
חשוב לשמור על פרופורציות. רק אחד משלושה מאמרים התקבל, ולסדנאות יש רף קבלה נמוך בהרבה מאשר לכנס המרכזי (שבעים אחוז קבלה בסדנה לעומת כשליש בלבד בכנס הראשי), כך שהמערכת עדיין רחוקה מהיכולת לעמוד ברמה של מחקר אנושי מהשורה הראשונה. יש לה גם כשלים אופייניים: לעיתים היא מייצרת רעיונות שטחיים, טועה ביישום, חסרה עומק מתודולוגי, או הוזה פרטים כמו מקורות שאינם נכונים, ולא ברור עד כמה היא מסוגלת לחידושים מושגיים אמיתיים. החוקרים עצמם מצביעים על הסיכונים, ובהם הצפת מערכת ביקורת העמיתים והכנסת רעש לספרות המדעית, ולכן משכו את כל המאמרים אחרי הביקורת כדי לא ליצור תקדים בעייתי.

1 תגובות