Microsoft’s open-source SkillOpt automatically upgrades AI agent skills without touching model weights

skill optimization
एजेंट कौशल वास्तविक दुनिया के एआई अनुप्रयोगों का एक महत्वपूर्ण हिस्सा बन गए हैं, जो एक तंत्र प्रदान करते हैं – टेक्स्ट-आधारित मार्कडाउन (.md) फ़ाइलों के एक फ़ोल्डर में सहेजे गए निर्देशों का एक सेट, आमतौर पर – मॉडल के लिए विशिष्ट उद्यम उपयोग के मामलों और जटिल वर्कफ़्लोज़ के अनुकूल होने के लिए।

हालाँकि, इन कौशलों को अनुकूलित करना एक धीमी प्रक्रिया और दोषपूर्ण प्रक्रिया है, क्योंकि उन्हें अंतर्निहित एआई मॉडल के मापदंडों के समान प्रशिक्षित नहीं किया जा सकता है। इसके बजाय, उपयोगकर्ताओं को आम तौर पर प्रत्येक फ़ाइल में निर्देशों को फिर से टाइप करके उन्हें मैन्युअल रूप से अपडेट करना होगा "अनुमान लगाने का खेल" कि कौन से परिवर्तन एजेंटिक एआई प्रदर्शन में सुधार कर सकते हैं और त्रुटियों को कम कर सकते हैं।

स्किलऑप्ट, माइक्रोसॉफ्ट द्वारा विकसित एक नया, खुला स्रोत (एमआईटी लाइसेंस प्राप्त) ढांचा, एक बेहतर कार्य करता है: यह एजेंट कौशल के लिए डिज़ाइन किया गया एक ऑप्टिमाइज़र पेश करता है, जो एजेंट के कौशल .md दस्तावेज़ को एक प्रशिक्षण योग्य वस्तु के रूप में बदल देता है जो प्रदर्शन प्रतिक्रिया के आधार पर विकसित होता है।

यह एआई के लिए दस्तावेज़ में व्यवस्थित रूप से संशोधनों का पता लगाना और निर्देशों का सर्वोत्तम संयोजन ढूंढना संभव बनाने के लिए गहन-शिक्षण-शैली अनुकूलन का उपयोग करता है। सबसे महत्वपूर्ण बात यह है कि यह अंतर्निहित मॉडल के वजन में बदलाव किए बिना इस प्रक्रियात्मक अनुकूलन को पूरा करता है।

विभिन्न उद्योग मानकों पर, स्किलऑप्ट मौजूदा बेसलाइन से बेहतर प्रदर्शन करता है, जिससे जीपीटी-5.5 और क्वेन जैसे मॉडलों के लिए सटीकता में उल्लेखनीय वृद्धि होती है। परिणाम कॉम्पैक्ट, हस्तांतरणीय कौशल कलाकृतियों का एक सेट है जो एआई एजेंटों को नए डोमेन को आसानी से अनुकूलित करने की अनुमति देता है।

एजेंट कौशल को अनुकूलित करने की चुनौती

एजेंट कौशल डोमेन अनुमान, उपकरण-उपयोग नीतियों, आउटपुट बाधाओं और ज्ञात विफलता मोड सहित प्राकृतिक-भाषा विनिर्देशों में प्रक्रियात्मक ज्ञान को पैकेज करते हैं। ये कौशल एजेंटों को जटिल उद्यम वर्कफ़्लो के अनुकूल होने के लिए एक बाहरी इंटरफ़ेस प्रदान करते हैं। व्यवहार में, एजेंट कौशल को पाठ दस्तावेज़ के रूप में संग्रहीत किया जाता है और निष्पादन से पहले एजेंट के संदर्भ में डाला जाता है।

कौशल के प्रमुख लाभों में से एक यह है कि वे अंतर्निहित मॉडल के वजन को बदले बिना उसके व्यवहार को अनुकूलित करते हैं। हालाँकि, एजेंट से सर्वोत्तम प्रदर्शन प्राप्त करने के लिए कौशल दस्तावेज़ को स्वयं संशोधित और अनुकूलित करने की आवश्यकता है।

जबकि गहन शिक्षा स्थिरता के लिए सख्त गणितीय नियंत्रणों पर निर्भर करती है, मानव त्वरित इंजीनियरिंग अक्सर परीक्षण और त्रुटि पर निर्भर करती है। फीडबैक के आधार पर किसी कौशल दस्तावेज़ को स्वचालित रूप से अपडेट करने का प्रयास करते समय, गणितीय अनुशासन की कमी पाठ को अत्यधिक अस्थिर बना देती है।

माइक्रोसॉफ्ट रिसर्च एशिया के सीनियर रिसर्च एसडीई यिफान यांग ने वेंचरबीट को बताया कि समस्या परिवर्तन करना नहीं है, बल्कि यह सुनिश्चित करना है कि वे परिवर्तन गणितीय रूप से सही हों।

"निर्णायक बिंदु यह नहीं है कि क्या कोई टीम किसी कौशल को बदल सकती है, बात यह है कि वे इस बात की गारंटी नहीं दे सकते कि बदलाव एक सुधार है," यांग ने कहा. "तीन विफलता मोड दोहराए जाते हैं: कोई चरण-आकार नियंत्रण नहीं, इसलिए कौशल बह जाते हैं; कोई सत्यापन नहीं है, इसलिए जो सुधार उचित लगता है वह लिख दिया जाता है और चुपचाप प्रदर्शन को पीछे ले जा सकता है; और कोई नकारात्मक स्मृति नहीं है, इसलिए वही विफल संपादन वापस आता रहता है।"

यह समझाने के लिए कि जब संपादन गणितीय रूप से मान्य नहीं होते हैं तो प्रदर्शन कितनी आसानी से गिर सकता है, यांग ने कहा "एक अनएटेड पुनर्लेखन ने स्प्रैडशीटबेंच पर GPT-5.5 को 41.8 से नीचे 41.1 पर धकेल दिया।"

यांग के अनुसार, ये विफलता मोड बहु-चरणीय वर्कफ़्लो में बढ़ जाते हैं "क्योंकि यहीं पर फ्रंटियर मॉडल सबसे कमजोर जीरो-शॉट होते हैं। तर्क पर नहीं, बल्कि प्रक्रियात्मक अनुशासन पर: प्रारूप, स्व-सत्यापन, उपकरण नीति।"

स्किलऑप्ट से पहले, एजेंट कौशल मुख्य रूप से हाथ से तैयार किए गए थे, एक ही बार में तैयार किए गए थे, या शिथिल रूप से नियंत्रित स्व-संशोधन पाइपलाइनों के माध्यम से विकसित किए गए थे जो फीडबैक के तहत विश्वसनीय रूप से सुधार नहीं कर सकते थे।

टेक्स्टग्रैड और जीईपीए जैसी प्रॉम्प्ट अनुकूलन विधियाँ भाषा कलाकृतियों को अनुकूलन योग्य वस्तुओं के रूप में मानती हैं और संकेतों को विकसित करने के लिए प्रक्षेपवक्र प्रतिक्रिया का उपयोग करती हैं, लेकिन वे लगातार, पुन: प्रयोज्य कौशल कलाकृतियों को उत्पन्न करने के बजाय एकल-प्रॉम्प्ट कॉन्फ़िगरेशन पर ध्यान केंद्रित करती हैं।

इस बीच, इवोस्किल और ट्रेस2स्किल जैसी कौशल विकास और खोज विधियां कौशल फ़ोल्डरों को परिष्कृत करने, डोमेन-विशिष्ट पुस्तकालयों का निर्माण करने या विकासवादी खोज करने के लिए एजेंट निष्पादन अनुभवों को प्रक्षेप पथ में परिवर्तित करती हैं।

उनमें से कोई भी गहन-शिक्षण-शैली नियंत्रण लागू नहीं करता है, जैसे सीखने की दर, सत्यापन द्वार और गति, जो एक एकल, कॉम्पैक्ट कौशल दस्तावेज़ को लगातार प्रशिक्षित करने के लिए आवश्यक हैं।

पाठ में गणितीय अनुशासन का आयात करना

स्किलऑप्ट एक पाठ दस्तावेज़ को पुनरावृत्त प्रस्ताव-और-परीक्षण लूप के माध्यम से अनुकूलित करता है जो कार्यों को निष्पादित करने वाले मॉडल को कौशल को अनुकूलित करने वाले मॉडल से अलग करता है। यह प्रक्रिया कई चरणों में सामने आती है:

  • स्किलऑप्ट एक प्रारंभिक कौशल दस्तावेज़ और एक जमे हुए लक्ष्य मॉडल (या हार्नेस) के साथ शुरू होता है, जहां लक्ष्य मॉडल निष्पादन प्रक्षेपवक्र उत्पन्न करने के लिए कार्यों का एक बैच चलाता है जो वर्तमान चरण के लिए साक्ष्य के रूप में कार्य करता है।

  • एक ऑफ़लाइन ऑप्टिमाइज़र मॉडल इन प्रक्षेप पथों का विश्लेषण करता है, सफलताओं को विफलताओं से मिनीबैच में अलग करता है। मिनीबैच को देखने से मॉडल को एकबारगी विसंगतियों के बजाय व्यवस्थित प्रक्रियात्मक त्रुटियों की पहचान करने में मदद मिलती है। इन पैटर्न के आधार पर, ऑप्टिमाइज़र कौशल दस्तावेज़ में संरचनात्मक जोड़ने, हटाने या संपादन को बदलने का प्रस्ताव करता है।

  • डुप्लिकेट या विरोधाभासों को फ़िल्टर करने के लिए प्रस्तावित संपादनों की समीक्षा की जाती है, और फिर ऑप्टिमाइज़र इन उम्मीदवार संपादनों को उनकी अपेक्षित उपयोगिता के आधार पर रैंक करता है।

  • सभी प्रस्तावित परिवर्तनों को लागू करने के बजाय, स्किलऑप्ट उस चरण के लिए सूची को अधिकतम संपादन बजट में क्लिप कर देता है, जिससे उम्मीदवार का कौशल उत्पन्न होता है।

  • लक्ष्य मॉडल का उपयोग करके उम्मीदवार के कौशल का मूल्यांकन एक निर्धारित सत्यापन सेट पर किया जाता है। यदि उम्मीदवार सत्यापन स्कोर में सुधार करता है, तो इसे स्वीकार कर लिया जाता है और यह नया वर्तमान कौशल बन जाता है। यदि यह विफल हो जाता है, तो संपादनों को अस्वीकार कर दिया जाता है और अस्वीकृत-संपादन बफ़र में भेज दिया जाता है, जिससे नकारात्मक प्रतिक्रिया मिलती है ताकि अनुकूलक को पता चले कि वह गलती दोबारा नहीं होगी।

स्किलऑप्ट गहन शिक्षण से गणितीय अवधारणाओं को आयात करके पाठ को एक प्रशिक्षण योग्य वस्तु के रूप में मानने की समस्या को सीधे संबोधित करता है। रचनाकारों का कहना है कि “गहन शिक्षण सादृश्य सजावटी के बजाय क्रियाशील है”, जिससे ढांचे को अन्य अनुकूलन तकनीकों से जुड़ी अस्थिरता के मुद्दों से बचने में मदद मिलती है।

संपादन बजट सीखने की दर के रूप में कार्य करता है। एक बार में कितने संपादन लागू किए जा सकते हैं, इसे सीमित करके, कौशल संस्करण को अपनी पिछली स्थिति से बहुत दूर जाने से रोका जाता है, नई प्रक्रियाओं को प्राप्त करने की अनुमति देते हुए निरंतरता बनाए रखी जाती है।

गहन शिक्षण में सत्यापन हानि की जांच करने की तरह, सख्त आयोजित उदाहरण यह सुनिश्चित करते हैं कि विश्वसनीय लगने वाले पाठ संपादन केवल तभी रखे जाते हैं यदि वे गणितीय रूप से सत्यापन विभाजन पर एजेंट के वास्तविक प्रदर्शन में सुधार करते हैं।

एक युग के अंत में, स्किलऑप्ट पिछले और वर्तमान युग के कौशल के तहत कार्यों की तुलना करके धीमी गति से अद्यतन करता है। यह एक गति शब्द की तरह कार्य करता है, जो टिकाऊ, लंबे-क्षितिज वाले प्रक्रियात्मक पाठों को तेज, चरण-स्तरीय संपादनों से अलग करते हुए आगे ले जाता है।

स्किलऑप्ट इन एक्शन

व्यवहार में तकनीक का मूल्यांकन करने के लिए, शोधकर्ताओं ने विभिन्न मॉडलों में स्किलऑप्ट का परीक्षण किया, जिसमें GPT-5.5 जैसे बड़े पैमाने के फ्रंटियर मॉडल से लेकर GPT-5.4-मिनी और Qwen3.5-4B सहित छोटे बंद और खुले मॉडल शामिल हैं। उन्होंने सादे चैट के साथ-साथ कोडेक्स सीएलआई और क्लाउड कोड जैसे जटिल कोडिंग हार्नेस का उपयोग करके विभिन्न निष्पादन हार्नेस के भीतर कौशल को भी तैनात किया।

मूल्यांकन में एकल-राउंड प्रश्न-उत्तर, टूल उपयोग से जुड़े मल्टी-राउंड कोड जेनरेशन और मल्टीमॉडल दस्तावेज़ तर्क सहित विविध उद्योग बेंचमार्क शामिल हैं। स्किलऑप्ट को डिफ़ॉल्ट नो-स्किल सेटिंग से लेकर मानव-लिखित कौशल और एक-शॉट एलएलएम-जनित कौशल तक कई आधार रेखाओं के आधार पर मापा गया था। इसकी तुलना उन्नत शीघ्र-अनुकूलन और कौशल-विकास विधियों, विशेष रूप से ट्रेस2स्किल, टेक्स्टग्रैड, जीईपीए और इवोस्किल से भी की गई।

मॉडल, बेंचमार्क और हार्नेस के सभी 52 मूल्यांकन किए गए संयोजनों पर अत्यधिक प्रभावी साबित होकर, स्किलऑप्ट का बोर्ड भर में वर्चस्व रहा। यह फ्रंटियर मॉडल के साथ विशेष रूप से प्रभावी था, जिससे GPT-5.5 पर नो-स्किल बेसलाइन के मुकाबले +23.5 अंक का औसत पूर्ण सुधार हुआ। इसके अलावा, स्किलऑप्ट ने एक काल्पनिक ओरेकल बेसलाइन से बेहतर प्रदर्शन किया जो हर समस्या के लिए सबसे अच्छी प्रतिस्पर्धात्मक विधि चुनता है।

छोटे लक्ष्य मॉडल में अत्यधिक सापेक्ष लाभ देखा गया, जिससे साबित हुआ कि एक कॉम्पैक्ट टेक्स्ट फ़ाइल प्रक्रियात्मक ज्ञान प्रदान कर सकती है जो कि छोटे मॉडल में उनके वजन की कमी है। उदाहरण के लिए, GPT-5.4-नैनो ने मल्टीमॉडल दस्तावेज़ QA पर अपने स्कोर को लगभग दोगुना कर दिया और सन्निहित इंटरैक्शन और अनुक्रमिक निर्णय लेने पर अपने स्कोर को तीन गुना कर दिया।

ये अकादमिक बेंचमार्क महत्वपूर्ण उद्यम समस्या बिंदुओं को दर्शाते हैं। ज़ीरो-शॉट मॉडल अक्सर फ़ॉर्मेटिंग को भ्रमित करते हैं या मल्टी-स्टेप परिदृश्यों में टूल का ठीक से उपयोग करने में विफल होते हैं। यांग ने बताया कि सबसे बड़ी प्रदर्शन छलांग उन परिचालनों में आई है जिन्हें उद्यम ऐतिहासिक रूप से विश्वसनीय रूप से स्वचालित करने के लिए संघर्ष करते हैं।

"दस्तावेज़ डेटा निष्कर्षण… अनुबंधों, चालानों और प्रपत्रों के सटीक आंकड़े – एपी स्वचालन, दावे, अनुपालन," यांग ने कहा. "विश्वसनीयता में जो सुधार होता है वह है: सटीक स्वरूपण, स्व-सत्यापन, श्रव्य आउटपुट। और लाभ सीखने की प्रक्रिया से आते हैं, उत्तर याद रखने से नहीं।"

उद्यम व्यवसायियों के लिए, स्किलऑप्ट का वास्तविक मूल्य इसकी पोर्टेबिलिटी, दक्षता और मौजूदा बुनियादी ढांचे के साथ अनुकूलता में निहित है। प्रयोग इस बात की पुष्टि करते हैं कि ढांचा हार्नेस-अज्ञेयवादी है। बुनियादी चैट के अलावा, समान अनुकूलन लूप को उद्योग बेंचमार्क पर महत्वपूर्ण लाभ के साथ कोडेक्स सीएलआई और क्लाउड कोड जैसे टूल-समर्थित निष्पादन वातावरण में सफलतापूर्वक एकीकृत किया गया था।

डेवलपर्स एक निष्पादन लूप का उपयोग करके एक कौशल को प्रशिक्षित कर सकते हैं और इसे दूसरे में तैनात कर सकते हैं। उदाहरण के लिए, कोडेक्स लूप के अंदर पूरी तरह से प्रशिक्षित एक स्प्रेडशीट कौशल को सीधे क्लाउड कोड में ले जाया गया और बिना किसी और बदलाव के क्लाउड कोड की मूल आधार रेखा पर +59.7 अंक का लाभ प्राप्त हुआ।

स्किलऑप्ट कलाकृतियाँ भी मॉडल पैमानों पर साफ़-साफ़ स्थानांतरित होती हैं। जीपीटी-5.4 के लिए अनुकूलित एक कौशल को सकारात्मक लाभ के साथ छोटे जीपीटी-5.4-मिनी और जीपीटी-5.4-नैनो मॉडल पर तैनात किया गया था, जिससे यह साबित हुआ कि सीखी गई प्रक्रियाएं किसी विशिष्ट मॉडल की वास्तुकला की विचित्रताओं का फायदा उठाने के बजाय पुन: प्रयोज्य वर्कफ़्लो को एनकोड करती हैं।

अंत में, टोकन उपयोग और संदर्भ विंडो रियल एस्टेट के संबंध में ढांचा अत्यधिक कुशल है। सभी बेंचमार्क में, अंतिम तैनात कौशल कभी भी 2,000 टोकन से अधिक नहीं हुआ, जिसकी औसत लंबाई लगभग 920 टोकन थी। इसके परिणामस्वरूप अत्यधिक पठनीय, श्रवण योग्य कलाकृतियाँ प्राप्त होती हैं जिनकी एक मानव व्यवसायी मिनटों में समीक्षा और प्रबंधन कर सकता है।

कार्यान्वयन रणनीतियाँ और उद्यम ‘पकड़’

एंटरप्राइज़ तकनीकी नेताओं के लिए, एक नए ढांचे को अपनाने के लिए ओवरहेड और सीमाओं को समझने की आवश्यकता होती है। जबकि शोध पत्र में कहा गया है कि शैक्षणिक बेंचमार्क के लिए प्रशिक्षण टोकन 210 मिलियन तक पहुंच सकते हैं, दिन-प्रतिदिन के उद्यम उपयोग के मामलों की वास्तविकता बहुत हल्की है। परीक्षण में उच्च टोकन गिनती बड़े पैमाने पर आयोजित बड़े पैमाने पर परीक्षण सेटों को फिर से स्कोर करने के कारण थी।

"वास्तविक अग्रिम कार्य सत्यापनकर्ता और एक प्रतिनिधि हेल्ड-आउट विभाजन है। अनुकूलक हल्का है; मूल्यांकन हार्नेस वह जगह है जहां इंजीनियरिंग जाती है," यांग ने कहा. उन्होंने कहा कि रोजमर्रा के उपयोग के लिए, "GBrain जैसे सामुदायिक ढांचे में, जहां स्किलऑप्ट अपडेट क्लाउड सॉनेट पर चलते हैं, किसी एक कार्य के लिए कौशल प्रशिक्षण का औसत केवल $1-5 है।" यह अनुकूलन लागत एक बार का शुल्क है जो तैनाती पर पूरी तरह से परिशोधित हो जाती है।

हालाँकि, ढांचे को प्रभावी ढंग से काम करने के लिए विशिष्ट परिस्थितियों की आवश्यकता होती है, अर्थात् कुछ दर्जन प्रतिनिधि उदाहरण और एक स्कोर योग्य प्रतिक्रिया संकेत। टीमों को ओपन-एंडेड या व्यक्तिपरक कार्यों में स्किलऑप्ट लागू करने से बचना चाहिए। "बिना किसी साफ़ स्वचालित स्कोरर के आपको एक मानव या मॉडल-आधारित मूल्यांकनकर्ता डिज़ाइन करना होगा और इसकी स्थिरता पर नज़र रखनी होगी," यांग ने कहा.

स्किलऑप्ट मौजूदा ऑर्केस्ट्रेशन स्टैक के साथ आसानी से एकीकृत हो जाता है, जिससे गोद लेने की एक बड़ी बाधा दूर हो जाती है। उदाहरण के लिए, पहले से ही पाइपलाइन कंपाइलर का उपयोग करने वाले डेवलपर्स दोनों प्रणालियों को सामंजस्यपूर्ण रूप से चला सकते हैं। "DSPy एक अलग, पूरक परत है," यांग ने कहा. "यह घोषणात्मक एलएम पाइपलाइनों को संकलित करता है और कार्यक्रम संरचना का अनुकूलन करता है; स्किलऑप्ट एक जमे हुए एजेंट द्वारा लोड की जाने वाली बाहरी कौशल स्थिति को अनुकूलित करता है। आप इन्हें एक साथ चला सकते हैं."

आगे देखते हुए, ओपन-सोर्स डेवलपर्स पहले से ही अपने एजेंटों के पिछले प्रक्षेप पथों पर समय-समय पर चलने के लिए स्किलऑप्ट को शेड्यूल कर रहे हैं, जिससे स्व-अनुकूलन कोड-एजेंट प्लगइन्स का एक छोटा पारिस्थितिकी तंत्र तैयार हो रहा है। यह निरंतर फीडबैक लूप एआई सिस्टम के अनुकूलन में एक महत्वपूर्ण बदलाव का प्रतिनिधित्व करता है।

"आत्म-सुधार का मूल्यवान संस्करण एक एजेंट है जो सत्यापन और लेखापरीक्षा के तहत अपने स्वयं के व्यवहार और उपयोगकर्ता अनुभव को बेहतर बनाने के लिए स्वायत्त रूप से ज्ञान की खोज करता है।" यांग ने कहा. "कौशल सबसे तेज़, सबसे सस्ता, सबसे प्रतिवर्ती पहला कदम है, और वही मानसिकता एजेंटों को अंततः खुद को अनुकूलित करने की ओर इशारा करती है, अपने स्वयं के वजन तक।"



<a href

Leave a Comment