Researchers Trained An Open Source AI Search Agent, Harness-1, That Outperforms GPT-5.4 On Recalling Relevant Information

अर्बाना-शैंपेन (यूआईयूसी), यूसी बर्कले में इलिनोइस विश्वविद्यालय के शोधकर्ताओं और ओपन सोर्स एआई-नेटिव वेक्टर डेटाबेस प्लेटफॉर्म क्रोमा के शोधकर्ताओं के बीच एक संयुक्त शोध सहयोग ने ओपनएआई के जीपीटी-ओएसएस -20 बी ओपन सोर्स मॉडल के ऊपर निर्मित 20 अरब पैरामीटर ओपन-सोर्स सर्च एजेंट हार्नेस -1 का अनावरण किया जो मौलिक रूप से एआई जटिल पुनर्प्राप्ति कार्यों को निष्पादित करने के तरीके को फिर से डिजाइन करता है।

हार्नेस-1 ने प्रदर्शन में बड़ी छलांग हासिल की, प्रासंगिक जानकारी को याद रखने की अपनी क्षमता पर 73% औसत स्कोरिंग क्यूरेटेड डेटासेट से सही ढंग से, GPT-5.4 (70.9%) से भी बेहतर प्रदर्शन और अगला, सबसे सटीक ओपन सोर्स सर्च एजेंट, टोंगयी डीपरसर्च 30बी, 11.4 प्रतिशत अंक से। (जबकि GPT-5.5 भी एक महीने से अधिक समय से उपलब्ध है, शोधकर्ताओं ने इस मॉडल के विरुद्ध परीक्षण नहीं किया क्योंकि जब वे अपना मॉडल बना रहे थे तो यह उपलब्ध नहीं था।)

डेवलपर्स के लिए महत्वपूर्ण रूप से, मॉडल और उसका वातावरण अत्यधिक अनुमत अपाचे 2.0 लाइसेंस और हगिंग फेस पर मॉडल कोड/वेट के तहत तुरंत उपलब्ध हैं।

हार्नेस-1 एक अन्य प्रयास, टिंकर, थिंकिंग मशीन्स द्वारा विकसित वितरित, वेब-आधारित एआई मॉडल प्रशिक्षण और फाइन-ट्यूनिंग एपीआई की प्रभावशीलता के प्रमाण के रूप में भी कार्य करता है। टिंकर का उपयोग विशेष रूप से हार्नेस-1 के लिए प्रशिक्षण और अनुमान चलाने के लिए किया गया था, जो इस बात पर प्रकाश डालता है कि कैसे इंटरैक्टिव बुनियादी ढांचा अगली पीढ़ी के स्वायत्त मॉडल को सक्रिय रूप से सक्षम कर रहा है।

तो शोधकर्ताओं ने यह कैसे किया?

बेंचमार्क डिकोड किए गए (और क्यों हार्नेस-1 उद्यमों को जबरदस्त मदद कर सकता है)

वास्तव में इन मॉडलों का परीक्षण करने के लिए, शोधकर्ताओं ने हार्नेस-1 और इसके प्रतिस्पर्धियों का आठ अत्यधिक जटिल खोज बेंचमार्क में मूल्यांकन किया। सरल सामान्य प्रश्न पूछने के बजाय, इन परीक्षणों के लिए एआई को विविध, सघन डेटा स्रोतों के माध्यम से एक वास्तविक शोधकर्ता की तरह कार्य करने की आवश्यकता थी।

बेंचमार्क कई अलग-अलग डोमेन में फैले हुए हैं, जिनमें खुली वेब खोज, एसईसी से जटिल वित्तीय फाइलिंग, यूएसपीटीओ से तकनीकी पेटेंट डेटाबेस और शामिल हैं। "मल्टी-हॉप" प्रश्न-उत्तर कार्य जहां एआई को सही उत्तर तक पहुंचने के लिए कई अलग-अलग दस्तावेजों से बिखरे हुए सुरागों को तार्किक रूप से एक साथ जोड़ना था।

जब परिणाम आए, तो हार्नेस-1 ने सही तथ्यों को सफलतापूर्वक खोजने और संकलित करने की क्षमता में ओपन-सोर्स प्रतियोगिता में अपना दबदबा बना लिया। इससे भी अधिक प्रभावशाली बात यह है कि यह अपेक्षाकृत छोटा 20-बिलियन पैरामीटर मॉडल बड़े पैमाने पर, महंगे मालिकाना एआई सिस्टम के साथ प्रतिस्पर्धा करता है। इसने वास्तव में GPT-5.4, सॉनेट-4.6 और किमी-K2.5 जैसे दिग्गजों से बेहतर प्रदर्शन किया – जिन्हें सैकड़ों अरबों या खरबों पैरामीटर माना जाता है। केवल एक विशाल फ्रंटियर मॉडल – ओपस-4.6 – समग्र औसत प्रदर्शन में इसे मामूली अंतर से आगे बढ़ाने में कामयाब रहा।

हार्नेस-1 संपूर्ण सामग्री को उतारकर अपना प्रदर्शन लाभ प्राप्त करता है "बहीखाता" मॉडल की कार्यशील मेमोरी से बाहर और एक संरचित सॉफ्टवेयर वातावरण में एक खोज सत्र का।

जैसे-जैसे उद्यम उपयोग के मामले अधिक परिष्कृत होते जा रहे हैं, यह मांग हो रही है कि मॉडल स्वायत्त रूप से हजारों कॉर्पोरेट दस्तावेजों या वित्तीय फाइलिंग की जांच करें, ये प्रणालियाँ अक्सर विफल हो जाती हैं "स्मृतिलोप खोजें"-अपने मूल प्रश्नों को भूल जाना, अस्वीकृत दस्तावेज़ों पर नज़र रखना, या उन विशिष्ट दावों का ट्रैक खो देना जिन्हें वे सत्यापित करने का प्रयास कर रहे हैं।

अब तक, इस भूलने की बीमारी का प्रचलित समाधान क्रूर बल ही रहा है। इंजीनियर आम तौर पर मॉडलों को अपने स्वयं के कार्यों की निरंतर-विस्तारित, केवल परिशिष्ट-प्रतिलेख को फिर से पढ़ने के लिए मजबूर करते हैं, प्रत्येक खोज, पढ़ने और विचार को एक विशाल संदर्भ विंडो में जमा करते हैं।

हार्नेस-1 इस पद्धति से एक आदर्श बदलाव का परिचय देता है, जिससे यह साबित होता है कि वास्तविक कृत्रिम स्वायत्तता के लिए बाधा आवश्यक रूप से मॉडल का आकार नहीं है, बल्कि इसका कामकाजी वातावरण राज्य को कितनी कुशलता से प्रबंधित करता है। यह एक बार फिर उजागर करता है, जैसा कि एंथ्रोपिक के क्लाउड कोड ने भी किया है, कि कच्चा मॉडल यकीनन हार्नेस – या स्थितियों के सेट – से कम महत्वपूर्ण है जिसके माध्यम से यह चलता है।

प्रौद्योगिकी: पर्यावरण में कागजी कार्रवाई करना

हार्नेस-1 की तकनीकी छलांग को समझने के लिए वास्तविक दुनिया की सादृश्यता पर विचार करें।

एक शानदार अनुसंधान सहायक को काम पर रखने और उन्हें डेस्क, नोटपैड या फाइलिंग कैबिनेट के बिना एक खाली कमरे में रखने की कल्पना करें। आप उनसे एक अत्यधिक जटिल विषय पर एक व्यापक रिपोर्ट लिखने के लिए कहते हैं, जिसके लिए उन्हें प्रत्येक उद्धरण, उद्धरण और अंतिम खोज को अपने दिमाग में पूरी तरह से याद रखते हुए दर्जनों किताबें पढ़ने की आवश्यकता होती है। अंततः, चाहे सहायक कितना भी बुद्धिमान क्यों न हो, उनका संज्ञानात्मक भार अधिकतम हो जाएगा, और वे तथ्यों को छोड़ना या असाइनमेंट का सूत्र खोना शुरू कर देंगे।

पारंपरिक खोज एजेंट आज बिल्कुल इसी तरह काम करते हैं। उन्हें बढ़ते प्रतिलेखों पर नीतियों के रूप में प्रशिक्षित किया जाता है, जिसका अर्थ है कि मॉडल खोजता है, पढ़ता है, फिर से खोजता है, और सब कुछ अपने स्वयं के संदर्भ विंडो में जोड़ता है।

जैसा कि इलिनोइस विश्वविद्यालय के प्रमुख शोधकर्ता पैट्रिक (पेंगचेंग) जियांग ने एक्स पर बताया: "कुछ बिंदु पर मॉडल अब केवल ‘खोज’ नहीं कर रहा है। इसे एक मेमोरी सिस्टम, एक नोट लेने वाला, एक सत्यापनकर्ता और एक लाइब्रेरियन बनने के लिए भी कहा जा रहा है।"

हार्नेस-1 एआई को एक डेस्क और एक फाइलिंग कैबिनेट देकर इसे हल करता है – जिसे अनुसंधान टीम कहती है "राज्य-बाह्यीकरण दोहन।"

यह हार्नेस एक सक्रिय, आस-पास का वातावरण है जो नियमित बहीखाता पद्धति को संभालता है, एक पुनर्प्राप्त करने योग्य कार्यशील मेमोरी को बनाए रखता है जिसमें दस्तावेजों का एक उम्मीदवार पूल, एक महत्व-टैग किए गए क्यूरेटेड साक्ष्य सेट, कॉम्पैक्ट साक्ष्य लिंक और सत्यापन रिकॉर्ड शामिल होते हैं।

संरचनात्मक राज्य प्रबंधन से शब्दार्थ विकल्पों को अलग करके, एआई को वह करने के लिए स्वतंत्र किया जाता है जो वह सबसे अच्छा करता है।

नीति अभी भी तय करती है कि क्या खोजना है, यह निर्धारित करती है कि कौन से दस्तावेज़ रखने हैं, और जानती है कि कब रुकना है, जबकि पर्यावरण बस स्थिति को बनाए रखता है।

यहां प्रशिक्षण पद्धति को तोड़ने वाला एक उपधारा है और यह पूर्व एजेंट खोज मॉडल से कैसे भिन्न है:

ट्रेनिंग हार्नेस-1: डेटा दक्षता में एक मास्टरक्लास

हार्नेस-1 के लिए प्रशिक्षण पाइपलाइन एआई उद्योग द्वारा एजेंटिक लर्निंग के दृष्टिकोण में एक बुनियादी बदलाव का प्रतिनिधित्व करती है।

ऐतिहासिक रूप से, डेवलपर्स ने खोज एजेंटों को बड़े पैमाने पर, लगातार बढ़ते प्रतिलेखों पर काम करने वाली नीतियों के रूप में माना है, जो सुदृढीकरण सीखने (आरएल) एल्गोरिदम को एक साथ अर्थपूर्ण तर्क और खोज स्थिति के कच्चे संस्मरण दोनों को अनुकूलित करने के लिए मजबूर करते हैं।

हार्नेस-1 के रचनाकारों ने बिल्कुल अलग दृष्टिकोण अपनाया: क्योंकि उनका रिवाज "दोहन" सभी नियमित बहीखाता को संभालता है – जैसे साक्ष्य लिंक, उम्मीदवार पूल और सत्यापन रिकॉर्ड बनाए रखना – प्रशिक्षण प्रक्रिया केवल मॉडल को यह सिखाने के लिए आवश्यक है कि इस संरचित इंटरफ़ेस को कैसे संचालित किया जाए।

श्रम के इस विभाजन ने अंतर्निहित 20-बिलियन पैरामीटर मॉडल को वास्तव में जो सीखने की आवश्यकता थी उसे काफी हद तक सरल बना दिया।

यह प्रक्रिया उल्लेखनीय रूप से संकीर्ण पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) चरण के साथ शुरू हुई। नए व्यवहार संबंधी डेटा के पेटाबाइट्स को स्क्रैप करने के बजाय, टीम ने GPT-5.4 शिक्षक एजेंट का उपयोग करके केवल 899 फ़िल्टर किए गए प्रक्षेप पथ तैयार किए, जिन्हें ठीक उसी हार्नेस वातावरण में प्लग किया गया था जिसका छात्र मॉडल अंततः उपयोग करेगा।

इस एसएफटी चरण का लक्ष्य मॉडल में बड़ी मात्रा में डोमेन ज्ञान डालना नहीं था, बल्कि इसे एक अच्छे शोधकर्ता की यांत्रिक लय सिखाना था: टूल कॉल को कैसे प्रारूपित करें, महत्व के आधार पर दस्तावेजों को कैसे टैग करें, और किसी दावे को अंतिम क्यूरेटेड सेट में प्रचारित करने से पहले सत्यापित करने का अनुशासन।

एसएफटी के बाद, मॉडल को सीआईएसपीओ नामक एल्गोरिदम का उपयोग करके रीइन्फोर्समेंट लर्निंग (आरएल) से गुजरना पड़ा, जिसे 40 मोड़ों पर पूर्ण खोज एपिसोड कैपिंग पर लागू किया गया।

टीम ने एक अत्यधिक विशिष्ट टर्मिनल रिवार्ड फ़ंक्शन डिज़ाइन किया जो स्पष्ट रूप से अलग हो गया खोज से चयन. मॉडल को न केवल एक प्रासंगिक दस्तावेज़ ढूंढने के लिए पुरस्कृत किया गया, बल्कि उसे अंतिम उत्तर सेट में सफलतापूर्वक प्रचारित करने के लिए भी पुरस्कृत किया गया, जबकि यदि उसे उत्तर मिल गया लेकिन वह उसे क्यूरेट करने में विफल रहा, तो उसे दंडित किया गया।

शोधकर्ताओं ने एक भी स्थापित किया "उपकरण विविधता" बोनस; इस विशिष्ट प्रोत्साहन के बिना, उन्होंने पाया कि नीति जल्दी ही एक आलसी, खोज-भारी रणनीति में बदल जाएगी जहां यह प्रश्नों को स्पैम कर देगी लेकिन पाठ को पढ़ने और सत्यापित करने के कठिन काम को दरकिनार कर देगी।

पिछले कार्य की तुलना में हार्नेस-1 को वास्तव में अभिनव बनाने वाली बात इसकी अभूतपूर्व डेटा दक्षता है। पूरे मॉडल को लगभग 4,400 अद्वितीय वस्तुओं-899 एसएफटी प्रक्षेप पथ और 3,453 आरएल प्रश्नों पर प्रशिक्षित किया गया था।

इसके विपरीत, प्रतिस्पर्धी ओपन-सोर्स मॉडल को खराब परिणाम प्राप्त करने के लिए बहुत बड़े डेटासेट की आवश्यकता होती है: संदर्भ -1 ने 17,200 से अधिक प्रशिक्षण वस्तुओं का उपयोग किया, जबकि सर्च-आर1 ने खोज व्यवहार सीखने के लिए 221,300 वस्तुओं पर भरोसा किया।

यह साबित करके कि एक बेहतर बाहरी संज्ञानात्मक वास्तुकला ब्रूट-फोर्स डेटा स्केलिंग की जगह ले सकती है, हार्नेस-1 सुझाव देता है कि एजेंटिक एआई का भविष्य केवल अधिक डेटा पर बड़े मॉडलों को प्रशिक्षित करने के बजाय मॉडलों के भीतर काम करने के लिए बेहतर वातावरण बनाने में निहित है।

उत्पाद: उद्यम प्रयोज्यता और सामान्यीकरण

उत्पाद के दृष्टिकोण से, हार्नेस-1 को अत्यधिक सक्षम 20बी एजेंट के रूप में वितरित किया जाता है openai/gpt-oss-20b आधार वास्तुकला.

एंटरप्राइज़ टेक स्टैक के लिए, प्रयोज्यता बड़े पैमाने पर है क्योंकि व्यवसायों को मतिभ्रम या अत्यधिक गणना बिलों को चलाने के बिना मालिकाना डेटाबेस में बहु-चरण अनुसंधान निष्पादित करने के लिए एआई की आवश्यकता होती है।

हार्नेस-1 अपने अग्रणी-स्तरीय प्रदर्शन को उसी स्तर पर प्रबंधित करता है जैसा कि रचनाकारों ने वर्णन किया है "प्रसंग-1-स्तर की लागत और विलंबता।" क्योंकि संदर्भ विंडो को लगातार विस्तार करने के बजाय बजट-जागरूक हार्नेस द्वारा सख्ती से प्रबंधित किया जाता है, उद्यम आमतौर पर लंबे-क्षितिज एआई कार्यों से जुड़े घातीय टोकन लागतों को खर्च किए बिना इस एजेंट को स्वायत्त रूप से तैनात कर सकते हैं।

इससे भी अधिक प्रभावशाली ढंग से, हार्नेस-1 साबित करता है कि यह अपने प्रशिक्षण डेटा से कहीं अधिक सामान्यीकरण कर सकता है। अनुसंधान टीम के अनुसार, केवल 899 फ़िल्टर किए गए पर्यवेक्षित फाइन-ट्यूनिंग (एसएफटी) प्रक्षेप पथ और केवल 3,453 सुदृढीकरण सीखने (आरएल) प्रश्नों का उपयोग करके, इसे प्रशिक्षित करना अविश्वसनीय रूप से सस्ता था।

"एक विशाल एपेंड-ओनली ट्रांसक्रिप्ट से बचने के लिए मॉडल को प्रशिक्षित करने के बजाय, हम इसे एक संरचित खोज इंटरफ़ेस का उपयोग करने के लिए प्रशिक्षित करते हैं: खोजें, क्यूरेट करें, दोबारा देखें, सत्यापित करें और सबमिट करें।" जियांग ने समझाया।

यह दुबलापन एआई उद्योग के लिए एक महत्वपूर्ण बिंदु साबित होता है: यदि डेवलपर्स मॉडल को संचालित करने के लिए एक बेहतर संज्ञानात्मक ढांचा बनाते हैं तो उन्हें नए व्यवहार डेटा के पेटाबाइट की आवश्यकता नहीं होती है।

लाइसेंसिंग: अपाचे 2.0 की शक्ति

हार्नेस-1 रिलीज़ का सबसे महत्वपूर्ण पहलू इसकी लाइसेंसिंग है। सरल भाषा में, Apache 2.0 एक अत्यधिक अनुज्ञेय, उद्यम-अनुकूल सॉफ़्टवेयर लाइसेंस है जो मूल रूप से व्यावसायीकरण को सक्षम बनाता है।

भिन्न "कॉपीलेफ्ट" लाइसेंस (जैसे कि जीपीएल) जो कंपनियों को कोड को एकीकृत करने पर अपने स्वयं के स्वामित्व वाले सॉफ़्टवेयर को ओपन-सोर्स करने के लिए मजबूर कर सकते हैं, या "केवल अनुसंधान" लाइसेंस जो पूरी तरह से व्यावसायिक उपयोग पर प्रतिबंध लगाते हैं, अपाचे 2.0 व्यवसायों को स्वतंत्र रूप से प्रौद्योगिकी का निर्माण, संशोधन और मुद्रीकरण करने की हरी झंडी देता है।

डेवलपर्स और स्टार्टअप के लिए, इसका मतलब है कि हार्नेस -1 को कानूनी प्रतिशोध के डर के बिना वाणिज्यिक उद्यम खोज उत्पादों, आंतरिक डेटा पुनर्प्राप्ति उपकरण, या ग्राहक-सामना वाले एआई अनुप्रयोगों में सहजता से एकीकृत किया जा सकता है।

एकमात्र प्रमुख आवश्यकता यह है कि उपयोगकर्ताओं को मूल कॉपीराइट नोटिस शामिल करना होगा और स्रोत कोड में उनके द्वारा किए गए किसी भी महत्वपूर्ण संशोधन को स्पष्ट रूप से बताना होगा, जिससे हार्नेस-1 को उद्यम के लिए अत्यधिक व्यवहार्य मूलभूत बिल्डिंग ब्लॉक के रूप में स्थापित किया जा सके।

सामुदायिक प्रतिक्रियाएँ: एक शानदार मान्यता

घोषणा ने डेवलपर समुदाय के भीतर स्पष्ट रूप से घबराहट पैदा कर दी है, जिससे एजेंटिक सिस्टम का निर्माण करते समय इंजीनियरों द्वारा सामना किए जाने वाले वास्तविक दर्द बिंदुओं की पुष्टि हो गई है। एक्स पर जियांग के बहु-भागीय घोषणा थ्रेड ने तेजी से बड़े पैमाने पर लोकप्रियता हासिल की, कुछ ही दिनों में 256.1K से अधिक बार देखा गया, 3.7K लाइक्स, 2.9K बुकमार्क और लगभग 300 रीपोस्ट प्राप्त हुए।

यह उच्च संलग्नता एआई क्षेत्र में बढ़ती आम सहमति को रेखांकित करती है कि संदर्भ विंडो पर ज़ोर देना एक हारी हुई लड़ाई है।

जब जियांग ने एक्स पर पोस्ट किया, "मैं सोच रहा था: हो सकता है कि खोज एजेंट खोज में ख़राब हों क्योंकि हम उनसे सारी कागजी कार्रवाई उनके दिमाग में ही करवाते हैं," प्रतिध्वनि तत्काल थी.

उन डेवलपर्स के लिए जिन्होंने पिछला साल एआई एजेंटों के साथ संघर्ष करते हुए बिताया है जो डेटाबेस खोज के दौरान आत्मविश्वास से अपने प्राथमिक निर्देशों को आधे रास्ते में भूल जाते हैं, हार्नेस -1 दृष्टिकोण एक सख्त आवश्यक पाठ्यक्रम सुधार की तरह लगता है।

अंततः, सामुदायिक भावना उद्योग की प्राथमिकताओं में बदलाव को उजागर करती है। डेवलपर्स यह पूछने से दूर जा रहे हैं कि एआई मॉडल की संदर्भ विंडो कितनी बड़ी हो सकती है, और इसके बजाय यह पूछ रहे हैं कि एआई मॉडल का वातावरण उसके लिए उस संदर्भ को कितनी कुशलता से प्रबंधित कर सकता है। कागजी कार्रवाई को खत्म करके, हार्नेस-1 यह साबित कर रहा है कि छोटे, स्मार्ट सिस्टम दिग्गजों को मात दे सकते हैं – बशर्ते उनके पास काम करने के लिए सही डेस्क हो।

<a href

Researchers trained an open source AI search agent, Harness-1, that outperforms GPT-5.4 on recalling relevant information

बेंचमार्क डिकोड किए गए (और क्यों हार्नेस-1 उद्यमों को जबरदस्त मदद कर सकता है)

प्रौद्योगिकी: पर्यावरण में कागजी कार्रवाई करना

ट्रेनिंग हार्नेस-1: डेटा दक्षता में एक मास्टरक्लास

उत्पाद: उद्यम प्रयोज्यता और सामान्यीकरण

लाइसेंसिंग: अपाचे 2.0 की शक्ति

सामुदायिक प्रतिक्रियाएँ: एक शानदार मान्यता

Like this:

Related

Leave a Comment Cancel reply

बेंचमार्क डिकोड किए गए (और क्यों हार्नेस-1 उद्यमों को जबरदस्त मदद कर सकता है)

प्रौद्योगिकी: पर्यावरण में कागजी कार्रवाई करना

ट्रेनिंग हार्नेस-1: डेटा दक्षता में एक मास्टरक्लास

उत्पाद: उद्यम प्रयोज्यता और सामान्यीकरण

लाइसेंसिंग: अपाचे 2.0 की शक्ति

सामुदायिक प्रतिक्रियाएँ: एक शानदार मान्यता

Share this:

Like this:

Related

Leave a Comment Cancel reply