यह पुराने बड़े भाषा मॉडलों पर एक छोटी बातचीत की प्रतिलेख है।
बातचीत का एक वीडियो यहां उपलब्ध है। एक ट्वीट थ्रेड यहां है और स्लाइड डेक यहां है।
विंटेज बड़े भाषा मॉडल: प्रतिलेख
मैं पुराने बड़े भाषा मॉडलों के बारे में बात करने जा रहा हूँ। इसका उद्देश्य पिछले डेटा पर प्रशिक्षित भाषा मॉडल पेश करना है। हम भाषा मॉडल को अतीत में वापस भेज रहे हैं – रोमन काल में, ट्यूडर युग में, 1960 के दशक में, या हाल के दशकों में।
विंटेज एलएलएम क्या है?
एक विंटेज एलएलएम एक बड़ा भाषा मॉडल है जिसे किसी विशेष तिथि तक टेक्स्ट और संभावित छवियों या अन्य मल्टीमॉडल डेटा पर प्रशिक्षित किया जाता है। तारीख 2019 हो सकती है, इसलिए इसे केवल 2019 तक के डेटा पर प्रशिक्षित किया गया है – यह आसान मामला है। यह 1900 ई. तक या 200 ई. तक भी हो सकता है, और ये ऐतिहासिक मामले कहीं अधिक चुनौतीपूर्ण हैं।
एक चुनौती पर्याप्त प्रशिक्षण डेटा रखने की है। दूसरा यह है कि प्रशिक्षण डेटा को संदूषण से मुक्त होना चाहिए। 1900 तक प्रशिक्षित मॉडल के लिए, 1900 के बाद की कोई जानकारी डेटा में लीक नहीं होनी चाहिए। कुछ मेटाडेटा में उस प्रकार का रिसाव हो सकता है। हालांकि शून्य रिसाव होना संभव नहीं है – पिछले डेटा पर भविष्य की छाया है क्योंकि हम जो संग्रहीत करते हैं वह उस चीज़ का एक कार्य है जिसकी हम परवाह करते हैं – रिसाव का बहुत कम स्तर होना संभव है, जो दिलचस्प होने के लिए पर्याप्त है।
आप छवियों की तरह मल्टीमॉडल डेटा शामिल कर सकते हैं। रोमन काल या 1700 में वापस जाने पर छवियों को शामिल करने में कुछ अजीब बात है क्योंकि उनके पास पाठ तो थे, लेकिन डिजिटल छवियां नहीं थीं। हालाँकि, यह कुछ उद्देश्यों के लिए स्वीकार्य है। आप ऐसी जानकारी लीक होने से बचना चाहेंगे जिसे केवल वर्तमान में ही जाना जा सकता है। आप उन चीज़ों को शामिल कर सकते हैं जिन्हें उस समय लोग देख सकते थे और स्वयं अनुभव कर सकते थे। उदाहरण के लिए, रोमन काल में मधुमक्खी या अंडा फोड़ने की कोई शारीरिक रूप से सटीक पेंटिंग नहीं हो सकती है, लेकिन आप ऐसी छवियां शामिल कर सकते हैं क्योंकि लोग ऐसी चीजें देख सकते हैं, भले ही वे उनके रिकॉर्ड किए गए मीडिया का हिस्सा न हों। आपके पास इमारतों और कलाकृतियों की तस्वीरें भी हो सकती हैं जो हमारे पास अभी भी अतीत की हैं।
वैज्ञानिक और ज्ञानमीमांसीय प्रेरणाएँ
एक प्रेरणा विज्ञान और ज्ञानमीमांसा से मिलती है। ये एप्लिकेशन तेजी से महत्वपूर्ण हो जाएंगे। हम भविष्यवाणी और वैज्ञानिक आविष्कार के लिए एलएलएम का उपयोग करने के तरीकों का परीक्षण करना चाहते हैं। पूर्वानुमान के लिए एलएलएम का उपयोग करने पर हलावी एट अल जैसे विभिन्न कार्य हैं। वे एलएलएम लेते हैं और सुव्यवस्थित एलएलएम के शीर्ष पर एलएलएम एजेंट जैसे व्यवहार के साथ मचान लागू करते हैं। वे सूचना पुनर्प्राप्ति और विचार प्रेरणा की श्रृंखला का भी उपयोग करते हैं। पूर्वानुमान के लिए एलएलएम को अनुकूलित करने के लिए विभिन्न सुदृढीकरण सीखने और अन्य तकनीकों को जोड़ा जा सकता है।
हम यह परीक्षण करना चाहेंगे कि ये दृष्टिकोण एक कच्चे एलएलएम को एक अच्छे भविष्यवक्ता में बदलने में कितनी अच्छी तरह काम करते हैं। हम 2019 तक प्रशिक्षित एक विंटेज एलएलएम (एलएलएम-2019 के रूप में चिह्नित) का उपयोग कर सकते हैं और देख सकते हैं कि वित्तीय मॉडलिंग से परिचित, बैकटेस्टिंग के माध्यम से यह 2024 तक कितना अच्छा पूर्वानुमान लगाता है। एलएलएम-2019 में महामारी, हाल के युद्धों या पिछले पांच वर्षों की प्रमुख आर्थिक घटनाओं के बारे में जानकारी नहीं होगी। हम परीक्षण कर सकते हैं कि यह इन चीजों की कितनी अच्छी भविष्यवाणी कर सकता है – न केवल यह भविष्यवाणी करना कि एक महामारी होगी, बल्कि एक बार जब सबूत जमा होने लगे, तो क्या यह भविष्यवाणी कर सकता है कि आगे क्या होगा? महामारी के उस पहले वर्ष में एक नए परिदृश्य में पूर्वानुमान का परीक्षण करना बेहद दिलचस्प होगा जहां मानव पूर्वानुमानकर्ता अक्सर गलतियाँ करते थे और अगले छह महीनों की भविष्यवाणी करना काफी कठिन था।
एलएलएम का एक अन्य उपयोग, जो इसकी प्रारंभिक अवस्था में अधिक है, वैज्ञानिक आविष्कार है। हमें संभवतः पर्याप्त मचान, सूचना पुनर्प्राप्ति, गणना के लिए बाहरी संसाधनों को बुलाने और शायद प्रयोग चलाने की आवश्यकता है। हम यह देखना चाहते हैं कि आज एलएलएम का उपयोग नए आविष्कार करने के लिए कितना अच्छा किया जा सकता है, शायद बहुत सरल शुरुआत करने के लिए। हम 1989 तक प्रशिक्षित एलएलएम लेकर और पिछले 35 वर्षों के विचारों को फिर से आविष्कार करने का प्रयास करके पुराने एलएलएम के साथ इसे लागू कर सकते हैं – जिन विचारों को हम अच्छे मानते हैं, जैसे वेब, क्वांटम कंप्यूटिंग, ब्लॉकचेन, ट्रांसफार्मर, व्यवहारिक अर्थशास्त्र।
आप और भी पीछे जा सकते हैं, जो वास्तव में आकर्षक हो जाता है। आप न्यूटन के नियमों, विकास के सिद्धांत और संभाव्यता सिद्धांत के साथ-साथ उससे पहले हुए भारी मात्रा में दर्शन और विज्ञान के साथ-साथ 1600 तक एलएलएम का प्रशिक्षण प्राप्त कर सकते थे। हालाँकि ये अवधारणाएँ पिछले 35 वर्षों में हमने जो आविष्कार किया है उससे अधिक सरल हो सकती हैं, लेकिन जो पहले ज्ञात था उसे देखते हुए इन चीज़ों को बनाना बहुत मुश्किल हो सकता है।
मानवतावादी प्रेरणाएँ
पहली मानवतावादी प्रेरणा समय यात्रा है। 1700 से किसी के साथ संवाद करना कैसा होगा? इसे अक्सर फिल्मों या उपन्यासों में दर्शाया जाता है, लेकिन यहां आप साक्ष्य का एक अलग और दिलचस्प स्रोत प्रदान करते हुए इसे अंतःक्रियात्मक रूप से कर सकते हैं। साक्ष्य विकृत होंगे – यदि हम 1700 तक वापस जाएं, तो कुछ जनसांख्यिकीय समूहों को डायरियों और रिकॉर्ड की गई बातचीत के माध्यम से डेटा में बेहतर प्रतिनिधित्व किया जाएगा। यह स्पष्ट नहीं है कि हम डेटा में उस पूर्वाग्रह से कितनी अच्छी तरह निपट पाएंगे, लेकिन यह संभावित रूप से कुछ ऐसा है जिसे आप प्रशिक्षण सेट के निर्माण में सुधारने का प्रयास कर सकते हैं।
हम इसे वर्तमान से अनुकूलित कर सकते हैं – हम जानते हैं कि लोग आज कैसे बात करते हैं और देख सकते हैं कि एलएलएम कितनी अच्छी तरह इसका अनुकरण करते हैं। आप अतीत के लोगों के साथ बातचीत का अनुकरण करने के लिए उन्हीं अनुकूलन तकनीकों को लागू कर सकते हैं जो वर्तमान लोगों के लिए अच्छा काम करती हैं। आप प्रसिद्ध लोगों या आम व्यक्ति से बात कर सकते हैं। क्या वे आपको समझेंगे? क्या आप उन्हें समझेंगे? इस प्रयास में आपके पास एक अनुवादक भी हो सकता है।
एलएलएम के बारे में कुछ दिलचस्प बात यह है कि वे दुनिया के लिखित ज्ञान को एक इकाई में जोड़ते हैं। एक एलएलएम कर कानून, क्वांटम यांत्रिकी और हास्केल सभी पर एक ही बातचीत में चर्चा कर सकता है, जिसका ज्ञान किसी भी व्यक्ति के पास नहीं है। यह अतीत से भिन्न है, जहां ज्ञान साझा करने में सभ्यताओं के बीच फ़ायरवॉल अधिक थी। यदि आप 0 ईस्वी, 500 ईस्वी, 1200, या 1500 ईस्वी में वापस जाते हैं, तो आपको चीन या भारत में पश्चिम में अज्ञात ग्रंथ मिलेंगे, और इसके विपरीत।
आप हर चीज़ पर प्रशिक्षण ले सकते हैं, पश्चिमी और चीनी ग्रंथों को एक कालानुक्रमिक तरीके से संयोजित कर सकते हैं – कोई भी पुस्तकालय या विद्वान इन सभी ग्रंथों को नहीं जानता था। वैकल्पिक रूप से, आप केवल पश्चिमी पाठों पर या केवल चीनी पाठों पर मॉडलों को प्रशिक्षित कर सकते हैं और प्रभावों की जांच कर सकते हैं। इस कालानुक्रमिक संयोजन वाले एलएलएम के सिर्फ पश्चिमी पाठ्यों की तुलना में क्या फायदे हैं? आप प्रतितथ्यात्मक बौद्धिक इतिहास का सर्वेक्षण कर सकते हैं जहां ज्ञान के विभिन्न पहलुओं को ऐतिहासिक रूप से पहले संयोजित किया गया है।
आप नये विचारों की आश्चर्यजनकता भी देख सकते हैं। विशेष सापेक्षता या शेक्सपियर के नाटकों जैसी किसी चीज़ के लिए, वे कितने मौलिक थे? वे कितने आश्चर्यजनक थे? आप मॉडल को उस समय तक प्रेरित कर सकते हैं जब तक कि ये चीजें सामने नहीं आईं, लेकिन इससे पहले कि वे सामने आईं और देखें कि यह कैसे प्रतिक्रिया करता है। क्या यह इन जानकारियों की ओर संकेत दिए गए रिक्त स्थान को भर सकता है? यह ग्रंथों को उनकी पूर्वानुमेयता के संदर्भ में कितना आश्चर्यजनक लगता है?
ज्ञानमीमांसा एआई और स्वर्ण मानक
एपिस्टेमिक एआई की एक व्यापक परिभाषा है: ज्ञानमीमांसा में मदद के लिए एआई सिस्टम का उपयोग करना – दुनिया की मान्यताओं और मॉडलों को अधिक सटीक और कैलिब्रेटेड बनाना। ठोस अनुप्रयोगों में अधिक सटीक पूर्वानुमान लगाना, वैज्ञानिक साहित्य का सर्वेक्षण करना, मौजूदा ज्ञान का संयोजन करना और मनुष्यों को नए एसटीईएम विचारों का आविष्कार करने में मदद करना शामिल है। एलएलएम इसे अल्फाफोल्ड जैसी किसी चीज़ से अलग तरीके से कर सकते हैं क्योंकि वे प्राकृतिक भाषा में काम करते हैं, वैज्ञानिक कानूनों को लिखते हैं और उनके बारे में तार्किक रूप से तर्क करते हैं।
ज्ञानमीमांसीय एआई प्रणाली का प्रशिक्षण करते समय, आपको प्रशिक्षण और मूल्यांकन के लिए स्वर्ण मानक उदाहरणों की आवश्यकता होती है। यह महत्वपूर्ण है. एक बुनियादी बड़े भाषा मॉडल को प्रशिक्षित करते समय, आप इसे केवल पाठ की नकल करने के लिए प्रशिक्षित कर रहे हैं, न कि सच्ची बातें कहने या वैज्ञानिक कानूनों का प्रस्ताव करने के लिए। हमें स्वर्ण मानक उदाहरणों की आवश्यकता है जो एक ज्ञानमीमांसीय एआई के लिए उच्च-गुणवत्ता वाले व्यवहार को दर्शाते हैं।
इन उदाहरणों के लिए तीन मुख्य स्रोत हैं:
वर्तमान मानव (आरएलएचएफ दृष्टिकोण) – एआई प्रणाली एक प्रतिक्रिया या प्रस्ताव का उत्पादन करती है, और मानव इसकी गुणवत्ता का मूल्यांकन करता है। इसके लिए मनुष्य को यह आंकने की आवश्यकता है कि सिस्टम का आउटपुट कितना अच्छा है, जो चुनौतीपूर्ण हो सकता है।
एल्गोरिदम – अल्फ़ागो की तरह, जहां आप शतरंज के नियमों को जानते हैं और गणना कर सकते हैं कि यह जीतता है या हारता है। आरएलएचएफ में, एक अन्य मॉडल मानव प्रतिक्रिया को स्वचालित कर सकता है, जिसमें एक तंत्रिका नेटवर्क यह अनुकरण करता है कि मनुष्य कैसे प्रतिक्रिया देंगे।
ऐतिहासिक डेटा – यह विंटेज एलएलएम के लिए दृष्टिकोण है और यह पूर्व-प्रशिक्षण के लिए डेटा स्रोत भी है, जिससे मॉडल को मानव पाठ में कही गई किसी चीज़ की भविष्यवाणी करने में मदद मिलती है।
विंटेज एलएलएम बनाने में चुनौतियाँ
विंटेज एलएलएम बनाने में महत्वपूर्ण चुनौतियाँ हैं:
डेटा आवश्यकताएँ: आपको अतीत के एक विशाल डेटासेट की आवश्यकता है – एक मॉडल के लिए 50 ट्रिलियन शब्दों की आवश्यकता हो सकती है। यह बहुत बड़ा है, और आपको यह सुनिश्चित करना होगा कि भविष्य में इस ऐतिहासिक डेटा में कोई रिसाव न हो।
प्रशिक्षण लागत: एक अत्याधुनिक मॉडल के प्रशिक्षण की लागत $200 मिलियन से अधिक हो सकती है, अगली पीढ़ी के मॉडल और भी अधिक महंगे होंगे। हालाँकि यह सभी विज्ञान निधियों की तुलना में बहुत बड़ा नहीं है, लेकिन यह एक महत्वपूर्ण निवेश है।
चुनौतियों को संबोधित करना
डेटा के संबंध में, यदि हम 2021 में वापस जाते हैं, तो हमारे पास 2020 के अधिकांश उच्च-गुणवत्ता वाले डेटा हैं। एसटीईएम भविष्यवाणी और पूर्वानुमान के लिए उच्चतम गुणवत्ता वाले डेटा में वैज्ञानिक पेपर, प्रमुख आँकड़े, विकिपीडिया और अन्य विश्वकोश शामिल हैं। हमारे पास उच्च गुणवत्ता वाले आर्थिक, मौसम विज्ञान, रसायन विज्ञान और जैविक डेटा हैं।
हमारे पास 2021 के लिए, और विशेष रूप से 1990 के लिए, रेडिट जैसी सामग्री कम है – यादृच्छिक वार्तालाप, वेब पेज और सोशल मीडिया। लेकिन यदि आप पूर्वानुमान और वैज्ञानिक आविष्कार में रुचि रखते हैं, तो यह सोशल मीडिया डेटा महत्वपूर्ण नहीं हो सकता है। 1990, 1950, या यहाँ तक कि 1900 में वापस जाने पर, हमारे पास वास्तव में सबसे उच्च गुणवत्ता वाला डेटा है।
एक अंतर यह है कि यदि आप काफी पीछे जाते हैं, तो संभवतः महत्वपूर्ण इंजीनियरिंग और व्यावहारिक समझ है जिसे लिखा नहीं गया था। 1800 में, लोगों के पास व्यापक व्यावहारिक इंजीनियरिंग ज्ञान था, लेकिन हमारे पास संभवतः इस व्यावहारिक समझ को दर्ज करने वाले कई मैनुअल नहीं हैं। हम उस समय की मशीनों, औजारों, कलाकृतियों और इमारतों की तस्वीरों के माध्यम से इसका आंशिक पुनर्निर्माण कर सकते हैं।
सिंथेटिक डेटा समाधान
सिंथेटिक डेटा में प्रगति यहां संभावित रूप से महत्वपूर्ण है। हालाँकि हमारे पास पिछले दशकों और वर्षों का उच्च-गुणवत्ता वाला डेटा है, लेकिन कुल मिलाकर हमारे पास समान मात्रा में डेटा नहीं है। सिंथेटिक डेटा अधिक प्रशिक्षण डेटा उत्पन्न करने के लिए किसी अन्य बड़े भाषा मॉडल का उपयोग करके इस अंतर को पाटने में मदद कर सकता है।
दृष्टिकोण यह होगा कि एक वास्तविक दस्तावेज़ लिया जाए और दूसरे एलएलएम का उपयोग पैराफ़्रेज़, स्क्रैम्बलिंग या रीमिक्स बनाने के लिए किया जाए जो समान सामग्री को बनाए रखते हैं लेकिन वाक्यांश और क्रम में भिन्नता रखते हैं। प्रशिक्षण में एआई प्रयोगशालाओं द्वारा पहले से ही सिंथेटिक डेटा का उपयोग किया जा रहा है – मेटा ने अपने स्तर 3 प्रशिक्षण के लिए इस पर चर्चा की, और हम इस क्षेत्र में महत्वपूर्ण प्रगति की उम्मीद कर सकते हैं क्योंकि यह अधिक एकत्र करने के खर्च के बिना उच्च गुणवत्ता वाले डेटा की अनुमति देता है।
विंटेज एलएलएम के लिए, सिंथेटिक डेटा तकनीकों को शक्तिशाली होने की आवश्यकता है क्योंकि सिंथेटिक डेटा की आवश्यकता अधिक है। यदि आप 1900 से एलएलएम चाहते हैं, तो आप उस अवधि से सभी उपलब्ध डेटा इकट्ठा करते हैं और फिर विविधताएं उत्पन्न करने के लिए दूसरे एलएलएम का उपयोग करते हैं। संदूषण से बचने के लिए, आप बूटस्ट्रैपिंग दृष्टिकोण का उपयोग कर सकते हैं: स्वच्छ 1900 जानकारी पर एक कमजोर एलएलएम को प्रशिक्षित करें, फिर एक बेहतर 1900 एलएलएम के प्रशिक्षण के लिए सिंथेटिक डेटा उत्पन्न करने के लिए उस एलएलएम का उपयोग करें।
प्रशिक्षण लागत समाधान
प्रशिक्षण लागत के संबंध में, एक संभावित दृष्टिकोण फोर्किंग के साथ कालानुक्रमिक प्रशिक्षण है। 2021 और 2024 के लिए अलग-अलग मॉडलों को प्रशिक्षित करने के बजाय, आप 2021 तक प्रशिक्षण ले सकते हैं और फिर प्रशिक्षण छोड़ सकते हैं। एक पथ 2021 डेटा पर अतिरिक्त युगों के साथ जारी है, जबकि दूसरे में 2022-2024 डेटा शामिल है। इससे प्रशिक्षण लागत बचती है, हालांकि वितरण बदलाव के कारण मॉडल थोड़े खराब हो सकते हैं।
मूल्य प्रस्ताव भी मायने रखता है – यदि 2021 का विंटेज एलएलएम पर्याप्त मूल्यवान साबित होता है, तो सैकड़ों करोड़ खर्च करना उचित हो सकता है। लागत अपेक्षा से कम हो सकती है क्योंकि आपने पहले ही कंप्यूट क्लस्टर के लिए भुगतान कर दिया है और विशेषज्ञता विकसित कर ली है।
उन्नत अवधारणाएँ
तलाशने लायक कुछ अतिरिक्त विचार:
आउटसोर्सिंग कार्य: विंटेज एलएलएम कुछ कार्यों को वर्तमान एलएलएम में आउटसोर्स कर सकते हैं। चूँकि 2024 एलएलएम समग्र रूप से मजबूत होने की संभावना है, विंटेज एलएलएम उन्हें मेटा के टूलफॉर्मर के समान कुछ प्रयोगों या तर्क प्रक्रियाओं के लिए बुला सकते हैं। कुंजी वर्तमान से सूचना रिसाव को रोकना है।
विभाजित एलएलएम: 2024 तक के सभी डेटा पर प्रशिक्षण, लेकिन प्रत्येक दस्तावेज़ पर स्पष्ट तारीख एनोटेशन के साथ। यह किसी विशेष तिथि के लिए मॉडल को संकेत देने की अनुमति देता है, बिना किसी पूर्वानुमेयता के उस समयावधि पर प्रतिक्रियाएँ प्राप्त करता है। हालांकि संभावित संदूषण के कारण यह एक वास्तविक विंटेज एलएलएम नहीं है, यह वास्तविक विंटेज एलएलएम का पूरक हो सकता है, खासकर आउटसोर्सिंग कार्यों के लिए।
इन विचारों को और अधिक विकास की आवश्यकता है, लेकिन वे इस स्थान की खोज के लिए दिलचस्प दिशाओं का प्रतिनिधित्व करते हैं। विंटेज एलएलएम का क्षेत्र ऐतिहासिक ज्ञान विकास को समझने और नए तरीकों से एआई क्षमताओं का परीक्षण करने के लिए रोमांचक संभावनाएं प्रदान करता है।
स्वीकृतियाँ:
इस विषय पर कई उपयोगी चर्चाओं के लिए पेली ग्रिट्ज़र को धन्यवाद।