AI IQ is here: a new site scores frontier AI models on the human IQ scale. The results are already dividing tech.

Nuneybits Vector art of glowing scatterplot transformed into co 2860d5e5 a9d2 4366 acd8 947838753fb6
दशकों से, IQ परीक्षण मानव बुद्धि के लिए सबसे परिचित – और सबसे अधिक विवादित – मापदण्डों में से एक रहा है। अब, एआई आईक्यू नामक एक स्टार्टअप प्रोजेक्ट कृत्रिम बुद्धिमत्ता के लिए एक ही रूपक लागू कर रहा है, जो दुनिया के 50 से अधिक सबसे शक्तिशाली भाषा मॉडलों के लिए अनुमानित खुफिया भागफल निर्दिष्ट कर रहा है और उन्हें एक मानक घंटी वक्र पर प्लॉट कर रहा है।

इसका परिणाम aiiq.org पर इंटरैक्टिव विज़ुअलाइज़ेशन का एक सेट है जो पिछले सप्ताह सोशल मीडिया पर प्रसारित हुआ है, जिसे एंटरप्राइज़ तकनीशियनों की प्रशंसा मिली है, जो कहते हैं कि चार्ट एक असंभव रूप से जटिल बाज़ार को सुपाठ्य बनाते हैं – और शोधकर्ताओं और टिप्पणीकारों की तीखी आलोचना जिन्होंने चेतावनी दी है कि संपूर्ण रूपरेखा भ्रामक है।

"यह अति उपयोगी है," प्रौद्योगिकी टिप्पणीकार थिबाउट मेलेन ने एक्स पर लिखा। "मॉडल की प्रगति को समझना बहुत आसान है जब इसे किसी अन्य विशाल लीडरबोर्ड तालिका के बजाय इस तरह मैप किया जाता है।"

एक व्यवसाय रणनीतिकार, ब्रायन वेल्मुरे ने इसी तरह का समर्थन पेश किया: "यह मददगार है. व्यक्तिगत अनुभव के साथ उपाख्यानात्मक रूप से ट्रैक करता है।"

लेकिन प्रतिक्रिया भी उतनी ही तेजी से आई। "ये बकवास है। एआई बहुत जटिल है। मानचित्र क्षेत्र नहीं है," एक आर्टिफिशियल इंटेलिजेंस कमेंटरी अकाउंट, एआई डीपली को पोस्ट किया गया, जो कई शोधकर्ताओं द्वारा साझा की गई चिंता को स्पष्ट करता है: कि एक भाषा मॉडल की विशालता, असमान क्षमताओं को एक ही संख्या में कम करने से सटीकता का एक खतरनाक भ्रम पैदा होता है।

बारह बेंचमार्क, चार आयाम और एक विवादास्पद संख्या: एआई आईक्यू वास्तव में कैसे काम करता है

एआई आईक्यू का निर्माण एक इंजीनियर, उद्यमी और एंजेल निवेशक रयान शीया द्वारा किया गया था, जिन्हें ब्लॉकचेन प्लेटफॉर्म स्टैक्स के सह-संस्थापक के रूप में जाना जाता है। शिया ने वोटरबेस की सह-स्थापना भी की और ओपनसी, लैटिस, एंकरेज और मर्करी सहित कई यूनिकॉर्न के शुरुआती चरणों में निवेश किया है। उन्होंने प्रिंसटन विश्वविद्यालय से मैकेनिकल इंजीनियरिंग में विज्ञान स्नातक की उपाधि प्राप्त की है।

साइट की कार्यप्रणाली एक भ्रामक सरल सूत्र पर टिकी हुई है। एआई आईक्यू 12 बेंचमार्क को चार तर्क आयामों में समूहित करता है: अमूर्त, गणितीय, प्रोग्रामेटिक और अकादमिक। समग्र IQ उन चार आयाम स्कोरों का सीधा औसत है: IQ = ¼ (IQ_Abstract + IQ_Math + IQ_Prog + IQ_Acad)।

अमूर्त तर्क आयाम ARC-AGI-1 और ARC-AGI-2 से लिया गया है, जो सामान्य तरल बुद्धि का परीक्षण करने के लिए डिज़ाइन किए गए कुख्यात कठिन पैटर्न-पहचान बेंचमार्क हैं। गणितीय तर्क में फ्रंटियरमैथ (टियर 1-3 और टियर 4), एआईएमई और प्रूफबेंच शामिल हैं। प्रोग्रामेटिक रीज़निंग टर्मिनल-बेंच 2.0, एसडब्ल्यूई-बेंच सत्यापित और साइकोड का उपयोग करता है। अकादमिक तर्क ह्यूमैनिटीज़ लास्ट एग्जाम, क्रिटपीटी और जीपीक्यूए डायमंड से लिया गया है।

प्रत्येक कच्चे बेंचमार्क स्कोर को साइट द्वारा बताए गए विवरण के माध्यम से एक निहित IQ पर मैप किया जाता है "हाथ से कैलिब्रेटेड कठिनाई वक्र।" महत्वपूर्ण बात यह है कि यह पद्धति डेटा संदूषण के प्रति आसान या अधिक संवेदनशील माने जाने वाले बेंचमार्क के लिए सीमा को संकुचित कर देती है, जिससे उन्हें 100 से ऊपर स्कोर बढ़ाने से रोका जा सकता है। कठिन, कम गेम योग्य बेंचमार्क उच्च सीमा बनाए रखते हैं। सिस्टम लापता डेटा को भी रूढ़िवादी तरीके से संभालता है: व्युत्पन्न आईक्यू प्राप्त करने के लिए मॉडल को चार आयामों में से कम से कम दो पर स्कोर की आवश्यकता होती है, और जब बेंचमार्क अनुपस्थित होते हैं, तो पाइपलाइन जानबूझकर स्कोर को ऊपर की बजाय नीचे खींचती है। साइट यह बताती है "प्रत्येक व्युत्पन्न IQ सभी चार आयामों का औसत रखता है, इसलिए गायब कवरेज किसी मॉडल को चूक से बेहतर नहीं बना सकता है।"

ओपनएआई घंटी वक्र का नेतृत्व करता है, लेकिन शीर्ष एआई मॉडल के बीच का अंतर कभी छोटा नहीं रहा है

मई 2026 के मध्य तक, एआई आईक्यू चार्ट सीमा के शीर्ष पर तेजी से अभिसरण और नीचे के स्तरों में व्यापक विविधता की कहानी बताते हैं।

फ्रंटियर आईक्यू ओवर टाइम चार्ट के अनुसार, ओपनएआई का जीपीटी-5.5 वर्तमान में बेल कर्व के शिखर पर है, जिसका अनुमानित आईक्यू 136 के करीब है – जो ट्रैक किए गए किसी भी मॉडल का उच्चतम है। इसके बाद जीपीटी-5.4 (लगभग 131), एंथ्रोपिक से ओपस 4.7 (लगभग 132), और ओपस 4.6 (लगभग 129) आते हैं। Google का जेमिनी 3.1 प्रो 131 के करीब पहुँचता है, जिससे शीर्ष क्लस्टर असाधारण रूप से तंग हो जाता है।

वह संपीड़न AI IQ के ढांचे के लिए अद्वितीय नहीं है। ट्रैकिंगएआई द्वारा एक अलग मेन्सा-आधारित रैंकिंग से चित्रण करते हुए, विज़ुअल कैपिटलिस्ट ने हाल ही में उसी गतिशीलता को देखा, यह देखते हुए "सबसे बड़ी सीख यह है कि लीडरबोर्ड का शीर्ष कितना संकुचित हो गया है।" उस पैमाने पर, ग्रोक-4.20 एक्सपर्ट मोड और जीपीटी 5.4 प्रो 145 पर, जेमिनी 3.1 प्रो 141 ​​पर बराबरी पर रहे।

फ्रंटियर क्लस्टर के नीचे, एआई आईक्यू चार्ट एक भीड़भाड़ वाला मिडफील्ड दिखाते हैं। चीनी प्रयोगशालाओं के मॉडल – किमी K2.6, GLM-5, डीपसीक-V3.2, Qwen3.6, MiniMax-M2.7 – लगभग 112 और 118 के बीच समूह, जिससे उद्यम खरीदारों के लिए लागत-प्रदर्शन स्तर तेजी से प्रतिस्पर्धी हो जाता है, जिन्हें हर कार्य के लिए पूर्ण सर्वोत्तम मॉडल की आवश्यकता नहीं होती है। एक एक्स उपयोगकर्ता, ओव्स्की, ने नोट किया कि डेटा "ओपस 4.5 के विपरीत सॉनेट 4.6 के एक संपूर्ण वर्कहॉर्स होने के अनुभव की पुष्टि करता है" – यह इंगित करते हुए कि चार्ट किस तरह से व्यवसायी अंतर्ज्ञान को मान्य कर सकते हैं जो हेडलाइन रैंकिंग में अक्सर छूट जाते हैं।

एआई मॉडल रैंकिंग में भावनात्मक बुद्धिमत्ता स्कोर नया युद्धक्षेत्र क्यों बन रहा है?

जो बात AI IQ को अधिकांश अन्य बेंचमार्किंग प्रयासों से अलग करती है, वह है इसका समावेश "eq के" – भावनात्मक बुद्धिमत्ता – स्कोर। साइट प्रत्येक मॉडल के ईक्यू-बेंच 3 एलो स्कोर और एरिना एलो स्कोर को कैलिब्रेटेड पीसवाइज-लीनियर स्केल का उपयोग करके अनुमानित ईक्यू पर मैप करती है, फिर दोनों का 50/50 भारित संयोजन लेती है।

EQ स्कोर अकेले IQ की तुलना में सार्थक रूप से भिन्न रैंकिंग उत्पन्न करते हैं। आईक्यू बनाम ईक्यू स्कैटर प्लॉट पर, एंथ्रोपिक का ओपस 4.7 132 के करीब स्कोर के साथ ईक्यू पर आगे है, इसे ऊपरी-दाएं चतुर्थांश में धकेलता है – सबसे वांछनीय स्थिति, जो उच्च संज्ञानात्मक और उच्च भावनात्मक बुद्धिमत्ता दोनों का संकेत देती है। ओपनएआई का जीपीटी-5.5 और जीपीटी-5.4 क्लस्टर उच्च-आईक्यू क्षेत्र में है लेकिन ईक्यू पर थोड़ा पीछे है। Google का जेमिनी 3.1 प्रो दोनों अक्षों पर एक मजबूत मध्य स्थिति में बैठता है।

एक उल्लेखनीय कार्यप्रणाली विकल्प ने ध्यान आकर्षित किया है: ईक्यू-बेंच 3 का मूल्यांकन क्लॉड, एक एंथ्रोपिक मॉडल द्वारा किया जाता है, जिसे साइट स्वीकार करती है "एंथ्रोपिक मॉडल के पक्ष में संभावित स्कोरिंग पूर्वाग्रह पैदा करता है।" इसे ठीक करने के लिए, एआई आईक्यू निहित ईक्यू पर मैप करने से पहले सभी एंथ्रोपिक मॉडल के लिए ईक्यू-बेंच घटक से 200-पॉइंट एलो पेनल्टी घटा देता है। एरेना घटक अप्रभावित है क्योंकि यह मानव न्यायाधीशों का उपयोग करता है। बेंचमार्किंग दुनिया में वह आत्म-सुधार असामान्य है, और इससे पता चलता है कि शीया को उस पद्धतिगत खदान के बारे में पता है जिसमें उसने प्रवेश किया है। फिर भी, ईक्यू आयाम उस चीज़ को पकड़ लेता है जिसे अकेले आईक्यू नहीं पकड़ सकता: उपयोगकर्ता-सामना वाले काम के लिए तैनात मॉडलों में बातचीत की गुणवत्ता, सहयोग और विश्वास का बढ़ता महत्व।

एआई लागत-प्रदर्शन चार्ट जिसे उद्यम खरीदार वास्तव में देखना चाहते हैं

शायद साइट पर सबसे व्यावहारिक रूप से उपयोगी चार्ट बेल कर्व नहीं बल्कि आईक्यू बनाम प्रभावी लागत स्कैटर प्लॉट है। यह प्रत्येक मॉडल के अनुमानित आईक्यू को एक के मुकाबले मैप करता है "प्रभावी लागत" मीट्रिक – 2 मिलियन इनपुट टोकन और 1 मिलियन आउटपुट टोकन का उपयोग करके किसी कार्य के लिए टोकन लागत के रूप में परिभाषित किया गया है, जिसे उपयोग दक्षता कारक से गुणा किया जाता है।

चार्ट उद्यम प्रौद्योगिकी में एक परिचित पैटर्न को प्रकट करता है: सर्वोत्तम मॉडल हमेशा सर्वोत्तम मूल्य नहीं होते हैं। GPT-5.5 और Opus 4.7 ऊपरी-बाएँ कोने में स्थित हैं – उच्च IQ, उच्च लागत, प्रभावी प्रति-कार्य लागत क्रमशः $30 और $50 के उत्तर में। इस बीच, GPT-5.4-mini, DeepSeek-V3.2, और MiniMax-M2.7 जैसे मॉडल बीच में एक अच्छे स्थान पर हैं: 112 और 120 के बीच सम्मानजनक IQ स्कोर, लगभग $1 से $5 प्रति कार्य की प्रभावी लागत पर। सबसे सस्ते चरम पर, GPT-oss-20b (एक ओपन-सोर्स OpenAI मॉडल) 107 के IQ के साथ $0.20 प्रभावी लागत के करीब दिखाई देता है – संभवतः थोक वर्गीकरण या निष्कर्षण वर्कलोड के लिए सबसे किफायती विकल्प।

साइट एक 3डी विज़ुअलाइज़ेशन मैपिंग आईक्यू, ईक्यू और प्रभावी लागत भी प्रदान करती है। घन के माध्यम से चलने वाली एक धराशायी रेखा आदर्श की ओर इशारा करती है: उच्च IQ, उच्च EQ और कम लागत। के पास मॉडल "हरा अंत" उस धुरी के सर्वांगीण सौदे मजबूत हैं; जो पास हैं "लाल अंत" त्याग क्षमता, लागत दक्षता, या दोनों। एपीआई इनवॉइस पर नजर रखने वाले सीआईओ के लिए, निहितार्थ स्पष्ट है: $50 मॉडल और $3 मॉडल के बीच खुफिया अंतर इतना कम हो गया है कि रूटिंग – कठिन समस्याओं के लिए महंगे मॉडल और बाकी सभी चीजों के लिए सस्ते मॉडल का उपयोग करना – अब वैकल्पिक नहीं है। यह गंभीर एआई परिनियोजन के लिए प्रमुख वास्तुकला है।

आलोचक कहते हैं एआई "दांतेदार" क्षमताएं एकल IQ स्कोर को खतरनाक रूप से भ्रामक बना देती हैं

एआई आईक्यू पर सबसे बड़ी आपत्ति दार्शनिक है, और यह गहरी चोट करती है। आलोचकों का तर्क है कि किसी मॉडल की असमान क्षमताओं को एक ही अंक में समेटने से जितना पता चलता है उससे कहीं अधिक अस्पष्ट हो जाता है।

"प्रॉक्सी के रूप में आईक्यू कम हो रहा है – हम तर्क घनत्व स्पाइक्स देख रहे हैं जो जी-फैक्टर से मेल नहीं खाते हैं," ज़या, एक प्रौद्योगिकी टिप्पणीकार, को एक्स पर पोस्ट किया गया। "GPT-5.5 पहले से ही MMLU-Pro पर संतृप्ति पर पहुंच गया है, लेकिन अभी भी 50% समय में क्लॉकबेंच विफल रहता है।"

यह अवलोकन उस चीज़ को छूता है जिसे एआई शोधकर्ता कहते हैं "झंझट" समस्या: बड़े भाषा मॉडल अक्सर बेतहाशा असमान क्षमताओं का प्रदर्शन करते हैं, स्नातक स्तर के भौतिकी में उत्कृष्ट प्रदर्शन करते हैं जबकि एक बच्चा जो कार्य कर सकता है उसमें असफल हो जाता है। एक समग्र स्कोर उन अंतरालों को दूर कर सकता है।

प्रेशरएंगल, एक अन्य एक्स उपयोगकर्ता, ने आह्वान करते हुए अधिक विस्तृत आलोचना पोस्ट की "पारदर्शिता का पूर्ण अभाव" और यह तर्क देते हुए कि साइट कभी भी पूरी तरह से खुलासा नहीं करती है कि इसके अंशांकन वक्र कैसे बनाए गए या मान्य किए गए। निष्पक्षता में, एआई आईक्यू अपने 12 बेंचमार्क सूचीबद्ध करता है और अपने कार्यप्रणाली मोडल में प्रत्येक अंशांकन वक्र का आकार दिखाता है। लेकिन कच्चे डेटा और सटीक गणितीय परिवर्तनों को खुले डेटासेट के रूप में प्रकाशित नहीं किया जाता है – एक अंतर जो पूरी तरह से प्रतिलिपि प्रस्तुत करने योग्य तरीकों के आदी शोधकर्ताओं के लिए मायने रखता है।

दूसरों ने आधार पर ही सवाल उठाया। "मानव बुद्धि परीक्षण जितना बेकार," एक्स पर हाशिम लिखा। एआई और प्रौद्योगिकी लेखक, शुभम शर्मा ने एक रचनात्मक विकल्प पेश किया: "मॉडलों को आधिकारिक (मेन्सा-ग्रेड) परीक्षा क्यों नहीं दी जा रही? क्या यह बुद्धिमत्ता को बेंचमार्क करने का सबसे सटीक और सबसे ‘मानव-तुलनीय’ तरीका नहीं होगा?" वह दृष्टिकोण ट्रैकिंगएआई के माध्यम से पहले से ही मौजूद है, जो भाषा मॉडलों के लिए मेन्सा नॉर्वे आईक्यू परीक्षण का प्रबंधन करता है। लेकिन मेन्सा-शैली परीक्षण केवल अमूर्त पैटर्न पहचान को मापते हैं, जबकि एआई आईक्यू कोडिंग, गणित और अकादमिक तर्क में व्यापक समग्रता का प्रयास करता है। जैसा कि विज़ुअल कैपिटलिस्ट ने उल्लेख किया है, "IQ-शैली बेंचमार्क क्षमता का केवल एक टुकड़ा कैप्चर करता है।" प्रत्येक दृष्टिकोण में समझौता होता है – और किसी ने भी अभी तक तर्क नहीं जीता है।

असली दौड़ उच्चतम स्कोर के लिए नहीं है – यह सबसे स्मार्ट मॉडल स्टैक के लिए है

कार्यप्रणाली के बारे में सभी बहसों के लिए, AI IQ के डेटा में सबसे महत्वपूर्ण संकेत किसी एक मॉडल का स्कोर नहीं हो सकता है। चार्ट से पता चलता है कि यह बाज़ार का स्वरूप है।

अब संयुक्त राज्य अमेरिका, चीन और यूरोप में फैले कम से कम 14 प्रमुख प्रदाताओं से एपीआई के माध्यम से 50 से अधिक फ्रंटियर-क्लास मॉडल उपलब्ध हैं। प्रत्येक प्रदाता अपने स्वयं के बेंचमार्क प्रकाशित करता है, जिसे अक्सर ताकत दिखाने के लिए चुना जाता है। परिणाम एक टॉवर ऑफ बैबेल है जहां कोई भी दो कंपनियां एक ही चीज को एक ही तरीके से नहीं मापती हैं। अकादमिक शोध ने इस पर प्रकाश डाला है "अधिकांश बेंचमार्क एक विशेष प्रकार के डोमेन पर ध्यान केंद्रित करके पूर्वाग्रह का परिचय देते हैं," और एआई आईक्यू पर फ्रंटियर आईक्यू ओवर टाइम चार्ट दिखाता है कि लक्ष्य कितनी तेजी से आगे बढ़ रहे हैं: अक्टूबर 2023 में, जीपीटी-4-टर्बो 75 के अनुमानित आईक्यू के करीब था। 2026 की शुरुआत तक, शीर्ष मॉडल 135 को पार कर रहे थे – 30 महीनों में सुधार के लगभग 60 अंक।

यह गति एक बुनियादी सवाल उठाती है कि क्या कोई स्कोरिंग प्रणाली इसे बरकरार रख सकती है। साइट संतृप्त बेंचमार्क के लिए सीलिंग को संपीड़ित करती है, लेकिन जैसे-जैसे मॉडल सबसे कठिन परीक्षणों – एआरसी-एजीआई -2, फ्रंटियरमैथ टियर 4, ह्यूमैनिटीज लास्ट एग्जाम – को भी अधिकतम करना जारी रखते हैं, फ्रेमवर्क को उन्हीं सीलिंग प्रभावों का सामना करना पड़ेगा, जिन्होंने इसके पहले हर एआई मूल्यांकन को प्रभावित किया है। कॉनर फोर्सिथ ने एक्स पर इस गतिशीलता की ओर इशारा किया: "एआरसी एजीआई 3 असहमत है," उन्होंने अगली पीढ़ी के बेंचमार्क का संदर्भ देते हुए लिखा, जो पहले से ही वर्तमान स्कोर को कम कर रहा है।

एआई आईक्यू सही नहीं है. इसकी कार्यप्रणाली आंशिक रूप से अपारदर्शी है. इसका आईक्यू रूपक गुमराह कर सकता है। और इसके निर्माता ज्ञात पूर्वाग्रहों को स्वीकार करते हैं जबकि संभवतः अन्य को अनदेखा करते हैं। लेकिन विकल्प – दर्जनों प्रदाता-विशिष्ट बेंचमार्क तालिकाओं से गुज़रना, जिनमें से प्रत्येक अलग-अलग परीक्षण सूट और स्कोरिंग सम्मेलनों का उपयोग करता है – बदतर है। साइट उद्यम खरीदारों को वास्तव में दुर्लभ कुछ प्रदान करती है: प्रदाताओं, आयामों और मूल्य बिंदुओं के बीच मॉडल की तुलना करने के लिए एक एकल ढांचा, नियमित रूप से अपडेट किया जाता है, यह दिखाने के लिए पर्याप्त बारीकियों के साथ कि सही उत्तर "कौन सा मॉडल सर्वोत्तम है?" लगभग हमेशा होता है "यह कार्य पर निर्भर करता है।"

जैसा कि देबदूत घोष ने चार्ट देखने के बाद एक्स पर विचार किया: "अब इंसान की भूमिका सिर्फ आयोजन करना रह गया है?"

शायद। लेकिन अगर एआई आईक्यू डेटा कुछ भी स्पष्ट रूप से दिखाता है, तो वह यह है कि ऑर्केस्ट्रेशन – यह जानना कि किस मॉडल को तैनात करना है, कब और किस कीमत पर – बुद्धिमत्ता का अपना रूप बन गया है। और उसके लिए, अभी तक कोई बेंचमार्क नहीं है।



<a href

Leave a Comment