शोधयंत्राचा शोध - भाग ११: एका महासत््तेचा उदय
Wednesday, December 5th, 2007शोधयंत्राचा शोध घेता घेता आपण पोहोचलो आहोत १९९७ मध्ये. स्थळ, अमेरिकेतील पश्चिम किनाऱ्यावरच्या उत्तर कॅलिफोर्नियातील उपसागरीय भागातले (बे एरिया, सिलिकॉन व्हॅली) एक विद्यापीठ, स्टॅनफोर्ड. येथे संगणक विज्ञानात पीएचडी करण्यासाठी आलेले दोन विद्यार्थी, लॅरी पेज आणि सर्जे ब्रिन. त्यांच्यापेक्षा दोनच वर्षांनी त्याच विद्यापीठात वरिष्ठ असणाऱ्या दोन विद्यार्थ्यांचे, डेव्हिड फायलो आणि जेरी यांग, ह्यांच्या महाजालाच्या नवीन तंत्रज्ञानाधारित संस्थेचे यश ह्या दोघांनी जवळून पाहिलेले होते. आणि त्यांच्या वाढत्या संस्थेला, याहू! ला, महाजालाचे वर्गीकरण मानवी मदतीने करताना झालेले कष्टदेखील त्यांना जवळून पहायला मिळालेले होते. ह्या काळात याहूचे शोधयंत्र सर्वात प्रगत असले, तरी हे शोधयंत्र संकेतस्थळाच्या पृष्ठांत असलेल्या शब्दांवरूनच त्या संकेतस्थळांचे वर्गीकरण करायचे.
म्हणजे, समजा तुम्ही तेव्हा “बिल क्लिंटन” असा शोध त्या शोधयंत्रातून घेतला असता, तर याहू!कडे नोंद असणाऱ्या सर्व संकेतस्थळांतील पृष्ठांतील, ज्या पृष्ठांत सर्वाधिकवेळा “बिल क्लिंटन” असे लिहिलेले आहे, ती पृष्ठे तुम्हाला दिसली असती. पण, ही पृष्ठेच तुम्हाला हवी आहेत, हे कसे ठरवायचे ? ज्या पृष्ठावर “बिल क्लिंटन” असे सर्वाधिक वेळा लिहिले आहे, तेच शोधकर्त्याला हवे असलेले पृष्ठ आहे, हे कशावरून ? समजा, मी, म्हणजे एका सामान्य (पण बुद्धिमान, किंवा “चालू”) संकेतस्थळचालकाने विचार केला, की बिलबुवांनी मोनिककाताईंशी लफडे केल्याची बातमी सध्या चर्चेत आहे, त्यामुळे बिल क्लिंटन आणि मोनिका लुविनस्की, ह्यांचा शोध याहू! वर विश्वजालाचे प्रवासी मोठ्या प्रमाणात घेणार, हे नक्की. म्हणून माझ्या संकेतस्थळावर ते प्रवासी यावेत (आणि माझ्या संकेतस्थळावरच्या जाहिराती त्यांनी पाहाव्या) म्हणून, मी माझ्या संकेतस्थळावर एक पृष्ठ असे तयार केले, की त्यात शंभर वेळा बिल क्लिंटन आणि शंभर वेळा मोनिका लुविनस्की लिहिले. त्या संकेतस्थळाची याहू! वर नोंद केली. जगातील याहू! वर नोंद झालेल्या इतर कुठल्याही संकेतस्थळापेक्षा, माझ्या ह्या संकेतस्थळावर बिल क्लिंटन हे नाव अधिक दिसते, म्हणून याहू!चे शोधयंत्र माझे संकेतस्थळ त्यांच्या शोधनिकालांत अधिक वर दाखवेल, आणि विश्वजालावरचे अनभिज्ञ प्रवासी माझ्या संकेतस्थळाला भेट देतील.
पण, ते नक्कीच निराश होतील. कारण, जेव्हा ते “बिल क्लिंटन” चा शोध घेतात, तेव्हा त्यांना हवी असते बिल क्लिंटनची माहिती. पण ती तर माझ्या स्थळावर अजीबात नाही ! त्यात आहे फक्त शंभर वेळा “बिल क्लिंटन” असे लिहिलेले! स्वत:ला हवी असलेली माहिती शोधयंत्रातून मिळाली नाही, की ते शिव्या देतात शोधयंत्राला, खरे ना ?
हे असे कसे मूर्ख शोधयंत्र, ज्याला मला काय हवे तेदेखील कळत नाही ?
आणि त्यामुळे, शोध घेणाऱ्याला नक्की काय हवे आहे, हे समजून घेणे, ही शोधयंत्राची गरज बनते. आणि दुसरी महत्वाची गरज अशी की जे शोध घेणाऱ्याला हवे आहे, त्याचीच माहिती देणारी संकेतस्थळांवरची पृष्ठे त्याला दाखवायची.
अर्थातच, कुठल्याही शोधयंत्राला दोन समस्यांचे समाधान शोधणे आवश्यक ठरते:
१. शोधयंत्राच्या ग्राहकाला काय हवे आहे ?
२. स्वत:कडे असलेल्या संकेतपृष्ठांपैकी कुठली पृष्ठे त्याची गरज भागवतात ?
लॅरी पेज आणि सर्जे ब्रिन, ह्यांनी वरच्या दोन समस्यांपैकी दुसऱ्या समस्येला हाताळायचे ठरवले.
“बिल क्लिंटन” असे नाव असणारी लाखो पृष्ठे संकेतस्थळांवर विखुरलेली असतील. त्यातील “बिल क्लिंटन” विषयी माहिती असलेली पृष्ठे कोणती, हे कसे ओळखावे ? इथे विषयोचितता (रिलेव्हन्स, relevance) ही संकल्पना उदयास येते. करोडो संकेतपृष्ठांतून विचारलेल्या माहितीस कुठले संकेतपृष्ठ सर्वाधिक उचित आहे ? हे संगणकाद्वारे ठरवणे, म्हणजे विषयोचिततेच्या संगणनाचे मुख्य उद्दिष्ट.
त्यावेळी, जगातील संकेतपृष्ठांपैकी ९९ टक्के पृष्ठे ही इंग्रजी भाषेत होती (आता ७० टक्के असतील). ह्या पृष्ठांत नक्की काय लिहिले आहे, हे कळण्यासाठी संगणकांना इंग्रजी शिकवणे आवश्यक आहे. पण गेली चाळीस वर्षे संगणकांना इंग्रजी शिकवता शिकवता अनेक सुपीक डोकी निकामी झालीत! संगणकांना इंग्रजी येण्याची वाट पहात राहिले असते, तर लॅरी आणि सर्जी म्हातारे आणि कंगाल राहिले असते! कुठलातरी नवीन (आणि सोपा) मार्ग शोधायला हवा, हे त्यांना कळले. आणि त्यांनी ह्या कठीण समस्येला एक समाधान शोधून काढले. त्या संकल्पनेचे नाव आता सर्वश्रुत आहे (किमान बहुश्रुत तरी आहे) : पेजरॅंक !
प्रत्येक संकेतपृष्ठावर काही शब्द असतात. पण सदर पृष्ठ सदर शब्दांसाठी माहितीपूर्ण आहेत का, हे ठरवण्यासाठी त्या पृष्ठाला त्या शब्दासंदर्भात दिलेले गुण, म्हणजे “पेजरॅंक”. अर्थात ही त्या संज्ञेची दहा वर्षानंतरची व्याख्या झाली. १९९७ मध्ये लॅरी पेज आणि सर्जे ब्रिन ह्यांनी पेजरॅंकची जी व्याख्या केली, त्यात आजच्या व्याख्येतले “शब्दासंदर्भात” हे गाळलेले होते. एका संकेतपृष्ठाची एक पेजरॅंक, त्या पृष्ठातील सर्व शब्दांसाठी ही एकच!
वाचकहो, ही लेखमाला प्रकाशित करायला सुरुवात केल्यानंतर आपल्यातल्या अनेक बुद्धिमान वाचकांनी माझ्याशी संपर्क साधून, त्यांना येणाऱ्या विविध कल्पना, इतरांना आधीच आलेल्या आहेत, म्हणून माझ्याकडे खेद व्यक्त केला आहे. त्या सर्वांना मी ह्या उदाहरणातून एक दिलासा देऊ इच्छितो. (मलाही माझ्या नवीन वाटणाऱ्या कल्पना, इतरांनाही आधिच आलेल्या आहेत, हे शोधयंत्राच्या माध्यमातूनच कळते, पण त्यामुळे मी उदास होणे सोडून दिलेले आहे. उलट, आपल्याला आलेली कल्पना आधीदेखील कुणाला तरी आलली आहे, म्हणजेच त्या कल्पनेत “दम” आहे, हे कळून मला समाधान वाटते.)
पेजरॅंक ही कल्पना लॅरी आणि सर्जे ला सुचली, त्या आधीच इंकटुमी, कॉम्पॅक ह्या संस्थांनी ह्या कल्पनांवर संशोधन सुरू केले होते. इंकटुमीमध्ये तर अशा प्रकारच्या विषयोचिततेच्या प्रकल्पावर कामदेखील सुरू झाले होते. त्याला त्यांनी नाव दिले होते, “वेबमॅप”. अख्ख्या संकेतपृष्ठांचे जाळे संगणकावर बांधण्याचा हा प्रकल्प. पण हा प्रकल्प एका प्रस्थापित संस्थेत सुरू होता, आणि लॅरी आणि सर्जे असाच प्रकल्प करत होते, ते त्यांच्या होस्टेलच्या खोलीत. तुम्ही सिलिकॉनव्हॅलीच्या बाहेर असलात, तर तुम्हाला नक्की वाटणार की दोन विद्यार्थी, त्यांच्या खाजगी संगणकावर कुणीही एक कवडीची मदत न करता जो प्रकल्प करताहेत, त्याचा नक्की भुगा होणार ! पण इथे असे घडत नाही.
अर्थातच, बहुतांश प्रस्थापित कंपन्यांची बाबूशाही (ब्युरोक्रसी) इंकटुमीतल्या संशोधकांनाही भोवली, आणि स्टॅनफोर्ड विद्यापीठातील वसतीगृहात दरमहा १२०० डॉलर्सवर काम करणाऱ्या ह्या दोन विद्यार्थ्यांनी आपला पेजरॅंकचा कृतिक्रम इंकटुमीच्या संशोधकांच्या (पगार दरमहा १०००० डॉलर्स) आधी अमलात आणला, आणि एका महासत्तेचा जन्म झाला.
(पुढच्या लेखात आपण पेजरॅंक ह्या संकल्पनेविषयी जाणून घेऊयात. पण त्या आधी लॅरी आणि सर्जे ह्यांनी त्याविषयी लिहिलेला शोधनिबंध शोधयंत्रावरून शोधा. वाचण्याचा प्रयत्न तरी करा. तो वाचताना, तुमच्या रोजच्या जीवनात पेजरॅंक सारखे कृतिक्रम दिसतात का, ह्याचा विचार करा. मग पुढचा लेख वाचणे खूप सोपे जाईल.)


