| Yeni Nesil Meta Arayıcılarda İstenen Özellikler

0
25

Doksanlı yılların sonunda sayıları hızla artan arama motorları başka bir teknolojinin gelişmesini sağladı: Meta arama motorları veya kısaca meta arayıcılar (meta search engines). Meta arayıcıları kendileri indeks tutmayan, sorguları birden fazla gerçek anlamda arayıcıya ileten ve aldığı sonuçları az veya çok işlemden geçirip kullanıcıya sunan akıllı bir arayüz olarak düşünebiliriz.

İlk çıkan meta arayıcılar verdiğiniz sorguyu birden fazla arama motoruna iletme görevinden başka bir şey yapmıyorlardı: Bir dizin veriyorsunuz, meta arayıcı dizini alıyor, desteklediği arayıcıların CGI parametrelerini çok basit bir biçimde dolduruyor, yeni pencereler veya çerçeveler (frame) içinde bunlardan gelen sayfayı aynen görüntülüyordu. Günümüzde gelişmiş meta arayıcılar bundan fazlasını yapıyorlar, gelecekte de çok daha fazlasını yapacaklarını umuyoruz.

Bir meta arayıcının kısaca nasıl çalıştığını anlamak için sanırım yapılan işlemleri parçalara bölüp teker teker anlatmakta fayda var. Meta arayıcıları kısaca şu bileşenlerin toplamı olarak düşünebiliriz:

– Kullanıcı arayüzü: sorgu dizini ve parameterlerin alınması

– Arayıcı seçme modülü (verilen sorguya göre en iyi arayıcıları seçmek)

– Arayıcı arayüzü: seçilen arayıcılara sorgu yollamak, sonuçları toparlamak

– Sonuçların birleştirilmesi, kopyaların elimine edilmesi, yeniden sıralanması

– Sıralanmış bilgilerin bir kullanıcı arayüzü ile kullanıcıya ulaştırılması

Bunlar kısaca iyi bir meta arayıcıda olmasını istediğimiz özellikler, fakat şu an mevcut meta arayıcıların pek çoğu bu saydığımız özelliklerin birkaçında iyiler, diğerlerine ya hiç dokunmamışlar, ya da çok basit bir şekilde ele almışlar. Bu bileşenleri kısaca anlatmaya çalışalım…

Sorgunun ve parametrelerin alınması (kullanıcı arayüzü):

Kullanıcı arayüzü aslında hem sorgunun alınmasında hem de sonuçların sunumunda önemli rol alıyor. Bu bölümde sorgunun alınmasını ele alacağız. Sorgunun alınması mevcut pekçok arayıcının yaptığı gibi sadece bir sorgu dizininin alınmasından ibaret olabileceği gibi, başka akla gelebilecek pek çok parametrenin kullanılması ile zenginleştirilebilir. İdeal bir arama motoru sorgu dizinini almak yanında, dil seçimi, sorgunun nerede aranacağı, nelere önem verileceği, nasıl bir bilgi aranacağı, sayfa(lar)da ne gibi bir içeriğe önem verileceği (resim, döküman, müzik, başka tip dosyalar) ile ilgili değişik parametreler de alıp sorguyu bunları göz önüne alarak yönlendirebilir. Bunların bazılarını kullanıcının ekstra çabası gerekmeden yapmak çok zor değil. Şu an yaygın olmasa da teknoloji geliştikçe, bu tip şeyleri görmeyi bekleyebiliriz. Örnek olarak verilen sorgu dizininin hangi dilde olduğunu tahmin etmek çok zor değil: Yeterli veri ile öğrenen bir sistem, hangi kelimenin büyük bir olasılıkla hangi dile ait olduğunu çıkartabilir ve otomatik olarak bu dildeki dokümanları seçecek şekilde filtreleme uygulayabilir. Kullanıcının hangi dilleri bildiği cookie veya kullanıcı bilgisi ile (user profile) otomatik olarak arayıcıya gönderilebilir, arayıcı ise filtreleme işlemini otomatik olarak kullanıcının bildiği dilleri seçecek şekilde yapabilir.

Arayıcı seçme modülü:

Günümüzde çok az meta arayıcıda doğru düzgün çalışmasına rağmen, verilen sorguya göre hangi arayıcıların seçileceği, sorgunun kimlere yöneltileceği, birden fazla arayıcı seçilmişse, hangisinden kaç tane link alınacağına karar verilmesi iyi bir meta arayıcıda bulunmasını istediğimiz özellikler. Sorgu anındaki trafiğinin yoğunluğu, sorgu dizinindeki terimler, sorgunun gerektirdiği parametrelerin arayıcılarda bulunup bulunmadığı bu seçimlerde göze alınması gereken şeylere örnekler. Sorgudaki terimlerden sorgunun hangi konu ile ilgili olduğu tahmin edilebilir, daha önceki deneyimden ise bu konuda hangi arayıcıların daha iyi sonuç verdiği bulunup, sorgu direk olarak bunlara yönlendirilebilir veya bu arayıcılardan daha fazla link alınabilir. Başka bir yaklaşım işe, konuda daha iyi olan arayıcılardan gelen linklerin diğerlerinden fazla önemsenmesi, sıralamada yukarılara çıkartılması. Bu konu daha yeni araştırılmaya başlıyor ve mevcut örnekleri olmasına rağmen henüz pek gelişmiş değil (mesela http://www.profusion.com, http://www.savysearch.com).

Arayıcı arayüzü:

Sorgunun nerelere yönlendirileceği belirlendikten sonra, seçilen arayıcılar ile bağlantı kurmak, sorgunun arayıcının anlayacağı bir dile çevrilmesi ( meseala sadece boolean sorguları destekleyen bir arayıcıya, kullanıcı bayağı popüler olan +, – notasyonu ile bir sorgulama göndermek isterse, bu arayüz sorguyu bir şekilde çevirmek zorunda), gerekli sayıda URL istemi (request) yapılması (mevcut arayıcılarla bana şu sorgu için 38 tane link getir diyemiyorsunuz, genelde on, yirmi, bilemediniz yüz gibi parçalar halinde almak zorundasınız), gelen HTML lerin okunup içinden reklamların ayıklanması, URL lerin, başlıklarının ve kısa açıklamaların çıkartılması (URL, URL Title, snippet), HTML taglerinin çıkartılması ve düz yazıya çevrilmesi bu arayüzün görevleri arasında.

Sonuçların birleştirilmesi, kopyaların veya ayna sitelerin (mirror sites) ayıklanması, sonuçların yeniden sıralanması:

Birkaç tane arayıcı seçtiniz, sorguyu çevirdiniz, gönderdiniz, sonuçları aldınız. İsterseniz bunları şu arayıcı bunları gönderdi, bu şunları gönderdi diye verebilirsiniz. Ama gelişmiş meta arayıcılar sonuçları kendileri birleştirip, size tek bir liste halinde gösteriyorlar. Bunun için ise önemli birkaç nokta var:

– Kopyaların ayıklanması (Aynı link birden fazla arayıcıdan veya tek bir arayıcıdan birçok kez gelmişse, bunları birleştirip, tek bir link halinde sunulması).

– Ayna sitelerin belirlenmesi, mesela kullanıcıya en yakın birkaç tanenin saklanması, diğerlerinin atılması.

– Sonuçların bir yöntemle yeniden sıralanması.

Bu işlemler kolay görünse de düşünülmesi gereken pek çok yön var. Birleştirme kısmında ne kadar agresif olacağınız tamamen bir optimizasyon meselesidir. Kopyaların ne kadarını bulacağınız, ne kadar linki yanlışlıkla kopya olarak göreceğiniz meta arayıcıya kalmış. Web alanında %95 üstü başarı ve %1 altı hata sanırım makul sayılar.

Sonuçların bir yöntemle yeniden sıralanması ise tamamen başka bir konu. Bunun en basit yöntemi su: birinci arayıcıdan ilk linki al, ikinciden ilk linki al… bütün arayıcılardan ilk linkler bitince, ilkinden ikinci linki al, ikinciden ikinci linki al… bütün linkler bitene kadar devam et, şeklinde yapabiliriz. Tabii bu işlemden önce veya sonra kopyalar ayıklanmış olmalı. Mevcut arayıcılarda kullanılan yöntemler bahsedilenden çok daha karmaşık değil. Genelde yukarda anlatılan yöntemi arayıcılara iliştirilen ağırlıkların da kullanılması şeklinde bir değişiklik ile kullanıyorlar. Mesela Google gibi iyi olduğunu bildiğiniz bir arayıcıya daha fazla ağırlık veriyorsunuz ve ondan gelen sonuçları mesela 1.0 ile çarpıyorsunuz. Daha kötü çalıştığını bildiğiniz bir arayıcıya ise daha az, mesela 0.75 ağırlık veriyorsunuz, ve oradan gelen linklerin skorlarını 0.75 ile çarpıyorsunuz. Böylelikle Google’dan gelen linkler listenizde daha üst sıralarda yer alıyor. Daha sonra bütün linkleri bulduğunuz skora göre sıralıyıp listeliyorsunuz. Üstünde çalıştığımız meta arayıcı, Mearf’de yeni ve daha güçlü yöntemler de kullanıyoruz (http://mearf.cs.umn.edu/).

Sonuçların kullanıcıya sunulması:

Reklamlar, kopyalar, aynalar çıkartılıp, yeniden sıralama işlemi bittikten sonra, sonuçlar kullanıcıya liste halinde önem sırasına göre sıralanıp gönderilebilir. Bazı meta arayıcılar sonuçları kümeleme (clustering) ve profile göre sıralamayı etkileme gibi ekstra yöntemler de kullanıyorlar. Mesela http://www.vivisimo.com kümelemeye güzel bir örnek. Kümeleme işlemini skorları kullanarak veya profil kullanarak etkilemek için de denemeler var. Kümeleme için ise klasik k-means (bu ortamda pek iyi çalışmasa bile nedense insanlar üsteliyorlar), hierarşik kümeleme yöntemleri gibi yöntemler kullanılıyor. Yeni yeni ortak komşu fikrine dayalı kümeleme metodları da kullanılmaya başladı.

Sonuç: Niye bir meta arayıcı kullanalım?

– Meta arayıcılar tek bir arayıcıya göre çok daha fazla kapsam sunuyor (güncel bir araştırmaya göre başta gelen arayıcılar, Web’in yaklaşık olarak %10 kadar bir kısmını indeksliyorlar). İyi bir meta arayıcı, desteklediği arayıcıları dikkatlı seçerek bunu %50 gibi oranlara çıkartabilir.

– İyi bir meta arayıcı yakın bir zamanda, verdiğiniz sorgunun cevaplarını en iyi hangi arayıcının sunacağına karar verip, yönlendirme işlemini kullanıcıya saydam olarak yapabilir. Teorik ve pratik olarak yüzlerce arayıcı arasından çok kısa bir sürede seçim yapmak mümkün görünüyor. Kısaca amacımız bir doktorun, bir avukatın, bir bilgisayarcının, çizgi film araştıran bir çocuğun ilgilendikleri alanlarında aynı meta arayıcıyı kullanarak en iyi bilgilere ulaşmalarını sağlamak. Bunu gerçek anlamda bir arayıcının yapması çok zor. Özel arayıcılar kendi konularında genel arayıcılardan çok daha iyi sonuç veriyorlar. Meta arayıcıların gücü özeş veya genel, istediği (ve tabii ki anlaştığı) arayicıyı araç olarak kullanabilmesi.

– Tek bir sorgu dili ile (meta arayıcının sorgu dili) verilen sorgular başka şekillerde girdi isteyen arayıcılara kullanıcının haberi bile olmadan çevirilip gönderilebilir. Değişik arayıcıların nasıl girdi istediklerini bilmenize gerek kalmaz. Sorguyu bir kere en sevdiğiniz meta arayıcının dili ile yaparsınız, o desteklediği ve seçtiği arayıcılara otomatik olarak gönderir.

– Akıllıca kümeleme yapan veya yeniden sıralama yapan meta arayıcıların sonuçları desteklediği arayıcıların hepsinden teker teker iyi olabilir. Kısaca bütünde elde ettiğiniz kalite, kullandığınız parçaların toplamını geçebilir.

– Bir arayıcının skorlarını seviyorsunuz, ama sonuçları nasıl gösterdiğini sevmiyorsunuz… Yapacağınız şey, bu arayıcıyı desktekleyen, sunumu size daha iyi hitap eden bir meta arayıcı bulmak.

– Bir konuda yüzlerce hatta binlerce linki kısa bir zamanda toplamak istiyorsanız ya kendi arayıcınız olacak, ya da buna izin veren bir meta arayıcı bulacaksınız. Ufak bir topluluğa hizmet eden bir meta arayıcı ile bunu çok kolay yapabilirsiniz. Mesela Mearf ile beş-altı arayıcı kullanıp, herbirinden 500-800 arası link alıp, araştırdığınız konuda 2000’den fazla linki 30-40 saniye içinde toparlayabilirsiniz. Bunların asıl dokümanlarını indirip, içlerindeki linkleri de birkaç link uzağına kadar takip ederek, rahatlıkla bir konuda çok geniş bir doküman seti elde edilebilir.

Kaynak

CEVAP VER

This site uses Akismet to reduce spam. Learn how your comment data is processed.