Veri Madenciliğine Giriş
VERİ
MADENCİLİĞİNE GİRİŞ
Veri Nedir?
Basit bir tanım
yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye
ulaşma, bilgiyi madenleme işidir.
Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde
bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak
aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim
olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir.
Veritabanlarında, bilgi madenciliği, bilgi çıkarımı, veri ve örüntü analizi,
veri arkeolojisi gibi. Veri madenciliği, eldeki verilerden üstü kapalı, çok net
olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin
çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi,
sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir. Başka bir
değişle, veri madenciliği, veri setleri içerisindeki desenlerin, ilişkilerin,
değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan
yapıların yarı otomatik olarak keşfedilmesidir.
Veri Madenciliği
Aşamaları
1.
Veri Seçimi : Veri seçimi aşaması çözüm sağlanması planlanan problemle ilişkili olmalı ve iyi
analiz edilmelidir. Sonraki bütün aşamalar bu seçim üzerinden yürüyeceği için
önemlidir ve doğrudan araştırmacının sorumluluğundadır.
2.
Ön
İşleme ve Veri Temizleme: Veri madenciliğinin bu aşamasına
verinin tutarsız ve gürültülü olduğu durumlarda ihtiyaç duyulur. Gürültülü
veri, amaca uygun bilgi barındıran fakat bu bilgiyi elde etmeyi zorlaştırıcı
unsurlar taşıyan anlamındadır. Temizlenmesi gereken veri temizlenmeli, eksik
kalan verinin yerine yenisi konulmalıdır. Eksik veri, veri kümesinden
atılabilir, kayıp değerler yerine genel bir sabit kullanılabilir, kayıp yerine
ortalama konulabilir veya tahmin yapılabilir. Bu aşamada veri sonraki adımlar
için uygun hale getirildiği için süreci doğrudan etkilemektedir. Başarılı bir
ön işleme işlemi güvenilir sonuçlar elde etmeyi temin eder.
3.
Veriyi
İndirgeme: Büyük veri setlerinde veri
madenciliği çalışmaları yapılırken veriyi ele almak maliyetli olabilir. Bu gibi
durumlarda sonuca etkisinin önemsenmeyecek kadar az olduğunu düşündüğümüz veri
veya değişkenlerin sayısı azaltılabilir.
4.
Veriyi
Bütünleştirme: Farklı farklı kaynaklardan alınan
verilerin veri ambarına aktarılma durumunda aynı
verinin birden fazla şekilde ifade edilebilmesi nedeniyle ikilemler oluşur. Bu
ikilemleri ortadan kaldırmak için tek türe bütünleştirmeler yapılmalıdır.
Örneğin: Farklı veri tabanı yönetim sistemlerinden veri ambarına gelen
kayıtlardaki cinsiyet kayıtlarının “E”, “Erkek”, “Male”, gibi kayıtların “M”
şekline bütünleştirilmesi.
5.
Veriyi
Dönüştürme: Veriyi bazı durumlarda veri madenciliği çözümlemelerine aynen
katmak uygun olmayabilir. Değişkenlerin ortalama ve varyansları birbirlerinden
önemli ölçüde farklı olduğu takdirde büyük ortalama ve varyansa sahip
değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini
önemli ölçüde azaltır. Ayıca değişkenlerin sahip olduğu çok büyük ve çok küçük
değerler de çözümlemelerin sağlıklı biçimde yapılmasını engeller. Bu nedenle
bir dönüşüm yöntemi uygulayarak söz konusu değişkenlerin normalleştirilmesi
veya standartlaştırılması uygun bir yol olacaktır.
6.
Veri
Madenciliği Aşaması: Sürecin bu adımında önceki adımlarda hazırlanan
veri kullanılarak çalışmanın amacına göre veri madenciliği yöntemleri
uygulanır. Bu yöntemler çeşitli algoritmalar yardımıyla gerçekleşir, her
algoritmanın kendine has veri giriş ve çıkışı gibi karakteristik özellikleri
vardır.
7.
Yorumlama
ve Doğrulama: Yöntemlerden elde edilen sonuçlar
karşılaştırılır ve yorumlanır. Genelde çalışma için yöntem seçiminde en
başarılı olma ve kolay uygulanabilirlik baz alınır.
Apriori
Algoritması
Apriori algoritması birliktelik analizlerinin yapılıp
birliktelik kurallarının ortaya çıkartılması konusunda en çok bilinen ve
kullanılan algoritmadır. Geniş nesne kümelerinin ortaya çıkartılması işlemleri
için kullanılır. Geniş nesne kümelerini ortaya çıkartan algoritmalar eldeki tüm
verileri birçok kez tararlar. İlk taramada, her bir nesnenin destek seviyesi,
hesaplanarak kullanıcı tarafından başlangıçta girilen minimum destek seviyesi
ile karşılaştırılır ve her bir nesnenin geniş olup olmadığına bakılır. Bundan
sonraki her tarama bir önceki taramada geniş olarak tespit edilmiş nesnelerden
başlar ve geniş nesne kümelerine aday nesne kümeleri denir. Taramanın sonunda
ise hangi aday nesne kümesinin gerçekten geniş olduğu kontrol edilir. Daha önce
de belirtildiği gibi bir nesne kümesinin geniş olarak adlandırılabilmesi için o
nesne kümesinin kullanıcı tarafından verilen minimum destek seviyesinin
üzerinde bir destek seviyesine sahip olması gerekir. Bir sonraki taramada, yine
bir önceki taramada geniş olarak seçilen nesne kümelerinden başlanır ve veri
tabanının sonuna kadar bu nesne kümelerinin destekleri hesaplanır. Bu işlem, başka
yeni geniş nesne kümeleri bulunmayana kadar sürer.
Web Madenciliği
Web madenciliği terimi ilk olarak 1996 yılında Etzioni
tarafından kullanılmıştır. Etzioni ben madenciliğinin aranılacak olan
materyalin dosyalar ve web servisleri üzerinde otomatik olarak araması esasına
dayandığı şeklinde tamamlanmıştır. Web madenciliği; çeşitli yapıdaki web
sayfalarını, dokümanlarını ve kayıt bilgilerini incelemek ve bunlardaki anlamlı
kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir.
Web madenciliğinin amacı ise veri madenciliği tekniklerinin kullanarak web
belgelerinden ve servislerinden otomatik olarak bilginin ayıklanması, ortaya
çıkarılması ve tahlil edilmesidir. 2008 yılında ABD’de yapılan bir çalışmaya
göre bir ayda ortalama bir milyon terabyte veri taşımakta ve bu sayı her geçen
yıl artmaktadır. Günümüzde oldukça yaygınlaşan elektronik ticaret ve çevrimiçi
alışveriş mekanizmalarının da artmasıyla birlikte, bu alanda birbirlerine rakip
olan firmaların çalışmaları, veri madenciliğinin öneminin ön plana
çıkarmaktadır.
Web
Kullanım Madenciliği İçin Temel Uygulama Alanları
·
Kişiselleştirme
·
Sistem Geliştirme
·
Web Sitesi Yenileme
·
İş Zekâsı
·
Kullanım Karakteristiği
·
Web Kullanım Madenciliği
Web
Madenciliğinde Kullanılan Veri Çeşitleri
·
İçerik
·
Kullanıcı Profili
·
Yapı
·
Kullanım
PageRank
PageRank, 2014 yılına kadar Google’ın site sıralamasında
kullandığı algoritmanın sonucu sitenize verdiği değeri gösteren
basitleştirilmiş 0’dan 10’a kadar olan bir değerdir. Bu değer genel olarak özgün
bir içeriğe, sayfaya verilmiş bağlantılara ve bağlantı veren sayfaların
kalitesine bağlı olarak değişir. PageRank güncellenmesi hakkında net bir tarih
tarih ve zaman dilimi yoktur. Geçtiğimiz senelerde, senede 1,2,3 defa olmak
üzere genel güncellemeler gerçekleşmiştir. PageRank ile birlikte bir link
pazarı oluşmasından dolayı Google bu konuda kendini geri çekmiş ve de son
olarak 2014 yılında hiçbir PageRank güncelleştirmesi gerçekleştirmemiştir.
Google’ın her site için bir puan verdiği ve bu puanları güncel tuttuğu
bilinmektedir. Bunu bizlerle paylaşmak durumunda olmadığından, önümüzdeki
süreçte bir pagerank güncellemesi olmama ihtimali bulunmaktadır.
Metin Madenciliği
Metin madenciliği çalışmaları metni veri kaynağı olarak
kabul eden veri madenciliği çalışmasıdır. Diğer bir tanımla metnin üzerinden
yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği, metinlerin sınıflandırılması, bölütlenmesi,
metinlerden konu çıkarılması, metinler için sınıf taneciklerinin üretilmesi,
metinlerde görüş analizi yapılması, metin özetlerinin çıkarılması ve metinin
özü ile ilgili ilişki modellemesi gibi çalışmaları hedefler. Yukarıdaki
hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon
getirimi, hece analizi, kelime frekans dağılımı, örüntü tanıma, enformasyon
çıkarımı, veri madenciliği ve hatta görselleştirme gibi yöntemleri
kullanmaktadır. Metin madenciliği çalışmaları, metin kaynaklı literatürdeki
diğer bir çalışma alanı olan doğal dil işleme çalışmaları ile çoğu zaman
beraber yürütülmektedir. Doğal dil işleme çalışmaları daha çok yapay zekâ altındaki dil bilim bilgisine dayalı çalışmaları
kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatiksel olarak
metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları
sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da
yapılmaktadır. Metin madenciliği çalışmaları genelde devlet seviyesi bilimsel
araştırma ve iş dünyası ihtiyaçları için çeşitli çözümler sunmaktadır. Bu
amaçlardan bazıları aşağıdaki şekilde sıralanabilir:
·
Kurumsal İş zekâsı, Veri madenciliği ve Rekabet zekâsı
·
E-Kâşif,
Kayıt yöntemi
·
Ulusal güvenlik ve istihbarat
·
Özellikle beşeri bilimler başta olmak üzere bilimsel metinlerin
işlenmesi
·
Duygusal analiz araçları
·
Doğal Dil / Anlam bilimsel araç veya hizmetler
·
Yayıncılık
·
Otomatik reklam yerleştirme
·
Arama/Bilgi erişimi
·
Sosyal medya gözetlemesi
Yorumlar
Yorum Gönder