Veri Madenciliğine Giriş

VERİ MADENCİLİĞİNE GİRİŞ
Veri Nedir?
Basit bir tanım yapmak gerekirse veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir. Ya da bir anlamda büyük veri yığınları içerisinden gelecekle ilgili tahminde bulunabilmemizi sağlayabilecek bağıntıların bilgisayar programı kullanarak aranmasıdır. Veri madenciliği deyimi yanlış kullanılan bir deyim olabileceğinden buna eş değer başka kullanımlar da literatüre geçmiştir. Veritabanlarında, bilgi madenciliği, bilgi çıkarımı, veri ve örüntü analizi, veri arkeolojisi gibi. Veri madenciliği, eldeki verilerden üstü kapalı, çok net olmayan, önceden bilinmeyen ancak potansiyel olarak kullanışlı bilginin çıkarılmasıdır. Bu da; kümeleme, veri özetleme, değişikliklerin analizi, sapmaların tespiti gibi belirli sayıda teknik yaklaşımları içerir. Başka bir değişle, veri madenciliği, veri setleri içerisindeki desenlerin, ilişkilerin, değişimlerin, düzensizliklerin, kuralların ve istatistiksel olarak önemli olan yapıların yarı otomatik olarak keşfedilmesidir.
Veri Madenciliği Aşamaları
1.       Veri Seçimi : Veri seçimi aşaması çözüm sağlanması planlanan problemle ilişkili olmalı ve iyi analiz edilmelidir. Sonraki bütün aşamalar bu seçim üzerinden yürüyeceği için önemlidir ve doğrudan araştırmacının sorumluluğundadır.
2.       Ön İşleme ve Veri Temizleme: Veri madenciliğinin bu aşamasına verinin tutarsız ve gürültülü olduğu durumlarda ihtiyaç duyulur. Gürültülü veri, amaca uygun bilgi barındıran fakat bu bilgiyi elde etmeyi zorlaştırıcı unsurlar taşıyan anlamındadır. Temizlenmesi gereken veri temizlenmeli, eksik kalan verinin yerine yenisi konulmalıdır. Eksik veri, veri kümesinden atılabilir, kayıp değerler yerine genel bir sabit kullanılabilir, kayıp yerine ortalama konulabilir veya tahmin yapılabilir. Bu aşamada veri sonraki adımlar için uygun hale getirildiği için süreci doğrudan etkilemektedir. Başarılı bir ön işleme işlemi güvenilir sonuçlar elde etmeyi temin eder.
3.       Veriyi İndirgeme: Büyük veri setlerinde veri madenciliği çalışmaları yapılırken veriyi ele almak maliyetli olabilir. Bu gibi durumlarda sonuca etkisinin önemsenmeyecek kadar az olduğunu düşündüğümüz veri veya değişkenlerin sayısı azaltılabilir.
4.       Veriyi Bütünleştirme: Farklı farklı kaynaklardan alınan verilerin veri ambarına aktarılma durumunda aynı verinin birden fazla şekilde ifade edilebilmesi nedeniyle ikilemler oluşur. Bu ikilemleri ortadan kaldırmak için tek türe bütünleştirmeler yapılmalıdır. Örneğin: Farklı veri tabanı yönetim sistemlerinden veri ambarına gelen kayıtlardaki cinsiyet kayıtlarının “E”, “Erkek”, “Male”, gibi kayıtların “M” şekline bütünleştirilmesi.
5.       Veriyi Dönüştürme: Veriyi bazı durumlarda veri madenciliği çözümlemelerine aynen katmak uygun olmayabilir. Değişkenlerin ortalama ve varyansları birbirlerinden önemli ölçüde farklı olduğu takdirde büyük ortalama ve varyansa sahip değişkenlerin diğerleri üzerindeki baskısı daha fazla olur ve onların rollerini önemli ölçüde azaltır. Ayıca değişkenlerin sahip olduğu çok büyük ve çok küçük değerler de çözümlemelerin sağlıklı biçimde yapılmasını engeller. Bu nedenle bir dönüşüm yöntemi uygulayarak söz konusu değişkenlerin normalleştirilmesi veya standartlaştırılması uygun bir yol olacaktır.
6.       Veri Madenciliği Aşaması: Sürecin bu adımında önceki adımlarda hazırlanan veri kullanılarak çalışmanın amacına göre veri madenciliği yöntemleri uygulanır. Bu yöntemler çeşitli algoritmalar yardımıyla gerçekleşir, her algoritmanın kendine has veri giriş ve çıkışı gibi karakteristik özellikleri vardır.
7.       Yorumlama ve Doğrulama: Yöntemlerden elde edilen sonuçlar karşılaştırılır ve yorumlanır. Genelde çalışma için yöntem seçiminde en başarılı olma ve kolay uygulanabilirlik baz alınır.

Apriori Algoritması
Apriori algoritması birliktelik analizlerinin yapılıp birliktelik kurallarının ortaya çıkartılması konusunda en çok bilinen ve kullanılan algoritmadır. Geniş nesne kümelerinin ortaya çıkartılması işlemleri için kullanılır. Geniş nesne kümelerini ortaya çıkartan algoritmalar eldeki tüm verileri birçok kez tararlar. İlk taramada, her bir nesnenin destek seviyesi, hesaplanarak kullanıcı tarafından başlangıçta girilen minimum destek seviyesi ile karşılaştırılır ve her bir nesnenin geniş olup olmadığına bakılır. Bundan sonraki her tarama bir önceki taramada geniş olarak tespit edilmiş nesnelerden başlar ve geniş nesne kümelerine aday nesne kümeleri denir. Taramanın sonunda ise hangi aday nesne kümesinin gerçekten geniş olduğu kontrol edilir. Daha önce de belirtildiği gibi bir nesne kümesinin geniş olarak adlandırılabilmesi için o nesne kümesinin kullanıcı tarafından verilen minimum destek seviyesinin üzerinde bir destek seviyesine sahip olması gerekir. Bir sonraki taramada, yine bir önceki taramada geniş olarak seçilen nesne kümelerinden başlanır ve veri tabanının sonuna kadar bu nesne kümelerinin destekleri hesaplanır. Bu işlem, başka yeni geniş nesne kümeleri bulunmayana kadar sürer.

Web Madenciliği
Web madenciliği terimi ilk olarak 1996 yılında Etzioni tarafından kullanılmıştır. Etzioni ben madenciliğinin aranılacak olan materyalin dosyalar ve web servisleri üzerinde otomatik olarak araması esasına dayandığı şeklinde tamamlanmıştır. Web madenciliği; çeşitli yapıdaki web sayfalarını, dokümanlarını ve kayıt bilgilerini incelemek ve bunlardaki anlamlı kalıpları keşfetmek için veri madenciliği tekniklerinin kullanılması olarak tanımlanabilir. Web madenciliğinin amacı ise veri madenciliği tekniklerinin kullanarak web belgelerinden ve servislerinden otomatik olarak bilginin ayıklanması, ortaya çıkarılması ve tahlil edilmesidir. 2008 yılında ABD’de yapılan bir çalışmaya göre bir ayda ortalama bir milyon terabyte veri taşımakta ve bu sayı her geçen yıl artmaktadır. Günümüzde oldukça yaygınlaşan elektronik ticaret ve çevrimiçi alışveriş mekanizmalarının da artmasıyla birlikte, bu alanda birbirlerine rakip olan firmaların çalışmaları, veri madenciliğinin öneminin ön plana çıkarmaktadır.

Web Kullanım Madenciliği İçin Temel Uygulama Alanları
·         Kişiselleştirme
·         Sistem Geliştirme
·         Web Sitesi Yenileme
·         İş Zekâ
·         Kullanım Karakteristiği
·         Web Kullanım Madenciliği
Web Madenciliğinde Kullanılan Veri Çeşitleri
·         İçerik
·         Kullanıcı Profili
·         Yapı
·         Kullanım

PageRank
PageRank, 2014 yılına kadar Google’ın site sıralamasında kullandığı algoritmanın sonucu sitenize verdiği değeri gösteren basitleştirilmiş 0’dan 10’a kadar olan bir değerdir. Bu değer genel olarak özgün bir içeriğe, sayfaya verilmiş bağlantılara ve bağlantı veren sayfaların kalitesine bağlı olarak değişir. PageRank güncellenmesi hakkında net bir tarih tarih ve zaman dilimi yoktur. Geçtiğimiz senelerde, senede 1,2,3 defa olmak üzere genel güncellemeler gerçekleşmiştir. PageRank ile birlikte bir link pazarı oluşmasından dolayı Google bu konuda kendini geri çekmiş ve de son olarak 2014 yılında hiçbir PageRank güncelleştirmesi gerçekleştirmemiştir. Google’ın her site için bir puan verdiği ve bu puanları güncel tuttuğu bilinmektedir. Bunu bizlerle paylaşmak durumunda olmadığından, önümüzdeki süreçte bir pagerank güncellemesi olmama ihtimali bulunmaktadır.

Metin Madenciliği
Metin madenciliği çalışmaları metni veri kaynağı olarak kabul eden veri madenciliği çalışmasıdır. Diğer bir tanımla metnin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Metin madenciliği,  metinlerin sınıflandırılması, bölütlenmesi, metinlerden konu çıkarılması, metinler için sınıf taneciklerinin üretilmesi, metinlerde görüş analizi yapılması, metin özetlerinin çıkarılması ve metinin özü ile ilgili ilişki modellemesi gibi çalışmaları hedefler. Yukarıdaki hedeflere ulaşılması için metin madenciliği çalışmaları kapsamında enformasyon getirimi, hece analizi, kelime frekans dağılımı, örüntü tanıma, enformasyon çıkarımı, veri madenciliği ve hatta görselleştirme gibi yöntemleri kullanmaktadır. Metin madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan doğal dil işleme çalışmaları ile çoğu zaman beraber yürütülmektedir. Doğal dil işleme çalışmaları daha çok yapay zekâ altındaki dil bilim bilgisine dayalı çalışmaları kapsamaktadır. Metin madenciliği çalışmaları ise daha çok istatiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır. Metin madenciliği çalışmaları genelde devlet seviyesi bilimsel araştırma ve iş dünyası ihtiyaçları için çeşitli çözümler sunmaktadır. Bu amaçlardan bazıları aşağıdaki şekilde sıralanabilir:

·         Kurumsal İş zekâsı, Veri madenciliği ve Rekabet zekâ
·         E-Kâşif, Kayıt yöntemi
·         Ulusal güvenlik ve istihbarat
·         Özellikle beşeri bilimler başta olmak üzere bilimsel metinlerin işlenmesi
·         Duygusal analiz araçları
·         Doğal Dil / Anlam bilimsel araç veya hizmetler
·         Yayıncılık
·         Otomatik reklam yerleştirme
·         Arama/Bilgi erişimi
·         Sosyal medya gözetlemesi



Yorumlar

Bu blogdaki popüler yayınlar

VLSI Devre Tasarımı

Yapay Sinir Ağlarına Giriş

İnsan Bilgisayar Etkileşimi