Metin Madenciliği Nedir?


Metin Madenciliği (Text Mining), yapısal olmayan ve düzensiz haldeki elektronik metin yığınlarından; önceden bilinmeyen, potansiyel olarak kullanışlı, yapısal ve düzenli veri elde etme sürecidir. Elde edilen bilgiyle, analiz edilen metin kaynaklarında açık olarak görülmeyen ilişkiler, hipotezler ve eğilimler tespit edilir.

Metin Madenciliği, Metin Veri Madenciliği (Text Data Mining) ve Metin Veri Tabanlarından Bilgi Keşfi (Knowledge Discovery from Textual Databases) olarak da adlandırılır.

Metin Madenciliği, veri madenciliğinin bir parçası olarak düşünülmesine rağmen, alışılagelen veri madenciliğinden farklıdır. Ana farklılık, Metin Madenciliğinde örüntülerin olay tabanlı veri tabanlarından daha çok, doğal dil metinlerinden çıkarılmasıdır.

En basit anlamda Metin Madenciliği çalışmaları, metni veri kaynağı olarak kabul eden veri madenciliği çalışmasıdır ve metin üzerinden yapısallaştırılmış veri elde etmeyi amaçlar. Örneğin; metinlerin sınıflandırılması (classfication), bölütlenmesi (clustering), metinlerden konu çıkarılması (entity extraction), sınıf taneciklerinin üretilmesi (production of granular taxonomy), duygusal analiz (sentimental analysis), metin özetleme (document summarization), ve varlık ilişki modellemesi (entity relationship modelling) gibi çalışmaları hedefler.

Yukarıdaki hedeflere ulaşılması için Metin Madenciliği çalışmaları kapsamında; bilgi getirimi (information retrieval), hece analizi (lexical analysis), kelime frekans dağılımı (word frequency distribution), örüntü tanıma (pattern recognition), etiketleme (tagging), bilgi çıkarımı (information extraction), veri madenciliği (data mining) ve görselleştirme (visualization) gibi yöntemler kullanılmaktadır.

Metin Madenciliği çalışmaları, metin kaynaklı literatürdeki diğer bir çalışma alanı olan Doğal Dil İşleme (Natural Language Processing / NLP) çalışmaları ile çoğu zaman beraber ele alınmaktadır. Doğal dil işleme çalışmaları daha çok yapay zeka altındaki dil bilim bilgisine dayalı çalışmalarını kapsamaktadır. Metin Madenciliği çalışmaları ise daha çok istatistiksel olarak metin üzerinden sonuçlara ulaşmayı hedefler. Metin Madenciliği çalışmaları sırasında çoğu zaman doğal dil işleme kullanılarak özellik çıkarımı da yapılmaktadır.

Metin Madenciliğinin ilişkili olduğu disiplinler ve yöntemler aşağıdaki grafikte gösterilmiştir.

Günümüzde, yapısal olmayan ve düzensiz haldeki elektronik metin yığınlarının miktarı geometrik bir hızda artmakta ve bu verilerden kullanışlı, yapısal ve düzenli bilgi elde etme giderek daha büyük önem kazanmaktadır.

Türkiye’de Metin Madenciliği alandaki en etkin ve etkili çalışma örneklerinden biri, Metin Madenciliği Yazılımları A.Ş. tarafından Tübitak’ın destek ve teşvikleriyle Bilişim Vadisi’nde geliştirilen Metin Madencisi projesidir.

Metin Madencisi, tasnif edilmemiş haldeki Türkçe elektronik metinlerin içeriğini online tespit eden ve sınıflandıran kapsamlı bir Metin Madenciliği uygulamasıdır.

Metin Madencisi'nin temelinde benzersiz nitelikte bir veritabanı bulunmaktadır. Bu ilişkisel veritabanında, her biri birbiriyle bağlantılı;

- Türkçe dilindeki 360.995 kelime, ve bu kelimelere ait 497.816 anlam,
- Türkçe'de kullanılan 2.293 kısaltma,
- Türkçe dilindeki adları kategorize eden 63 terim,
- Dünya'daki 210 ülke ve bu ülkelerdeki 6.792 şehir,
- Türkiye'deki 5.515 ilçe, semt ve kasaba,
- Türkiye'nin en büyük 1.096 şirketinin isim, adres ve iletişim bilgileri,
- Türkiye'deki 65.762 mekanın adres ve iletişim bilgileri,
- Türkiye'den ve dünyadan 9.941 kişinin biyografisi,
- Türkiye'den ve dünyadan 11.273 filmin künyesi, oyuncuları ve konuları,
- 15.550 kare bulmaca sorusu ve cevabı yer almaktadır.

Metin Madencisi, sisteme girdi olarak verilen elektronik haldeki Türkçe metinleri/belgeleri;

- Tüm metin dışı harici unsurlardan (tablolar, kolonlar, resimler, vs) arındırabilmekte,
- Paragraf, cümle, kelime, hece, kök ve eklerine ayırabilmekte,
- Rakamsal verilerini (sayı, telefon, tarih, saat) ayrıştırabilmekte,
- Metin içeriğindeki kelime frekanslarını tespit edebilmekte,
- Metnin içeriğini (400’den fazla kategoride) tespit edebilmekte,
- Metnin başka metinlerle benzerlik oranını (yüzdesel skorlarla) tespit edebilmekte,
- ve verilen metnin özetini sunabilmektedir.

Bu kapsamda, Metin Madencisi, örneğin;

- Bir metnin içeriğini tespit edebilir. (Örneğin; Ağız ve diş sağlığı, vejetaryan mutfağı, mobil cihaz aksesuarları, bordrolama, hayvan bakımı, türev ürünler, taşımacılık, vb)
- Müşteri talep ve şikayetlerinin içeriğini anlayıp, ilgili birime otomatik olarak yönlendirebilir.
- Belgeler arasındaki benzerlik ve farklılıkları tespit edebilir ve detaylı ve nitelikli sorgulama yapılmasını sağlayabilir.
- Benzer nitelikteki belgelerin (rapor, özgeçmiş, vb) içeriğini anlayıp, veritabanında ilgili yerlere kaydedebilir. (Örneğin; bir CV’nin içeriğini anlayıp, adres, cinsiyet, medeni hal, eğitim, iş deneyimi, sertifika bilgilerini veritabanındaki ilgili yerlere kaydedebilir ve böylece verinin sorgulanabilir ve işlenebilir hale gelmesini sağlayabilir.)
- Türkçe dilinin kullanıldığı her alanda, halihazırda insan eliyle yürütülen “bir metni okuma, anlama, tasnif etme ve yönlendirme” işlemlerini saniyeler içinde otomatik olarak gerçekleştirebilir.

Metin Madencisi hakkında detaylı bilgi almak için Metin Madenciliği Yazılımları A.Ş. ile iletişime geçebilir, uygulamayı online denemek için Metin Madencisi web sitesini ziyaret edebilirsiniz.