ARKA BAHÇE


                       BAŞ SAYFA DÜŞÜNCE ODASI  MAVİPENCERE   GÖZLEMEVİ   ARKABAHÇE   IŞIKLIYOL
                                    Alıntılık      Belgelik   Yarenlik   Okumalık ‎   Bakmalık   Gezinmelik
‎ ‎‎ ‎‎ ‎‎ ‎‎ ‎‎ ‎‎
‎ ‎

BİLGİSAYARLI DİLBİLİM ÇALIŞMALARINA‎ KISA BİR BAKIŞ(*)
‎ Meltem Turhan Yöndem
(**)Necdet Kesmez (***)

‎ ‎
‎ ‎‎I – GİRİŞ
‎ ‎II – TARİHÇE
‎ ‎‎III – ALT YAPI ARAÇLARI
‎ ‎1 - Türkçe Söz Dağarcığı
‎ ‎2 – Sesbilim
‎ ‎3 - Biçimbilim
‎ ‎IV Dilbilgisi‎ ‎V – Anlambilim
‎ ‎‎IV -DERLEM
‎ ‎ ‎V - UYGULAMA ALANLARI VE YARARLARI ‎‎‎
‎ ‎

I – GİRİŞ

‎ ‎
‎ Bilgisayarlı (=computational) dilbilim, bilgisayar mühendisliği ile dilbilim ‎yaklaşımlarını bir arada ‎kullanan ve doğal dilin bilişimsel yöntemlerle incelenmesini ‎hedefleyen bir disiplin olarak ‎tanımlanabilir. Bu bilim dalını kabaca uygulamalı ve kuramsal ‎olarak iki alt ‎bölüme ayırmak mümkündür. Daha çok doğal dilin modellenmesi ve bunun pratik ‎sonuçları ‎üzerine yoğunlaşmış olan uygulama alanında geliştirilen yazılımlar genel ‎olarak doğal dil işleme ‎sistemleri olarak adlandırılmaktadır. ‎
‎ Doğal dil işleme sistemlerinin başlıca amacı günümüzde hayatımızın vazgeçilmez bir ‎parçası olan ‎bilgisayarların doğal dili kullanabilmesini ya da daha genel bir ifade ile ‎doğal dil hakkında belirli bir ‎düzeyde bilgi sahibi olabilmesini sağlamaktır. Bu amacın ‎gerçekleşmesi, öncelikle insanların ‎bilgisayarlar ile en doğal yolla, yani kendi ‎dillerini kullanarak iletişime geçmelerini ‎sağlayacaktır. Bu da doğal dil işleme ‎sistemleri arasında oldukça önemli bir konuma sahip olan doğal ‎dil arayüzleri nin ‎etkin bir yapıya kavuşması ile mümkündür. Bu arayüzlerin işlevi ses veya yazı ile ‎‎bilgisayara iletilen doğal dil komutlarının bilgisayar tarafından otomatik olarak ‎işlenebilmesidir. Bu ‎arayüzler sayesinde bir veritabanını doğal dili kullanarak ‎sorgulamak, telefonda bir bilgisayar ile ‎konuşarak rezervasyon yaptırmak ve benzeri ‎uygulamalar olası hale gelmektedir. Bu tür sistemlerin ‎günümüzde doğal dili bir insan ‎kadar etkin bir biçimde kullanması şu an için mümkün değildir. Ancak ‎belirli kalıplarla ‎sınırlanmış cümleler üzerine tasarlanmış ve insanlar açısından oldukça faydalı ve ‎pratik ‎uygulamalar içeren yazılım sistemleri bulunmaktadır Doğal dil işleme alanı, sadece ‎bilgisayarlar ‎ile doğal dil kullanarak iletişim kurmakla sınırlı değildir. Farklı dillerdeki ‎insanlar arasındaki iletişim ‎zorlukları, insanlar ve bilgisayarlar arasındaki iletişim ‎sorunundan daha eski bir sorundur. Bu yüzden ‎doğal dil işleme konusunda ön plana ‎çıkan bir başka araştırma alanı da insanların bu sorununa çözüm ‎olabilecek otomatik çeviri sistemleri olmuştur. Bu sistemler ile amaçlanan, ‎‎bir dilde verilen bir metni, bilgisayarın otomatik olarak veya insan ‎faktörünü en aza ‎indirerek başka bir dile çevrilmesi:.'dir. Bu işlemi bir insan ‎çevirmen kadar kaliteli yapabilecek ‎bir sistem henüz geliştirilememiştir. Yine de ‎birçok dil arasında belirli bir başarı düzeyine ve ‎uygulama alanına sahip değişik çeviri ‎sistemleri bulunmaktadır. Yaşadığımız bilgi çağında insanların ‎karşılaştığı bir başka ‎sorun ise herhangi bir konu hakkında erişebilecekleri bilgi kümesinin ‎büyüklüğüdür. ‎Örneğin İnternet üzerinden herhangi bir konu hakkında yaptığımız bir arama sonucu ‎‎karşımıza çıkan metinlerin tamamını incelememiz çoğu zaman olanaklı olmamaktadır. ‎Bir insan yerine ‎bilgisayarın bu bilgi kümesini inceleyip, o konu hakkında gerçekten ‎önemli metinleri, tümceleri ortaya ‎çıkarabilmesi veya bir özet sunabilmesi doğal dil ‎işleme alanında bir başka önemli araştırma konusu ‎olarak ortaya çıkmıştır. ‎‎Metinlerin sınıflandırılması, özetlenmesi, metin içinde geçen konuların ‎belirlenmesi ‎veya belirlenen bir konu hakkındaki bilgilerin belirli bir metin kümesinde keşfedilip ‎‎ortaya çıkarılması ve hatta doğal dilde ifade edilen bilginin, veri tabanı tabloları ‎gibi ‎bilgisayarda işlenebilecek bir yapıya kavuşturulması gibi alanlarda araştırmalar ‎tüm hızıyla devam ‎etmektedir ‎
‎ Sözü edilen bu üç ana araştırma alanı dışında başka doğal dil uygulamalarından da söz ‎etmek olasıdır ‎Yazım hatalarını tespit eden, belirli konularda doğal dilde metin ‎üretebilen ve hatta şiir yazabilen ‎yazılımlar bu alanda üzerinde çalışılan konular ‎arasındadır. ‎
‎ ‎

II – TARİHÇE

‎Dünya’da Doğal Dil İşleme alanındaki araştırmalar 1940’ ‎lardan beri süregelmektedir. Başlangıçta ‎dilden dile çeviri için bilgisayarlardan ‎yararlanma fikri önde geliyordu. İkinci Dünya Savaşı sırasında ‎düşman mesajlarının ‎şifrelerinin çözülmesinde yapıldığı gibi, dilden dile çeviri için de niçin ‎bilgisayarlar ‎kullanılmasındı? Bu yüzden Otomatik Çeviri (Machine ‎Translation) ‎denemeleri şifre çözme yazılımlarından hareket edilerek ‎başlamıştı. Sanılıyordu ki X dilindeki S ‎sözcüğünün Y dilindeki karşılığı bulunup Y ‎dilinin sözdizimine uygun olarak yerine konulursa çeviri ‎yapılmış olacak. Ne var ki bu ‎yaklaşım ile fazla ileriye gidilemeyeceği; eşanlamlılık, çok anlamlılık gibi ‎sözcük ‎düzeyindeki sorunların ötesinde, sözdizimi ve anlambilim açısından daha çetrefil ‎sıkıntılar ‎olduğu çok geçmeden anlaşıldı. Sorunun çözümü için bazı dilbilimsel ‎çözümlemeler gerektiği ‎düşüncesi doğmaya başladı. ‎
NoamChomsky Bu sırada, üretimsel dilbilgisi görüşünü ileri süren Noam ‎Chomsky’ nin Sözdizimsel Yapılar (Syntactic ‎Structures) adlı yapıtı yayımlandı. Artık, gerek ABD de ve ‎gerek Sovyet ‎Rusya’da pek çok proje grupları harıl harıl çalışıyorlardı;. her iki Hükümet de kesenin ‎‎ağzını açmıştı. Ancak bir süre sonra, alınan sonuçların, beslenen ümitler karşısında ‎oldukça yetersiz ‎kaldığı görülmeye ve bu işin başarılmasının pek kolay olmayacağı fikri ‎güç kazanmaya başladı.‎
Joseph_Weizenbaum Yine de bilim adamları tutkulu bir biçimde araştırmalarına devam ediyorlardı. Örneğin ‎ABD nin en ‎saygın Üniversitelerinden MIT‘de Joseph Weizenbaum adında bir ‎profesör ELIZA ‎‎adını verdiği bir bilgisayar yazılımı geliştirdi. ELIZA insanların ‎karşılıklı ‎konuşmalarını taklit ediyordu: Kullanıcı, bir doğal dil tümcesini klavyeden yazıyor. ‎Bunun ‎üzerine ELİZA bu tümceyi çözümleyerek bir yanıt üretiyor ve bu yanıt ‎yazıcıdan dökülüyordu. ‎
‎ ELIZA’da kullanılan yöntem, ‎
‎ Girdi tümcesinde bulunan anahtar sözcükleri saptamak, ‎
‎ Verilen tümceyi bu sözcüklere göre önceden belirlenmiş olan kurallara uygun olarak ‎dönüştürmek ‎
‎ Dönüştürülmüş olan tümceyi yazıcıya vermek
‎ Şeklinde özetlenebilir.. Yandaki kutucukta böyle bir karşılıklı konuşma örneğini ‎bulacaksınız. ‎
‎ Hemen belirtelim ki ELIZA’ bir Bilgisayarlı Dilbilim uygulaması değildi; kalıp benzeştirme ‎‎(pattern matching) denilen başka bir teknik ‎söz konusuydu. Bununla beraber bugün oldukça ‎çocukça kalan bu deneme daha sonra ‎doğal dil işleme alanında geliştirilen başarılı sistemlerin ‎teşvikçisi ve öncülü olmuştur.‎ ‎‎
‎ Doğal Dil İşlemede bu noktadan sonra yaşanan gelişmeleri, bu yazının sınırlarını fazla ‎zorlamamak için ‎şöyle özetleyebiliriz:‎
‎ ‎Chomsky’nin yukarda sözü edilen yapıtı, dilin ve dilbilgisinin ‎biçimsel (formel) tanımını ‎gerçekleştirerek doğal dil ifadelerinin otomatik olarak ‎sözdizimsel işlemlere tabi tutulmasına olanak ‎veriyordu. .Richard ‎Montague’. nün 1967 de yayımlanan makalesi ise‎ ‎ doğal dil ‎tümcelerinin ‎anlamlarının mantıksal işlemlere tabi tutulmasını amaçlıyordu.‎
‎ Yine 1980’lerde bilgisayar disklerinin gelişmesi ve ucuzlaması, elektronik ortamdaki ‎metinlerin çok ‎çoğalması ile birlikte doğal dil işlemede Derlem ‎Yaklaşımı geçerlik kazandı. Bu konudaki ‎çalışmalardan aşağıda tekrar söz ‎edilecektir. ‎
‎ ‎1990’larda doğal dil işlemede istatistik yöntemler kullanılmaya başlandı. Zira birçok ‎uygulamada ve ‎özellikle konuşma tanıma (speech ‎recognition) çalışmalarında sözcükler, tümceler, ‎sesler gibi doğal dil öğeleri ile ‎ilgili istatistiklerden hareketle çok güzel sonuçlar alınabiliyordu.‎
‎ Bugün çoğu kez istatistiksel yöntemlerle simgesel doğal dil işleme yaklaşımı birlikte ‎kullanılmaktadır.‎
‎ Türkçe’mizle ilgili çalışmalara gelince: Türkçe yapısal olarak oldukça zengin ve farklı ‎bir dildir. Bu ‎özelliği nedeniyle dilbilimciler tarafından yoğun olarak incelenmiştir. ‎Türkçe’nin bilgisayar ortamında ‎işlenmesi konusunda yapılan çalışmalar ancak doksanlı ‎yıllar içerisinde yoğunlaşmaya başlamıştır. Bu ‎yıllardan önce bu alanda yapılan sınırlı ‎girişimler şunladır:

    ‎ ‎
  1. Aydın Köksal©‎ ‎’ tarafından hazırlanan ve Türkçe’nin ek ‎yapısını otomatik olarak ‎analiz etmeyi hedefleyen doktora tezi,
  2. ‎ ‎
  3. Zeki Sagaytarafından hazırlanan İngilizce-Türkçe Çeviri ‎çalışması ‎ ‎‎
  4. ‎ ‎
  5. Stoop.A.Transit Felemenkçe’den Tükçe’ye Çeviriye Doğru ‎‎1987‎ ‎
‎ ‎ Türkçe üzerine kapsamlı bir araştırma projesi ancak 1993 yılında “NATO Science for ‎Stability” programına kabul edilmiştir Kemal Oflazer ve Cem ‎Bozsahin tarafından ‎yürütülen bu proje , Orta Doğu Teknik Üniversitesi, Bilkent Üniversitesi ve ‎Halıcı ‎Yazılımın ortak girişimidir. ‎
‎ Ayrıca 1999-2001 yıllarında ODTÜ’de yer alan doğal dil işleme grubu ABD kökenli ‎‎AppTek-L&H Şirketi tarafından finanse edilen bir çeviri ‎projesini gerçekleştirmiştir. ‎Proje, şirketin sağladığı yazılım teknolojisi kullanılarak ‎yürütülmüştür.‎
‎ Doğal dil işleme alanında son yıllarda ortaya çıkan eğilim, kural ‎tabanlı ‎sistemler yerine istatistiksel ve derlem (corpus) tabanlı yöntemlerin ‎kullanılmasıdır. Yukarıda ‎sözü edilen projeler ise kural tabanlı sistemler üzerine ‎yoğunlaşmıştır. ‎
‎ ‎

III – ALT YAPI ARAÇLARI

‎ Dil kaynaklarının yaşayabilmesi ancak geniş katılımlı bir topluluk tarafından katkı ‎verilmesi ile ‎mümkündür. Dolayısıyla kaynakları bir kere üretip bırakmak yerine ‎dünyanın her tarafından ‎araştırmacılar tarafından kullanılmasını, düzeltilmesini, geri ‎besleme alınmasını sağlamak ve toplu bir ‎geliştirme sürecini başlatılmalıdır. Bu ‎bakımdan gerek dilbilimci ve gerek bileşimcilerin özverili ‎çalışmaları ile vakit ‎geçirilmeden meydana getirilmesi gereken alt yapı araçları aşağıda açıklanmıştır:‎
‎ ‎

1 - Türkçe Söz Dağarcığı

‎ Türkçe söz dağarcığı ya da yaygın kullanılan adı ile “lexicon” doğal dil işlemeye ‎yönelik bütün ‎uygulamaların çekirdeğini oluşturmaktadır. Kullanılan kuram ve ‎uygulamaya göre söz dağarcığı değişim ‎göstermektedir. Basit bir imla kılavuzu, ‎yalnızca sözlük verisinden oluşabildiği gibi buna seslerin ‎temsil ettiği karmaşık ‎yapılardan da oluşabilmektedir. Sözcüklere karşılık gelen ses bilgisi (örneğin ses ‎veya ‎fonetik alfabe verisi), sözcük biçimbilimine ilişkin veriler, sözcüğün türü, sözdizimsel ‎rolü, ‎anlambilimsel özellikleri bir söz dağarcığında içirilebilecek bilgilerdir. Bu bilgiler ‎genel bir ağaç yapısı ‎içerisinde iç içe tanımlanmış özellik-değer yapıları olarak ‎gösterilir. Bu verinin bir veri tabanında hızlı ‎erişilebilir olarak saklanabilmesi ‎gerekmektedir.‎
‎ Çağdaş dilbilim kuramları, dil tanımını evrensel kurallarla açıklayarak her sözcüğün bu ‎evrensel kural ‎içerisindeki yerini söz dağarcığı içerisinde ayrıntılamaya yönelmiş ‎durumdadır. Dolayısıyla biçimbilim ‎ve söz dizimi gibi daha üst düzeyde kategori bilgisi ‎sözcük düzeyinde söz dağarcığına girilmektedir. ‎Bu da söz dağarcığını doğal dil işleme ‎konusunda en önemli bileşen yapmaktadır.‎
‎ ‎

2 – Sesbilim

‎ Sesbilim (phonology) Bir dildeki en temel yapılar olan ses ve heceleri ne tür veri ‎yapıları ile ‎temsil edebildiğimiz veya dilin fonolojik yapısını oluşturan kuralların ‎bulunmasıyla ilgilenir. ‎Örneğin:‎
‎ Sesli uyumu:
    ‎ ‎
  1. Ekler: ev-ler, araba-lar .
  2. ‎ ‎
  3. Birleşik isimler: ayak-kabı, yaban-eli, bilgi-sayar.
  4. ‎‎
‎ Bir kelimenin okunuşu sırasında vurgu, duraklama gibi efektleri belirleyen model ‎nedir?‎
‎             İs-’tan-bul, An’-ka-ra
‎ Konuşmayı girdi olarak alan bir Doğal Dil İşleme Sisteminde ‎ses dalgaları ‎çözümlenir, kodlanır ve sayısal imlere dönüştürüldükten sonra
    ‎ ‎‎
  1. Sözcüklerdeki sesler ile ilgili sesbilgisi ‎‎(phonetics) kuralları
  2. ‎ ‎
  3. Sözcüklerin birlikte telaffuzu sırasında gerçekleşen değişimlerle ilgili sesbirim bilimi(phonemics) kuralları
  4. ‎ ‎‎
  5. Bir tümce boyunca yapılan titremleme ‎‎(intonation) ve vurgular ile ‎ilgili sağdeyi ‎‎(prosody) kuralları
‎ açısından belli bir dil modeline göre yorumlanır
‎ ‎3 - Biçimbilim
‎ Bilindiği gibi, dilbilimin, , sözcüklerin yapısı ve oluşum süreci ile ilgili dalına biçimbilim ‎‎(morphology); ‎sözcüklerin yapısında yer alan ve diğer öğelerden farklı olan en küçük ‎öğeye de biçimbirim ‎‎(morpheme) adı veriliyor. Tek başına bir sözcük oluşturan ‎biçimbirimler olduğu gibi ancak bir ‎sözcüğün öğesi olarak işlev gören biçimbirimler de ‎bulunmaktadır. Sözcüklerin oluşma sürecinde ‎biçimbirimlerin bir araya gelişleri ‎‎
    ‎ ‎
  1. Bir sözcükten yeni bir sözcük türetmek: Yapım
  2. ‎ ‎
  3. Bir sözcüğü tümce içindeki işlevine göre değiştirmek: Çekim
  4. ‎‎ ‎
  5. Birleşik sözcük yaratmak
‎ amacıyla olur
‎ Bilgisayarlar aracılığıyla öncelikle
    ‎ ‎
  1. Sözcükleri kök ve eklere ayrıştırma
  2. Verilen bir ek yapısından sözcük oluşturma işlemleri
‎ sağlanır. Bu işlemler kullanılarak da
    ‎ ‎
  • Yazım denetleme araçları
  • ‎ ‎
  • Konuşma oluşturma,
  • ‎ ‎
  • Konuşma tanıma,
  • ‎ ‎
  • Metinden bilgi bul-getir
‎ ‎ gibi uygulamalar gerçekleştirilir. Sözcüklerle ilgili bu gibi işlemleri yapan bütün ‎bilgisayar ‎uygulamalarında bazı biçimbilim işlerine gerek duyulmaktadır. Bu amaçla ‎biçimbilim çözümlemesi ‎yapan yazılımlar geliştirilmiştir. Bu yazılımlar, sözcüğün ‎türünün (ad, eylem, sıfat gibi) belirlenmesini ‎veya sözcüklere eklenen yapım ve çekim ‎eklerinin özelliklerinin bulunmasını sağlarlar.‎
‎ Türkçe gibi yapım ve çekim eklerinin çok yoğun kullanıldığı dillerde biçimbilim araçları ‎vazgeçilmez bir ‎gereksinimdir. Çünkü çekim ekleri almış sözcüklerin aynı kökten ‎geldiğini anlamak için dahi basit bir ‎biçimbilim çözümlemesi yapılması ‎gerekmektedir.‎
‎ ‎

4 Dilbilgisi

‎ Bilindiği gibi dilbilgisi bir dilin kullanılışı sırasında uygulanan veya uygulanması gereken ‎kuralları ‎inceleyen dilbilim dalıdır. Doğal dil işlemede, bir metindeki veya konuşmadaki ‎ifadelerin bu kurallara ‎uygun olup olmadığının saptanması veya daha da ileri gidilerek, ‎kurallara uygun kullanış hakkında ‎öneriler ileri sürülmesi gerekmektedir. Bir çok diller ‎için yazım denetiminin ötesine gidilerek ‎‎dilbilgisi denetimi yapan ‎yazılımlar da geliştirilmiştir. Bütün dillerde mecazi ‎kullanımlar da bulunmakla beraber, ‎denetim yazılımları daha çok kurallara dayalı işlevsel kullanımı ‎hedef almaktadır. ‎
‎ Burada tümcenin öğelerine (yüklem, dolaylı tümleç, özne veya ad öbeği, eylem öbeği ‎gibi) ayrıştırılması ‎işlemi söz konusudur:‎
‎ ‎
‎ Türkçe üzerinde sözdizimsel çözümleme ile ilgili bazı çalışmalar yapılmış olsa da hali ‎hazırda ‎geniş kapsamlı bir cümle ayrıştırıcı ticarî birkaç örnek dışında bir çalışma ‎yapılmamıştır. ‎Bunun temel nedenlerinden birisi bu genişlikteki bir söz dağarcığının ‎sözdizimi özellikleri ile ‎var olmamasıdır. Doğal dil uygulamalarının sözdizimi ayrıştırıcısından ‎beklentileri farklılık göstermektedir, ‎yine de birçok dilbilim kuramının sözdizimine yaklaşımı ‎farklıdır. Buna ek olarak ‎sözdizimi-anlambilim ilişkisi bir ayrıştırıcının başarısı için çok önemli ‎bir rol ‎oynamaktadır. Çeşitli dilbilgisi kuramları geliştirilmiş bulunmaktadır. Doğal dil işleme ‎‎uygulamalarında kullanılmakta olan bu kuramların en yaygın olarak benimsenenler ‎şunlardır:
    ‎ ‎
  • Hem doğal hem de biçimsel dillerin incelenmesinde kullanılabilen ve bağlamdan ‎bağımsız olarak ‎geliştirilmiş olan dilbilgisi kuramlarının bir uzantısı olan Belirli ‎Tümce Dilbilgisi (Definite clause ‎grammars =DCG)
  • ‎‎ ‎
  • Dönüşümsel dilbilgisi kuramına tepki olarak çıkmış olup özellikle sözdizimi, ‎biçimbilim ve ‎anlambilim üzerinde yoğunlaşan, buna karşılık, sesbilimi önemsemeyen bir ‎kuram olan Sözlüksel ‎İşlevsel Dilbilgisi (Lexical functional grammar=LFG)
  • ‎‎ ‎
  • Noam Chomsky tarafından geliştirilen Dönüşümsel Dilbilgisi ‎çizgisinde bir kuram ‎olan Yönetici ve Bağlayıcı Dilbilgisi Kuramı (Government & ‎Binding Theory =GB)
  • ‎ ‎
  • Dilbilimciler tarafından bir çok dilin tanımlanması için çok yaygın olarak kullanılan ‎ve aynı ‎zamanda, yeter derecede kesin ve biçimsel formülleştirmelere yatkın olduğu ‎için bilgisayarlı dilbilim ‎çalışmalarında da çok tutulmakta olan. Baş-Sürümlü Öbek ‎Yapısal Dilbilgisi (Head-driven Phrase ‎Structure Grammar =HPSG).
‎‎ ‎V – Anlambilim
‎ Doğal diller bağlamında anlambilim, insanlar tarafından kullanılan dilin incelenmesi ile ‎‎uğraşır. Bilgisayarlı anlambilim ise bu uğraşı bilişim teknolojilerinden yararlanarak ‎‎gerçekleştirmeye çalışır. ‎
‎ Anlambilim belki de dilbilimin en çetrefil alanlarından birisidir ve psikoloji, yapay us, ‎‎felsefe ve bilgisayarlı dilbilim gibi pek çok disiplinin katkılarına muhtaç ‎bulunmaktadır. ‎Diğer taraftan mantıksal yaklaşım, bilgi ‎‎betimleme, bilgisayarla uslamlama gibi ufuk açıcı ‎kavramların çoğu ‎çok yakın zamanlarda ortaya atılmıştır. Öyle ki, bu yeni gelişme ‎çizgileri birbiri ‎üstüne konulduğunda anlambilim yepyeni bir görünüm kazanmaktadır. ‎Bu arada ‎bilgisayar destekli dilbilim çalışmaları bu baş döndürücü ilerlemeye büyük bir ‎ivme ‎kazandırmaktadır. ‎
VERİLEN BİR CÜMLENİN ANLAMINI ÇIKARMAK.‎
‎ Bisikletle gelen adamı teleskopla gördü.
‎ ‎ - Bisiklet adamın yanında mı?
‎ ‎ - Teleskop ilk adamın elinde mi?
‎ ‎ - İkinci adam birinci adamı teleskopla mı ‎görüyor ?‎ ‎

‎ Anlambilimden yararlanılarak yapılabilecek ileti ‎yönlendirme, metinden bilgi bul-getir, otomatik çeviri gibi bazı ‎uygulamalar bugün istatistiksel ‎yaklaşımla veya kalıp benzeştirme yöntemiyle ‎yürütülmektedir. Bununla beraber, bu ‎uygulamalarda anlambilimden yararlanıldığı ‎taktirde daha geçerli sonuçlar alınacağı ‎düşünülebilir. ‎
‎ Diğer taraftan, bir tür anlambilimsel işleme tabi tutulmadan gerçekleştirilmesi ‎‎mümkün olmayan uygulamalar da bulunmaktadır. ‎
‎ Örneğin bir hava yolu rezervasyon sisteminde kullanılan bir veri tabanından ‎
‎ ‎“İstanbul’dan Yeni Delhi’ye Abudabi’ ye uğramadan giden bir uçak seferi var ‎mıdır?” ‎‎
‎ biçiminde bir sorgulama için böyle bir işlem zorunlu olmaktadır.‎
‎ ‎

VI -DERLEM

‎ Kabaca, “yazı veya konuşma dilinden derlenmiş metinleri içeren bir sözcük ‎yığını” ‎biçiminde tanımlanabilen Derlem de Bilgisayar ‎Destekli Dilbilim ‘in alt yapı ‎araçlarından biridir. Bununla beraber bu alandaki büyük ‎önemi nedeniyle diğer alt yapı araçlarından ‎ayrı bir başlık altında incelenmesi uygun ‎olur.‎
‎ Derlem sözcüğü İngilizce corpus sözcüğüne karşılık olarak kullanılmaktadır. Aynı ‎anlamda ‎kullanılan bir diğer sözcük de bütünce’dir. Çağdaş dilbilimin bir de ‎terimi olarak
‎ ‎
Derlem, bir dilin türlü kullanım alanlarından ‎çıkarılmış ‎örnek metinleri bilgisayar tarafından “okunabilecek” biçimde bir araya ‎getiren metinler ‎kümesi

‎ ‎ olarak tanımlanmaktadır. Derlemin daha geniş ve daha dar tanımları da bulunmakla ‎beraber bu yazı ‎bağlamında bu tanım yeterli sayılabilir.‎
‎ Derlem ham olarak yani herhangi bir biçimde işlenip ‎işaretlenmemiş sade ‎metinlerden ibaret olabilir ise de genellikle derlemlere dilbilimsel ‎bazı bilgiler eklenir. Bu bilgi ‎ekleme işine yaftalama (tagging= ad ‎bağlama ) adı verilir. Bu yaftalar ‎‎(adbağları) ‎derlemin kullanım amacına göre çeşitlilik gösterir. Bu adbağları, sözcüğün türünü, tümcedeki işlevi.'ni, biçimbilim ‎yönünden yapısını vb gösterir. Örneğin koşma sözcüğüne
‎ ‎ Koşma bir halk şiiri türüdür tümcesi için ‎
‎ koşma (ad, özne) şeklinde ad bağları konabilir. Derlemdeki sözcüklere ad bağı koyma ‎işlemini ‎geçekleştirmeyi sağlamak için,
    ‎ ‎
  • önce metinleri tümcelere ayırmak, sonra da
  • tümcede yer alan sözcüklere tümcedeki işlevlerine göre adbağları koymak ‎‎
‎ gerekir. Bu işleme İngilizce’de parsing adı verilmektedir, ‎Türkçe’de oturmuş bir ‎karşılığı olmayan bu işleme limeleme ‎diyebiliriz. ‎
‎ Derlemler içerdikleri metin kümeleri açısından da çeşitlilik gösterirler. Her tür ‎metinleri içeren Genel Derlemler vardır, yalnız konuşma dili ‎sözcüklerini içeren özel ‎derlemler vardır. Belli bir konu veya ‎alandaki metinlerin toplandığı derlemler de yapılabilir. ‎Ayrıca iki veya daha çok dildeki ‎metinleri içeren derlemler de geliştirilmiştir. Koşut ‎Derlem ‎‎(Parallel Corpus) adı verilen bu derlemlerden özellikle çeviri işlemlerinde ‎‎yararlanılmaktadır.‎
‎ Bugüne kadar çeşitli dillerde birçok derlemler yapılmıştır. İngiliz ‎Ulusal Derlemi (British ‎National Corpus) bunlardan biri ve belki de en ‎önemlisidir. Konuşma ve yazı dilinden 100 ‎milyon sözcüğü içeren bu derlem çok ‎geniş bir alandan çıkarılan söz varlığından oluşmaktadır ve ‎çağdaş İngilizce dilini ‎doğru ve eksiksiz olarak temsil ettiği düşünülmektedir. ‎
‎ Çağdaş dilbilim çalışmalarında çok önemli bir yeri olan derlemlerden yararlanmak için ‎pek çok ve ‎çeşitli araçlar (bilgisayar yazılımları) üretilmiştir. Bu yazılımlar kullanıcılara ‎milyonlarca sözcük ‎içeren bir derlemden istenilen her hangi konuda çok hızlı bir ‎biçimde sorgulama, listeleme, örnekleme vb yapmak olanağına kavuşulmaktadır.‎
‎ Tüm dilbilim çalışmalarında kuralların bulunması, otomatik öğrenilmesi veya sonuçların ‎‎değerlendirilebilmesi için yaftalanmış Türkçe metinlere ihtiyaç duyulmaktadır. Hali ‎hazırda ‎kullanılmakta olan küçük bir derlem (corpus) bulunmaktadır. METU-Sabanci Türkçe ‎Treebank derlemi işaretlenmiş 7262 cümle ‎içermektedir.‎
‎ ‎

V - UYGULAMA ALANLARI VE YARARLARI

‎ Toplumun Türkçe dışındaki dillerde okur yazarlığı düşüktür. Bu genç kesim için de ‎büyük ölçüde ‎geçerlidir. Öte yandan, özellikle genç kesimin artan bir biçimde İnternet ‎erişimi ve kullanımı söz ‎konusudur. Bu yüzden doğal dil işleme çalışmaları sonunda ‎elde edilebilecek (örneğin yabancı ‎dillerdeki WEB sayfalarının Türkçe’ye çevrilmesini ‎veya Türkçe hazırlanmış WEB sayfalarının yabancı ‎dillere çevrilmesini kolaylaşacak ‎yazılımlar gibi) ürünlere büyük gereksinim bulunmaktadır.‎ ‎
‎ ‎‎ ‎‎ ‎‎‎ ‎‎‎ ‎‎‎ ‎‎‎ ‎‎‎‎ ‎‎‎ ‎‎‎‎ ‎‎ ‎
DOĞAL DİL İŞLEME UYGULAMA ‎‎ALANLARI
Metin sınıflandırmaTextual ‎Classification
Otomatik çeviri Machine translation
Sözlü metin anlama (örneğin telefon ‎görüşmeleri) ‎‎speech ‎recognition
Metin içi bilgi bul-getir textual ‎information retrieval
ÖzetlemeText Summarization
Soru yanıtlamaQustion anwering
Bilgi özümseme Knowledge acquisition
Anlamlı metin üretme / görüşme ‎yürütme örneğin yakınma, başvuru, soru ‎‎‎epostalarını yanıtlama ‎‎Producing Meaningful Texts
Dil eğitimi.‎Computer Assisted-Language Learning
Türkçe Dünyanın köklü dillerindendir. Azımsanmayacak bir konuşulurluğu vardır, ‎tarihsel kökleri ‎derindir. Gerek doğrudan Türk dili ile ilgili uğraş veren bilim insanları ‎‎(Türkolog veya Dilbilimci) ‎gerekse uzman oldukları uğraşlarda Türkçe derlemleri ‎kullanmak durumunda olanlar (örneğin ‎tarihçiler, antropologlar, Türkiye üzerine ‎araştırma yapanlar) Bilgisayar Destekli Dilbilim ‎ürünlerinden çok yararlanacaklardır.
Meltem Turhan Yöndem Necdet Kesmez

DİPNOTLAR

(*)‎ Bu yazı Türk Dil Kurumu’nun yayın organı olan “Türk Dili” ‎dergisi için hazırlanmış fakat hiç yayınlanmamıştır.‎ ‎
(**)Meltem_Turhan_Yöndem Öğretim Görevlisi -Bilgisayar Mühendisliği Bölümü, ODTU






(***)NecdetKesmezEmekli Sayıştay Üyesi-



‎ ‎(1)‎ ‎ Bu konuda özellikle ABD hükümetinin 1964 yılında ‎oluşturduğu Otomatik Dil İşleme Danışma Komitesi (Automatic ‎Language Processing Advisory Committee= ALPAC) tarafından ‎yapılan ve ALPAC Raporu adı ile 1966 yılında yayınlanan ‎araştırma etkili oldu. Rapor otomatik çeviri gibi uygulama ‎alanlarında kısa zamanda fazla bir başarı beklenmemesini, ‎bununla beraber temel bilimse konuların araştırılması için ‎parasal desteklerin devam etmesinin gerektiğini belirtiyordu. ‎ ‎()
‎ ‎(3)‎ ‎ Bu konuda Kanada’da Fransızca-İngilizce arasında iki yönlü ‎çeviri için geliştirilen TAUM (=Traduction Automatique de ‎l’Université de Montréal); 19668 de kurularak ABD Dış işleri ‎Bakanlığına hizmet vermiş olup halen de Yahoo; Google gibi ‎arama motorlarında yaygın bir şekilde kullanılmakta olan ‎SYSTRAN isimli ticari yazılım; MIT Yapay Us Laboratuarlarında ‎geliştirilen ve bir grup nesnelerle ilgili olarak karşılıklı konuşma ‎yapılmasını sağlayan SHRDLU yazılımları zikredilebilir ‎()
‎ ‎(4)‎ ‎ Richard Montague. The proper treatment of quantification in ‎ordinary English. In J. Hintikka, J. Moravcsik, and P. Suppes, ‎editors, Approaches to Natural Language. Proceedings of the ‎‎1970.‎ ‎()
‎ ‎(5)‎ ‎ Köksal, A. (1976)‎ ‎()
‎ ‎(6)‎ ‎ Sagay, Z. A computer translation of English to Turkish. M.Sc. ‎Thesis, Middle East Technical University, Ankara, Turkey, 1981” ‎‎\s “Sagay, Z. (1981)” \c 1 ‎ ‎()
‎ ‎(7)‎ ‎ Stoop, A. Transit in the world of Machine Translation: ‎Towards an automatic translator for Dutch and Turkish. In ‎Proceedings of the Third Conference ‎()
------------