| |||||||||||||||||||||||||||||||
| I – GİRİŞ
Bilgisayarlı (=computational) dilbilim, bilgisayar mühendisliği ile dilbilim yaklaşımlarını bir arada kullanan ve doğal dilin bilişimsel yöntemlerle incelenmesini hedefleyen bir disiplin olarak tanımlanabilir. Bu bilim dalını kabaca uygulamalı ve kuramsal olarak iki alt bölüme ayırmak mümkündür. Daha çok doğal dilin modellenmesi ve bunun pratik sonuçları üzerine yoğunlaşmış olan uygulama alanında geliştirilen yazılımlar genel olarak doğal dil işleme sistemleri olarak adlandırılmaktadır. Doğal dil işleme sistemlerinin başlıca amacı günümüzde hayatımızın vazgeçilmez bir parçası olan bilgisayarların doğal dili kullanabilmesini ya da daha genel bir ifade ile doğal dil hakkında belirli bir düzeyde bilgi sahibi olabilmesini sağlamaktır. Bu amacın gerçekleşmesi, öncelikle insanların bilgisayarlar ile en doğal yolla, yani kendi dillerini kullanarak iletişime geçmelerini sağlayacaktır. Bu da doğal dil işleme sistemleri arasında oldukça önemli bir konuma sahip olan doğal dil arayüzleri nin etkin bir yapıya kavuşması ile mümkündür. Bu arayüzlerin işlevi ses veya yazı ile bilgisayara iletilen doğal dil komutlarının bilgisayar tarafından otomatik olarak işlenebilmesidir. Bu arayüzler sayesinde bir veritabanını doğal dili kullanarak sorgulamak, telefonda bir bilgisayar ile konuşarak rezervasyon yaptırmak ve benzeri uygulamalar olası hale gelmektedir. Bu tür sistemlerin günümüzde doğal dili bir insan kadar etkin bir biçimde kullanması şu an için mümkün değildir. Ancak belirli kalıplarla sınırlanmış cümleler üzerine tasarlanmış ve insanlar açısından oldukça faydalı ve pratik uygulamalar içeren yazılım sistemleri bulunmaktadır Doğal dil işleme alanı, sadece bilgisayarlar ile doğal dil kullanarak iletişim kurmakla sınırlı değildir. Farklı dillerdeki insanlar arasındaki iletişim zorlukları, insanlar ve bilgisayarlar arasındaki iletişim sorunundan daha eski bir sorundur. Bu yüzden doğal dil işleme konusunda ön plana çıkan bir başka araştırma alanı da insanların bu sorununa çözüm olabilecek otomatik çeviri sistemleri olmuştur. Bu sistemler ile amaçlanan, bir dilde verilen bir metni, bilgisayarın otomatik olarak veya insan faktörünü en aza indirerek başka bir dile çevrilmesi:.'dir. Bu işlemi bir insan çevirmen kadar kaliteli yapabilecek bir sistem henüz geliştirilememiştir. Yine de birçok dil arasında belirli bir başarı düzeyine ve uygulama alanına sahip değişik çeviri sistemleri bulunmaktadır. Yaşadığımız bilgi çağında insanların karşılaştığı bir başka sorun ise herhangi bir konu hakkında erişebilecekleri bilgi kümesinin büyüklüğüdür. Örneğin İnternet üzerinden herhangi bir konu hakkında yaptığımız bir arama sonucu karşımıza çıkan metinlerin tamamını incelememiz çoğu zaman olanaklı olmamaktadır. Bir insan yerine bilgisayarın bu bilgi kümesini inceleyip, o konu hakkında gerçekten önemli metinleri, tümceleri ortaya çıkarabilmesi veya bir özet sunabilmesi doğal dil işleme alanında bir başka önemli araştırma konusu olarak ortaya çıkmıştır. Metinlerin sınıflandırılması, özetlenmesi, metin içinde geçen konuların belirlenmesi veya belirlenen bir konu hakkındaki bilgilerin belirli bir metin kümesinde keşfedilip ortaya çıkarılması ve hatta doğal dilde ifade edilen bilginin, veri tabanı tabloları gibi bilgisayarda işlenebilecek bir yapıya kavuşturulması gibi alanlarda araştırmalar tüm hızıyla devam etmektedir Sözü edilen bu üç ana araştırma alanı dışında başka doğal dil uygulamalarından da söz etmek olasıdır Yazım hatalarını tespit eden, belirli konularda doğal dilde metin üretebilen ve hatta şiir yazabilen yazılımlar bu alanda üzerinde çalışılan konular arasındadır. II – TARİHÇEDünya’da Doğal Dil İşleme alanındaki araştırmalar 1940’ lardan beri süregelmektedir. Başlangıçta dilden dile çeviri için bilgisayarlardan yararlanma fikri önde geliyordu. İkinci Dünya Savaşı sırasında düşman mesajlarının şifrelerinin çözülmesinde yapıldığı gibi, dilden dile çeviri için de niçin bilgisayarlar kullanılmasındı? Bu yüzden Otomatik Çeviri (Machine Translation) denemeleri şifre çözme yazılımlarından hareket edilerek başlamıştı. Sanılıyordu ki X dilindeki S sözcüğünün Y dilindeki karşılığı bulunup Y dilinin sözdizimine uygun olarak yerine konulursa çeviri yapılmış olacak. Ne var ki bu yaklaşım ile fazla ileriye gidilemeyeceği; eşanlamlılık, çok anlamlılık gibi sözcük düzeyindeki sorunların ötesinde, sözdizimi ve anlambilim açısından daha çetrefil sıkıntılar olduğu çok geçmeden anlaşıldı. Sorunun çözümü için bazı dilbilimsel çözümlemeler gerektiği düşüncesi doğmaya başladı. Bu sırada, üretimsel dilbilgisi görüşünü ileri süren Noam Chomsky’ nin Sözdizimsel Yapılar (Syntactic Structures) adlı yapıtı yayımlandı. Artık, gerek ABD de ve gerek Sovyet Rusya’da pek çok proje grupları harıl harıl çalışıyorlardı;. her iki Hükümet de kesenin ağzını açmıştı. Ancak bir süre sonra, alınan sonuçların, beslenen ümitler karşısında oldukça yetersiz kaldığı görülmeye ve bu işin başarılmasının pek kolay olmayacağı fikri güç kazanmaya başladı. Yine de bilim adamları tutkulu bir biçimde araştırmalarına devam ediyorlardı. Örneğin ABD nin en saygın Üniversitelerinden MIT‘de Joseph Weizenbaum adında bir profesör ELIZA adını verdiği bir bilgisayar yazılımı geliştirdi. ELIZA insanların karşılıklı konuşmalarını taklit ediyordu: Kullanıcı, bir doğal dil tümcesini klavyeden yazıyor. Bunun üzerine ELİZA bu tümceyi çözümleyerek bir yanıt üretiyor ve bu yanıt yazıcıdan dökülüyordu. ELIZA’da kullanılan yöntem, Girdi tümcesinde bulunan anahtar sözcükleri saptamak, Verilen tümceyi bu sözcüklere göre önceden belirlenmiş olan kurallara uygun olarak dönüştürmek Dönüştürülmüş olan tümceyi yazıcıya vermek Şeklinde özetlenebilir.. Yandaki kutucukta böyle bir karşılıklı konuşma örneğini bulacaksınız. Hemen belirtelim ki ELIZA’ bir Bilgisayarlı Dilbilim uygulaması değildi; kalıp benzeştirme (pattern matching) denilen başka bir teknik söz konusuydu. Bununla beraber bugün oldukça çocukça kalan bu deneme daha sonra doğal dil işleme alanında geliştirilen başarılı sistemlerin teşvikçisi ve öncülü olmuştur. Doğal Dil İşlemede bu noktadan sonra yaşanan gelişmeleri, bu yazının sınırlarını fazla zorlamamak için şöyle özetleyebiliriz: Chomsky’nin yukarda sözü edilen yapıtı, dilin ve dilbilgisinin biçimsel (formel) tanımını gerçekleştirerek doğal dil ifadelerinin otomatik olarak sözdizimsel işlemlere tabi tutulmasına olanak veriyordu. .Richard Montague’. nün 1967 de yayımlanan makalesi ise doğal dil tümcelerinin anlamlarının mantıksal işlemlere tabi tutulmasını amaçlıyordu. Yine 1980’lerde bilgisayar disklerinin gelişmesi ve ucuzlaması, elektronik ortamdaki metinlerin çok çoğalması ile birlikte doğal dil işlemede Derlem Yaklaşımı geçerlik kazandı. Bu konudaki çalışmalardan aşağıda tekrar söz edilecektir. 1990’larda doğal dil işlemede istatistik yöntemler kullanılmaya başlandı. Zira birçok uygulamada ve özellikle konuşma tanıma (speech recognition) çalışmalarında sözcükler, tümceler, sesler gibi doğal dil öğeleri ile ilgili istatistiklerden hareketle çok güzel sonuçlar alınabiliyordu. Bugün çoğu kez istatistiksel yöntemlerle simgesel doğal dil işleme yaklaşımı birlikte kullanılmaktadır. Türkçe’mizle ilgili çalışmalara gelince: Türkçe yapısal olarak oldukça zengin ve farklı bir dildir. Bu özelliği nedeniyle dilbilimciler tarafından yoğun olarak incelenmiştir. Türkçe’nin bilgisayar ortamında işlenmesi konusunda yapılan çalışmalar ancak doksanlı yıllar içerisinde yoğunlaşmaya başlamıştır. Bu yıllardan önce bu alanda yapılan sınırlı girişimler şunladır:
Ayrıca 1999-2001 yıllarında ODTÜ’de yer alan doğal dil işleme grubu ABD kökenli AppTek-L&H Şirketi tarafından finanse edilen bir çeviri projesini gerçekleştirmiştir. Proje, şirketin sağladığı yazılım teknolojisi kullanılarak yürütülmüştür. Doğal dil işleme alanında son yıllarda ortaya çıkan eğilim, kural tabanlı sistemler yerine istatistiksel ve derlem (corpus) tabanlı yöntemlerin kullanılmasıdır. Yukarıda sözü edilen projeler ise kural tabanlı sistemler üzerine yoğunlaşmıştır. III – ALT YAPI ARAÇLARI Dil kaynaklarının yaşayabilmesi ancak geniş katılımlı bir topluluk tarafından katkı verilmesi ile mümkündür. Dolayısıyla kaynakları bir kere üretip bırakmak yerine dünyanın her tarafından araştırmacılar tarafından kullanılmasını, düzeltilmesini, geri besleme alınmasını sağlamak ve toplu bir geliştirme sürecini başlatılmalıdır. Bu bakımdan gerek dilbilimci ve gerek bileşimcilerin özverili çalışmaları ile vakit geçirilmeden meydana getirilmesi gereken alt yapı araçları aşağıda açıklanmıştır: 1 - Türkçe Söz Dağarcığı Türkçe söz dağarcığı ya da yaygın kullanılan adı ile “lexicon” doğal dil işlemeye yönelik bütün uygulamaların çekirdeğini oluşturmaktadır. Kullanılan kuram ve uygulamaya göre söz dağarcığı değişim göstermektedir. Basit bir imla kılavuzu, yalnızca sözlük verisinden oluşabildiği gibi buna seslerin temsil ettiği karmaşık yapılardan da oluşabilmektedir. Sözcüklere karşılık gelen ses bilgisi (örneğin ses veya fonetik alfabe verisi), sözcük biçimbilimine ilişkin veriler, sözcüğün türü, sözdizimsel rolü, anlambilimsel özellikleri bir söz dağarcığında içirilebilecek bilgilerdir. Bu bilgiler genel bir ağaç yapısı içerisinde iç içe tanımlanmış özellik-değer yapıları olarak gösterilir. Bu verinin bir veri tabanında hızlı erişilebilir olarak saklanabilmesi gerekmektedir. Çağdaş dilbilim kuramları, dil tanımını evrensel kurallarla açıklayarak her sözcüğün bu evrensel kural içerisindeki yerini söz dağarcığı içerisinde ayrıntılamaya yönelmiş durumdadır. Dolayısıyla biçimbilim ve söz dizimi gibi daha üst düzeyde kategori bilgisi sözcük düzeyinde söz dağarcığına girilmektedir. Bu da söz dağarcığını doğal dil işleme konusunda en önemli bileşen yapmaktadır. 2 – Sesbilim Sesbilim (phonology) Bir dildeki en temel yapılar olan ses ve heceleri ne tür veri yapıları ile temsil edebildiğimiz veya dilin fonolojik yapısını oluşturan kuralların bulunmasıyla ilgilenir. Örneğin: Sesli uyumu:
İs-’tan-bul, An’-ka-ra Konuşmayı girdi olarak alan bir Doğal Dil İşleme Sisteminde ses dalgaları çözümlenir, kodlanır ve sayısal imlere dönüştürüldükten sonra
3 - Biçimbilim Bilindiği gibi, dilbilimin, , sözcüklerin yapısı ve oluşum süreci ile ilgili dalına biçimbilim (morphology); sözcüklerin yapısında yer alan ve diğer öğelerden farklı olan en küçük öğeye de biçimbirim (morpheme) adı veriliyor. Tek başına bir sözcük oluşturan biçimbirimler olduğu gibi ancak bir sözcüğün öğesi olarak işlev gören biçimbirimler de bulunmaktadır. Sözcüklerin oluşma sürecinde biçimbirimlerin bir araya gelişleri
Bilgisayarlar aracılığıyla öncelikle
Türkçe gibi yapım ve çekim eklerinin çok yoğun kullanıldığı dillerde biçimbilim araçları vazgeçilmez bir gereksinimdir. Çünkü çekim ekleri almış sözcüklerin aynı kökten geldiğini anlamak için dahi basit bir biçimbilim çözümlemesi yapılması gerekmektedir. 4 Dilbilgisi Bilindiği gibi dilbilgisi bir dilin kullanılışı sırasında uygulanan veya uygulanması gereken kuralları inceleyen dilbilim dalıdır. Doğal dil işlemede, bir metindeki veya konuşmadaki ifadelerin bu kurallara uygun olup olmadığının saptanması veya daha da ileri gidilerek, kurallara uygun kullanış hakkında öneriler ileri sürülmesi gerekmektedir. Bir çok diller için yazım denetiminin ötesine gidilerek dilbilgisi denetimi yapan yazılımlar da geliştirilmiştir. Bütün dillerde mecazi kullanımlar da bulunmakla beraber, denetim yazılımları daha çok kurallara dayalı işlevsel kullanımı hedef almaktadır. Burada tümcenin öğelerine (yüklem, dolaylı tümleç, özne veya ad öbeği, eylem öbeği gibi) ayrıştırılması işlemi söz konusudur: Türkçe üzerinde sözdizimsel çözümleme ile ilgili bazı çalışmalar yapılmış olsa da hali hazırda geniş kapsamlı bir cümle ayrıştırıcı ticarî birkaç örnek dışında bir çalışma yapılmamıştır. Bunun temel nedenlerinden birisi bu genişlikteki bir söz dağarcığının sözdizimi özellikleri ile var olmamasıdır. Doğal dil uygulamalarının sözdizimi ayrıştırıcısından beklentileri farklılık göstermektedir, yine de birçok dilbilim kuramının sözdizimine yaklaşımı farklıdır. Buna ek olarak sözdizimi-anlambilim ilişkisi bir ayrıştırıcının başarısı için çok önemli bir rol oynamaktadır. Çeşitli dilbilgisi kuramları geliştirilmiş bulunmaktadır. Doğal dil işleme uygulamalarında kullanılmakta olan bu kuramların en yaygın olarak benimsenenler şunlardır:
Doğal diller bağlamında anlambilim, insanlar tarafından kullanılan dilin incelenmesi ile uğraşır. Bilgisayarlı anlambilim ise bu uğraşı bilişim teknolojilerinden yararlanarak gerçekleştirmeye çalışır. Anlambilim belki de dilbilimin en çetrefil alanlarından birisidir ve psikoloji, yapay us, felsefe ve bilgisayarlı dilbilim gibi pek çok disiplinin katkılarına muhtaç bulunmaktadır. Diğer taraftan mantıksal yaklaşım, bilgi betimleme, bilgisayarla uslamlama gibi ufuk açıcı kavramların çoğu çok yakın zamanlarda ortaya atılmıştır. Öyle ki, bu yeni gelişme çizgileri birbiri üstüne konulduğunda anlambilim yepyeni bir görünüm kazanmaktadır. Bu arada bilgisayar destekli dilbilim çalışmaları bu baş döndürücü ilerlemeye büyük bir ivme kazandırmaktadır. VERİLEN BİR CÜMLENİN ANLAMINI ÇIKARMAK. Bisikletle gelen adamı teleskopla gördü. - Bisiklet adamın yanında mı? - Teleskop ilk adamın elinde mi? - İkinci adam birinci adamı teleskopla mı görüyor ? Anlambilimden yararlanılarak yapılabilecek ileti yönlendirme, metinden bilgi bul-getir, otomatik çeviri gibi bazı uygulamalar bugün istatistiksel yaklaşımla veya kalıp benzeştirme yöntemiyle yürütülmektedir. Bununla beraber, bu uygulamalarda anlambilimden yararlanıldığı taktirde daha geçerli sonuçlar alınacağı düşünülebilir. Diğer taraftan, bir tür anlambilimsel işleme tabi tutulmadan gerçekleştirilmesi mümkün olmayan uygulamalar da bulunmaktadır. Örneğin bir hava yolu rezervasyon sisteminde kullanılan bir veri tabanından “İstanbul’dan Yeni Delhi’ye Abudabi’ ye uğramadan giden bir uçak seferi var mıdır?” biçiminde bir sorgulama için böyle bir işlem zorunlu olmaktadır. VI -DERLEM Kabaca, “yazı veya konuşma dilinden derlenmiş metinleri içeren bir sözcük yığını” biçiminde tanımlanabilen Derlem de Bilgisayar Destekli Dilbilim ‘in alt yapı araçlarından biridir. Bununla beraber bu alandaki büyük önemi nedeniyle diğer alt yapı araçlarından ayrı bir başlık altında incelenmesi uygun olur. Derlem sözcüğü İngilizce corpus sözcüğüne karşılık olarak kullanılmaktadır. Aynı anlamda kullanılan bir diğer sözcük de bütünce’dir. Çağdaş dilbilimin bir de terimi olarak Derlem, bir dilin türlü kullanım alanlarından çıkarılmış örnek metinleri bilgisayar tarafından “okunabilecek” biçimde bir araya getiren metinler kümesi olarak tanımlanmaktadır. Derlemin daha geniş ve daha dar tanımları da bulunmakla beraber bu yazı bağlamında bu tanım yeterli sayılabilir. Derlem ham olarak yani herhangi bir biçimde işlenip işaretlenmemiş sade metinlerden ibaret olabilir ise de genellikle derlemlere dilbilimsel bazı bilgiler eklenir. Bu bilgi ekleme işine yaftalama (tagging= ad bağlama ) adı verilir. Bu yaftalar (adbağları) derlemin kullanım amacına göre çeşitlilik gösterir. Bu adbağları, sözcüğün türünü, tümcedeki işlevi.'ni, biçimbilim yönünden yapısını vb gösterir. Örneğin koşma sözcüğüne Koşma bir halk şiiri türüdür tümcesi için koşma (ad, özne) şeklinde ad bağları konabilir. Derlemdeki sözcüklere ad bağı koyma işlemini geçekleştirmeyi sağlamak için,
Derlemler içerdikleri metin kümeleri açısından da çeşitlilik gösterirler. Her tür metinleri içeren Genel Derlemler vardır, yalnız konuşma dili sözcüklerini içeren özel derlemler vardır. Belli bir konu veya alandaki metinlerin toplandığı derlemler de yapılabilir. Ayrıca iki veya daha çok dildeki metinleri içeren derlemler de geliştirilmiştir. Koşut Derlem (Parallel Corpus) adı verilen bu derlemlerden özellikle çeviri işlemlerinde yararlanılmaktadır. Bugüne kadar çeşitli dillerde birçok derlemler yapılmıştır. İngiliz Ulusal Derlemi (British National Corpus) bunlardan biri ve belki de en önemlisidir. Konuşma ve yazı dilinden 100 milyon sözcüğü içeren bu derlem çok geniş bir alandan çıkarılan söz varlığından oluşmaktadır ve çağdaş İngilizce dilini doğru ve eksiksiz olarak temsil ettiği düşünülmektedir. Çağdaş dilbilim çalışmalarında çok önemli bir yeri olan derlemlerden yararlanmak için pek çok ve çeşitli araçlar (bilgisayar yazılımları) üretilmiştir. Bu yazılımlar kullanıcılara milyonlarca sözcük içeren bir derlemden istenilen her hangi konuda çok hızlı bir biçimde sorgulama, listeleme, örnekleme vb yapmak olanağına kavuşulmaktadır. Tüm dilbilim çalışmalarında kuralların bulunması, otomatik öğrenilmesi veya sonuçların değerlendirilebilmesi için yaftalanmış Türkçe metinlere ihtiyaç duyulmaktadır. Hali hazırda kullanılmakta olan küçük bir derlem (corpus) bulunmaktadır. METU-Sabanci Türkçe Treebank derlemi işaretlenmiş 7262 cümle içermektedir. V - UYGULAMA ALANLARI VE YARARLARI Toplumun Türkçe dışındaki dillerde okur yazarlığı düşüktür. Bu genç kesim için de büyük ölçüde geçerlidir. Öte yandan, özellikle genç kesimin artan bir biçimde İnternet erişimi ve kullanımı söz konusudur. Bu yüzden doğal dil işleme çalışmaları sonunda elde edilebilecek (örneğin yabancı dillerdeki WEB sayfalarının Türkçe’ye çevrilmesini veya Türkçe hazırlanmış WEB sayfalarının yabancı dillere çevrilmesini kolaylaşacak yazılımlar gibi) ürünlere büyük gereksinim bulunmaktadır.
Türkçe Dünyanın köklü dillerindendir. Azımsanmayacak bir konuşulurluğu vardır, tarihsel kökleri derindir. Gerek doğrudan Türk dili ile ilgili uğraş veren bilim insanları (Türkolog veya Dilbilimci) gerekse uzman oldukları uğraşlarda Türkçe derlemleri kullanmak durumunda olanlar (örneğin tarihçiler, antropologlar, Türkiye üzerine araştırma yapanlar) Bilgisayar Destekli Dilbilim ürünlerinden çok yararlanacaklardır. Meltem Turhan Yöndem Necdet Kesmez
|
(*) Bu yazı Türk Dil Kurumu’nun yayın organı olan “Türk Dili” dergisi için hazırlanmış fakat hiç yayınlanmamıştır. | |||||||||||||||||||||||||||||
(1) Bu konuda özellikle ABD hükümetinin 1964 yılında oluşturduğu Otomatik Dil İşleme Danışma Komitesi (Automatic Language Processing Advisory Committee= ALPAC) tarafından yapılan ve ALPAC Raporu adı ile 1966 yılında yayınlanan araştırma etkili oldu. Rapor otomatik çeviri gibi uygulama alanlarında kısa zamanda fazla bir başarı beklenmemesini, bununla beraber temel bilimse konuların araştırılması için parasal desteklerin devam etmesinin gerektiğini belirtiyordu. () | |||||||||||||||||||||||||||||||
(3) Bu konuda Kanada’da Fransızca-İngilizce arasında iki yönlü çeviri için geliştirilen TAUM (=Traduction Automatique de l’Université de Montréal); 19668 de kurularak ABD Dış işleri Bakanlığına hizmet vermiş olup halen de Yahoo; Google gibi arama motorlarında yaygın bir şekilde kullanılmakta olan SYSTRAN isimli ticari yazılım; MIT Yapay Us Laboratuarlarında geliştirilen ve bir grup nesnelerle ilgili olarak karşılıklı konuşma yapılmasını sağlayan SHRDLU yazılımları zikredilebilir () | |||||||||||||||||||||||||||||||
(4) Richard Montague. The proper treatment of quantification in ordinary English. In J. Hintikka, J. Moravcsik, and P. Suppes, editors, Approaches to Natural Language. Proceedings of the 1970. () | |||||||||||||||||||||||||||||||
(5) Köksal, A. (1976) () | |||||||||||||||||||||||||||||||
(6) Sagay, Z. A computer translation of English to Turkish. M.Sc. Thesis, Middle East Technical University, Ankara, Turkey, 1981” \s “Sagay, Z. (1981)” \c 1 () | |||||||||||||||||||||||||||||||
(7) Stoop, A. Transit in the world of Machine Translation: Towards an automatic translator for Dutch and Turkish. In Proceedings of the Third Conference () |
------------ |