DIŞARDAN BİR BAKIŞ
I - GİRİŞ
Biliyoruz ki Türkçe’de derlem dilbilimi veya derlem inceleme ve uygulamaları şeklinde ifade edebileceğimiz corpus linguistics bilişimcilerin ve dilbilimcilerin özel çalışma alanlarıdır. Bu bakımdan, köken itibariyle ne bilişimci, ne de dilbilimci olmadığım için derlemle ilgili tanımlar, kuramlar, gelişmeler üzerinde anlamlı sözler söylemek şöyle dursun bu tanımları, kuramları, gelişmeleri aktarmaya dahi gücümün yetmeyeceğinin farkında olduğumu peşinen ifade etmeliyim. Burada bilimsel ve kuramsal değerlendirme ve akıl yürütmelerden uzak durmaya çalışarak, derlemle ilgili çalışmalardan somut bir örnek olarak İngiliz Ulusal Derlemi ve derlem inceleme ve uygulamaları için geliştirilmiş olan bazı yazılımlar hakkında derleyip, anlayabildiğim bazı bilgileri aktarmaya çalışacağım. Derlemlerin çeşitli türleri bulunuyor. Derleme konulan metinler yazı dili veya konuşma diline; çağdaş dil veya eski dile; tek dil veya birden çok dile ait olabiliyor. Ayrıca bu metinler kitaplardan, dergilerden, nutuklardan, konuşmalardan alınabiliyor. Bu yüzden derlemler, bu ayrımların tümünü kavrayan genel derlemler veya yalnız belli kesim ve türleri içeren özel derlemler şeklinde gruplandırılabiliyor. Diğer taraftan çeşitli metinleri içeren derlemeler yapmak fikrinin çok da yeni olmadığını görüyoruz. Avrupa’da Orta Çağda, sözcüklerin kullanış sıklığını saptamak, sözlük hazırlamasında kullanılmak üzere sözcük listeleri oluşturmak veya bir sözcüğün çeşitli kullanımlarını görmek için sözcükleri bağlamları ile birlikte listeleyebilmek gibi amaçlarla bu tür derlemeler yapılmıştır. Bu gibi derlemeler sözdizimi, anlambilim, karşılaştırmalı dilbilimle ilgili araştırmalar için de kullanılmış, . bilgisayardan yararlanılması dışında bugünkü derlem uygulamalarına çok benzeyen çalışmalar gerçekleştirilmiştir. Brown Üniversitesi’nden Henry Kucera ve W. Nelson Francis’ in “Günümüz Amerikan İngilizce’sinin Bilgisayarlı Çözümlemesi “ (Computational Analysis of Present-Day American English ) adıyla 1967 yılında yayımladıkları eser, ilk modern derlem olan Brown Corpus ‘ u Dünyaya tanıtmış oldu. Bu derlem, 1961 yılında Amerika’da yayımlanmış olan kitap, gazete, dergi gibi yayınlardan 15 ayrı ulamda olmak üzere alınan ve her biri 2000 sözcük içeren 500 metinden, yani toplam 1 milyon sözcükten, oluşuyordu. Zamanında çok büyük açılımlar sağlamış olan bu derlem bugün küçük ve modası geçmiş sayılmakla beraber hala yararlı bir işlev görmektedir. Zira pek çok derlerimin tasarımında bu derlemdeki düzenleme kullanılıştır ve kullanılmaktadır. Bugün özellikle İngilizce dilinde hazırlanmış olan derlemleri bir solukta sayıvermek mümkün değildir. (bkz EK) Bununla beraber İngiliz Ulusal Derlemi bunlar arasında çok üstün bir yere sahiptir. Bunun dışında Collins’in İngilizce Dili Sözlüğü’nü hazırlamak için oluşturduğu ve bu gün lisanslı olarak araştırmacıların kullanımına açılmış olan İngilizce Bankası adlı derlem sözü edilmeye değer. Açık uçlu olmak üzere tasarlanan bu derlem bugün 320 milyon sözcüğe varmış bulunmaktadır. II - İNGİLİZ ULUSAL DERLEMİ HAKKINDA ÖZET BİLGİLERa - Tanımİngiliz Ulusal Derlemi (The British National Corpus [BNC]) 20. yüzyılın son çeyreğinde yazılan ve konuşulan İngiltere İngilizce’sini temsil etmek üzere çok çeşitli kaynaktan alınmış yazı ve konuşma dili örneklerinden toplanmış 100 milyon sözcükten oluşan bir derlemedir.BNC nin %90 ını oluşturan yazı dili bölümünde, örneğin
Derlemin geri kalan %10’unu kapsayan Konuşma dili bölümü ise Çeşitli yaşlarda toplumsal sınıf ve coğrafi bölgelerden seçilmiş gönüllü deneklerin yazılı olmayan gündelik konuşmalarından kaydedilmiştir. Bu konuşmalar iş görüşmeleri ve resmi toplantılardan , radyo, tv programları ve satıcıların söylemlerine kadar her türlü yer ve durumda gerçekleşen konuşmalardır. Derlemle ilgili çalışma 1991 de başlamış 1994 de tamamlanmıştır. Derlem tamamlandıktan sonra yeni bir metin eklenmemiştir. Yani BNC sabit oylumlu bir derlemdir. Bununla beraber ikinci sürümü yayımlanmadan önce gözden geçirilerek bazı düzeltmeler yapılmıştır. Diğer taraftan, BNC deki malzemeden yararlanılarak iki ayrı alt derlem oluşturulmuştur:
b - NiteliklerBNC nin tek dilli, belli bir zamana ilişkin, genel bir derlemdir ve örnekleme yöntemiyle oluşturulmuştur.Tek dilli olmak: BNC yalnız modern İngiltere İngilizcesini kapsamaktadır.Bununla beraber diğer dillerden geçme yabancı sözcükler ile gerçek anlamda İngiltere İngilizcesi sayılmayan İngilizce sözcükler de derlem ter almaktadır. Belli bir zamana ilişkin olmak: Derlem İngiltere İngizcesinin 20. yüzyıl sonundaki durumunu kavramakta, dilin tarih içindeki gelişimini kapsam dışında bırakmaktadır. Genellik: BNC dilin herhangi özel bir alan, tür, şive ile sınırlı olmayıp, pek çok biçem ve kullanımları içermektedir. Özellikle yazı dilinin yanında konuşma dilini de kapsamaktadır. Örnekleme: Derlemin kapsadığı alanı doğru bir şekilde temsil etmesi için içeriklerin seçimi örnekleme yöntemi ile yapılmıştır.
c -KonsorsiyumBNC Projesi Oxford Üniversitesi Basımevi’ nin (Oxford University Press) girişimiyle bir araya gelen özel sektör ve üniversite kuruluşlarının oluşturduğu bir konsorsiyum (BNC Consortium) tarafından hayata geçirilmiştir. Bu konsorsiyumda
Diğer taraftan, Proje ticari ortak sıfatıyla bazı kuruluşlar tarafından finanse ediliyordu. Bunların başında Bilim ve Mühendislik Kurulu ile Ticaret ve Sanayi Dairesi geliyordu. Şimdiki adı Mühendislik ve Fiziksel Bilimler Araştırma Kurulu (Engineering and Physical Sciences Research Council (EPSRC)) olan Bilim ve Mühendislik Kurulu amaçları açısından TUBİTAK’a çok benzemektedir.
III - TASARIM AŞAMASIBNC projesinin uygulanmasına tasarım ilkelerinin saptanması ile başlandı. Tasarım ilkeleri genelde Seçme Ölçütleri inden ibarettir. Yazı dili metinleri (yazı metinleri) için belirlenen Seçme Ölçütleri konuşma dili parçaları (konuşma metinleri) ile ilgili Seçme Ölçütlerinden farklı olmuştur. Bu ölçütler saptandıktan sonra bu ölçütlere uygun metinler belirlenerek derleme konulmaya başlanmıştır. Derleme konulan, gerek yazı metinlerinin ve gerek konuşma metinlerinin çeşitli kullanımlarda kolaylık sağlamak için sınıflandırılmaları gerektiğinden seçme ölçütlerinden ayrı olarak Sınıflandırma Belirteçleri nin de kararlaştırılmaları gerekmiştir.a -Yazı Metinleri Seçme ÖlçütleriYazı metinleri seçme ölçütleri için başlıca üç ulam dikkate alınmıştır:1 - İçerik AlanıMetinler bilgi verici (informative) yazılar ve hayal gücü kaynaklı (imaginative) yazılar şeklinde iki gruba ayrılmıştır.Derlemin yazı dili bölümünün %75 ini oluşturan bilgi verici yazılar
.edebi ve yaratıcı yapıtları içeren hayal gücü kaynaklı alt bölüm ise yazı dili Derlemin yazı dili bölümünün %25 ini oluşturmaktadır. 2 - Yayım OrtamıYayım ortamı deyimi ile yayının kitap, gazete, dergi gibi yayın türü kastedilmektedir. Aşağıda her bir yayın türünden yapılacak seçmenin oranı gösterilmektedir: | ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
3 -Yayımlanma zamanıZaman ölçütü ile derleme konulacak malzemenin yayım tarihi belirlenmekte olup, bu tarih 1975 ten daha eski olmamak şeklinde kararlaştırılmıştır. Bununla beraber bu koşul 1975 tarihinden biraz önce yayımlanmış olsa bile hayal gücünden kaynaklanan ve fakat popülerliği hala sürmekte olan eserler açından biraz gevşek tutulmuştur.b- Sınıflandırma BelirteçleriDerleme alınan metinlere aşağıda açıklanan özelliklere göre sınıflandırma belirteçleri konulması uygun görülmüştür. Bu özellikleri taşıyan metinlerin belli sabit büyüklüklerde olması beklenmemektedir. Bununla beraber her bir Seçme Ölçütü içine giren metinlerde bu belirteçler açısından uygun bir çeşitlilik düzeyinin elde edilmesi hedeflenmiştir.
c -Konuşma Metinleri Seçme ÖlçütleriOn milyon sözcükten oluşan Konuşma Metinleri kendi içinde nüfusbilimsel bölüm ve bağlam yönlendirilmeli bölüm olarak iki alt bölüme ayrılmıştır. Nüfusbilimsel bölüm, genel nüfus içinde yer alan kişiler tarafından kendiliğinden yapılan doğal konuşmaların metinlerini; bağlam yönlendirmeli bölüm ise, belirli tür toplantı ve olaylara ait ses kayıtlarının deşifre edilmiş metinlerini içermektedir. | ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
BNC DEKİ METİNLERİN GRUPLAR İTİBARİYLE DAĞILIMI | ||||||||||||||||||||||||||||||||||||||||||||||||
| ||||||||||||||||||||||||||||||||||||||||||||||||
V --DİLBİLİM ve DERLEM ÇALIŞMALARI İLE İLGİLİ YAZILIMLARa - Genel Elektronik veri haline dönüştürülmüş metinler üzerinde bilgisayarlarla çeşitli işlemler yapılması bilgisayarların tarihi kadar eskidir. Metinler üzerinde basit veya karmaşık işlemler yapılmasını sağlayan pek çok yazılım üretilmiştir. Bugün sözcük işleme programlarının içinde bile bu tür alt-programlar yer almaktadır. Derlemlere konulan metinler üzerindeki inceleme ve araştırmalarda daha önce bu programların geliştirilmiş olmasının büyük yararlar sağladığı muhakkaktır. |