ARKA BAHÇE (*)


DERLEM İNCELEME VE UYGULAMALARINA
DIŞARDAN BİR ‎BAKIŞ
‎ ‎
    ‎ ‎
  1. GİRİŞ ‎ ‎
  2. İNGİLİZ ULUSAL DERLEMİ ‎HAKKINDA ‎ÖZET BİLGİLER ‎ ‎
      ‎ ‎
    1. Tanım‎ ‎
    2. Nitelikler‎ ‎
    3. Konsorsiyum
    ‎ ‎
  3. TASARIM AŞAMASI ‎‎ ‎
    1. Bazı Metinleri Seçme Ölçütleri‎ ‎
        ‎ ‎
      1. İçerik Alanı‎ ‎
      2. Yayım Ortamı‎ ‎
      3. Yayımlanma zamanı
      ‎ ‎
    2. Sınıflandırma Belirteçleri‎ ‎
    3. Konuşma Metinleri Seçme Ölçütleri
    ‎ ‎
      ‎ ‎
    1. Konuşma Metinlerinin Nüfusbilimsel bölümü‎ ‎
    2. Konuşma Metinlerinin Bağlam Yönlendirilmeli Bölümü
    ‎ ‎
  4. YAPIM AŞAMASI‎ ‎
      ‎ ‎
    1. Genel‎ ‎
    2. Metinlerin Toplanması‎ ‎
    3. Elektronik Metinlerin Elde Edilmesi‎ ‎
        ‎ ‎
      1. Tarama‎ ‎
      2. Tuşlama‎ ‎
      3. Mevcut Elektronik Veriler
      ‎ ‎
    4. Metinlerin Kodlanması‎ ‎
    5. Metinlere Dilbilimsel Açımlamalar (İsimlikler) Konulması‎ ‎
    6. Bnc İle İlgili Bazı Sayılar
    ‎ ‎
  5. DİLBİLİM ve DERLEM ÇALIŞMALARI İLE İLGİLİ YAZILIMLAR‎ ‎
      ‎ ‎
    1. Derlem Yazılımları‎ ‎
    2. Sözcük Bağlamlama‎ ‎
    3. Açımlama

I - GİRİŞ

Biliyoruz ki Türkçe’de derlem dilbilimi veya derlem inceleme ve uygulamaları şeklinde ifade edebileceğimiz corpus linguistics bilişimcilerin ve dilbilimcilerin özel çalışma alanlarıdır. Bu bakımdan, köken itibariyle ne bilişimci, ne de dilbilimci olmadığım için derlemle ilgili tanımlar, kuramlar, gelişmeler üzerinde anlamlı sözler söylemek şöyle dursun bu tanımları, kuramları, gelişmeleri aktarmaya dahi gücümün yetmeyeceğinin farkında olduğumu peşinen ifade etmeliyim. Burada bilimsel ve kuramsal değerlendirme ve akıl yürütmelerden uzak durmaya çalışarak, derlemle ilgili çalışmalardan somut bir örnek olarak İngiliz Ulusal Derlemi ve derlem inceleme ve uygulamaları için geliştirilmiş olan bazı yazılımlar hakkında derleyip, anlayabildiğim bazı bilgileri aktarmaya çalışacağım.
Derlemlerin çeşitli türleri bulunuyor. Derleme konulan metinler yazı dili veya konuşma diline; çağdaş dil veya eski dile; tek dil veya birden çok dile ait olabiliyor. Ayrıca bu metinler kitaplardan, dergilerden, nutuklardan, konuşmalardan alınabiliyor.
Bu yüzden derlemler, bu ayrımların tümünü kavrayan genel derlemler veya yalnız belli kesim ve türleri içeren özel derlemler şeklinde gruplandırılabiliyor.
Diğer taraftan çeşitli metinleri içeren derlemeler yapmak fikrinin çok da yeni olmadığını görüyoruz. Avrupa’da Orta Çağda, sözcüklerin kullanış sıklığını saptamak, sözlük hazırlamasında kullanılmak üzere sözcük listeleri oluşturmak veya bir sözcüğün çeşitli kullanımlarını görmek için sözcükleri bağlamları ile birlikte listeleyebilmek gibi amaçlarla bu tür derlemeler yapılmıştır. Bu gibi derlemeler sözdizimi, anlambilim, karşılaştırmalı dilbilimle ilgili araştırmalar için de kullanılmış, . bilgisayardan yararlanılması dışında bugünkü derlem uygulamalarına çok benzeyen çalışmalar gerçekleştirilmiştir.
Brown Üniversitesi’nden Henry Kucera ve W. Nelson Francis’ in “Günümüz Amerikan İngilizce’sinin Bilgisayarlı Çözümlemesi “ (Computational Analysis of Present-Day American English ) adıyla 1967 yılında yayımladıkları eser, ilk modern derlem olan Brown Corpus ‘ u Dünyaya tanıtmış oldu.
Bu derlem, 1961 yılında Amerika’da yayımlanmış olan kitap, gazete, dergi gibi yayınlardan 15 ayrı ulamda olmak üzere alınan ve her biri 2000 sözcük içeren 500 metinden, yani toplam 1 milyon sözcükten, oluşuyordu.
Zamanında çok büyük açılımlar sağlamış olan bu derlem bugün küçük ve modası geçmiş sayılmakla beraber hala yararlı bir işlev görmektedir. Zira pek çok derlerimin tasarımında bu derlemdeki düzenleme kullanılıştır ve kullanılmaktadır.
Bugün özellikle İngilizce dilinde hazırlanmış olan derlemleri bir solukta sayıvermek mümkün değildir. (bkz EK) Bununla beraber İngiliz Ulusal Derlemi bunlar arasında çok üstün bir yere sahiptir.
Bunun dışında Collins’in İngilizce Dili Sözlüğü’nü hazırlamak için oluşturduğu ve bu gün lisanslı olarak araştırmacıların kullanımına açılmış olan İngilizce Bankası adlı derlem sözü edilmeye değer. Açık uçlu olmak üzere tasarlanan bu derlem bugün 320 milyon sözcüğe varmış bulunmaktadır. ‎

II - İNGİLİZ ULUSAL DERLEMİ HAKKINDA ÖZET BİLGİLER

a - Tanım

İngiliz Ulusal Derlemi (The British National Corpus [BNC]) 20. yüzyılın son çeyreğinde yazılan ve konuşulan İngiltere İngilizce’sini temsil etmek üzere çok çeşitli kaynaktan alınmış yazı ve konuşma dili örneklerinden toplanmış 100 milyon sözcükten oluşan bir derlemedir.
BNC nin %90 ını oluşturan yazı dili bölümünde, örneğin
  • Ulusal ve yerel gazetelerden,
  • Özel ilgi alanları ile ilgili süreli yayınlardan,
  • Her yaş ve ilgiye hitap eden dergilerden,
  • Akademik kitaplardan,
  • Popüler romanlardan,
  • Yayımlanmış veya yayımlanmamış anılardan
  • Okul ödevleri ve üniversite tezlerinden
seçilmiş alıntılar bulunmaktadır.
Derlemin geri kalan %10’unu kapsayan Konuşma dili bölümü ise
Çeşitli yaşlarda toplumsal sınıf ve coğrafi bölgelerden seçilmiş gönüllü deneklerin yazılı olmayan gündelik konuşmalarından kaydedilmiştir. Bu konuşmalar iş görüşmeleri ve resmi toplantılardan , radyo, tv programları ve satıcıların söylemlerine kadar her türlü yer ve durumda gerçekleşen konuşmalardır.
Derlemle ilgili çalışma 1991 de başlamış 1994 de tamamlanmıştır. Derlem tamamlandıktan sonra yeni bir metin eklenmemiştir. Yani BNC sabit oylumlu bir derlemdir. Bununla beraber ikinci sürümü yayımlanmadan önce gözden geçirilerek bazı düzeltmeler yapılmıştır.
Diğer taraftan, BNC deki malzemeden yararlanılarak iki ayrı alt derlem oluşturulmuştur:
  • Yavru BNC (BNC Baby) Dört ayrı tür malzemeden alınan birer milyon sözcükten oluşan 4x1 milyon sözcük

b - Nitelikler

BNC nin tek dilli, belli bir zamana ilişkin, genel bir derlemdir ve örnekleme yöntemiyle oluşturulmuştur.
Tek dilli olmak: BNC yalnız modern İngiltere İngilizcesini kapsamaktadır.Bununla beraber diğer dillerden geçme yabancı sözcükler ile gerçek anlamda İngiltere İngilizcesi sayılmayan İngilizce sözcükler de derlem ter almaktadır.
Belli bir zamana ilişkin olmak: Derlem İngiltere İngizcesinin 20. yüzyıl sonundaki durumunu kavramakta, dilin tarih içindeki gelişimini kapsam dışında bırakmaktadır.
Genellik: BNC dilin herhangi özel bir alan, tür, şive ile sınırlı olmayıp, pek çok biçem ve kullanımları içermektedir. Özellikle yazı dilinin yanında konuşma dilini de kapsamaktadır.
Örnekleme: Derlemin kapsadığı alanı doğru bir şekilde temsil etmesi için içeriklerin seçimi örnekleme yöntemi ile yapılmıştır.
  • Tek yazarlı metinlerde, çeşitli bölümlerinden olmak üzere toplam 45 000 sözcüklük örnekler alınmıştır.
  • 45 000 sözcüğün altındaki daha kısa metinler ile gazete ve dergilerdeki çok yazarlı metinler bütün olarak alınmıştır.
  • Derlemin 100 milyon sözcük sınırı bir taraftan çok geniş bir alandan metin alınmasına elvermiş, aynı zamanda, çok özel nitelikli metinlerin aşırı derecede temsil edilmesini de önlemiştir.

c -Konsorsiyum

BNC Projesi Oxford Üniversitesi Basımevi’ nin (Oxford University Press) girişimiyle bir araya gelen özel sektör ve üniversite kuruluşlarının oluşturduğu bir konsorsiyum (BNC Consortium) tarafından hayata geçirilmiştir. Bu konsorsiyumda
  • Addison-Wesley,
  • Longman
  • Larousse
  • Kingfisher
  • Chambers
gibi başta gelen Sözlük yayıncıları ile
  • Oxford Üniversitesi Bilgisayar Servisleri ((Oxford University Computing Services) (OUCS))
  • Lancaster Üniversitesi, Dille ilgili Bilgisayarlı Derlem Araştırmaları Üniversite Merkezi (the University Centre for Computer Corpus Research on Language (UCREL)))
  • Britanya Kitaplığı Araştırma ve Buluşlar Merkezi (the British Library's Research and Innovation Centre )
gibi akademik araştırma birimleri bulunuyordu.
Diğer taraftan, Proje ticari ortak sıfatıyla bazı kuruluşlar tarafından finanse ediliyordu. Bunların başında Bilim ve Mühendislik Kurulu ile Ticaret ve Sanayi Dairesi geliyordu. Şimdiki adı Mühendislik ve Fiziksel Bilimler Araştırma Kurulu (Engineering and Physical Sciences Research Council (EPSRC)) olan Bilim ve Mühendislik Kurulu amaçları açısından TUBİTAK’a çok benzemektedir.
  1. Ticaret ve Sanayi Dairesinin desteği ise Bilişim teknolojileri için Ortak Çerçeve Programı (Joint Framework for Information Technology (JFIT) programme) kapsamında yapılıyordu.
  2. Ayrıca, Britanya Kitaplığı ve Britanya Akademisi de ek destekler sağlıyorlardı.
BNC Projesi bu konsorsiyum tarafından yürütülmüştür; bugün de bütün önemli kararlar bu konsorsiyum tarafından alınmaktadır. Oxford Üniversitesi Bilgisayar Servisleri (OUCS) ise BNC nin, bir kullanıcı lisansı çerçevesinde dağıtımı açısından, Konsorsiyumun temsilcisi olarak görev yapmaktadır ‎

III - TASARIM AŞAMASI

BNC projesinin uygulanmasına tasarım ilkelerinin saptanması ile başlandı. Tasarım ilkeleri genelde Seçme Ölçütleri inden ibarettir. Yazı dili metinleri (yazı metinleri) için belirlenen Seçme Ölçütleri konuşma dili parçaları (konuşma metinleri) ile ilgili Seçme Ölçütlerinden farklı olmuştur. Bu ölçütler saptandıktan sonra bu ölçütlere uygun metinler belirlenerek derleme konulmaya başlanmıştır. Derleme konulan, gerek yazı metinlerinin ve gerek konuşma metinlerinin çeşitli kullanımlarda kolaylık sağlamak için sınıflandırılmaları gerektiğinden seçme ölçütlerinden ayrı olarak Sınıflandırma Belirteçleri nin de kararlaştırılmaları gerekmiştir.

a -Yazı Metinleri Seçme Ölçütleri

Yazı metinleri seçme ölçütleri için başlıca üç ulam dikkate alınmıştır:

1 - İçerik Alanı

Metinler bilgi verici (informative) yazılar ve hayal gücü kaynaklı (imaginative) yazılar şeklinde iki gruba ayrılmıştır.
Derlemin yazı dili bölümünün %75 ini oluşturan bilgi verici yazılar
  • Uygulamalı bilimler
  • Güzel sanatlar
  • İnanç ve Düşünce
  • Ticaret ve Finans (Bankacılık, Borsa ve Maliye )
  • Dinlence ve Eğlence
  • Doğal ve Temel Bilimler
  • Sosyal Bilimler
  • Dünya Olayları
şeklinde alt-bölümlere ayrılmakta olup, her bölümden kabaca aynı miktarda metin alınması öngörülmüştür.
.edebi ve yaratıcı yapıtları içeren hayal gücü kaynaklı alt bölüm ise yazı dili Derlemin yazı dili bölümünün %25 ini oluşturmaktadır.

2 - Yayım Ortamı

Yayım ortamı deyimi ile yayının kitap, gazete, dergi gibi yayın türü kastedilmektedir. Aşağıda her bir yayın türünden yapılacak seçmenin oranı gösterilmektedir:
Kitaplar %60
Gazete, dergi gibi süreli süreli yayınlar %25
Broşür, reklam yaprakları gibi çeşitli basılı malzeme % 5-10
Özel mektuplar, anı defterleri, günlükler gibi basılmamış malzeme %5-10
Siyasal demeçler, oyun metinleri, TV konuşmaları gibi konuşulmak üzere yazılmış metinler en çok %5

3 -Yayımlanma zamanı

Zaman ölçütü ile derleme konulacak malzemenin yayım tarihi belirlenmekte olup, bu tarih 1975 ten daha eski olmamak şeklinde kararlaştırılmıştır. Bununla beraber bu koşul 1975 tarihinden biraz önce yayımlanmış olsa bile hayal gücünden kaynaklanan ve fakat popülerliği hala sürmekte olan eserler açından biraz gevşek tutulmuştur.

b- Sınıflandırma Belirteçleri

Derleme alınan metinlere aşağıda açıklanan özelliklere göre sınıflandırma belirteçleri konulması uygun görülmüştür. Bu özellikleri taşıyan metinlerin belli sabit büyüklüklerde olması beklenmemektedir. Bununla beraber her bir Seçme Ölçütü içine giren metinlerde bu belirteçler açısından uygun bir çeşitlilik düzeyinin elde edilmesi hedeflenmiştir.
  • Örneklem büyüklüğü (sözcük sayısı ile başlangıç ve bitiş noktaları)
  • Metnin konusu veya ilgi alanı
  • Yapıt sahibinin adı, yaşı, eşeyliği, bölgesi, kökeni ve oturduğu yer
  • Hedef lediği yaş grubu veya eşeylik
  • Yazının ustalık düzeyi (Burada okuma güçlüğü öznel bir ölçü olacaktır. Metin ne kadar edebi veya teknik sayılırsa düzeyi o kadar “yüksek” kabul edilecektir.

c -Konuşma Metinleri Seçme Ölçütleri

On milyon sözcükten oluşan Konuşma Metinleri kendi içinde nüfusbilimsel bölüm ve bağlam yönlendirilmeli bölüm olarak iki alt bölüme ayrılmıştır. Nüfusbilimsel bölüm, genel nüfus içinde yer alan kişiler tarafından kendiliğinden yapılan doğal konuşmaların metinlerini; bağlam yönlendirmeli bölüm ise, belirli tür toplantı ve olaylara ait ses kayıtlarının deşifre edilmiş metinlerini içermektedir.
BNC de yer alan bütün konuşmalara ait ses kayıtları Britanya Kitaplığının Ulusal Ses Arşivlerinde saklanmaktadır.

1 - Konuşma Metinlerinin Nüfusbilimsel bölümü

Konuşmaları kaydedilmek üzere, Britanya Piyasa Araştırma Dairesi (British Market Research Bureau) tarafından toplam 124 gönüllü seçilmiştir. Bu gönüllüler AB, C1,C2 ve DE olarak adlandırılan sosyal gruplara mensup her yaştan kadın ve erkekler olup İngiltere’nin 38 değişik yerleşme biriminden gelmektedirler. Gönüllülerin seçiminde kadın, erkek ve yaş gruplarına göre dağılımını yaklaşık olarak eşit sayılarda olmasına dikkat edilmiştir.
Gönüllüler kendilerine verilen kayıt cihazları aracılığıyla üç veya dört gün boyunca hiçbir zorlama veya engelleme olmadan yaptıkları her türlü konuşmaları kaydetmişler, ayrıca bu ses kayıtlarının bir kütüğünü tutmuşlardır. Bu kütüğe konuşanlarla ilgili yaş, eşeylik, şive, iş gibi bilgiler temin edilebildiği ölçüde yazılmış, daha sonra konuşmalarda yer alan kişilerin izinleri alınmıştır.

2 - Konuşma Metinlerinin Bağlam Yönlendirilmeli Bölümü

Bu bölüme aşağıda gösterilen 34 ayrı ulamdaki toplumsal etkinliklerdeki konuşmalardan eşit miktarlarda seçilen malzeme alınmaya çalışılmıştır.:
  • Konferans, haber yayını, sınıf larda yapılan tartışmalar, ders anlatımları gibi eğitsel ve bilgi verici olaylar
  • Satış sunumları, ticaret odası toplantıları, röportajlar gibi iş ve ticaretle ilgili olaylar
  • Dini vaazlar, siyasal nutuklar, kurul toplantıları, parlamento görüşmeleri gibi kurumsal ve kamusal olaylar
  • Spor yarışmaları ile ilgili yorum ve tartışmalar, sofra konuşmları,kulüp toplantıları, gibi dinlence ve eğlence olayları
Burada da konuşmacılarla ilgili yaş, eşeylik gibi bilgiler kaydedilmeye çalışılmıştır. ‎

IV - YAPIM AŞAMASI

a - Genel

Tasarım tamamlanınca derlemin oluşturulmasına başlanmıitır. Bu aşamada 5 ayrı işlem veya süreç söz konusudur:
  • İzin veya icazet alma
  • Metinlerin toparlanması
  • Metinlerin kodlanması
  • Metinlere dilbilimsel açılımlar (çıkmalar) konulması
  • Metinlerin saklanması ve belgelenmesi
Bir metnin derleme konulması için gerekli izin alındıktan sonra metnin oxford üniversite basımevi ile longman veya chambers firmaları tarafından bilgisayarla okunabilecek şekle aktarılması işlemi yapılıyor, ortaya çıkan metin proje’ nin kodlama standartları uygulanarak kodlanması Oxford Üniversitesi Bilgisayar Servisleri (OUCS) tarafından gerçekleştiriliyor. Bu kez kodlanan metin üzerine Dille İlgili Bilgisayarlı Derlem Araştırmaları Üniversite Merkezi (UCREL) tarafından sözcüklerin sınıf isimlikleri otomatik olarak işleniyor ve Oxford Üniversitesi Bilgisayar Servislerine geri gönderiliyor. Diğer taraftan bu işlemlerin her biri Oxford Üniversite Basımevinde tutulan veri tabanına kaydediliyor.

b - Metinlerin Toplanması

Bnc ye konulacak metinlerin toplanması çeşitlilik arz ediyor. Yazı metinlerinin büyük bir bölümü oxford üniversite basımevi tarafından sağlanmıştı. Longman grubu konuşma dili malzemesini toplamaktan sorumlu idi. Basılmamış yazı metinlerinin toplanmasını da Chambers firması yapmıştı.

C - Elektronik Metinlerin Elde Edilmesi

Metinlerin elektronik ortamdaki sürümlerinin elde dilmesi için üç ayrı yöntem kullanıldı:tarama, tuşlama, mevcut elektronik metinlerin kopyalanması.

1 - Tarama

Basılı metinler tarayıcı ile tarandıktan sonra optik damga okuyucuları (ODO) yardımıyla elektronik metin haline getirilmiştir. Bu işlemin sağlıklı olması özgün metinlerin baskılarının yüksek nitelikli olmasına bağlı bulunuyor. Baskı yüksek nitelikli olsa bile yine de çıktıların gözden geçirilip elle düzeltme yapma gereksinimi doğmaktadır.

2 - Tuşlama
Konuşmaların ses kayıtları ile el yazması metinlerin elektronik metin haline dönüştürülmesi için en uygun yol tuşlama olmakta idi bunun yanında
Çoğu broşürlerin ve bazı dergi ve gazete metinlerinin de tuşlanması gerektiği anlaşılıyor; çünkü niteliği zayıf baskıların ve çok küçük yazıların odo yazılımları ile işlenmesinde çıkan düzeltme gereksiniminin yüksekliği karşısında bu gibi malzemenin doğrudan doğruya deneyimli bir sekreter tarafından bilgisayara geçirilmesi daha kolay oluyordu.

3 - Mevcut Elektronik Veriler

Derlemin tasarım aşamasında, bnc ‘ye konulabilecek metinlerin önemli bir bölümünün zaten elektronik ortamda mevcut olduğu, dönüştürme yazılımları aracılığı ile bunları bnc için öngörülen formatta elde etmenin fazla güç olmayacağı düşünülüyordu. Özellikle basımevlerinin ve dergi ve yayımcılarının ellerinde bulunan malzemeye güveniliyordu. Bununa beraber mevcut elektronik verilerden bnc formatına dönüştülebilecek olanların ilk tahmin edilenden çok daha az olduğu görüldü.

d - Metinlerin Kodlanması

Bilgisayarlara geçirilmiş metinlerin dilbilimsel amaçlarla kullanılabilmesi için bu metinlerde bazı imlemeler yapılması gerekmektedir.
    <
  • Sözcüğün sınırları ve türü
  • Claws aracılığıyla belirlenen tümce yapısı
  • Paragraf, bölüm, başlık ve benzeri özellikler
  • Deyimler, durakalama, dil benzeri özellikler (kahkaha gibi)
  • Metinler hakkında kaynak, kodlama gibi metin dışı bilgiler
Bütün bu özelliklerin başka platformlarda da kullanılabilmesi için standart bir biçimde kodlanması gerekmektedir.
Bnc nin yapımında standart genel imleme diline (sgml (ıso 8879: standard generalized markup language) dayalı olarak geliştirilmiş olan derlem belgesi karşılıklı değişim formatı (corpus document ınterchange format (cdıf)) kullanılmıştır. Bu formatın geliştirtmesinde Ululararası Metin Kodlama Girişimi (the İnternational Text Encoding Initiative (TEI).) tarafından hazırlanmış olan Elektronik Metinleri Kodlama Yönergesi (guidelines For Encoding Of Electronic Text) de göz önünde tutulmuştur.

e - Metinlere Dilbilimsel Açımlamalar (İsimlikler) Konulması

Bnc deki yüz milyon sözcüğün her birinde bir dilbilgisi isimliği, yani sözcük türünü gösteren bir yafta) bulunmaktadır. Ayrıca her bir metin tümce benzeri keseklere bölünmüştür. Bu işlem lancaster üniversitesindeki dille ilgili bilgisayarlı derlem araştırmaları üniversite merkezi (the university centre for computer corpus research on language (ucrel)) tarafından claws4 adı verilen otomatik ad-bağlama yazılımı kullanılarak gerçekleştirilmiştir.
Claws4 aracılığıyla bnc temel isimlik takımı adı verilen bir isimlik listesi kullanılarak gerçekleştirilen otomatik ad-bağlama işleminde %1,7 oranında hatalı ad-bağlama olduğu ayrıca %4.7 oranında sözcük için ise belirsizlik içermeyecek şekilde ad-bağlama yapılamadığı görüldüğü için ad-bağlama işlemi gözden geçirilerek elle düzetmeler yapılmak zorunda kalınmıştır.

f - BNC İle İlgili Bazı Sayılar

İngiliz Ulusal Derlemi (BNC) ile ilgili bazı sayılar aşağıdadır:
Açıklama Adet
METİN 4,054 Bu sayıların ne anlama geldiğini daha iyi anlamak için şu örnek verilebilir: bu derlemi, her sayfasında 400 sözcük bulunan ortalama 250 sayfalık kitaplara bastığımızı ve bu kitapları yan yana bir rafa dizdiğimizi varsayarsak, rafın uzunluğunun 10 metre olması gerekecektir. Bir kişi bu kitapları ortalama süratle okumayı ise ancak dört yılda bitirebilecektir
SÖZCÜK. 100 467 090
SÖZCÜK BİRİM 97 619 934
TÜMCE BİRİM 6 053 093
OLYLUM(Kbytes). 1 508 392
BNC DEKİ METİNLERİN GRUPLAR İTİBARİYLE DAĞILIMI
Metin türü Metin Kbytes Sözcük
Birimi
Tümce
Birimi
Yüzde
Konuşma metinleri:nüfusbilimsel bölüm 153 4206058 4.30 610563 10.08
Konuşma metinleri: bağlam yönlendirilmeli bölüm 757 6135671 6.28 428558 7.07
Toplam konuşma metinleri 910 10341729 10.58 1039121 17.78
Yazı metinleri : kitap ve süreli yayınlar 2688 78580018 80.49 4403803 72.75
Yazi metinleri : konuşulmak üzere yazilmiş 35 1324480 1.35 120153 1.98
Yazi metinleri : çeşitli 421 7373707 7.55 490016 8.09
Toplam yazi metinleri 3144 87278205 89.39 5013972 82.82

V --DİLBİLİM ve DERLEM ÇALIŞMALARI İLE İLGİLİ YAZILIMLAR

a - Genel

Elektronik veri haline dönüştürülmüş metinler üzerinde bilgisayarlarla çeşitli işlemler yapılması bilgisayarların tarihi kadar eskidir. Metinler üzerinde basit veya karmaşık işlemler yapılmasını sağlayan pek çok yazılım üretilmiştir. Bugün sözcük işleme programlarının içinde bile bu tür alt-programlar yer almaktadır. Derlemlere konulan metinler üzerindeki inceleme ve araştırmalarda daha önce bu programların geliştirilmiş olmasının büyük yararlar sağladığı muhakkaktır.
Doğrudan derlemler için hazırlanmış yazılımları ise başlıca iki grupta toplamak mümkündür : Sözcük bağlama yazılımları, Açımlama yazılımları

b - Sözcük Bağlamlama

Sözcük bağlamlama (concordance) bir sözcüğün veya bir sözcük grubunun bağlamı ile birlikte listelenmesi anlamında çok eskiden beri kullanılan bir tekniktir.
Bu listeleme işini gerçekleştirmede bilgisayarlardan yararlanma fikri de çok yeni değildir. Örneğin kitaplar için dizin hazırlama sözcük bağlamlama işleminin öncülü olarak kabul edilebilir.
Sözcük bağlamlama yazılımı ile bir metin içinde taranarak belli sözcüklerin veya bir sözcük gruplarının o metinde her geçişinde bağlamıyla birlikte bir tabloya dökülmesi sağlanmaktadır.
Bu tür listelerin çıkarılmasında bilgisayar büyük kolaylık sağlayabilmektedir. Örneğin sözcüğün önünde ve arkasında yer alan sözcüklerin büyüklüğü isteğe göre ayarlanabilir. Örnekler istenen biçimde sınıflandırılabilir.
Başlıca sözcük bağlamlama yazılımları şunlardır.
  • Conc .
  • MonoConc
  • OCP: The Oxford Concordance Program.
  • ParaConc
  • SARA
  • TACT
  • WordSmith Tools
  • MicroConcord
  • XKwic
Bunlardan Oxford Concordance Program. ile BNC projesinde kullanılan SARA en önemlileri olmaktadır.

C - Açımlama

a Genel

Derleme konulan metinlerin bilgisayarlarca algılanması, çözümlenmesi veya dilbilimsel çıkarımlar, yorumlar elde etmek üzere değerlendirilmesi vb amaçlar için kodlanması (coding ) ve açımlanması (annotation) gerekmektedir.
Bu bağlamda kodlama daha çok yazım kuralları ve metnin taşıdığı görsel özellikleri (paragraf, koyuluk, punto) belirleyen kodların konulması anlamında kullanılmaktadır. Kodlama için çeşitli kabuller ve düzenlemeler yapılmış, bu konuda bazı ulusal ve uluslararası kurumlar tarafından çeşitli standartlar geliştirilmiştir. Ancak bu konu bu bölümün biaz dışında kalmaktadır.
Diğer taraftan derlemden yararlanılarak yapılacak inceleme ve araştırmalarda, derlemdeki bir metnin içerdiği sözcük, sözcük öbeği, tümce gibi öğelerin dilbilimsel özelilik ve niteliklerinin bilgisayar tarafından algılanabilmesi için bu özellik ve nitelikleri açıklayan bazı işaretlerin ilgili yerlere önceden konulması gerekmektedir. Genel olarak buna metnin açımlanması (annotation) deniyor.İngilizce’de tagging de denen bu işleme Türkçe yaygın olarak kullanılan bir terim henüz bulunmamaktadır, Etiketleme, yaftalama gibi karşılıklar kullanılmıştır. Adlık koyma, isimlik koyma gibi sözler de akla geliyor. Burada ad-bağlama demeyi tercih ettik.
Açımlama çeşitli konularda olabiliyor.
  • Sözcük Türünü Saptama (STS) (Part of Speech tagging(POS) )
  • Kökleme (Lemmatisation)
  • Ayrıştırma (Limeleme,) ( Parsing)
  • Anlambilim açımlaması (Semantics)
  • Söylemsel açımlama (Discoursal annotation )
  • Sesçil yazım (Phonetic transcription)
  • Tonlama (prosody)
  • Soruna yönelik açımlama
Bu işlemlerin otomatik olarak yapılması için çeşitli yazılımlar geliştirilmiştir. Bunlardan ilk üç konu ile ilgili olanların daha sık kullanıldığını, yada başka bir deyişle, sözcük türünün saptanması, kökleme ve ayrıştırma ile açımlamaları konu alan yazılımlardan daha başarılı sonuçlar alındığını söyleyebiliriz.

Sözcük Türünü Saptama

Bu yazılımların geliştirilmesinin arkasında çok geniş ve derin kuramsal çalışmalar bulunmaktadır. Bu kuramsal çalışmalar açımlama için çeşitli yaklaşımlar ortaya konulmasına neden olmuştur. Aşağıdaki şema arka plandaki bu kuramsal incelemeler hakkında bir fikir verebilir.
Derlemdeki her bir sözlüksel birimin Sözcük Türünü belirlenip işaretlemesi olan STS derlem açımlamasında başta gelmektedir . Sözcük türünün işaretlenmesi,
  • daha sonra yapılacak biçim çözümlemelerinin kolaylaştırılması,
  • Derlemde uygulanacak bul -getir işleminden daha uygun sonuçlar alınması,
  • Adaş sözcüklerin ayrılması
  • Sözlük hazırlanmasında sözcük listelerinin oluşturulması
gibi işlemler için gerekli olmaktadır.
Sözcük türü saptama yazılımlarının hemen hemen ilki olan TAGGIT adlı yazılım 1971 yılında Green ve Rubin tarafından geliştirlmiştir. Açımlanacak metnin önceden belirlenmiş 86 adet ad-bağı (isimlik=tag) dikkate alınarak işaretlenmesini sağlamaktadır.

‎ Lancaster Üniversitesinde UCREL grubu tarafından geliştirilmiş olan CLAWS adli yazılım . İngiliz Ulusal Derleminin açımlamasında kullanılmış olup hala geliştirilmekte olan bu yazılım çok sık kullanılan bir açımlama yazılımıdır.
CLAWS ile bugün %96-97 oranında doğru sonuç elde edilebilmektedir. Sistemin hata oranı %1,5 ile %3,3 arasında değişmektedir. Yazılımın son sürümü olan CLAWS4 de 132 İsimlik (ad-bağı) içeren bir liste kullanılmaktadır. Lisans karşılığında kamunun yararlanmasına sunulan program için ücretsiz olarak deneme için kullanılabilecek bir web sayfası da bulunmaktadır.

Ayrıştırma

Ayrıştırma (parsing) , metnin biçimbilimsel ve sözdizimsel olarak çözümlenmesi ve buna göre işaretlenmesidir ve ad_bağlamadan sonra en çok uygulanan açımlamadır. Bu şekilde açımlanmış metin ağaca benzer bir yapı oluşturur. Başlıca ad-bağlama ve ayrıştırma açımlamaları aşağıda gösterilmiştir.
  • Amalgam Tagger
  • The AMAZON parser
  • Apple Pie Parser
  • Brill
  • Conexor
  • Dependency Parser of English
  • EngCG Parser
  • EngCG tagger
  • EngCG-2 tagger
  • EngLite parser
  • Ergo Linguistic Technology Parser
  • FDG
  • Georgetown University Natural Language Processing Parser Modularity Demo Link Grammar Parser
  • MBT
  • QTAG Part of speech tagger
  • XRCE
Bu arada Zelal Güngördü ve Kemal Oflazer’in Parsing Turkish using the Lexical Functional Grammar Formalism (1994) isimli çalışmaları zikredilebilir

EK :1 BAŞLICA DERLEMLERİN LİSTESİ

  • The Air Traffic Control Corpus
  • ACL/DCI
  • ATIS (Held by LDC)
  • Bank of English
  • BNC
  • The Brown Corpus
  • CALLFRIEND Collection (LDC)
  • CALLHOME Collection LDC)
  • CCAT Archive.
  • The CHILDES "
  • COLT The.
  • Contemporary Portuguese Corpus
  • CRATER
  • CSLU CSPA.
  • CSR (Held by LDC)
  • English-Norwegian Parallel Corpus
  • English Turkish Aligned Parallel Corpora
  • Corpus of Estonian Written Texts
  • European Corpus Initiative Multilingual Corpus I (ECI/MCI)
  • The Gutenberg Project
  • The Canadian Hansard The Helsinki Corpus of English Texts
  • Hypermedia Corpus of Japanese Conversation
  • The International Corpus of English (ICE)
  • The International Corpus of Learner English (ICLE)
  • Japanese Speech Corpora of Major City Dialects (in Japanese)
  • The Kolhapur Corpus
  • Lampeter Corpus of Early Modern English Tracts.
  • The Lancaster Parsed Corpus
  • The Lancaster/IBM Spoken English Corpus (external link)
  • Text Corpora (external link)
  • Speech Corpora (external link)
  • The LOB Corpus
  • The London-Lund Corpus (LLC)
  • The Market Research Corpus
  • MARSEC: The Machine Readable Spoken English Corpus
  • The Middle English Collection.
  • The Modern English Collection
  • Old English Corpus "...
  • The Oslo Corpus of Bosnian Texts.
  • The PEDANT Project,
  • Penn Treebank (LDC)
  • Regeringsforklaringen
  • The Religious and Sacred Texts Page.
  • LDC)
  • ShATR The
  • Corpus of Spoken Bulgarian.
  • Corpus of Spoken Bulgarian.
  • SPIDRE Corpus - Recorded Telephone Conversations
  • The Susanne Corpus
  • Swedish component of the Parole project
  • TIMIT (English Speech Corpus)
  • TIPSTER Information Retrieval Text Research Collection(LDC)
  • United Nations Parallel Text Corpus
  • Wellington Corpus of Spoken New Zealand English (WSC)
  • Wellington Corpus of Written New Zealand English (WWC)
  • 1 million words, structure parallel to Brown corpus.
  • WHO bilingual documents
  • Aligned texts English-French, English-Spanish