TÜBİTAK-SOBAG – 109K516 “Türkiye Türkçesinde Fiillerin Derlem Denetimi ve Derlem Tabanlı Sözlüğü”

Yazar Bülent Özkan Yayınlandı 9 Haziran 2012 0 yorum

TÜBİTAK-SOBAG – 109K516 “Türkiye Türkçesinde Fiillerin Derlem Denetimi ve Derlem Tabanlı Sözlüğü” [Yürütücü]

Proje Özeti

Bugün sözlükbilim (lexicology) uygulamaları gelişen bilişim teknolojilerine koşut olarak daha fazla sözcükbirimi daha hızlı ve güvenilir bir biçimde işleyecek yetkinliğe ulaşmıştır. Bunda sözlükbilimin söz konusu sözcükbirimleri ayrıntılandırmada derlem dilbilimin (corpus linguistics) ilke ve yöntemlerinden yararlanıyor olması önemli bir etkendir. Öyle ki, bugün sözlükbilim ve derlem dilbilim birbiriyle iç içe geçmiş iki ayrı dilbilim dalı durumundadır.

Sözlükbilimin ilke ve yöntemleri açısından Türkiye Türkçesinin Söz Varlığını (TTSV) barındıran sözlükler (bugüne kadar yayınlanmış olan) değerlendirildiğinde bu sözlüklerin; sözlükbirimlerin yazımsallığı, madde başı ve içi açıklamalarda eksikliklerin varlığı, sözlükbirim tanıklarının yetersizliği ve birçok sözlükbirimin sözlükte tanıksız yer alması, sözcük türlerinin etiketlenmesindeki eksiklikler, sözlük malzemesinin gerçek zamanlı olmaması vb. nedenlerle ‘genel amaçlı, ansiklopedik’ sözlükler oldukları görülür.

Bu durumun nedeni Türkçe için henüz nitelikli, kapsamlı ve standartlara uygun bir derlemin oluşturulamamış olmasıdır. Doğal olarak, sözlük çalışmalarımız da derlem tabanlı (corpus based) olmaktan uzaktır. Bu açıdan sözlükbilim çalışmalarımızın derlem tabanlı uygulamaların sonuçlarını esas alan, sözlükbirimlerin ve anlamsal sıklıklarının göz önüne alındığı, gerçek zamanlı, kullanıcı temelli anlayıştan uzak bir çerçevede olduğu gözlemlenmektedir.

Bu çalışmanın amacı, bugüne kadar sözlüklerde derlenen Madde Başı ve İçi Fiilleri (MBİF) nitelikli, kapsamlı ve standartlara uygun olarak hazırlanmış bir derlemden yazımsallıkları, madde başı açıklamaları, tanıkları, sözcük türü olarak etiketleri açısından gerçek zamanlı olarak denetlemek ve sözlük girdilerimizi bu derlemden elde edilen veriler ışığında yeniden düzenlemektir.

Bu projeyle ulaşılması beklenen sonuçlar şöyle sıralanabilir:

MBİF’yi temsil gücü (representativeness) yüksek bir derlemden (corpus) sıklık temelli olarak belirlemek. 2. TTSV’de MBİF’yi yazımsal özellikleri açısından tam olarak belirlemek. 3. MBF’nin madde içi açıklamalarında yer alan eksiklikleri gidermek. 4. MBİF’de var olan sözlük tanıklarının yetersizliklerini gidermek. 5. Sözcük türü olarak MBİF’yi tam olarak etiketlemek. 6. Özel amaçlı sözlük çalışmaları için (dil öğretimi, eşdizimlilik, eş ve yakın anlamlılık, karşıt anlamlılık vb.) gerçek zamanlı sözlükbirimsel malzemeyi bu anlamda derlemek. 7. Morfolojik olarak MBİF’yi gerçek zamanlı olarak derlemek. 8. Tüm bu süreçlerin sonunda ortaya çıkan sözlükbilimsel malzemeyi devam çalışmalarında diğer araştırmacıların kullanımına sanal ortamda sunarak “Türkiye Türkçesinde Fiillerin Derlem Tabanlı Sözlüğü”nü ortaya koymak ve sözlükbilim çalışmalarına bu anlamda katkıda bulunmak.

Proje, temelde derlemin oluşturulması, TTSV’de tanımlı yaklaşık 6.400 MBİF’nin oluşturulan derlemden tüm yönleriyle derlenmesi, elde edilen sonuçların yayımlanması ve çalışmanın sonuçlanması olmak üzere üç aşamadan oluşmaktadır.

Birinci aşamada, Türkiye Türkçenin yazın diline ait çeşitli türlerde metin parçaları [5846 numaralı Fikir ve Sanat Eserleri Kanunu’nun Madde 35 (1-4 Fıkralar), Madde 36, Madde 37.’de belirtilen hükümler çerçevesinde] (http://www.mevzuat.adalet.gov.tr/html/957.html) ile internet ortamından seçtiğimiz toplam 30 milyon ‘söz’lük konu duyarlı bir derlem, amacımıza uygun olarak proje için geliştirilecek yazılımlar aracılığıyla sayısallaştırılacak, bir veri tabanı uygulamasıyla sözlükbirimsel olarak derlenebilir hâle getirilecektir. İkinci aşamada, TTSV’de fiiller söz konusu derlemden denetlenerek derlenecektir. Üçüncü aşama ise elde edilen sonuçlar “Türkiye Türkçesinde Fillerin Derlem Tabanlı Sözlüğü” olarak sanal ortamda yayımlanacaktır.

Project Summary

Lexicography, today, parallel with developing data processing technologies reaches fairly lexeme processing capability. In this situation, corpus linguistics’ principles and methods features contribute important facilities. Such that, corpus linguistics and lexicography nowadays become two independent scientific research areas.

When it was considered about the principles and methods of lexicographic viewpoint, today’s modern Turkish dictionaries (have been published) have some inadequacies such as lemmas are lack of adequate lexicographic evidence, lack of part of speech tagging etc.

A qualified, comprehensive and standard corpus hadn’t been built for Turkish language, is cause of this situation. And naturally, our lexicographic studies also are so far from corpus based principles. In this point, our lexicographic studies are seems far from frame of corpus based, frequency of lexemes and their semantic frequency, real time language data and user based viewpoint.

This project’s object is to checking verbs in Turkey Turkish vocabulary from a qualified, comprehensive and standard corpus as real time and re-build lexemes data of the verbs in Turkey Turkish Vocabulary from this corpus about their notations, headword explanations and witness of lexemes, part of speech tagging from the dictionaries entry that collected Turkey Turkish lexemes.

The anticipated outcomes of this project are as follows:

To define the verbs in Turkey Turkish Vocabulary (TTV) from a representative corpus from the point of frequency based.
To define verbs in TTV from the point of notation features.
To clear headwords explanations verbs in TTV.
To clear witnesses of verbs in dictionary in TTV.
To tag exactly part of speech tagging of verbs.
To define lexicographic data as real time to particular purpose lexicons for special aims (e.g. teaching language dictionary, collocation dictionary, synonym words dictionary, antonym words dictionary, etc.).
To define verbs in TTV as morphological, as real time.
All this process, by using the emergent lexicographic data, “Corpus Based Dictionary Of Turkey Turkish” will be built and also this will be contributed to other lexicographic studies by accessing in online media to other researchers.

Project has mainly three stages:

1- Building corpus.

2- Checking the verbs about 6.400 headwords and inwords in TTV with all points.

3- Concluding and publishing the project results.

In the first stage; a corpus which including about 30 million words were collected from various thematic texts that belong to Turkey Turkish written language and also internet [according to number 5846 Fikir ve Sanat Eserleri Kanunu, Clause 35 (1-4), 36 and 37.] (http://www.mevzuat.adalet.gov.tr/html/957.html) will be digitized with programs which will be developed for this project and it will be become to examine as syntactic and as lexemes by using data management program. In the second stage; the data getting from the corpus will be controlling and compiling. In the third stage; the getting results of the project will be published as “Corpus Based Dictionary of Verbs at Turkey Turkish” by accessing online media.