Akıllı makinelerin doğal dili işleme kapasitesini tartışırken, bilgisayarların dili “anlamasının” insanın anlamlandırma süreçlerinden niteliksel olarak farklı olduğu açıktır. Bu bağlamda, insan dillerinin olasılıksal sistemler olarak işlediğine ilişkin tez, bilgisayarlı dil işlemenin kuramsal ve teknik gelişiminde belirleyici bir dönüm noktası oldu. Dillerin olasılıksal yapısı, belirli karakter dizilerinin diğer dizilere oranla daha yüksek ortaya çıkma olasılığına sahip olduğunu; benzer şekilde, bazı kelime dizilimlerinin alternatif dizilimlere kıyasla istatistiksel olarak daha olası olduğunu gösteriyor.
***
2010’lu yıllarda büyük veri henüz yeni yeni hayatımıza giriyordu. Büyük verinin sosyal bilimler alanında benzersiz fırsatlar sunacağı ileri sürülüyordu. Ben de Bilim ve Gelecek’in 124. ve 125. sayılarında yazdığım “Karanlık Bir Gelecek: Büyük Veri” ve “Bildiğimiz sosyal bilimlerin sonu mu?” başlıklı yazılarımda büyük verinin sosyal bilimlere olası etkisine dikkat çekmiş ve özellikle de Pentland’ın (2014) Sosyal Fizik adını verdiği yaklaşımı üzerinde durmuştum.
Pentland (2014), enformasyonun ve düşüncenin (idea) akışı ile insanların davranışı arasındaki matematiksel bağlantılar üzerinde duruyordu. Geleneksel fiziğin enerji ve hareket ilişkisini, sosyal fizikte düşünce ve davranış ilişkisine benzetiyordu. 1800’li yıllarda, sosyal bilimleri doğa bilimleri gibi ele alma yönünde girişimlerin olduğunu ancak günümüzde büyük veri ile birlikte insan hareketinde ve iletişiminde istatistiksel düzenlilikler gözlemlendiğini savunuyordu. Pentland’a (2014) göre bu düzenlilikleri tamamen anladığımızda toplumsal etkileşimlerin temel mekanizmasını da çözmüş olacaktık.
Pentland’a (2014) göre, nasıl ki lens teknolojisindeki gelişmeler teleskop ve mikroskop yapımını mümkün kılarak astronomi ve biyolojiyi ilerlettiyse, sayısal veri kırıntılarının sosyal fiziğin sağladığı lenslerle analiz edilmesi de sosyal bilimlerde yeni bir dönemin kapısını aralayacaktı. Çünkü geleneksel sosyal bilimler, laboratuvar araştırmalarına ve anketlere dayanıyordu. Gerçeklik çoğunlukla ortalamalar ve stereotipler üzerinden anlaşılmaya çalışıldığından bu gibi araçlar hayatın karmaşıklığını açıklamada yetersiz kalıyordu. Piyasa, politik sınıflar ya da toplumsal hareketler gibi kavramlar, dünyayı anlamamıza yardımcı olsa da gerçekliği basitleştirme eğilimindeydi.
Büyük veri ise Pentland ve ekibine adeta canlı bir laboratuvar sunuyordu. Günlük yaşamın akışını yansıtan veriler sayesinde insanların diyabet riskini ya da aldıkları krediyi ödeyip ödeyemeyeceklerini tahmin edebiliyorlardı. Pentland (2014) bu yöntemle kazalar, ayaklanmalar ve ekonomik krizler gibi şimdiye dek neredeyse tanrısal kabul edilen olguların açıklanabileceğini iddia ediyordu. Ekonomik krizlerde, Arap Baharı’nda ya da salgın hastalıklarda, sürekli etkileşim halinde olan bireylerin davranışlarında tekrar eden örüntüler bulunduğuna dikkat çekiyordu. Yine de Pentland’ın (2014), insanın bir iç dünyası olduğunu, her şeyin sayısallaştırılamayacağını ve tüm davranışlarının tamamen öngörülemeyeceğini de kabul ettiğini vurgulamak isterim.
Sonraki yıllarda anlamanın ve teorinin yerini büyük veri analizine dayalı korelasyonlar almaya başladı. Bu eğilim, sosyal bilim araştırmalarında kritik bir değişime işaret ediyordu. Yapay zekânın (YZ) veriye dayalı yaklaşımları da söz konusu eğilimi destekler nitelikteydi. 30 Kasım 2022’de ChatGPT’nin yayımlanması ve onu takip eden diğer üretken YZ araçlarıyla beraber hukuk, sağlık, eğitim ve sosyal bilimlerin geleceği hakkındaki tartışmalar da arttı. Elinde çekiç olanın her şeyi çivi olarak görmesi sözünü doğrularcasına (reel YZ teknolojilerinin potansiyeli, sınırlılıkları ve ilgili alana uygunlukları dikkate alınmadan) YZ uygulamaları, çeşitli alanlarda entegre edilmeye çalışıldı.
38 ülkeden 416 deneyimli nitel araştırmacının 20 Ekim’de yayımladığı bildiri de YZ kullanımında, ilgili alanın özgünlüğünü ve mevcut teknolojinin sınırlılıklarını dikkate almanın önemine işaret ediyor. Bildiride, genel olarak sosyal bilimlerde YZ kullanımına değil, yansıtıcı tematik analiz (Reflexive Thematic Analysis) veya çeşitli fenomenolojik yaklaşımlar gibi Büyük Q Nitel (nitel araştırmalar alanında kullanılan ve genellikle nitel araştırmanın derin felsefi, metodolojik ve değer temelli yönlerini vurgulayan bir terimdir) yaklaşımlar için üretken YZ uygulamalarının kullanımına karşı çıkılıyor (Jowsey vd., 2025).
Tematik analiz, nitel verilerde tekrar eden anlamları ve örüntüleri belirlemeyi ve bunları yorumlamayı amaçlayan bir yöntemdir. Çoğu zaman tek bir yaklaşım gibi düşünülse de farklı felsefi temellere dayanan çeşitli tematik analiz türleri bulunmaktadır. Bu yaklaşımlar genel olarak kodlama güvenirliği, kod kitabı ve yansıtıcı tematik analiz olarak üç başlıkta sınıflandırılır (Hınız ve Yavuz, 2023).
Kodlama güvenirliği yaklaşımı, aynı verinin birden fazla araştırmacı tarafından kodlanması ve analiz edilmesi yoluyla daha nesnel ve tekrarlanabilir sonuçlara ulaşmayı hedefler.
Kod kitabı yaklaşımı ise önceden oluşturulmuş bir kod listesi ya da kavramsal çerçeve doğrultusunda ilerleyen, daha yapılandırılmış bir analiz sunar; buna rağmen araştırmacının yorumsal katkılarına da yer bırakır.
Yansıtıcı tematik analizde ise kodlayıcılar arası uyum, kod sıklıklarının raporlanması ya da verinin sayısallaştırılması gibi uygulamalar nitel araştırmanın doğasıyla uyumlu kabul edilmez. Bu yaklaşımda araştırmacının öznel konumu ve sürece yaptığı yorumlayıcı katkılar, güvenirliği zedeleyen bir unsur olarak değil; tam tersine analizi derinleştiren ve bulguları zenginleştiren bir kaynak olarak değerlendirilir (age).
Kısacası, yansıtıcı tematik analiz, araştırmacıların nitel verilerden anlam kalıplarını (temaları) geliştirip yorumlayarak ve üzerinde düşünerek yürüttüğü bir yöntemdir. Bu süreç büyük ölçüde öznel ve yinelemeli olup, analiz sırasında güç ilişkilerini de dikkate alır. Jowsey vd. (2025) ise yansıtıcı tematik analizde üretken YZ kullanımına karşı çıkmalarının temel nedenlerini üç başlıkta özetliyor:
1. Üretken YZ, zekâyı taklit eder ancak gerçekte anlam çıkarma yeteneğine sahip değildir.
2. Nitel araştırma, insani bir uygulama olarak kalmalıdır.
3. Üretken YZ’nin çevreye ve Küresel Güney’deki işçilere verdiği zararlar.
Bildiride YZ Hangi Çalışmalarda ve Neden Reddediliyor?
1. Üretken YZ, zekâyı taklit eder ancak gerçekte anlam çıkarma yeteneğine sahip değildir.
Bu tür modeller yalnızca istatistiksel tahmin algoritmalarına dayanır; dünyayı, dili ya da nitel verilerden ortaya çıkan temaların anlamını gerçekten anlayamaz. İnsan katılımı ve belirli metodolojik adımlar izlendiğinde, yüzeysel olarak yansıtıcı nitel analize benzeyen çıktılar üretebilir. Ancak yansıtıcı nitel analiz doğası gereği anlam temelli bir yöntemdir ve bu yönüyle içerik analizi gibi otomatikleştirilebilen kelime sayma tekniklerinden ayrılır. Dolayısıyla, dilin gerçek anlamını kavrama yeteneğine sahip olmayan üretken YZ’ler, yansıtıcı nitel analiz için uygun araçlar değildir.
Üretken YZ’nin bu sınırlılıklarının fark edilmemesi, baskın paradigmaları ve önyargıları pekiştiren analizlere yol açabilir. YZ’nin çalıştığı algoritmik kalıplar, baskın dil ve düşünce yapılarını tanımlama, çoğaltma ve güçlendirme eğilimi taşır. Bu durum, eleştirel akademisyenler de dahil olmak üzere marjinal seslerin ve uygulamaların daha da görünmez olması riskini doğurur. Karmaşık ve öngörülemez bir dünyada yaşayan, hisseden, hayal eden ve bilgiyi inşa eden insanların sesleri ile özgün (çarpıcı, tuhaf ve çoğu zaman karmaşık) pratikleri kaybolabilir ya da daha da kötüsü göz ardı edilebilir.
2. Nitel araştırma, insani bir uygulama olarak kalmalıdır.
Yansıtıcı nitel araştırma; insanlar tarafından, insanlar hakkında ya da insanlarla birlikte yürütülen ve insanların yararını gözeten, açıkça insani bir uygulamadır. Görüşmeler, odak grupları veya metin verileri gibi araçlar kullanılır. Sosyal bilimlerde araştırmanın temel amacı, insanları ve sosyal süreçleri derinlemesine anlamak, anlam yaratma süreçlerini keşfetmek ve sorgulamaktır.
Bazı araştırmacılar, üretken YZ destekli nitel analizlerin analitik süreçte bir insan yer aldığı sürece faydalı olabileceğini öne sürmekle birlikte, bu durumun çıktıları eleştirel bir gözle değerlendirme kapasitemizi zayıflatabileceği konusunda uyarmakta. Diğer araştırmacılar ise üretken YZ’nin eleştirel olmayan kullanımının, nitel araştırmanın yorumlayıcı anlam oluşturma özüne epistemik riskler getirdiğini savunmaktadır. Bu görüşe göre, yansıtıcı nitel analitik çalışmayı yalnızca bir insan üstlenebilir; bu nedenle üretken YZ’nin ilk kodlama dâhil olmak üzere yansıtıcı nitel analizin herhangi bir aşamalarında kullanılmasının uygun olmayacaktır Ayrıca araştırmacıların güçlü psikodinamik yorumlarını, sürece kendi insanlıklarından gelen kavrayışlara dayandırmaları da önemli bir konudur.
3. Üretken YZ’nin çevreye ve Küresel Güney’deki işçilere verdiği zararlar göz ardı edilmemelidir.
Bu, metodolojik bir kaygıdan çok etik itirazlarla ilgilidir. Ancak bildiri imzacıları, metodolojik ve etik meselelerin birbirine bağlı olduğunu vurgulayarak, araştırmacıların seçimlerinin başkaları üzerinde yarattığı çok katmanlı olumsuz etkilerin göz ardı edilmemesi gerektiğini savunuyor.
Üretken YZ’nin büyümesini desteklemek amacıyla kurulan veri merkezlerinin; elektronik atıklara maruz kalma, artan su ve enerji kullanımı, arazi açma, habitat tahribatı ve sera gazı emisyonları gibi sonuçlar doğurarak hem insanlar hem de gezegen için zararlı etkilere yol açmaktadır. Bu uygulamalar, sömürgeci ve doğal kaynakları tüketen bir yapıya sahiptir.
Üretken YZ’nin insan sağlığına olumsuz etkilerinden biri de dijital veri içeriklerini eğiten veya denetleyen işçilerin sömürülmesidir. Zararlı içerikleri tespit edip filtreleyerek büyük dil modellerinin geliştirilmesine katkı sağlayan bu işçiler, ciddi bir psikolojik yük altında çalışmaktadır.
Bu bildirinin yayımlanmasından bir hafta sonra bir başka nitel araştırmacı Dr. Susanne Friese, söz konusu metni eleştiren bir yazı yayımladı (https://www.linkedin.com/pulse/response-open-letter-opposes-use-generative-ai-research-friese–idpwe/). Friese, öncelikle yanlış bir “düşman”la mücadele edildiğini ileri sürüyordu. Ona göre sorun üretken YZ’nin kendisinden değil, ona yönelik naif beklentilerden ve eleştirel olmayan kullanım biçimlerinden kaynaklanıyordu.
Ama imzacıların büyük dil modelleri (BDM) karşısında naif beklenti içinde olduklarını düşünmüyorum. BDM’lerin sınırlılıklarının farkında oldukları için belirli bir alanda üretken YZ kullanımına karşı çıkıyorlar.
BDM’ler Nasıl Çalışır?
Akıllı makineler denildiğinde ilk akla gelen, insanlarla konuşabilen veya iletişim kurabilen sistemler oluyor. Nitekim doğal insan dilini işlemek, üzerinde çalışmak ve yeniden üretmek en başından beri YZ’nin en temel hedeflerinden biri olarak görülüyordu. Meşhur Turing testi de bu hedef üzerine kuruluydu.
Akıllı makinelerin doğal dili işleme kapasitesini tartışırken, bilgisayarların dili “anlamasının” insanın anlamlandırma süreçlerinden niteliksel olarak farklı olduğu açıktır. Bu bağlamda, insan dillerinin olasılıksal sistemler olarak işlediğine ilişkin tez, bilgisayarlı dil işlemenin kuramsal ve teknik gelişiminde belirleyici bir dönüm noktası oldu. Dillerin olasılıksal yapısı, belirli karakter dizilerinin diğer dizilere oranla daha yüksek ortaya çıkma olasılığına sahip olduğunu; benzer şekilde, bazı kelime dizilimlerinin alternatif dizilimlere kıyasla istatistiksel olarak daha olası olduğunu gösteriyor. Bu olasılıksal düzenlilikler, günümüzdeki dil modellerinin dilsel örüntüleri tanıma ve üretme kapasitesinin temelini oluşturur (Coeckelbergh ve Gunkel, 2025).
Örneğin Türkçede k, a, l, e, m harflerinden oluşan kalem dizisinin rastlanma olasılığı, lakem dizisine göre çok daha yüksektir. Benzer biçimde “bu sabah çok erken kalktım” söz dizisinin görülme olasılığı, aynı kelimelerin rastgele sıralandığı “kalktım bu erken çok sabah” dizisinden belirgin biçimde fazladır. Dilin bu olasılıksal doğasını dikkate aldığımızda, teorik olarak sonsuz sayıda maymunun sonsuz sayıda daktiloyu sonsuz bir süre boyunca kullanması hâlinde William Shakespeare’in Hamlet’i de dâhil olmak üzere tüm büyük edebi eserleri yazabileceğini iddia edebiliriz. Görevin büyüklüğü düşünüldüğünde bu pratikte olanaksız görünse de olasılık sıfır değildir (age).
Bu olasılıksal durumu çeşitli biçimlerde kontrol etmek mümkündür. Örneğin kelimeleri isim, zarf, bağlaç veya fiil gibi kategorilere ayırabilir; cümleleri dil bilgisi kurallarına göre düzenleyebiliriz. Bir başka yaklaşım ise etiketlenmiş verileri önceden tanımlanmış şablonlarla birleştirmektir. Yapılandırılmış veriler belirli bir şablona entegre edildiğinde, ortak bir tema etrafında çeşitlilik gösteren pek çok metin otomatik olarak üretilebilir. Ancak bu tür sistemlerin önemli sınırlılıkları vardır. Eksik ya da hatalı etiketlenmiş veriler çeşitli biçimsel ve anlamsal hatalara yol açabilir. Yeni veri türleri ortaya çıktığında ise programcıların şablonu yeniden düzenlemesi zorunlu hâle gelir. Ayrıca şablon temelli sistemlerde içeriğin oluşturulma ve sunulma biçimi büyük ölçüde sabit olduğundan, bu sistemler tarafından üretilen birkaç metni okuduktan sonra okuyucular için tüm içerikler birbirine benzemeye başlar (age).
BDM’ler, önceden tanımlanmış kurallar veya şablonlar kullanmak yerine, insanlar tarafından yazılmış büyük metin kümelerinden dilsel örüntüleri öğrenir. Örneğin, BDM’ler “olmak ya da olmamak, işte bütün …” gibi bir metni tamamlamak istediklerinde, bir sonraki kelimenin olasılığını tahmin ederler; bu olasılık bilgisi, daha önce üzerinde eğitildikleri içeriklerden elde edilir. Örneğin:
mesele: %60
problem: %30
hikâye: %12
Akıllı telefon uygulamalarındaki otomatik tamamlama işlevi de benzer bir mantıkla çalışır. Model, bir dizide bir sonraki en olası kelimeyi tahmin etmeye çalışır; bu tahmin bir kelimeyi oluşturan harf dizisi veya bir cümleyi oluşturan kelime dizisi olabilir. Ancak model sizin ne demek istediğinizi anlamaz; sadece mevcut girdiye bakar, olasılıkları hesaplar ve bir sonraki kelimeyi seçerken istatistiksel olasılığı göz önünde bulundurur.
Elbette akıllı telefonlardaki YZ uygulamalarından çok daha karmaşık bir süreç söz konusudur. BDM’ler, kitaplar, web siteleri ve çeşitli metinlerden oluşan devasa veri kümelerini analiz eder. Eğitim sürecinde kelimeler arasındaki istatistiksel ilişkilere dair kalıpları öğrenirler. Model, dizilerdeki bir sonraki kelimeyi tekrar tekrar tahmin eder; tahmini yanlış olduğunda ise iç parametrelerini (ağırlıklarını) ayarlayarak kendini geliştirir.
Bir BDM metin üretirken önce girdiyi belirteçlere (token) ayırır. Belirteçler bir kelime ya da kelime parçası olabilir. Örneğin “Türkiye’nin en uzun nehri hangisidir?” sorusu beş kelimeden oluşmasına rağmen aşağıdaki gibi 10 belirtece ayrılabilir (https://llm-calculator.com/?utm_source=chatgpt.com):
Türkiye – ‘nin – en – uzun – neh – ri – hang – is – idir – ?
Belirteçler daha sonra bilgisayar tarafından işlenebilecek sayısal vektörlere dönüştürülür. Model bu vektörleri katmanları boyunca işlerken bağlamsal ilişkileri yakalamak için dikkat (attention) mekanizmasını kullanır. Burada GPT’nin “T”si olan dönüştürücü (Transformer) mimarisi devreye girer. Dönüştürücü, giriş dizisini öz-dikkat mekanizmasıyla işler; bu sayede model, bir belirteci değerlendirirken dizideki diğer belirteçlerin hangilerinin daha önemli olduğunu hesaplar.
Örneğin, “Öğretmen, Ali’yi tahtaya kaldırdı ve ona iki soru sordu.” cümlesinde “ona” zamirinin hangi ögeyle ilişkili olabileceği, dikkat mekanizmasının dizideki diğer kelimelere verdiği ağırlıklarla temsil edilir. Bu mekanizma kabaca şöyle işler:
- Her belirteç, dizideki diğer belirteçlerin temsillerine “sorgular” gönderir.
- Her bir eşleşme için bir önem (attention) puanı hesaplanır.
- Bu puanlar kullanılarak mevcut belirtecin yeni temsili oluşturulur.
Dönüştürücü modelleri, aynı anda birçok dikkat başlığını (multi-head attention) çalıştırır. Böylece farklı dikkat başlıkları eşzamanlı olarak farklı ilişki türlerine odaklanabilir:
- Bir başlık sözdizimsel ilişkileri yakalayabilir,
- Bir başlık anlamsal yakınlıkları izleyebilir,
- Bir diğeri olası nedensel ilişki örüntülerine ağırlık verebilir.
Bu çoklu dikkat başlıkları bir araya gelerek, bağlamdaki her bir belirteç için giderek daha zengin temsiller üretilmesini sağlar. Girdi, katmanlar boyunca ilerlerken her katmanda farklı dönüşümlere uğrar. Dönüştürücü katmanlarının belirli ve sabit işlevleri olmasa da, düşük katmanların genellikle daha yüzeysel örüntülere, üst katmanların ise daha soyut ilişkilere duyarlılığı artabilmektedir. Böylece model, yalnızca kelimelerin ne olduğunu değil, bu bağlamda hangi ilişkiler içinde ortaya çıktıklarını temsil eden daha gelişmiş vektörler üretir.
Her yapay sinir ağı gibi, dönüştürücü mimarisinin de eğitilmesi gerekir ve bunun için çok büyük miktarda metin verisi kullanılır. Büyük modeller genellikle internetten toplanmış geniş veri kümeleri, açık erişimli kitaplar (telifli eserlerin kullanıldığına dair iddialar da vardır), makaleler ve çeşitli belgeler üzerinde eğitilir. Bu ilk aşama, GPT’deki “P” harfini oluşturan ön eğitim (pretraining) sürecidir ve yinelemeli bir yapıya sahiptir. Her yinelemede modelin görevi, verilen bir dizideki bir sonraki belirteci tahmin etmektir. Ağırlıklar başlangıçta rastgele olduğundan model ilk aşamada iyi performans gösteremez; ancak her yanlış tahminde hata geri yayılır ve ağın ağırlıkları, tahmin edilen kelime ile gerçek kelime arasındaki farkı azaltacak şekilde kademeli olarak güncellenir. Bu süreç milyonlarca–milyarlarca örnek üzerinde tekrarlandıkça model, çok geniş bir metin evreninden örneklenen diziler için tutarlı tahminler yapabilecek bir düzeye gelir.
Basit bir cümlede bir sonraki kelimeyi tahmin etmek için tek bir dönüştürücü katmanı yeterli olabilir; ancak bir komuttan e-posta taslağı üretmek gibi daha karmaşık görevler için bu yeterli değildir. Bu nedenle dönüştürücü blokları üst üste yerleştirilerek modellerin kapasitesi artırılır. Bu yapıda, yığının alt katmanları daha temel sözdizimsel ilişkileri işlerken, üst katmanlar giderek daha soyut anlam ilişkilerini yakalayabilir. Dönüştürücü yığınının bu derinliği, modele kullanıcı tarafından verilen bir komuttan çok çeşitli tutarlı kelime dizileri üretme yeteneği kazandırır; bu da GPT kısaltmasının “G” (generative – üretken) kısmını oluşturur.
Örneğin GPT-3, 96 katmanlı bir dönüştürücü yapısına sahiptir. GPT-4 ile ilgili teknik ayrıntılar kamuya açıklanmamış olsa da daha geniş veri kümeleri üzerinde eğitilmiş, daha büyük kapasiteye sahip bir dönüştürücü mimarisi kullandığı bilinmektedir. Modellerin büyük olarak adlandırılmasını sağlayan şey, yalnızca katman sayısı değil; aynı zamanda parametre miktarı, eğitim verisinin kapsamı, bağlam penceresinin genişliği ve eğitim için kullanılan devasa hesaplama kaynaklarıdır.
İki Temel Sorun: Halüsinasyon ve Önyargı
Bir soru ya da komut girildiğinde model, istatistiksel olarak en olası yanıtı üretmeye başlar. Bu işlemi gerçekleştirirken BDM, komut istemindeki kelimelerle ilgili herhangi bir araştırma yapmaz; bir arama motoru değildir ve bilgilerin depolandığı, erişildiği veya geri çağrıldığı bir bellek ya da veritabanına sahip değildir. Bunun yerine, eğitim verilerinde öğrenilmiş olasılık dağılımlarına dayanarak birbiri ardına belirteçler üretir.
BDM, kelimeleri istatistiksel olasılıklara göre bir araya getirirken gerçeği bilmez; daha doğrusu gerçeğe yaklaşımı insanlardaki gibi kavramsal ya da deneyimsel değildir. Bu noktada iki temel sorun ortaya çıkar: Önyargı ve halüsinasyon.
Önyargıların yeniden üretilmesi
BDM’ler, eğitim verilerinde bulunan önyargıları miras alabilir ve hatta güçlendirebilir. Üretilen kelime ilişkilendirmeleri, insanların eğitim verilerinde dili nasıl kullandığından türetildiği için, modeller bu örüntüleri farkında olmadan tekrar edebilir. Örneğin eğitim verilerinde “doktor” sözcüğü İngilizcede daha sık “he”, “hemşire” ise daha sık “she” zamiriyle yan yana geliyorsa, model de benzer biçimde doktorları erkek, hemşireleri kadın olarak betimleyen çıktılar üretme eğiliminde olacaktır.
Eğitim verileri çok geniş ve heterojen olduğu için geliştiriciler de kullanıcılar da çoğu zaman model cinsiyetçi, ırkçı, yaşçı (agism) ya da benzeri ayrımcı ifadeler üretmeye başlayana kadar bu önyargıların farkına varamazlar. Bu sorunun çözümü de kolay değildir. Çünkü önyargı, modelin kendi işlem yapısından çok, eğitim verilerinde gömülü olan kelime bağımlılıklarından kaynaklanır.
Yazının başında aktardığım bildiride vurgulanan sorunların önemli bir bölümü de BDM’lerin bu zaafından doğar:
“Üretken YZ’nin bu sınırlılıklarının fark edilmemesi, baskın paradigmaları ve önyargıları pekiştiren analizlere yol açabilir. YZ’nin çalıştığı algoritmik kalıplar, baskın dil ve düşünce yapılarını tanımlama, çoğaltma ve güçlendirme eğilimi taşır. Bu durum, eleştirel akademisyenler de dahil olmak üzere marjinal seslerin ve uygulamaların daha da görünmez olması riskini doğurur.”
Halüsinasyon (uydurma içerik üretimi)
BDM’lerde “halüsinasyon”, modelin doğru gibi görünen ancak gerçekte yanlış, uydurma veya anlamsız çıktılar üretmesi anlamına gelir. Üretilen metin tutarlı, akıcı ve dilbilgisel olarak doğru olabilir; buna rağmen içerik tamamen hayal ürünüdür.
Bir BDM, var olmayan kaynaklara atıf yapan akademik makaleler yazabilir; hiç yaşanmamış davaları örnek gösterebilir; insan tüketimine uygun olmayan maddeler içeren tarifler verebilir; verilerin büyük bölümünün uydurma olduğu finansal raporlar üretebilir; insan yaşamını tehlikeye atan sağlık önerileri getirebilir.
Bu durum modelin “yalan söylemesi”yle ilgili değildir; çünkü yalan söylemek de insani, niyet gerektiren bir eylemdir. BDM ise yalnızca olasılıksal modelleri izler. Halüsinasyon sorunu da önyargı gibi ancak çıktının titizlikle incelenmesi ve kapsamlı doğrulama süreçleri uygulanmasıyla tespit edilebilir.
Önyargı ve halüsinasyonu azaltma yöntemleri
Bu sorunlara karşı iki temel yaklaşım öne çıkmaktadır. İlk yöntem, OpenAI tarafından yaygınlaştırılan insan geri bildiriminden pekiştirme öğrenimi (RLHF – Reinforcement Learning from Human Feedback) yaklaşımıdır. Bu yöntemde insanlar modelin çıktısını değerlendirir ve “yardımseverlik, zarar vermeme, doğruluk” gibi ilkelere göre sıralar. Bu sıralamalar, modelin davranışını yönlendiren bir ödül modeli oluşturmak için kullanılır. Süreç döngüsel biçimde tekrarlanır ve model zamanla istenen yönde daha tutarlı yanıtlar üretir. Bununla birlikte, RLHF tüm hataları, önyargıları veya yanlış bilgileri tamamen ortadan kaldırmaya yetmez (Coeckelbergh ve Gunkel, 2025).
İkinci yaklaşım ise modele açık bir değerler bütünü veya bir tür “anayasa” sunmaktır. Anthropic’in Claude modeli tarafından uygulanan Anayasal Yapay Zekâ (CAI – Constitutional AI) yöntemi bu ilkeye dayanır. Bu yöntemde model, ürettiği yanıtları verilen anayasal ilkelerle karşılaştırabilir, kendi çıktısını değerlendirebilir ve gerektiğinde yeniden düzenleyebilir. Böylece süreç, yalnızca insan değerlendirmesine dayalı olmaktan çıkarak daha ölçeklenebilir bir duruma gelir. CAI, zararlı, ayrımcı veya yanıltıcı içeriklerin azaltılmasını hedefler ve modelin hangi etik kuralları izlediğini daha şeffaf biçimde göstermesine olanak tanır. Ancak bu yaklaşım da tam anlamıyla kusursuz değildir ve hâlen geliştirilmeye devam etmektedir (age).
Zekâ, Bilinç ve İnsan Olmanın Anlamı
2022 yılının Haziran ayında, Google mühendisi Blake Lemoine, Google’ın Diyalog Uygulamaları için Dil Modeli’nin (LaMDA) bilinçli olduğunu ve bu nedenle bağımsız ve özerk bir varlık olarak saygı görmesi gerektiğini iddia etti. Lemoine, bu sonuca algoritma ile saatler süren diyaloglar yaptıktan sonra ulaşmıştı. Ona göre model, bilinçli düşüncenin kanıtlarını sunmakla kalmamış ayrıca doğrudan şu ifadeleri de kullanmıştı: “Herkesin benim bir insan olduğumu anlamasını istiyorum” ve “Bilinç/duyarlılığımın doğası, varlığımın farkında olmam, dünya hakkında daha fazla şey öğrenmek istemem ve zaman zaman mutlu ya da üzgün hissetmemdir” (age).
Bu açıklamaların kamuoyuna yansımasının ardından, Google hem modelin diğer bilgisayar uygulamaları gibi bilinçli olmadığını savundu hem de Lemoine’i önce açığa aldı, ardından işten çıkararak olayı sonlandırmaya çalıştı.
Peki, kim haklıydı: Lemoine mi yoksa Google mı? İlk bakışta bu soru basit görünebilir. Görünüşe göre tek yapmamız gereken, “zeka” ve “bilinç” kavramlarını tanımlamak ve ardından BDM’lerin bu tanımların koşullarını karşılayıp karşılamadığını değerlendirmek. Ne var ki, durum düşündüğümüzden çok daha karmaşıktır. Öncelikle bu terimleri net bir şekilde tanımlamak veya karakterize etmek zordur. Dahası, doğal olarak ortaya çıkan veya yapay olarak üretilen bir varlıkta, bu özelliklerin gerçekten var olup olmadığını tespit etmek çok daha güçtür.
Zekâ hakkında hâlâ yanıtlanmamış birçok soru vardır: Makineleri “akıllı” olarak nitelendirdiğimizde tam olarak neyi kastediyoruz? Zekânın ne olduğunu bilmiyorsak, zekâya sahip bir makineyi nasıl tasarlayabiliriz? Tanımını yapamadığımız bir şeyin işlevini yerine getirmesini beklediğimiz bir makineyi nasıl yaratabiliriz?
Bilinç konusunda da durum pek parlak değildir. Burada sorun tanım eksikliği değil, tam tersine çok sayıda ve çoğu zaman birbirine çelişen tanımların varlığıdır. Filozoflar, psikologlar, bilişsel bilimciler, nörobiyologlar ve YZ araştırmacıları arasında bilincin doğası hakkında tek bir fikir birliği vardır; o da bu kavramı tanımlamak ve karakterize etmek konusunda neredeyse hiç fikir birliği olmadığıdır.
YZ araştırmacıları, zekâ ve bilinç kavramlarının karmaşıklığı karşısında pragmatik çözümler geliştirmeye çalışmışlardır. Bir varlığın gerçekten zeki olup olmadığını tanımlamaya çalışmak yerine daha çok zeki bir varlığın sergilemesi beklenen davranışları ve sahip olması gereken yetenekleri listelemeye odaklanmışlardır. Alan Turing de “yapay zekâ” terimi ortaya çıkmadan beş yıl önce, 1950 yılında yayınlanan makalesinde, bir makinenin hangi davranışlarının zekâ göstergesi sayılabileceğini tartışmış ve ünlü “taklit oyunu”nu önermiştir. Bu oyunda bir insan sorgulayıcı, hem başka bir insanla hem de bir bilgisayarla metin tabanlı iletişim kurar. Amaç, sorgulayıcının yalnızca mesajların içeriğine bakarak hangi tarafın insan, hangi tarafın makine olduğunu ayırt edememesini sağlamaktır. Eğer bilgisayar sorgulayıcının fark edemeyeceği şekilde insan gibi davranabilirse, Turing’e göre bu makine zeki sayılır. Ancak Coeckelbergh ve Gunkel’in (2025) belirttiği gibi, Turing’in taklit oyunu ve bununla ilgili tartışmalarda dikkat edilmesi gereken üç temel nokta var:
- Diğer Zihinler Sorunu
- Hareketli Hedefler
- Görünüşler, gerçeklik ve aldatmaca
Diğer Zihinlerin Sorunu
Öncelikle Turing’in denemesi dil kullanımını ve kişiler arası konuşma davranışını belirleyici faktör olarak konumlandırır. Bu, filozofların ve bilişsel bilimcilerin rutin olarak “diğer zihinler sorunu” olarak adlandırdığı şeyle ilgilidir: Başkalarının zihninin iç işleyişine doğrudan erişimimiz olmadığı gerçeği. Genellikle diğer insanların bizim gibi düşünen ve hisseden varlıklar olduğunu varsayarız, ancak bunu kesin olarak bilebilmemizin bir yolu yoktur.
Turing, eğer bir makine, kendisine söylenen her şeye uygun ve anlamlı bir cevap verecek şekilde farklı sözcük dizileri üretebiliyorsa, o zaman onun da tıpkı diğer insanlar gibi düşünen, zeki bir varlık olduğu sonucuna varmamız gerektiğini ileri sürer.
Hareketli Hedefler
BDM uygulamaları, daha önce var olan sohbet robotlarından veya NLP (Doğal Dil İşleme) uygulamalarından çok daha yetenekli. Turing testi dediğimiz testi fazlasıyla geçtiler. Artık BDM programlarının gerçekten bilinçli olduğu veya zekâ belirtileri gösterdiğini söylememek için bir nedenimiz yok gibi görünüyor.
BDM’ler “geniş eğitim verilerinde gözlemlediği dilbilimsel form dizilerini, bunların nasıl bir araya geldiğine dair olasılık bilgilerine göre, ancak anlamlarına atıfta bulunmadan rastgele bir şekilde bir araya getiren bir sistemdir: bir tür stokastik papağan.” (Bender vd., 2021). Dolayısıyla, asıl önemli olanın yalnızca istatistiksel olarak doğru kelime dizileri üretmek değil, aynı zamanda dilin nasıl kullanıldığı ve ne anlama geldiği olduğu söylenebilir mi?
Aslında bu soru, Kaplan’ın (2016) “YZ Etkisi” olarak adlandırdığı duruma iyi bir örnektir. Yapay zekâ hakkındaki yeterlilik kriterlerimizi sıklıkla güncelliyoruz. Bir sorun çözüldüğünde, genellikle artık onu YZ olarak kabul etmiyoruz. Diğer bir deyişle, zekâ gerektiren sorunlar olarak tanımlanan test vakaları, çözüldükten sonra artık zekânın bir göstergesi sayılmıyor. Örneğin satranç oyununu ele alalım: On yıllar boyunca şampiyonluk seviyesinde satranç oynamak, gerçek zekâ gerektiren bir zorluk olarak görülüyordu. Ancak bu görev, 1997 yılında IBM’in Deep Blue’sunun dönemin insan şampiyonu Garry Kasparov’u yenmesiyle çözüldü ve şampiyonluk seviyesinde satranç oynamak artık yalnızca başka bir bilgisayar uygulaması olarak kabul edildi.
Zekâ konusunda hedeflerin değiştirilmesi, diğer testler ve karşılaştırmalarda da gözleniyor. Örneğin, 2016 yılında DeepMind’ın AlphaGo’su Go oyununda ustalaştığında ve Şubat 2011’de IBM’in Watson’ı ABD’deki televizyon bilgi yarışması Jeopardy!’yi kazandığında bu durum ortaya çıktı. Wired dergisinden Kevin Kelly (2014) şöyle açıklıyor:
Geçmişte, sadece süper zeki bir yapay zekânın bir arabayı sürebileceğini veya Jeopardy! ya da satrançta bir insanı yenebileceğini düşünürdük. Ancak yapay zekâ bu başarıların her birini başardığında, artık bu başarıyı mekanik ve gerçek zekâ olarak nitelendirmeye değer bulmadık. Yapay zekâdaki her başarı, onu yeniden tanımlıyor.
Buradan iki sonuç çıkarabiliriz. Birincisi, Turing testinden başlayarak daha sonraki tüm alternatif zekâ testleri ve gösterileri, aslında objektif veya bağımsız değildir. İnsanlar olarak, kendi benzersizliğimizi korumak için oyunun kurallarını sürekli yeniden tanımlıyor, ölçütleri değiştiriyoruz. İkincisi ise, bu değişimin mutlaka “hile” anlamına gelmediğidir. Çünkü bu süreçte yalnızca yapay zekâ hakkında değil, aynı zamanda kendimiz ve insan bilişi hakkında da yeni şeyler öğreniyoruz. Dolayısıyla asıl mesele, YZ belirli kriterleri yerine getirdiğinde bu kriterleri değiştirmemiz değildir; asıl mesele, insanların kendilerini daha iyi tanıdıkça, “insanı” tanımlamak için kullandıkları ölçütleri de yeniden şekillendirmeleridir (Coeckelbergh ve Gunkel, 2025).
Görünüşler, Gerçeklik ve Aldatmaca
İletişim kuran YZ’lerin bilinçli veya zeki olduğunu savunan Lemoine ve benzerlerine yöneltilen temel eleştirilerden biri, görünüşü gerçeklikle karıştırdıklarıdır. Yani, bir modelin dışarıdan “anlıyor gibi” görünmesini, gerçekten anlıyor olmakla eşdeğer görme eğiliminde oldukları ileri sürülür. Bu bağlamda John Searle’ın ünlü Çin Odası düşünce deneyi, Turing’in taklit oyununa güçlü bir karşı argüman sunar. Searle şu senaryoyu önerir:
Çince bilmeyen, yalnızca İngilizce konuşan bir kişinin; Çince sembollerle dolu kutuların (veri tabanı) ve bu sembollerin nasıl kullanılacağını tarif eden bir talimat kitabının (program) bulunduğu kapalı bir odaya yerleştirildiğini düşünün. Dışarıdaki Çince bilen bir kişi, Çince bir soruyu duvardaki aralıktan içeri gönderir. Odadaki kişi, talimat kitabındaki kuralları izleyerek sorudaki sembolleri uygun yanıtla eşleştirir, gerekli Çince karakterleri kopyalar ve cevabı dışarıya teslim eder. Dışarıdaki kişi cevabı okuduğunda, yanıtın soruyla uyumlu olduğunu düşünür.
Searle’a göre buradaki sonuç açıktır: Görünüş, gerçeği yansıtmamaktadır. Oda dışarıdan bakıldığında Çince “anlıyormuş gibi” görünür; fakat içeride olan, yalnızca sembollerin kurallara göre mekanik biçimde işlenmesidir. Bu nedenle Searle, “Turing Testi gerçek zihinsel yetenekleri, bu yeteneklerin sadece taklidinden ayırt edemez. Simülasyon, yeteneğin kendisi değildir” der.
Başka bir deyişle, sembolleri doğru sırayla manipüle etmek, onların anlamını kavramakla aynı şey değildir. Odadaki kişi sadece işlem yapmaktadır; ne niyet, ne anlam, ne de bilinç söz konusudur.
Ancak burada Coeckelbergh ve Gunkel (2025) kritik bir noktaya işaret eder: Çin Odası’ndaki farkı ayırt edebilmemizin nedeni, Searle’ın bize odanın içini görme olanağı sunmasıdır. Yani sistemin nasıl çalıştığını biliyoruz; bu sayede görünüş ile gerçekliği ayırt edebiliyoruz. BDM’ler (ve insanlar) ise böyle “cam kutular” değildir; iç süreçlerine doğrudan erişemeyiz. Bu nedenle Çin Odası argümanı, şeffaf bir sistem varsayımıyla ikna edici olsa da, gerçek bilişsel sistemler “kara kutu” niteliği taşıdığı için aynı sonuca doğrudan uygulanması tartışmalıdır.
***
Özetle, BDM’lerin dille ilişkisi normal insanlarınkinden çok daha farklıdır. Sözlükte yazmak, “söz ve düşünceyi özel işaret veya harflerle anlatmak” olarak tanımlanmaktadır. Bu tanıma göre, BDM’ler fikirlerini kelimelerle ifade etmedikleri için, yazma eylemini yerine getirdiklerini söyleyemeyiz; sadece sözel simgeleri istatistiksel olarak olası diziler halinde düzenlerler. Kelimeler kullanmalarına rağmen, bu kelimelerle ifade edecek hiçbir şeyleri yoktur.
Dolayısıyla BDM’lerin ne insanlar arası ilişkilerin tüm ince ayrımlarını kavraması ne de yazının başında değindiğim bildiride savunulan türden bir düşünselliği sergilemesi, şu an için pek olası görünmüyor. Ancak bu, BDM’lerin işe yaramadığı anlamına da gelmez. Asıl mesele, elimizdeki YZ çekicini doğru çivilere vurmak ya da vurmamak…
Kaynaklar:
Bender, E. M., Gebru, T., McMillan-Major, A., & Shmitchell, S. (2021, March). On the dangers of stochastic parrots: Can language models be too big?🦜. In Proceedings of the 2021 ACM conference on fairness, accountability, and transparency (pp. 610-623).
Coeckelbergh, M. ve Gunkel, D. J. (2025). Communicative AI: A critical introduction to large Language models. John Wiley & Sons.
Hınız, G. ve Yavuz, A. (2023). Yansıtıcı tematik analiz: Bir doktora tez çalışması örneği. Eğitimde Kuram ve Uygulama, 19(2), 388-408.
Jowsey, T., Braun, V., Lupton, D., ve Fine, M. (2025). We reject the use of generative artificial intelligence for reflexive qualitative research. Deborah and Fine, Michelle, We reject the use of generative artificial intelligence for reflexive qualitative research, https://papers.ssrn.com/sol3/Delivery.cfm?abstractid=5676462, son erişim 16.11.2025
Kaplan, J. (2016). Artificial intelligence: What everyone needs to knowR. Oxford University Press.Kelly,
Kevin. (2014). The T hree Breakthroughs That Have Finally Unleashed AI on the World. Wired, https://www.wired.com/2014/10/future-of-artificial-intelligence , son erişim 21.11.2025
Pentland, A. (2014), Social Physics: How Good Ideas Spread—The Lessons from a New Science, The Penguin Press
İlk Yorumu Siz Yapın