Yapay Zekânın Politikliği

OpenAI, ChatGPT’den birkaç ay sonra merakla beklenen GPT-4’ü çıkardı. OpenAI, beş yılda önemli bir yol katetti. GPT (Generative Pre-trained Transformer – Üretken Ön İşlemeli Dönüştürücü) ilk olarak 11 Haziran 2018’de yayımlanan “Üretken Ön Eğitimle Dil Anlayışını Geliştirme” başlıklı makalede tanıtılmıştı. O zamana kadar en iyi sinirsel NLP (Natural Language Processing – Doğal Dil İşleme) modelleri öncelikle büyük miktarlarda etiketlenmiş verilerden denetimli öğrenmeyi kullanıyordu. Bu yaklaşım maliyetli olduğu gibi özellikle açıklaması yeterli olmayan veri setlerinde sınırlı bir performans gösteriyordu. GPT’nin “yarı denetimli” yaklaşımı ise iki aşama içeriyordu. Denetimsiz üretken “ön işleme” aşamasında başlangıç parametrelerini ayarlamak için bir dil modelleme hedefi kullanılıyor. İkinci aşamada ise bir denetimli ayrıştırıcı, parametreleri hedeflenen göreve uyarlayarak ince ayar yapıyor. Kamunun kullanımına açılmayan GPT-1, 120 milyon parametreye sahipti. Modelin eğitiminde çeşitli türlerde 7000 yayınlanmamış kitaptan elde edilen 4,5 GB metin kullanılmıştı. 14 Şubat 2019’da çıkarılan GPT-2 ise 1,5 milyar parametreye sahipti ve eğitiminde Reddit’te oylanan 45 milyon web sayfasından, 40 GB metin ve 8 milyon belgeden yararlanılmıştı. 11 Haziran 2020’de çıkarılan GPT-3’te parametre sayısı 175 milyara ulaştı, eğitiminde kullanılan metin miktarı 570 GB oldu (https://en.wikipedia.org/wiki/Generative_pre-trained_transformer).

Microsoft, GPT-3’ü “yurttaş geliştiriciler” olarak adlandırılan ve çok az programlama deneyimi olan veya hiç olmayan kişilerden ileri düzeyde programlama uzmanlığına sahip profesyonel geliştiricilere kadar herkesin iş üretkenliğini artırmak için uygulamalar oluşturmasına yardımcı olan Microsoft Power Apps platformuna entegre etmeye çalıştı. YZ (Yapay Zekâ) destekli bu sistemde ” ‘çocuklar’ adı ile başlayan ürünleri bul” gibi konuşma dilini kullanarak programlama hedefleri tanımlanabiliyor. Böyle girişimler olunca yazılımcılar ister istemez “YZ işimizi elimizden mi alıyor?” diye sormaya başladılar. Microsoft yöneticilerinden Charles Lamanna, amaçlarının kesinlikle geliştiricilerin yerine YZ’yi koymak olmadığını, dünyadaki sonraki 100 milyon geliştiriciyi bulmak olduğunu söyledi (https://news.microsoft.com/source/features/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/). Ayrıca The Guardian, GPT-3’ü YZ’nin insanlara zararının olmadığını savunan bir makale yazdırmak için kullandı. Bazı fikirlerle beslenen GPT-3 sonunda tek bir makalede birleştirilen sekiz farklı makale üretti (https://www.theguardian.com/commentisfree/2020/sep/08/robot-wrote-this-article-gpt-3). GPT-3’ü belirli konularda içerik üretmek dışında kullanmayı deneyenler de oldu. Drexel Üniversitesi’den bir çalışmaya göre GPT-3, Alzheimer hastalığının erken belirtilerini tespit etmede faydalı olabilirdi (https://journals.plos.org/digitalhealth/article?id=10.1371/journal.pdig.0000168).

27 Temmuz 2022’de protein dizilimlerinde kullanılan ProtGPT2 ve 24 Eylül 2022’de de biyomedikalde kullanılan BioGPT çıktı. İnsanlar dört gözle GPT-4’ü beklerken ChatGPT, 30 Kasım 2022’de bir prototip olarak piyasaya sürüldü. ChatGPT, GPT-3’ün iyileştirilmiş bir versiyonu olan GPT-3,5’e dayanıyordu. Zaman zaman saçmalasa da birçok bilgi alanındaki ayrıntılı ve anlaşılır yanıtlarıyla ilgi odağı oldu. ChatGPT o kadar başarılıydı ki okullar ChatGPT ile kopyaya karşı önlem almak zorunda kaldılar. Şubat 2023’te Hong Kong Üniversitesi öğrencilere ve öğretim elemanlarına derslerde, ödevlerde ve değerlendirmelerde ChatGPT veya diğer YZ araçlarının kullanımının yasak olduğunu belirten bir e-posta gönderdi. Öğrenci, dersin öğretim elemanından önceden yazılı izin almadığı takdirde, herhangi bir ihlalin üniversite tarafından intihal olarak değerlendirileceği belirtildi (https://web.archive.org/web/20230219011809/https://www.scmp.com/news/hong-kong/education/article/3210650/university-hong-kong-temporarily-bans-students-using-chatgpt-other-ai-based-tools-coursework). Aralık 2022’de, yazılım geliştiricilerin en çok ziyaret ettiği sitelerden biri olan Stack Overflow, ChatGPT’nin yanıtlarının olgusal olarak belirsiz doğasını gerekçe göstererek, sorulara yanıt oluşturmak için ChatGPT kullanımını yasakladı (https://www.theverge.com/2022/12/5/23493932/chatgpt-ai-generated-answers-temporarily-banned-stack-overflow-llms-dangers).

14 Mart 2023’te, beklenen an geldi ve GPT-4 sahneye çıktı. GPT-4, ChatGPT Plus’a da eklendi. Ama bunun için ayda 20 dolar ödemeniz gerekiyor. Şu anda sınırlı sayıda kullanıcı GPT-4’ü ücretsiz olarak test edebiliyor. OpenAI, “GPT-4’ün GPT-3.5’ten daha güvenilir, yaratıcı ve çok daha incelikli talimatları işleyebildiğini” öne sürüyor. Ancak GPT’nin önceki sürümlerindeki açıklık GPT-4’te yok. OpenAI, GPT-4’ün teknik detayları konusunda kapalı bir yaklaşım benimsedi (https://www.vice.com/en/article/ak3w5a/openais-gpt-4-is-closed-source-and-shrouded-in-secrecy). Model boyutunu, mimariyi, donanımı veya eğitim yöntemini belirtmekten kaçındı. Şirket bu kararında rekabet ortamı ve büyük ölçekli modellerin güvenlik gerekliliklerinin belirleyici olduğunu belirtti. Microsoft, resmi duyurudan önce Bing arama motorunda GPT-4’ten yararlandığını ve Microsoft 365 Copilot ile GPT-4’ü Word, Excel, PowerPoint, Outlook, Teams vb uygulamalara entegre edeceğini duyurdu. Duolingo da “rol yapma” ve “yanıtımı açıkla” özellikleriyle beraber GPT-4’ü uygulamalarına eklediğini duyurdu.

Cade Metz ve Keith Collins’in The New York Times‘ta yayımlanan incelemelerinde GPT-4’ün etkileyici ama hâlâ açıklarının olduğu belirtiliyor (https://archive.is/fL9jH#selection-815.95-815.105). GPT-4, GPT-3,5’ten farklı olarak görüntüleri girdi olarak kabul ediyor. Kullanıcılar, GPT-4’ten görüntüleri tanımlamasını isteyebilirler. Örneğin OpenAI’ın web sitesinde, sisteme un, yumurta, süt ve yağ içeren bir fotoğraf yüklenmiş ve bu malzemelerle ne yapılabileceği sorulmuş. GPT-4, bu malzemelerle pankek, waffle, krep, Fransız tostu, omlet, kurabiye gibi yapabilecek birçok şey olduğu yanıtı vermiş. The New York Times‘ta yayımlanan yazıda test edilen fotoğraf ise daha karmaşık, bir buzdolabının içi. GPT-4 yine dolapta yer alan içeriğe göre yapılabilecekleri listelemiş. Be My Eyes (https://www.bemyeyes.com/), internette karşılaşılan veya gerçek dünyada çekilen görüntüleri açıklayıcı hizmetler sunmak için GPT-4’ü kullandığını yazıyor. GPT-4’ün yanıtları, GPT-3,5’e göre daha tutarlı. Kuzey Carolina Üniversitesi’nden Doçent Doktor Anil Gehi, GPT-4’e bir gün önce gördüğü bir hastanın tıbbi geçmişini ve hastanın hastaneye kaldırıldıktan sonra yaşadığı komplikasyonları açıklamış. Açıklamasında, sıradan insanların bilemeyeceği birkaç tıbbi terim de yer alıyormuş. Nasıl bir tedavi uygulamaları gerektiğini sorduğunda GPT-4 tam da kendi uyguladıkları tedaviyi ifade etmiş. Gehi, başka vakaları denediğinde de benzer şekilde etkileyici yanıtlar almış. İncelemede, her zaman aynı performansın sergilenmesinin pek olası olmadığı, yanıtları değerlendirmek ve tıbbi prosedürleri uygulamak için hala Dr. Gehi gibi uzmanlara ihtiyaç olduğuna dikkat çekiliyor. GPT-4, GPT-3,5’e göre standart testlerde çok daha başarılı. OpenAI, yeni sistemin 41 eyalet ve bölgede avukatların yeterliliğini değerlendiren baro sınavında ilk yüzde 10’da yer alabileceğini, SAT sınavlarında ise 1600 üzerinden 1300 alabileceğini iddia ediyor. Ancak GPT-4, gerçekleşmiş olan şeyler hakkında akıl yürütüyor izlenimi yaratabilse de gelecek hakkında hipotezler oluştururken yaratıcı (!) değil. Gelecek hakkında daha önce söylenenleri tekrarlıyor; yeni bir şey söylemiyor. Örneğin, önümüzdeki on yılda (GTP-4’ün de bir ürünü olduğu) NLP araştırmalarında çözülmesi gereken önemli sorunların neler olduğu sorulduğunda yeni fikirler ortaya atamıyor. Ayrıca etkileyici performansına karşın GPT-4 hâlâ öncelleri gibi “halüsinasyon” olarak adlandırılan sorunu aşabilmiş değil. Doğru ve yanlış hakkında bir anlayışa sahip olmadığı için tamamen yanlış olan metinler uydurabiliyor. En son kanser araştırmalarını anlatan web sitelerinin adresleri sorulduğunda var olmayan internet adresleri verebiliyor.

GPT-4’e Ne Kadar Güvenebiliriz?

Halüsinasyon, Rebooting AI: Building Artificial Intelligence We Can Trust kitabının yazarlarından Gary Marcus’un uzun bir süredir üzerinde durduğu bir konu. Marcus, GPT’nin muhteşem olmasına rağmen 2022 yılındaki makalesinde belirttiği doğruluk ve güvenilirlik sorunlarını aşamadığını savunuyor. GPT’nin robotlara veya bilimsel keşiflere rehberlik etmek için güvenilir bir şekilde kullanılamayacağı konusunda ısrar ediyor (https://garymarcus.substack.com/p/gpt-4s-successes-and-gpt-4s-failures ).

Ancak medya, coşkuyla tam tersini iddia ediyor ve GPT’nin içsel sorunları yeterli ve açık bir şekilde tartışılmıyor. Bunda YZ şirketlerinin ve bazı bilim insanlarının da payı var. Örneğin, 2016’da Toronto’daki YZ konferansında derin öğrenmenin büyükbabası ve zamanımızın en ünlü bilim insanlarından Geoffrey Hinton, radyologluğun sonunun geldiğini öne sürüyordu. Hinton’a göre derin öğrenme, MRI ve BT taramalarından alınan görüntüleri okumak için o kadar uygundu ki radyolog yetiştirmeyi artık bırakmamız gerekiyordu. Derin öğrenme, beş yıl içinde daha iyi sonuçlar verecekti. Günümüzde gelindiğinde ise yapay öğrenmenin (machine learning – makine öğrenmesi) radyolojide kullanımının göründüğü kadar kolay olmadığı ortaya çıktı. Şimdi insanlar ve makinelerin birbirlerinin güçlü yanlarını tamamlayarak çalışmasının daha verimli olacağı görüşü yaygın. En azından şimdilik!

Marcus (2022), insan dilini gerçekten anlayabilen makinelerden hâlâ çok uzak olduğumuzu ve güvenilir bir yapay zeka elde edeceksek derin öğrenmenin inşa etmemiz gereken şeyin yalnızca küçük bir parçası olduğunu düşünüyor. Marcus’a (2022) göre temelde örüntüleri tanımaya yönelik bir teknik olan derin öğrenme, ihtiyacımız olan tek şeyin kabaca hazır sonuçlar olduğu, risklerin düşük olduğu ve mükemmel sonuçların isteğe bağlı olduğu durumlarda kendini en iyi gösteriyor. Örneğin, akıllı telefonunuzdan tavşan fotoğraflarını listelemesini istediğinizde daha önce hiçbir fotoğrafı etiketlememiş olsanız da telefonunuzdaki YZ, tavşan etiketli fotoğraflara yeterince (!) benzeyen tüm fotoğrafları listeleyebilir. Fakat otomatik, derin öğrenme destekli fotoğraf etiketleme hataya açıktır; ışığın yetersiz, fotoğraf açısının ters vb olduğu durumlarda bazı tavşan fotoğraflarını kaçırabilir. Fakat birkaç fotoğrafı kaçırdı diye kimse zarar görmez ve sinirlenip telefonunu fırlatıp atmaz.

Radyoloji veya sürücüsüz araçlarda olduğu gibi riskler daha yüksek olduğunda, derin öğrenmeyi benimseme konusunda çok daha dikkatli olmamız gerekir. Yapılacak tek bir hata, insanın hayatına mal olacaktır. Özellikle, derin öğrenme sistemlerinin üzerinde eğitildikleri şeylerden önemli ölçüde farklı olan “aykırı değerler” ciddi sorunlar yaratabilir. Örneğin Tesla, “tam kendi kendine sürüş modu”nda, yolun ortasında dur işaretini tutan bir kişiyle karşılaştığında ne yapacağını şaşırdı; insan sürücü, aracı devralmak zorunda kaldı. Çünkü Tesla, ne kısmen dur işaretiyle gizlenmiş insanı ne de yol kenarındaki olağan bağlamının dışındaki dur işaretini tanıyabildi!

Derin öğrenme sistemleri günümüzde hiç beklenmedik anlarda aptalca hatalar yapabiliyorlar. Bazen bir insan radyoloğun bir aksaklık olarak değerlendireceği (görüntüdeki kirlilik gibi) durumlar yanlış okunabiliyor. Radyolojide kullanılan YZ sistemleri çoğunlukla veya tamamen görüntülere dayanıyor. Bir hastanın geçmişini tanımlayabilecek tüm metinleri yeterince anlamadığından bazen kritik bilgileri ihmal ediyor. Dolayısıyla radyologlar tamamen devreden çıkarılamıyor. Bir derin öğrenme sistemi, elmanın önünde üzerinde “iPod” yazan bir kağıt parçası olduğu için elmayı yanlış bir şekilde iPod olarak etiketleyebiliyor. Ya da bir başkası, karlı bir yolda devrilmiş bir otobüsü kar küreme makinesi olarak etiketleyebiliyor. Marcus (2022), yapay öğrenmenin bütün bir alt alanının bu gibi hataları incelediğini, ancak henüz net yanıtlara ulaşamadığını belirtiyor.

Günümüzde bu gibi sorunları daha fazla veri toplayarak aşma doğrultusunda bir eğilim var. Daha fazla veri ve giderek daha büyük ölçeklerde derin öğrenme ile YZ’nin daha iyi hale getirebileceği görüşü yaygın. GPT’nin 2018’den bu yana gelişimi de bu eğilimi haklı çıkarıyor gibi. Fakat 2022’de yayımlanan bir makalede Google, GPT-3 benzeri modelleri büyütmenin onları daha akıcı hale getirdiği, ancak daha güvenilir yapmadığı savunuluyor (https://arxiv.org/abs/2201.08239). Marcus (2022) da devasa ölçeklendirmenin şimdiye kadar bir devrime yol açmadığının altını çiziyor. Marcus’a (2022) göre GPT-4, GPT-3 ve 3.5’ten açıkça daha iyi, ama bu fark nitelik değil, nicelikle ilgili. Güvenilirlik sorunu hâlâ devam ediyor.

Ayrıca OpenAI’ın GPT’nin son sürümünde seçtiği yol da endişe verici. Kullandığı veri seti hakkında bir açıklama yapmaktan kaçınması adındaki açıklıkla çelişiyor. Ne kadar büyük olduğunu, mimarisini, ne kadar enerji kullandığını, kaç tane işlemci kullanıldığını bilmiyoruz. Eğitim setinde ne olduğu hakkında hiçbir fikrimiz olmadığı için GPT-4’ün hangi problemler üzerinde çalışıp hangilerinde çalışmayacağını tahmin etme şansımız yok (https://garymarcus.substack.com/p/gpt-4s-successes-and-gpt-4s-failures). Ayrıca GPT-4’ün çevreye maliyetini de bilmiyoruz (https://www.birgun.net/haber/yapay-zeka-hakkinda-cok-az-konusulan-onemli-detaylar-424486 , https://www.theguardian.com/commentisfree/2023/mar/04/misplaced-fears-of-an-evil-chatgpt-obscure-the-real-harm-being-done).

Kuşkusuz GPT-4 ve sonraki modellerin önemli ticari etkileri olacak. Google (https://digiday.com/media/googles-new-ai-tools-and-openais-gpt-4-bring-more-maturation-to-the-ai-race/), Yandex, (https://www.siliconrepublic.com/machines/yandex-large-language-model-ai-gpt) ve Baidu’nun da benzer çalışmaları var (https://tr.euronews.com/2023/02/07/chatgptye-buyuk-rakipler-geliyor-cinli-baidudan-ernie-bot-ve-googledan-bard). Ancak Kasım 2020’de MIT Technology Review‘de yayımlanan röportajda “derin öğrenme her şeyi yapabilecek.” (Hao, 2020) diyen Hinton’un sözlerini oldukça tehlikeli görüyorum.

YZ, henüz her şeyi yapamasa da şirketler ve onların ikna ettiği bürokratlar bu kontrolsüz gücü çeşitli alanlarda kullanmaya fazla istekliler. Bu süreçte, doğruluk ve güvenilirlik hakkındaki zaafların yanında bir diğer büyük tehlike sistemlerin tasarımlarında yer alan insan seçimlerinin politik karakterinin belirsizleştirilerek gizlenmesi.

Verimlilik ve Adalet Beklentisi

Gündelik hayatta aldığımız birçok karar düzenliliklere veya örüntülere dayanır. Örneğin, hava kapalıysa yağmur yağabileceğini düşünür ve evden çıkarken yanımıza şemsiye alırız. Yapay öğrenmenin temelde yaptığı bu süreci otomatikleştirmektir. Veri setlerindeki yapılara ve örüntülere dayalı olarak hedeflenen bir sonuç hakkında tahminler yapmak için bir model geliştirilir. Daha sonra bu model ile öngörülerde bulunulur. Bunun zekâ olarak tanımlanıp tanımlanamayacağı ya da zekânın ne olduğu ayrı bir tartışma konusu. Fakat günümüzde kullanılan YZ destekli sistemlerde zekânın öngörü öğesi öne çıkar:

Çocuk soru sorduğu zaman Alexa’nın yaptığı şey, aslında duyduğu sesleri alarak konuşulan kelimelerin ne olduğunu anlamak ve ardından bu kelimelerin bulmak istediği bilgiyi öngörmekti. Alexa, Delaware’in başkentinin neresi olduğunu “bilmiyor” ama insanlar böyle bir soru sordukları zaman özel bir yanıtı yani “Dover”ı aradıklarını tahmin edebiliyor (Agrawal, Gans ve Goldfarb, 2019).

Agrawal vd. (2019) öngörüyü,eksik bilgilerin tamamlanması olarak tanımlıyor. Agrawal vd.’nin (2019) öngörü makineleri olarak adlandırdığı YZ sistemleri genellikle veri olarak adlandırılan bilgilerimizi alıyor ve onu sahip olmadığımız bilgileri oluşturmak için kullanıyor. Daha iyi öngörü, daha iyi bilgi ve bu da daha iyi karar anlamına geliyor. Öngörü makinelerindeki gelişmeler, onları sihirliymiş gibi gösteriyor. Öngörü maliyetlerindeki düşüşler, çeşitli sorunları bir öngörü sorununa indirgemeye ve çözümler geliştirmeye olanak veriyor. Böylece makineler görebiliyor (nesne tanıma), navigasyon kullanabiliyor (sürücüsüz arabalar), çeviri yapabiliyor veya sohbet edebiliyor.

Fiziksel dünyamız, sayısal verilere dönüştürülüyor; davranışlarımızın sürekli ölçülüyor, kaydediliyor ve sonraki adımlarımız tahmin edilmeye çalışılıyor. Şirketler, daha fazla veri toplayarak daha mükemmel sistemler geliştirmeye çalışıyorlar. Dünyanın en büyük teknoloji şirketlerinin gücü, daha gelişmiş yapay öğrenme tekniklerine değil, sahip oldukları veri hacmine ve daha fazlasını toplayabilme hızına ve verimliliğine dayanıyor.

Hinton’un sözlerini tehlikeli bulmamın nedeni ise kurumların son yıllarda tahmine dayalı araçlarla desteklenen karar süreçleri oluşturması veya kurumların yerlerini YZ destekli sistemlere bırakmasını savunan tezlerin yaygınlaşması. Bu tezlerin temelinde yapay öğrenmenin iki temel vaadi öne çıkıyor: verimlilik ve adalet. Danışmanlık şirketi McKinsey, yapay öğrenmenin sunduğu verimlilik kazanımlarının küresel değerinin 6 trilyon dolar değerinde olduğunu tahmin ediyor. McKinsey’e göre yapay öğrenmeyi aşağıdaki alanlarda kullanarak verimliliği artırmak mümkün:

Derin öğrenmenin büyük miktarlarda ses ve görüntü verilerini analiz etme yeteneğinden yararlanarak fabrika montaj hatlarında veya uçak motorlarında ortaya çıkabilecek anomaliler öngörülebilir.
Lojistikte, teslimat trafiğini optimize ederek, yakıt verimliliği artırılabilir ve teslimat süreleri azaltılabilir.
Perakende satışlarda, müşterilerin demografik ve geçmiş işlem verileri sosyal medya hareketleri ile birleştirilerek, kişiselleştirilmiş ürün önerileri oluşturmaya yardımcı olunabilir.
Kamu kurumlarında ise kaynakların ve hizmetlerin nasıl sunulacağını şekillendirerek verimliliği artırabilir. Hatta yapay öğrenme iklim değişikliği ve nüfusun yaşlanması gibi büyük ölçekli toplumsal sorunların ele alınmasında rol oynayabilir.

Yapay öğrenmenin adalet vaadi ise bilgisayar sistemlerinin insanlardan daha nesnel kararlar verebileceği yanılsamasına dayanıyor. Çünkü algoritmalar ne yoruluyor ne de duygusal yük altında ezilerek yanlış kararlar veriyor. İnsanlar çeşitli nedenlerden dolayı vakaları farklı değerlendirirken, yapay öğrenme modelleri daha tutarlı tahminler üretiyor ve vakaları farklı değerlendirirken yalnızca istatistiksel farklılıkları dikkate alıyorlar.

Ama istatistik ve bilgisayar bilimi diline gömülü verimlilik ve adalet vaadinin altında çoğu zaman atlanan bir gerçek var: Yapay öğrenmenin politikliği. Tahminler oluşturmak için verilerin nasıl kullanılacağı ve tahminlerin karar vermek için nasıl kullanılacağı hakkındaki seçimler, bazı çıkarları ve değerleri diğerlerine göre önceliklendirir. Ayrıca yapay öğrenme, kararların alınabileceği ölçeği ve hızı artırdığı için milyonlarca insanın hayatını etkileyebiliyor. Yapay öğrenme, insanların kararlarını etkilemekle kalmıyor karar prosedürlerinin nasıl yapılandırıldığına ilişkin seçimler yapmalarını da sağlıyor. Yapay öğrenmenin politik karakterini dikkate almadan ve farklı aşamalarında ona eşitlikçi bakış açısıyla müdahalelerde bulunmadan kendiliğinden olumlu bir tablo orta çıkmayacak.

Farklı Seçenekler, Farklı Sistemler

Öngörüye dayalı araçların nasıl çalıştığı, onları nasıl tasarlandığına ve kullanıldığına bağlı. Yapay öğrenme, öncelikle insanlar tarafından geliştirilen ve insanlar tarafından tanımlanan sorunları ele alan bir dizi teknikten meydana geliyor. Ayrıca yapay öğrenme modelleri eğitilirken insanlar tarafından bir araya getirilen ve oldukça insani bir dünyanın yapılarını, fırsatlarını ve dezavantajlarını yansıtan veri setleri kullanılıyor. Kısacası öngörü, her türlü öznellikten arınmış cam bir fanusta gerçekleşmiyor.

Yapay öğrenme sürecinde yer alan seçenekleri iki başlık altında inceleyebiliriz. Birincisi, yapay öğrenme modelinin tasarımı hakkındaki seçenekler. Örneğin, modelin tahmin etmeyi öğreneceği sonuçlar, modelin eğitiminde kullanılacak veriler, modelin sonucu tahmin etmek için kullanacağı öznitelikler ve modeli oluşturmak için kullanılacak algoritma tasarım aşamasında verilmesi gereken kararlardır. İkincisi, geliştirilen yapay öğrenme modelinin konuşlandırılması veya tahminlerin karar vermek için nasıl kullanılacağı hakkındaki seçeneklerdir: Model insan kararlarını desteklemek için mi yoksa onların yerini almak için mi kullanılacaktır? Kararlar, hangi eylemleri doğuracaktır?

Tasarımsal Seçenekler

Bir yapay öğrenme sisteminde öncelikle modelin öngöreceği çıktılara karar vermek gerekir. Bu çıktı basitçe bir e-postanın istenmeyen e-posta (spam) olup olmadığına karar vermek olabilir. Ya da model, bir adayın iyi bir çalışan olup olmayacağı, hükümlünün şartlı salıvermeye uygun olup olmadığı gibi daha karmaşık hedeflere sahip olabilir. Analist, nicelleştirilebilen, ölçülebilen ve öngörülebilen bu çıktı için hedef değer adı verilen bir vekil tanımlamalıdır. Bir diğer deyişle analist, gerçek dünyadaki bir sorunu bir hedef değişkene dönüştürebilmelidir (Simons, 2023).

Bir e-postanın spam olup olmadığını belirlemek kolaydır. Bunun için daha önce spam olarak etiketlenmiş e-postalar kullanılabilir. Böylece yeni e-postaların önceden spam olarak etiketlenmiş olanlarla benzer özelliklere sahip olup olmadığına bakmak yeterli olacaktır. Ancak belirsiz bir sorunu hedef değişkene çevirmek genellikle karmaşıktır. Bir banka, bir bireyin kredi için güvenilir olup olmadığına ve faiz oranına nasıl karar vermelidir? Güvenilirlik (krediye uygunluk), gerçek dünyada tam karşılığı olmayan belirsiz bir hedeftir. Güvenilirlik, bankalar, düzenleyiciler ve kredi endüstrisi tarafından, değişen koşullara ve alınabilecek risklere göre yeniden tanımlanan bir kavramdır. Modelin hangi hedef değişkeni tahmin etmeye çalıştığı ve çıkan tahminlerin kredi kararlarında kullanım biçimi, kimlerin kredi alabileceğini şekillendirir (age).

Hedef değişkenleri tanımlamak her zaman yargı içerir. Örneğin, bir işverenin yapay öğrenme yardımıyla en iyi çalışanları seçmeye çalıştığını düşünelim. İyi bir çalışan kimdir? Belirli bir zaman diliminde en fazla satışı yapan veya en çok üreten midir? Bir işte en fazla kalan mıdır? Belki de takım ruhuna en uygun kişidir? En iyi çalışanın kim olduğu şirketin hedeflerine göre değişecektir. Şirket, gelirini artırmak, daha çok üretmek, personel değişim oranını azaltmak veya şirket ruhunu güçlendirmek istiyor olabilir. Şirketin hedefine göre iyi çalışan tanımı değişecek ve bu da farklı sonuçlara neden olacaktır. İşverenin hedef değişkeni adayın bir işte kalacağı tahmini süre olarak tanımladığını varsayalım. Ortalama olarak erkekler bir pozisyonda kadınlardan daha uzun süre kalma eğiliminde olduklarından erkekler daha avantajlı olacaklardır. Ya da işveren, adayın kişilik tipini göz önünde bulundurarak bir seçim yapmaya çalışabilir ve bunun için Myers-Briggs testinden yararlanabilir. Fakat ilgili testte kişilik tipleri, cinsiyetler arasında eşit olmayan bir şekilde dağıldığından yine cinsiyetler arasında bir eşitsizliğe neden olacaktır (age).

İkinci seçim, modelin eğitilmesi için kullanılacak veya toplanacak verilerdir. GPT-4’ün önceki modellerin aksine eğitim verisi hakkında bilgi vermekten kaçınması ciddi bir sorundur. Yapay öğrenme, verileri kullanarak öngörüde bulunur. Verinin bir kişinin nerede yaşadığı, ne kadar kazandığı veya hangi sosyal yardım programlarını kullandığı gibi olgulardan oluşan nesnel betimlemeler olduğu varsayılır. Fakat veriler, gerçekliğin sabit temsillerini değil, neyin ve nasıl ölçüleceğine ilişkin insan seçimlerini yansıtır (age).

Ayrıca sahip olunan veri miktarının fazlalılığı karmaşık örüntüleri tespit etme ve bu örüntüleri öngörü, şekillendirme ve kontrol amacıyla kullanma olanaklarını artırır. Google, milyarlarca etiketli örnekten oluşan bir veri seti oluşturabildiği için istenmeyen e-postaları tespit etmede iyidir.

Eğitim verileriyle ilgili seçimler, bir modelin ne öğrendiğini belirler. Bir hedef değişkeni tanımlarken yapıldığı gibi veri setlerini bir araya getirmek, yorumlamak ve muhakeme yapmak gerekir. Veri, yaygın düşüncenin aksine olguları değil muhakemeleri temsil eder. Neyin ölçüleceğine ve neyin ölçülemeyeceğine ilişkin seçimler iktidar yapılarıyla bağlantılıdır. Kurumlar, kayıtlı ekonomiye giremeyenler hakkında veri toplama konusunda daha başarısızdır. Ayrıca veri üretme olasılığı en düşük olanlar genellikle toplum tarafından en çok dışlananlardır. Simons (2023), Street Bump örneğini verir. Street Bump, Boston’daki çukurları tespit etmek için akıllı telefonlardaki ivme ölçerleri kullanan bir uygulama. Uygulamanın en etkili çalıştığı yerler bir çok insanın akıllı telefona sahip olduğu ve zaten daha az çukurun yer aldığı daha zenginlerin yaşadığı mahallelerdir. Akıllı telefon kullanımının düşük olduğu yerler hizmete en çok gereksinimi olan yerler olmalarına karşın veride temsil edilememiştir.

Bir grubun veride daha fazla ya da eksik temsil edilmesi veriden elde edilebilecek sonuçları da etkiler. Allegheny’de (Pensilvanya) kullanılan AFST’nin (Allegheny Family Screening Tool – Allegheny Aile Tarama Aracı) kullandığı algoritma bir çocuğun istismara veya ihmale maruz kalma riskini tahmin ediyor. Algoritmanın orijinal halinde eğitim veri setindeki değişkenlerin dörtte biri yoksulluk ölçütleriyken, diğer dörtte biri çocuk adalet sistemiyle ilişkiliydi. Sonuç olarak AFST, orantısız bir şekilde düşük gelirli, Afrikalı Amerikalı hane halklarını temsil eden veriler üzerinde eğitilir ve özel sağlık sigortası gibi daha varlıklı, beyaz ailelerin ürettiği türden verileri algoritmaya katmaz.

Tasarım aşamasındaki üçüncü seçim bir modele dahil edilecek öz niteliklerdir. Veriler hiçbir zaman bir kişinin karmaşıklığını tam olarak yansıtamaz. Çünkü bir öznenin tüm özelliklerini toplamak veya tüm çevresel faktörleri bir model içinde hesaba katmak genellikle imkansızdır. Bu nedenle işletmeler ve kamu kuruluşları gerçekliği vekil verilerle çözümlerler. Örneğin, siyah ailelerin araba sigortası oranları, şehir içi mahallelerden banliyölere taşındıklarında genellikle önemli ölçüde düşer. Çünkü sigorta şirketleri, risk için vekil olarak posta kodu gibi indirgeyici özellikleri kullanırlar. Sigorta oranları, kendi bireysel riskiniz kadar sizin gibi başkalarının riskine göre belirlenir (age).

Irk gibi korunan özelliklerin bir modele dahil edilip edilmediği genellikle yapay öğrenmede çok az fark yaratır. Çünkü diğer değişkenler, korumalı sınıfların üyeleri hakkındaki bilgileri kodlar. Bu nedenle, yapay öğrenme yasayla korunan gruplar hakkındaki örüntüleri de keşfedebilir. Bir modelin, bir çocuğun istismar riski altında olup olmadığını veya işe başvuran bir kişinin iyi bir çalışan olup olmayacağını tahmin etmek için hedef değişkene göre insanları sıralamak için kullandığı özellikler, genellikle bireyleri belirli bir sınıfa üyeliklerine göre de sıralar. Belirli bir öz nitelik bir popülasyonda eşit olmayan bir şekilde dağılmışsa, yapay öğrenme algoritması da bu dağılımı yansıtacaktır.

Dördüncü seçim, yapay öğrenme modelinin hangi algoritmayı kullanacağı ile ilgilidir. Yapay öğrenmede genellikle karmaşıklık, doğruluk ve hata oranları arasında bir dengeleme yapmak gerekir. Örneğin bazı modeller daha doğru sonuç verseler de çocuk koruma gibi yüksek riskli ortamlarda yönetimi, bakımı ve yorumlanması daha kolay olan modeller tercih edilebilir (age).

Yapay Öğrenme Modelinin Konuşlandırılması

Bir modeli konuşlandırırken başlıca seçim, modelin öngörülerinin nasıl kullanılacağıdır. İş başvurularını değerlendiren bir modeli ele alalım. Modelin işe başvuranları sıralaması ve ilk yarının otomatik olarak mülakatlara davet edilmesi istenebilir. Ya da modelin sıralaması kimin mülakata davet edileceğine karar veren yetkiliye sunulur.

Bir yapay öğrenme modeli devreye alındıktan sonra, personelin modelin öngörülerine karşı kararlar alabilmesine izin verme ihtiyacı ile yüksek kesinlik oranına sahip modelin değerlendirmelerine güvenme ihtiyacı arasında sürekli bir gerilim vardır. YZ’nin insanların yerini almayacağı ama insanların YZ ile birlikte çalışma yeteneklerini geliştirmesi gerektiği söylenir. Ancak ya AFST’de olduğu gibi çalışanlara profesyonel muhakeme yapma ve sistemlerin tahminlerini göz ardı etme konusunda daha az inisiyatif verilir ya da çalışanlar risk almak istemediklerinden sistemlerin çıktılarını artık kabullenmeye başlarlar.

***

Veriler sosyal dünyamızın yapısını yansıtır. Öngörü için verilerin nasıl kullanıldığı (yapay öğrenme modellerinin tasarımı) ve öngörülerin nihai kararı nasıl etkilediği (yapay öğrenme modellerinin konuşlandırılması) kaçınılmaz olarak politik bir karaktere sahiptir. Yapay öğrenme, bilgisayar bilimciler tarafından yürütülen teknik bir süreç olduğu için, altta yatan ahlaki ve politik seçimleri gizleyebilir. Ancak öngörü araçlarının tasarımı ve kullanımıyla ilgili seçimler bazı insanlara yarar sağlarken bazılarına zarar verir. Bazı değerler için uygun bir ortam hazırlarken diğerlerini gölgede bırakır. Yapay öğrenmedeki seçimler iki açıdan politiktir. Birincisi, bazı sosyal grupların çıkarlarını diğerlerine göre önceler. Seçilen hedef, değerler veya eğitim için kullanılan veriler belirli bir sınıf, ırk, etnik grup veya cinsiyete mensup kişileri dezavantajlı konuma getirebilir. İkincisi, oluşturulan modeller bazı değerleri desteklerken diğerlerinin önüne geçer. Eşitsiz ve adaletsiz bir dünyada, yapay öğrenme modellerinin tasarımında bazı ilgi ve değerlerin diğerlerine göre önceliklendirilmesinden kaçınmanın kolay bir yolu yoktur (age).

GPT-4 ve onu takip edecek sistemler Yapay Genel Zekâ değil ama bu haliyle bile bir çok yerde çığır açabilecek düzeydeler. OpenAI yola çıkarken “dijital zekayı, finansal getiri sağlama ihtiyacıyla sınırlandırılmadan, bir bütün olarak insanlığa en çok fayda sağlayacak şekilde ilerletmek” için araştırma taahhüdünü beyan etmişti. Ama GPT-3 ile beraber önce kaynak kodunun paylaşılmaması, şimdi de sistem hakkında paylaşılan bilginin çok sınırlı olması gelecek için endişe verici.

YZ sistemleri, hayatın her alanına yayıldıkça bu sistemlerin kararlarından etkilenenlerin sistemin tasarımında ve konuşlandırılmasındaki seçimler hakkında bilgi sahibi olma hakları ve karar sürecine katılım hakları olmalı. Bu yüzden şirketlere karşı yurttaşların mahremiyetinin veya şirketler arasındaki rekabetin korunmasında hakemlik yapan devlet yerine teknolojinin tasarım ve konuşlandırılmasında yurttaşları sürecin bir parçası olarak gören kurumlara ihtiyaç var.

Kaynaklar

Agrawal A., Gans J., Goldfarb, A. (2019). Geleceği Gören Makineler. (çev. M. Ürgen).İstanbul: Babil Kitap, 1. Baskı

Hao, K. AI pioneer Geoff Hinton: “Deep learning is going to be able to do everything.” MIT Technology Review (2020).

Marcus, G. (2022). Deep learning is hitting a wall. Nautilus, Accessed, 03-11.

Simons, J. (2023). Algorithms for the People: Democracy in the Age of AI. Princeton University Press.