Geçtiğimiz günlerde sosyal medya 20’li yaş fotoğraflarıyla doldu. Ulaştırma ve Altyapı Bakan Yardımcısı Ömer Fatih Sayan, Twitter hesabından yaptığı açıklamada “20’li yaşlar challenge” ve benzeri akımlara karşı vatandaşları uyardı. Sayan’a göre kişisel verileri ve yüz ifadelerini kopyalayan akımlar, görsel veri işleme alanına zemin hazırlıyordu (https://www.trthaber.com/haber/bilim-teknoloji/20li-yaslar-challenge-akimina-karsi-vatandaslara-uyari-578985.html):
Kişinin şimdiki haliyle eski halinin değişiminden, yapay zeka algoritmalarını besleyecek istatistiki veriler oluşturuluyor. Aynı zamanda farklı uygulamalar ve cihazlardan paylaştığımız parmak izi ve yüz taraması gibi verilerimiz, genetik verilerimizi barındırıyor. Bu gibi hassas verilerin hangi sunucularda nasıl tutulduğu, yeterli güvenliğe sahip olup olmadığı tam bir kara kutu.
Kişisel verilerimiz; bizi belirli veya belirlenebilir hale getiren, bizi tanımlayan ve bize ait olan bilgilerimiz. Bu sebeple kişisel verilerimizi korurken, özellikle de sosyal medyada paylaşırken daha hassas davranmalıyız.
Sayan’ın uyarılarının önemli olduğunu düşünüyorum. Bu tür akımların nasıl ortaya çıktığını bilmiyorum. Kendiliğinden mi çıkıyor, yoksa veri hasadı için bilinçli olarak mı örgütleniyor? Bu konuda bir şey söyleyemem ama yine de dikkatli olmak gerekiyor. Zaman zaman böyle akımlar ortaya çıkıyor ve bir çok kullanıcı gönül rahatlığıyla fotoğraflarını paylaşıyor. Birkaç yıl önceki bir başka akımda da insanlar on yıl önceki fotoğraflarını paylaşıyorlardı. O zaman da benzer bir tartışma vardı. Yine temkinli davrananlar ve onları boş yere kuruntuya kapıldığı veya komplo teorileri uydurduğu için eleştirenler vardı.
O zaman, bugün de olduğu gibi, dikkatli olmamız gerektiğini savunanlara karşı ileri sürülen en temel tezlerden biri Facebook’un zaten verilerimize sahip olduğuydu. Başta profil fotoğrafımız olmak üzere bir çok fotoğrafımız ellerindeyken bu eğlencenin ne gibi zararı olabilirdi ki? Facebook da bu düşünceyle paralel bir açıklama yaptı. “Fotoğraflar zaten elimizde. Bu akımın bize ek bir katkısı yok.” dediler.
O’Neil (2019) ise aynı fikirde değildi ve bir yüz tanıma algoritmasını yaşa bağlı niteliklere göre eğitmek istediğimizde yeni paylaşılan veya etiketlenen fotoğrafların önemli bir katkısı olacağını düşünüyordu. Evet, Facebook’un elinde geniş bir veritabanı var. Ama bu tür akımlar daha temiz, etiketlendirilmiş eski ve yeni fotoğrafların birikmesini sağlıyor.
Bir diğer eleştiri ise bu fotoğrafların kullanılamayacak kadar çöp veri içerdiğini iddia ediyordu. Ancak O’Neil’in (2019) savunduğu gibi veri araştırmacıları ve bilim insanları bununla baş etme konusunda tecrübeliler. Örneğin son akımda bazı sosyal medya kullanıcıları ilgisiz ve yanlış fotoğraflar (Marlon Brando fotoğrafı yükleyen Milli Eğitim Bakanı Ziya Selçuk gibi) yüklemiş olsa da algoritmalar bu tip gürültüleri tespit edebilirler (Marlon Brando fotoğrafını ayıklamak ilk başta zor olabilir; ama kedi, köpek fotoğraflarını tespiti oldukça kolaydır.). Ayrıca viral hashtag’lerdeki ilk paylaşımların daha güvenilir ve içerikle ilgili olduğu da biliniyordu. İronik ve konuyla ilgisi olmayan paylaşımlar daha sonra ortaya çıkıyordu.
Yeni bir Facebook/Cambridge Analytica skandalı ortaya çıkmadığı sürece ne bugünkü 20’li yaş akımının ne de önceki akımların belirli bir amaç doğrultusunda örgütlendiğini ispatlayabiliriz. Belki yüklenen fotoğraflar, yaşlılık üzerine çalışan bir sigorta şirketinin algoritmasına katkıda bulunacak. Belki zararsız bir oyun. Ama son on yılda, veri çıkarmak ve toplamak için tasarlanmış çok sayıda uygulama gördük. Veri ve verinin halk için kullanımı hakkında daha fazla kafa yormamız gerekiyor.
Veri nedir?
Veri (data) kelimesi, vermek anlamına gelen Latince dare kelimesinden türemiştir. Bu bağlamda veri, olgulardan soyutlanabilen (veya olguların verdiği), çeşitli şekillerde ölçülebilen ve kaydedilebilen ögelerdir. Enformasyonun ve bilginin yapı taşlarını oluşturur. Fakat Kitchin’in (2014), işaret ettiği gibi veride, vermeden çok alma söz konusudur. Asıl yapılan iş tüm potansiyel verilerin toplamından seçme ve seçilenleri bir araya getirmedir. Dolayısıyla veri, doğanın araştırmacıya verdiği bir şey değil, araştırmacının amacına uygun olarak doğadan aldığı ve seçtiğidir.
Kitchin’ın (2014) yazdığı gibi veri; biçimine, yapısına, kaynağına, üreticisine ve tipine göre farklı kategorilere ayrılabilir.
Veri, biçimine göre nicel ya da nitel olabilir. Nicel veriler, sayısal kayıtlardır. Bir olgunun fiziksel özellikleriyle (uzunluk, mesafe, ağırlık, alan, hacim vb) ilgili olabileceği gibi temsili ve olgunun fiziksel olmayan özellikleri (sosyal sınıf, eğitimsel kazanım, yaşam kalitesi sıralaması vb) ile de ilgili olabilir. Bu bağlamda, dört farklı düzeyde ölçümler gerçekleştirilir: Kategorilere dayalı nominal veri (ör.bekar, evli, boşanmış, dul), sıralı veri (düşük, orta, yüksek), aralık verisi (santigrat ölçeği boyunca sıcaklık), oran verisi (0-100 arasında değişen sınav notu). Nitel veri ise metin, resim, ses, müzik ve video biçimindedir. Nitel verinin analizi daha zordur. Ancak son yıllardaki teknolojik ilerlemelerle nitel verinin nicel biçime dönüştürülmesinde kayda değer gelişmeler olmuştur.
Veri; yapısına göre yapılandırılmış, yarı yapılandırılmış veya yapılandırılmamış olabilir. Yapılandırılmış veri, sayı ve metin içeren bir tablo ya da veritabanında saklanabilir. Veri; ad, soyad, doğum tarihi, cinsiyet vb alanlar içerir. Veriyi toplayan kişi ya veriyi tabloda yer alan alanlara göre toplar veya tablo, toplanan veriler göz önünde bulundurularak oluşturulur. Yapılandırılmış verinin işlenmesi, sorgulanması, analizi ve çeşitli grafiklerle sunumu bilgisayarlar için daha kolaydır. Yarı yapılandırılmış veri, tablo veya veritabanlarında tutulan yapılandırılmış veriye göre daha düzensiz, esnek ve hiyerarşiktir. Ama xml ve json belgelerinde olduğu içeriğin standart bir biçimde (format) olması analizi kolaylaştırır:
<ogrenciler>
<ogrenci> <ad>Ali</ad> <soyad>Kara</soyad> </ogrenci> <ogrenci> <ad>Can</ad> <soyad>Ay</soyad> </ogrenci> <ogrenci> <ad>Nil</ad> <soyad>Kaya</soyad> </ogrenci> </ogrenciler> |
XML
{“ogrenciler”:[ { “ad”:”Ali”, “soyad”:”Kara” }, { “ad”:”Can”, “soyad”:”Ay” }, { “ad”:”Nil”, “soyad”:”Kaya” } ]} |
JSON
Yapılandırılmamış veri ne tanımlanmış bir veri modeline ne de ortak bir yapıya sahiptir. Belirli bir yapıları ve formatları olmasına karşın veri kümesindeki her veri aynı özelliklere sahip değildir. Daha çok metin, resim, video gibi nitel verilerdir. Son yıllarda sosyal medyaya yüklenen resimler ve gönderilen yazılarla özellikle yarı yapılandırılmış ve yapılandırılmamış veri artmaktadır. Artan veri bir yandan gelişen teknoloji yardımıyla analiz edilirken diğer yandan söz konusu teknolojinin daha kusursuz çalışmasına yardımcı olmaktadır. Dolayısıyla yüklenen resimler sadece analiz edilmemekte, algoritmaların analiz yeteneğini artırmak için de kullanılmaktadır.
Kaynağına göre sınıflandırılan veri ele geçirilmiş, tüketilmiş, geçici ve türetilmiş olabilir. Veri ele geçirme; gözlem, anket, deney, kayıt tutma, kameralar, algılayıcılar aracılığıyla gerçekleşir. Burada en baştan yararlı veri elde etme niyeti vardır. Tüketilmiş veri ise asıl amaç değil, bir yan üründür. Örneğin bir cihaz veya sistemin asıl işini yaparken ürettiği veri stok takibi, çalışanların performansını ölçmek veya müşterilere yeni ürünler önermek için kullanılabilir. Dijitalleşmeyle beraber bu tipte veride önemli bir artış olmuştur. Fakat çeşitli cihaz ve sistemlerin çalışırken ürettikleri veriler her zaman işe yarar olmayabilir. Bazen o kadar çok veri vardır ki bu veriyi saklamak veya işlemek için gerekli araçlar olmayabilir ya da çok az bir yarar için bu kadar zahmete girmenin bir anlamı olmaz. Bu tip veriler de geçici veriler olarak adlandırılır. Fakat değişen koşullara göre geçici veriler yararlı veya yararlanılabilir hale gelerek tüketilmiş verilere dönüşebilir. Bu bağlamda, ele geçirilmiş ve tüketilmiş veriler ham verilerdir. Türetilmiş veri ise ham verinin işlenerek veri miktarının daha yönetilebilir, anlamlı ve yararlı hale getirilmesiyle elde edilir.
Veri, üreticisine göre birincil, ikincil veya üçüncül olarak adlandırılabilir. Birincil veri, bir araştırmacının kendi araştırması dahilinde üretilir. İkincil veri, başkalarının yeniden kullanımı ve analizi için sunulan verilerdir. Üçüncül veriler, sayımlar, kategoriler ve istatistiksel sonuçlar gibi türetilmiş verilerin bir biçimidir. Bir çok araştırma, her üç veri tipini de içerecek biçimde düzenlenir. Büyük veri analizlerinin daha küçük veri kümeleri yardımıyla daha isabetli kestirimlerde bulunması sağlanabilir.
Veri, tipine göre ise dizinsel, öznitelik verisi ve üstveri olarak üçe ayrılabilir. Dizinsel veriler; tanımlamayı ve ilişkilendirmeyi sağlayan kimlik numarası, kredi kartı numarası, MAC adresi, sipariş numarası, adres gibi benzersiz tanımlayıcılardır. Farklı veri kümelerini bir araya getirebilmek için önemlidir. Öznitelik verisi ise bir olgunun bir yönünü gösterir. Örneğin, parmak izi bir kişinin dizinsel (ayırt edici) verisiyken göz rengi, kilo, boy, kan grubu vb öznitelik verisidir. Üstveriyse veri veya veri kümesi hakkındaki veridir. Verinin daha anlaşılır olmasını sağlar. Nasıl kullanılabileceği ve diğer veri kümeleriyle birleşimi hakkında bilgi verebilir.
Yazının devamında da göreceğimiz gibi söz konusu kategorilerden bazıları büyük veriyle beraber ortaya çıkmış veya daha önemli hale gelmiştir.
Küçük Veri
Büyük veriden önce sadece veri vardı. Büyük verinin ortaya çıkışıyla beraber büyük veri kapsamında olmayan veri, küçük veri oldu. Küçük verinin en önemli farkı veri miktarının daha az olmasıydı. Kitchin’in (2014) yazdığı gibi küçük veriler, veri çöllerindeki veri vahaları iken, büyük veri gerçek bir veri tufanı. Küçük veri, örneklemlerle ilgiliyken büyük veri popülasyonun tamamını kapsamaya çalışıyor. Fakat toplanan veriler de farklıdır. Büyük veri daha çok insanların sosyal medyada paylaştığı içerik, algılayıcıların çıktıları, sistemlerin çalışması sonucu ortaya çıkan veriler ve otomatik oluşturulan üstveriler ile ilgilidir. Küçük veri ise belirli sorulara yanıt arar. Küçük veri çalışmaları, hedefli çalışmalardır. İlgilendikleri konuya yoğun bir şekilde odaklanırlar ve büyük veri araştırmalarına göre daha az kaynağa ihtiyaç duyarlar.
Ayrıca küçük veri uygulamaları ve geliştirilen teknolojilerin büyük veriye giden yolda önemli bir adım olduğunu da atlamamak gerekiyor. İnsanlar tarih boyunca veri toplamış ve saklamıştır. Fakat uzunca bir süre veriden elde edilen enformasyonun, makale ve kitaplarda yayınlanması ve sadece çok değerli veri kümelerinin saklanması ile yetinildi. Veri saklama alanını ve maliyetini azaltan dijital depolama çözümlerinin geliştirilmesi sonrasında rutin ve düşük değerli verilerin geniş ölçekli, uzun vadeli depolanması başladı. İlk dijital veritabanları, 1950’lerde ortaya çıktı. Ama bu veritabanları arama ve sorgulama işlemleri için yetersizdi. 1970’lerde geliştirilmeye başlanan ilişkisel veritabanları veri teknolojilerinde büyük bir devrimdi. İlişkisel veritabanı, tablolardan oluşuyor ve tablolar birbirleriyle ilişkilendirilebiliyordu. Örneğin bir tabloda; dizinsel veri olan öğrenci numarasının yanında ad, soyad, doğum tarihi, cinsiyet vb öznitelik verileri saklanıyor; bir diğer tabloda öğrencinin numarası ve sınavlardan aldığı notlar tutuluyordu. Böylece öğrenci numarasını kullanarak iki tablo bağlanabiliyor; sorgulama işlemleri daha hızlı yapılabildiği gibi veri saklama da daha tutarlı olabiliyordu. İlişkisel veritabanlarının yanında elektronik tablolar (günümüzdeki adıyla MS Excel, Libre Office Hesap Tablosu) veri analizinde önemli bir sıçramaydı.
Dijitalleşme beraberinde yeni sorunlar da getiriyordu. 100 yıl önce yazılmış bir kitap günümüzde kolayca okunabilir. Ama aynı süreklilik dijital ürünler için söz konusu değildi. Farklı şirketlerin ürünleri birlikte çalışamadığı gibi özel mülkiyetli yazılımın yeni sürümleri eski biçimlerde sorun yaratabiliyordu. Ayrıca farklı yerlerde tutulan verilerin bir araya getirilebilirliği ve elde edilebilecek enformasyonun artırılması da önemliydi. Bu nedenle 2000’li yıllarda, verilerin paylaşımı ve altyapı standartlarının, protokollerinin ve politikalarının benimsenmesi için çalışmalar yapıldı. Veri paylaşma stratejisi tüm taraflara (araştırmacılar, kurumlar, fon sağlayıcılar ve kamu ve özel işletmeler) fayda sağlayacaktı. Veri paylaşımından sağlanacak kazanımları göz önünde bulunduran ulusal hükümetler, Avrupa Birliği gibi uluslar üstü kuruluşlar ve araştırma ajansları çeşitli girişimleri finanse etmek için büyük yatırımlar yaptılar.
Veri paylaşımını sağlayacak altyapıların kurulmasının bir çok yararı vardı. Yeni araştırma olanakları yaratacak ve herhangi bir amaç için toplanan veriden yeni amaçlar için yararlanılabilecekti. Endüstriye bilgi transferi olacak; verimlilik ve ekonomik büyümeye katkıda bulunulacaktı. Veri, araştırmacıdan bağımsız olarak saklanacağı için araştırmacılar zaman içinde değiştiğinde yeni araştırmacı, öncelinin kaldığı yerden devam edebilecekti. Aynı veri, farklı yerlerde tekrar tekrar saklanmayacak; veri kalitesi artırılabilecekti. Fakat bu paylaşımın önünde birçok teknik, sosyal ve politik engel de vardı. Fon sağlayıcılar, tasarımcılar, yöneticiler, mevduat sahipleri vb birçok taraf arasında müzakere ve anlaşma gerektiriyordu. Yeni veri altyapıları, kültürel değişimle desteklenmeliydi.
Tabii veri paylaşımı ve bunun getireceği yararlar hakkındaki düşünceler daha çok akademisyenlerin ve kamusal bakış açısına sahip kesimlerin düşünceleriydi. Diğer yanda özel sektörde veri hakkında farklı motivasyonlar vardı. Araştırma veri altyapıları; veri paylaşımını ve yeniden kullanımını kolaylaştıran ve teşvik eden altyapılar oluşturarak kamu yararını gerçekleştirmeye çalışıyordu. Veri toplayıcıları, birleştiriciler veya satıcılar olarak adlandırılan veri simsarları ise verileri toplayıp ve yeniden paketleyerek satmakla ilgileniyorlardı. Hala revaçta bir sektör olan veri simsarlığında satılan veriler, günlük yaşamın tüm yönlerini ilgilendirir ve kamu yönetimi, iletişim, mal ve medya tüketimi, seyahat, eğlence, suç, sosyal medya etkileşimleri vb. hakkında olabilir. Veri satışı, milyarlarca dolarlık bir pazardır. Son yıllarda, özellikle İnternet’in ortaya çıkışından bu yana, veri simsarlığı sektörü, hem küçük hem de büyük verileri bir araya getirerek hızla genişledi.
Veri simsarları, hem veri topluyor hem de satıyorlar. Veri simsarlarına veri satmak birçok şirket için önemli bir gelir kapısı. Örneğin, perakendeciler müşterileri hakkındaki çeşitli bilgileri veri simsarlarına satıyorlar. Çeşitli veri simsarlarıyla işbirliği yapan Facebook gibi sosyal medya şirketleri de bu verileri satın alarak sosyal medya verisiyle sosyal medya dışındaki hareketleri içeren verileri birleştiriyorlar. Dolayısıyla herhangi bir yere verimizi teslim ederken (market kartıyla alış veriş yaparken veya 20 yaş fotoğrafımızı paylaşırken!) paylaşılan verinin diğer verilerle birleştirilebileceğini de göz önünde bulundurmalı.
Büyük Veri
Büyük veri çoğunlukla 3V (Volume, Velocity, Variety – Hacim, Hız ve Çeşitlilik) ile tanımlanır. Hacim, artık terabayt ve petabayt ile ifade edilebilen veri miktarını; hız, verilerin gerçek zamanlı olarak veya neredeyse gerçek zamanlı olarak oluşturulmasını; çeşitlilik, birden çok kaynaktan toplanan yapılandırılmamış ve yarı yapılandırılmış verileri vurgular. Kitchin’e (2014) göre büyük veri öncesinde ancak 2V’nin bir araya gelebildiği durumlar vardır: Büyük miktarda ve hızla oluşan veri; çeşitli ve hızla oluşan veri; büyük miktarda ve çeşitli veri.
Hesaplama gücünün katlanarak büyümesi, ağa bağlı cihazların artması, günlük yaşamın gittikçe daha fazla yönü ve sürecinin dijitalleşmesi, verilerin her zamankinden daha dizinsel ve makine tarafından okunabilir hale gelmesi ve veri depolama teknolojilerindeki gelişmeler büyük verinin teknik koşullarını hazırlamıştır. Büyük verinin ortaya çıkışı, yapay öğrenme algoritmalarının da önünü açmış; algoritmaların daha iyi kestirimler için daha çok veri talep etmesi yaşamın bir çok alanının verileştirilmesine neden olmuştur. Bir çok uygulama ve oyun, sadece veri çeşitliliğini ve miktarını artırmak için piyasaya sürülmüştür.
Büyük verinin küçük veriden farklılıkları 3V ile sınırlı değildir. Küçük veri çalışmaları, belirli bir zaman ve yerde, tüm potansiyel verilerin toplam popülasyonundan temsili bir veri kümesi üretmeye çalışır. Toplam popülasyona ait tüm verileri toplamak için zaman ve kaynaklar genellikle yeterli değildir. Büyük veri projelerinde ise popülasyonun tamamı veya küçük veri çalışmalarında kullanılandan çok daha büyük örneklem büyüklükleri hedeflenir.
Ayrıca büyük veriyle beraber verinin çözünürlüğü ve dizinselleştirilebilirliği de artmaktadır. Kamera ve uydu görüntülerindeki çözünürlük artışının (örneğin daha küçük alanlar da temsil edilebilmektedir) yanında toplumsal analizler de derinleşmiştir. Çözünürlük açısından daha da ince ayrıntılara sahip olan birçok veri simsarı, şirketlerin mal ve hizmetleri ayrı ayrı hedeflemesine olanak tanıyan bireyler ve hanelerle ilgili büyük hacimli verileri bir araya getirebilmektedir. Verilerin çözünürlüğündeki artış; insanların, ürünlerin, işlemlerin ve bölgelerin dizinselleştirilebilirliğini de artırmıştır. Örneğin barkod teknolojisi, sadece genel olarak ürünü tanımlar ve bir markette aynı barkoda sahip çok sayıda ürün vardır. Fakat RFID teknolojisi ile ürünleri tek tek izlemek ve tüm hareketi kayıt altına almak olanaklı hale gelmiştir.
Dizinselleştirme olanaklarının artmasıyla verileri birbirine bağlama, birleştirme, sıralama, harmanlama, izleme, eşleştirme ve profilleme olanakları da artmıştır. Küçük veride olduğu gibi farklı veriler arasında ilişkiler kurmak büyük veride de önemlidir. Fakat büyük veri çoğunlukla ilişkileri ilişkisel veri tabanlarında değil, ağlarda arar. Veri parçaları arasındaki örüntüleri keşfeder. Sayısal olmayan, yapılandırılmamış verileri yapılandırılmış veriler olarak ele alma ve ikisini bir araya getirmede başarılıdır.
Büyük veri analizi; tanımlama (Ne oldu? Ne zaman oldu? Ne kadar sıklıkla oldu?), açıklama (Neden oldu? Nasıl etkiledi?), tahmin (Bundan sonra ne olması muhtemeldir? Bu ya da şu devam yolunu tercih edersek ne olabilir?), yol gösterme (En uygun cevap veya sonuç nedir? Bu hedef nasıl başarılır?) için kullanılmaktadır. Büyük veri, insan hayatının tüm yönlerini anlamak ve yönetmek için yeni yollar sunar. Söz konusu yolların toplumsal açıdan kabul edilebilirliği ayrı bir tartışma konusu. Ama her koşulda, insan yaşamı ile ilgili alanlarda büyük veriyi elinde bulunduranlar büyük bir güce sahipler. Birkaç yıl öncesine kadar sosyal medya bağlamında tartışılan bu sorun, şimdi platform ekonomileri ve akıllı şehirlerle yeniden ve daha can alıcı biçimde karşımıza çıkıyor.
Açık Veri
İster küçük veri ister büyük veri olsun, veri kümelerini üretmek çoğu zaman maliyetli bir iştir ve veriyi elinde bulunduranlar veri kümelerine erişimi çeşitli şekillerde sınırlandırırlar. Veri kümeleri sadece onaylı kullanıcılara açılır, erişim için ücret talep edilir veya verinin nasıl kullanılacağı hakkında kısıtlamalar getirilir. Veriler kısmen açıldığı zaman bile bundan yararlanmak için özel teknik araçlar ve uzmanlık gerekir.
Açık veri hareketi; bu kapalılığa son verme, veriyi daha geniş bir kesime açma ve uzman analitik becerilere olan ihtiyacı ortadan kaldırma hedefiyle yola çıktı. Hareketin üç temel ilkesi vardı: açıklık, katılımcılık ve işbirliği (https://obamawhitehouse.archives.gov/open/documents/open-government-directive). Böylece veriden enformasyon ve ilgi üretme yeteneği sadece veriye sahip olanlarla sınırlı kalmayacaktı. Fakat hareketin odağında kamu kurumlarının veya kamu tarafından finanse edilen araştırmaların ürettiği veriler vardı. Özel sektörün ürettiği verilerle pek ilgilenilmiyordu.
Verilerin açık olarak sınıflandırılabilmeleri için öncelikle verilerin kolaylıkla erişilebilir ve yeniden kullanılabilir olmaları gerekir. Open Knowledge Foundation, açık veriyi tanımlarken öncelikle verinin kamuya açık (public domain) olmasının veya açık lisansla sunulmasının gerekliliğine vurgu yapıyor. Open Knowledge Foundation’a göre açık veri (bkz. https://opendefinition.org/od/2.1/en/):
- bir kerelik makul bir yeniden üretim maliyetini geçmeyecek şekilde bir bütün olarak sağlanmalı ve internet üzerinden ücretsiz olarak indirilebilir olmalıdır.
- bir bilgisayar tarafından kolayca işlenebilir ve değiştirilebilir bir biçimde sunulmalıdır.
- açık bir formatta sunulmalıdır. (Açık bir format, kullanımı üzerine parasal veya başka türlü herhangi bir kısıtlama getirmeyen ve en az bir özgür/açık kaynak yazılım aracı ile tam olarak işlenebilen bir formattır.)
Açık Hükümet Verisinin gereklilikleri ise sekiz maddede özetleniyor (https://opengovdata.io/2014/8-principles/):
1. Bütünlük: Herkese açık olmalıdır. Herkese açık veriler; geçerli gizlilik, güvenlik veya ayrıcalık sınırlamalarına tabi olmayan verilerdir.
2. Birincillik: Veriler, toplu veya değiştirilmiş formlarda değil, mümkün olan en yüksek ayrıntı düzeyinde toplandığı gibi olmalıdır.
3. Güncel: Verilerin değerini korumak için veriler gerektiği kadar hızlı bir şekilde sunulmalıdır.
4. Erişilebilir: Veriler, çok çeşitli amaçlar için en geniş kullanıcı yelpazesine sunulmalıdır.
5. Makinelerce işlenebilir: Veriler, otomatik işlemeye izin verecek şekilde yapılandırılmalıdır.
6. Ayrımcı olmamalı: Veriler, kayıt zorunluluğu olmaksızın herkes tarafından kullanılabilmelidir.
7. Özel mülkiyetli olmamalı: Veriler, hiçbir kuruluşun ayrıcalıklı denetime sahip olmadığı bir biçimde sunulmalıdır.
8. Lisans Bağımsız:Veriler herhangi bir telif hakkı, patent, ticari marka veya ticari sır yönetmeliğine tabi olmamalıdır. Makul gizlilik, güvenlik ve ayrıcalık kısıtlamalarına izin verilebilir.
Açık veri hareketi, özellikle 2000’li yılların sonunda daha görünür ve etkili olmaya başladı. 2008’de OECD, üye ülkelere verilerini açma çağrısı yaptı. 2009’da ABD hükümeti, ulusal güvenlik sorunu yaratmayacak veri kümelerini erişime açmak için çalışmalara başladı. 2010’dan bugüne kadar çok sayıda ülke ve uluslararası kuruluş (ör. Avrupa Birliği ve Birleşmiş Milletler Geliştirme Platformu) daha önce kısıtlanmış olan veri kümelerini açtı. Türkiye’de de çok sayıda açık veri portalı var: İstanbul Belediyesi (https://data.ibb.gov.tr/), İzmir Belediyesi (https://acikveri.bizizmir.com/tr/), Balıkesir Belediyesi (https://acikveri.balikesir.bel.tr/), Tarım Orman Bakanlığı (http://veri.tarimorman.gov.tr/), TÜBİTAK (https://acikveri.ulakbim.gov.tr/).
Bu açılma sürecinde, Open Knowledge Foundation ve Sunlight Foundation gibi uluslararası kuruluşlar, bilişim sektöründeki şirketlerin lobi faaliyetleri, belediye verilerinden yararlanmak isteyen gruplar ve açık veri hareketinin aşağıdaki tezlerine ikna olmuş bürokratlar etkili oldular.
Açık veri hareketi, açık verinin hem veriyi elinde tutanlar hem de onu kullananlar için yararlı olacağını savunmaktadır. Birincisi, kamu kurumlarındaki veriler kurumların çeşitli program ve faaliyetlerinin başarısını ölçmek için bir araç sağlamaktadır. İkincisi, yurttaşların kamu kurumlarının verilerine erişiminin sağlanması, kamusal alana aktif ve bilgili katılımı sağlayarak katılımcı demokrasiyi güçlendirecektir. Üçüncüsü, kurumların verilerini açmaları kurumları bu tür verileri, kendi verimlilik ve üretkenliklerini artırmak için de kullanmaya teşvik edecektir. Dördüncüsü, verileri ücretsiz olarak kullanılabilir hale getirmek bir kuruluşun imajını güçlendirecek; onun yenilikçi ve girişimci olarak tanınmasını sağlayacaktır. Beşincisi, herkese açık olan sunulan veriler; mevcut iş verilerine değer katacak, yeni uygulamalar ve hizmetler ve dolayısıyla yeni pazarlar yaratacak ve karar süreçlerini geliştirecektir
Açık veri hareketi kimi zaman özgür/açık kaynak yazılım hareketlerine benzetilse de önemli bir fark vardı. Özgür yazılım, özel mülkiyetli yazılıma bir tepkiydi. Açık veri taleplerinin muhatabı ise çoğunlukla kamu kurumlarıydı. İşin ilginci açık veri hareketinin güçlendiği dönemde bir yandan kamu verilerinin açılması talebi artarken diğer yandan fikri mülkiyet korumaları güçleniyordu. Bu nedenle, fikri mülkiyet kapsamında değerlendirilen şirket verilerinin açılması pek gündeme gelmiyordu. Aslında açık veri hareketine yöneltilen eleştirilere baktığımızda buna şaşırmamak gerekiyor. Eleştirileri üç başlık altında toplayabiliriz.
Birincisi, açık verinin kamu hizmetlerinin neoliberalizasyonunu ve pazarlanmasını kolaylaştırmasıdır. Örneğin, İngiltere’de açık verinin gelişiminde büyük şirketlerin yürüttüğü kampanyaların önemli bir yeri vardır. Aynı süreçte açık hükümet girişimlerinin de zorunlu kemer sıkma programlarının ve kamu hizmetlerinin piyasalaşmasının bir parçası haline geldiği görülmektedir. İş dünyası, pahalı bir şekilde üretilmiş verilere ücretsiz olarak erişebilmiş ve bu tür verilerin üreticisi olan kamu sektörünü piyasan uzaklaştırabilmiştir.
İkincisi, açık veri hareketinin naif bir siyaseti teşvik etmesi ve kimi zaman, açıklık ve demokratikleşme hedeflerinin güçlülerin daha da güçlenmesiyle sonuçlanmasıdır. Veriyi açmak siyasette kendiliğinden bir demokrasi ve açıklık getirmemektedir. Açık verinin toplumu demokratikleştireceği hakkındaki tezler, verilerin nötr olduğunu varsaymaktadır. Oysa hangi verilerin üretildiği, verilerin kiminle ve neyle ilgili olduğu (özellikle sosyal refah ve güvenlik gibi disiplin sistemi olarak işlev gören alanlarda), kimin çıkarlarının temsil edildiği veya dışarıda bırakıldığı önemli konulardır. Kitchin’in (2014) vurguladığı gibi değer yapıları veri kümelerinin doğasında bulunur, analiz ve yorumu şekillendirir ve bunun sonucunda adaletsizlikleri yaymak ve baskın çıkarları güçlendirmek için çalışabilir. Ayrıca herkesin bu tür verilere erişme ve bunları kullanma potansiyeli yoktur. Veriyi herkes için erişilebilir hale getirme iddiası var olan toplumsal eşitsizlikler dikkate alındığında olumsuz sonuçlara neden olabilmektedir. Örneğin Hindistan’ın Karnataka şehrinde yoksullardan yana bir girişim olarak tanıtılan açık veri projesiyle arazi kayıtları sayısallaştırılmış ancak bu girişim finansal kaynaklardan ve açılan veriden yararlanma olanağı olanların yoksulların arazilerine yeniden el koymasıyla sonuçlanmıştır.
Kitchin’in (2014) altını çizdiği gibi iki tip kamu verisi arasındaki farklılığa da dikkat etmek gerekiyor. Birinci tipteki veriler, devletin işleyişi ile ilgili olanlardır ve bu verilerin açılması, performans ve hesap verilebilirliğin değerlendirilmesine yardımcı olmaktadır. İkinci tipteki veriler ise kişiler ve kurumlar hakkındaki hassas verilerdir. Bu veriler, paylaşmak amacıyla yaratılmamıştır ve çoğunlukla mahremiyet ve kişisel veri yasalarıyla korunmaktadırlar. Ayrıca, kredi ve sigorta riski açısından vatandaşları sosyal olarak sınıflandırmaya ve profillemeye çalışan analizlere önemli bir girdi sağlarlar.
Üçüncü eleştiri konusu ise sürdürülebilirlik, fayda ve kullanılabilirlik hakkında. Birçok açık veri projesi, sunduğu içeriğin kullanılabilirliğine, kalitesine veya kullanımının sonuçlarına hiç dikkat etmeden, çeşitli veri dosyalarına bağlantılar vermekle yetiniyor. Veri standartlarında (uygun üstveri, tam kayıt setleri, yüksek, kaliteli, birlikte çalışabilirlik vb) ciddi eksiklikler ve sorunlar var. İyi yapılandırılış bir veri altyapısından beklenen, yeniden kullanım, mahremiyet ve etik ilkeleri; koruma, yedekleme ve denetim politikaları; idari düzenlemeler, işletme organizasyonu ve yönetişim mekanizmaları; finansal istikrar ve uzun vadeli bir gelişim planı ve sürdürülebilirlik gibi konularda yetersizler. Veri analizini desteklemek için uygun araçları ve bağlamsal materyalleri sağlamıyorlar. Ayrıca bazı yönetimler sadece sağlanması daha kolay olan ve daha az yararlı olabilecek verileri sunmakla yetiniyorlar.
Tüm bu eleştiriler, verileri açma düşüncesinden vazgeçmeyi savunmuyor. Sadece verilerin nasıl kullanılabilir hale getirildikleri, nasıl kullanıldıkları ve belirtilen hedeflerle ne kadar uyumlu oldukları konusunda daha eleştirel olmamız gerektiğini vurguluyor. Akıllı şehirlerle beraber, bu durum daha önemli hale geliyor. Çünkü şimdi kamu verisi ve özel sektör verisi ayrımının ötesinde bir durum var. Şehirleri donatan algılayıcılardan veya ulaşım uygulamalarından (Uber’in yanında belediyelerin sunduğu AnkaraKart gibi hizmetler) elde edilen veriler kimin? Algılayıcı veya uygulamayı satan şirketin mi, yoksa belediyenin, yani halkın mı?
***
Açık veri, bir çok akıllı şehir girişiminde önemli bir yere sahip. Örneğin, Katalonya Hükümeti, verileri yasal gereklilikle yayımlamak yerine yasalarca yasaklanmamış her şeyi yayımlama kararı aldı. Ayrıca verinin kalitesinin yönetimi (güvenilirlik, doğruluk ve güncellik) ve açık veri standartlarının sağlanması için çalışmalar yapılıyor. Espuny (2020) tüm bu çalışmalara rağmen veriyi açmanın kendi başına bir anlamı olmadığını asıl amacın verinin işlenmesi, kullanılması, analizi ve anlaşılmasından bir değer yaratmak olduğunu vurguluyor. Verileri açmanın, yalnızca aşağıdakiler gibi diğer hedeflere ulaşmanın bir yolu olduğunu savunuyor:
Şeffaflık ve hesap verilebilirlik: Yurttaşlar, ihaleler ve sağlanan sübvansiyonlar hakkında kamu kurumlarından eylemlerini gerekçelendirmelerini talep etmelerini sağlayacak bilgilere erişebilecekler. Şeffaflık, vatandaşların kamu kurumlarına karşı güvensizliğini azaltabilecek.
Yurttaş katılımını teşvik etmek: Yurttaş katılımı, sadece seçimden seçime oy kullanmaya indirgenmemeli ve sürekli olmalı. Bunun için seçilmişlerin gerekli araçları sağlaması gerekiyor. Yurttaşların gerçek katılımın en önemli ön koşullarından biri ise tartışılan konu hakkında bilgi sahibi olmaları.
Araştırmayı desteklemek: Açık veri, veri toplama ve işlemeyi daha az maliyetli yaparak araştırma faaliyetlerini teşvik eder. Araştırma sonuçlarının açık veri biçiminde yayımlanması bilgi paylaşımını artırır ve proje tekrarlarını engelleyerek maliyeti azaltır.
Kamu hizmetlerini iyileştirmek: Açık veri, kamu hizmetlerinin sunumunu ve karar verme sürecini iyileştirmeye ve maliyetleri düşürmeye yardımcı olabilir. Açık veri, iç süreçlerdeki verimsizliklerin tespiti ve giderilmesi için kullanılabilir.
Ekonomik büyüme ve inovasyonu artırmak: Açık veri, yeni işletmelerin ortaya çıkmasına katkıda bulunur. Bilişim teknolojisi şirketlerinden bireysel uygulama geliştiricilere kadar yeni işler yaratır.
Bu hedeflerin bir çoğu en başından beri açık veri hareketinin hedefleri arasındadır. Fakat Espuny’nin (2020) yazısında vurgulandığı gibi Katalonya’da temel vurgu, açık verinin merkezinde yurttaşların olmasıdır. Bunu, yönetimin açılacak veriyi seçmesi yerine yasal engel olmayan tüm verilerin açılması kararında da görebiliriz. Söz konusu politika değişikliği, şeffaflık için çok daha samimi ve etkili bir adımdır. Ayrıca Katalonya hükümeti, veriyi açmakla yetinmemekte vatandaşlar, sivil toplum, iş dünyası ve idarelerin kendileri arasında açık verilerin değer yaratma potansiyeli hakkında farkındalık yaratmaya çalışmaktadır.
Ama her şeyden önce, açık verinin gerçekten anlamlı olabilmesi için Avrupa Özgür Yazılım Vakfı tarafından örgütlenen “Halkın Parası, Halkın Kodu” kampanyasını (https://publiccode.eu/tr/), veriyi de kapsayacak biçimde genişletmek gerekiyor. Kamu tarafından finanse edilen ve akıllı şehir uygulamalarından elde edilen veri (kişisel verilerin gizliliği göz önünde bulundurularak!) halkın olmalı, halkın yönetime katılımını ve şehrin teknolojik egemenliğini destekler biçimde kullanılmalıdır. Açık veri, bir son değil, özgür yazılımla gelişecek bir başlangıçtır.
Kaynaklar:
Espuny, N. (2020), The Open Data Strategy of the Government of Catalonia, IDEES, https://revistaidees.cat/en/the-open-data-strategy-of-the-government-of-catalonia/, son erişim 17.05.2021
Kitchin, R. (2014). The data revolution: Big data, open data, data infrastructures and their consequences. Sage.
O’Neill, K. (2019). Facebook’s ’10 Year Challenge’is just a harmless meme–right?. Wired, January, 15. https://www.wired.com/story/facebook-10-year-meme-challenge/, son erişim 17.05.2021
İlk Yorumu Siz Yapın