İçindekiler
Dergi Arşivi

Veri Bilimi

Mehmet TOPSAKAL / Sanayi ve Teknoloji Uzman Yardımcısı (Bilim ve Teknoloji Genel Müdürlüğü)

 

Dijital teknolojilerle çevrildiğimiz günümüz dünyasında, gerek çevrim dışı gerekse de çevrim içi yani internet üzerinden yapılan işlemlerin bir sonucu olarak çok büyük miktarlarda yapısal ve yapısal olmayan veri yığınları oluşmaktadır. İnternetin yaygın olarak kullanılmaya başlandığı yıllar düşünüldüğünde sadece 2003 yılında dünyada üretilen toplam veri miktarı, o yıla kadar tüm insanlık tarihi boyunca üretilen kadardı. Günümüzde ise artan hızda veri üretilmeye devam etmektedir. Öyle ki IDC istatistiklerine göre 2020 yılında ulaşılacak veri miktarı, 2009’un 44 katı olması tahmin edilmektedir [IDC]. Yakın bir zamanda dünya üzerinde üretilen tüm verilerin yaklaşık yarısının çevrim içi ve birbiriyle bağlantılı verilerden oluşacağı öngörülüyor [1]. Veriyle gelişen teknolojilerin insan yaşantısına çok büyük etkileri olacaktır. Yaşanılan bu gelişmelerle birlikte üretilen teknolojilere ve bu çok büyük veri yığınına Big Data yani Büyük Veri denilmektedir.

Büyük Veri, doğru analiz ve araştırma yöntemleriyle kullanıldığında işletmelerin stratejik kararlarını almalarında ve risklerini yönetmelerinde önemli bir rol oynar. Büyük ve bilgi sistemlerine doğru yatırımlar yapmış işletmeler yapısal olmayan verilerden oluşan çok büyük verileri işleyip anlamlı bilgiler elde ederek veriden paraya dönüşümü gerçekleştirmektedir. Çoğu bilim çevresi Büyük Veri kavramını inovasyon ekonomisinin yeni yakıt kaynağı olarak tanımlıyor.

Büyük verinin artış hızı, analiz ve araştırma yöntemlerinin uygulanması için gerekli olan iş gücü ihtiyacını da hızlı bir şekilde artırdı. Bu durum eldeki veriyi yapılandıran, veri modelleri üreten ve bu modelleri ürün ya da hizmet süreçlerinde ve karar mekanizmalarında kullanabilen ve bu sebeplerden ötürü çok değerli bir alan olan veri bilimini ortaya çıkardı.

Günümüz dünyası büyük veri kavramını ve oluşturduğu etkileri kavramaya çalışırken diğer yandan veri bilimi kavramı ortaya çıkmıştır. Dünyada olduğu kadar ülkemizde de bu kavramların oluşturduğu etkiler giderek artmaya ve genişlemeye başladı. Bu etkiler aslında gelişen teknolojiler ışığında doğal bir gelişimin sonucudur. Yani kimse olmadık yere veri bilimi, veri bilimcisi ve büyük veri gibi kavramları üretmiyor. Bu kavramların ortaya çıkış aşamaları şöyle açıklanabilir: Bilgi sistemlerinde teknolojik gelişmeler tüm hızıyla devam etmekte ve her geçen gün veriyi üretmek daha da kolaylaşmaktadır. Üretilen bu verilerin bir yerden başka yere taşınması konusunda ağ teknolojilerinin veri iletim performansları fiber teknoloji ile birlikte akıl almaz hızlara ulaşmaya başladı. Veriyi saklamak için disk birim alan maliyeti günümüzde oldukça düşük bir seviyeye inmiş durumdadır. Diğer taraftan veri üreten kaynakların bolluğu da göz ardı edilemeyecek seviyededir. Bilgi sistemleri günden güne teknolojinin ilerlemesiyle yaygınlaşmaya ve insan hayatının her alanına müdahil olmaya başladı. Müşteri işlemleri, bankacılık işlemleri, e-ticaret işlemleri, ürün yorumları, RFID verileri, elektronik sağlık kayıtları, sigorta geri ödeme kayıtları, algılayıcılar tarafından üretilen veriler, sosyal paylaşım ortamlarından elde edilen veriler gibi birçok veri kaynağı bulunmaktadır. Hal böyle olunca dünyada devasa bir veri patlaması yaşanmaya başlandı.

Bilimin veriye dayalı olması gerekliliği önceden beri kabullenilmiş bir yaklaşımdır. Aydınlanma döneminden günümüze kadar geldiğimiz süreçte bilginin deneye ve veriye dayalı olması bilimin en temel ilkelerinden biridir. Bu gelişmelerden anlaşıldığı üzere bilim için veri değil, veri için bilim anlayışı kabul edilmektedir. Günümüzde veri o kadar çok zenginleşti ki, artık doğrudan bilimsel amaçlı gözlemler ve deneylerle üretilen verinin incelenmesinden ziyade büyük verinin analiz edilip incelenmesi beklenen ya da beklenilmedik sonuçların bulunması gibi durumlar ortaya çıkmaktadır. Yani bilimin çıkış noktası doğrudan büyük miktarda verinin analiz edilmesi ve değerlendirilmesidir.

Veri bilimi isim, sayı veya bir başka deyişle etiket ve kategorileri kullanarak veri üzerine sorulan soruları cevaplamaya çalışan bilim dalıdır [2]. Büyük veri ve iş zekâsı gibi kavramların uzun yıllardır kullanıyor olması, bu kavramlara gün geçtikçe daha fazla ihtiyaç duyulması ve analizlerin daha hareketli, ileri görüşlü olması gerekliliği uzun yıllardır bilimin bir dalı olan veri bilimini günümüzün en ihtiyaç duyulan teknolojilerinden biri haline getirdi.

Veri bilimi aslına bakıldığında veri ile ilgili her konuyu derinlemesine ele alan bir bilim dalıdır. Bu bilim dalı günümüzde makina öğrenmesi, derin öğrenme, yapay zekâ gibi kavramların endüstri ve teknoloji alanlarına uyarlanması ile daha yaygın kullanılır hale gelmiştir. Bu bilimi bu kadar kullanılır yapan ve hemen hemen her alanda karşımıza çıkmasını sağlayan bir diğer etken ise teknolojinin gelişmesidir. Geçmiş yıllarda büyük verilerin işlenmesi çok büyük altyapılar ve yatırımlar gerektirirken işlemci gücünün artması, bulut bilişimin gelişmesi, dağıtık hesaplamaların ve yüksek performanslı işlemlerin kolaylaşması ve bu teknolojilerin herkes tarafından kullanılabilmesinin kolaylaşmasıyla bu önemli ve detaylı bilim dalı Endüstri 4.0 ile sanayiye kapsamlı bir giriş yapmış oldu.

Veri bilimi disiplinler arası bir bilimdir ve bu bilimde çok sayıda alandan birçok teori ve teknik kullanılır. Bunlar; sinyal işleme, matematik, olasılık modelleri, makine öğrenmesi, derin öğrenme, istatistik, bilgisayar programlama, veri mühendisliği, görselleştirme, veri ambarı gibi alanlardır. İstatistiğe çok benzeyen bu bilim dalını yüzyıllardır kullanılan istatistik alanı olarak değil de “Veri Bilimi” adıyla tanımlamamızın nedeni bu bilimin kaynağı olan verinin daha çok heterojen yani yapılandırılmamış bir halde olmasıdır.

Birden fazla farklı tipteki veriyi analiz edip birleştirmek ve mantıklı bir hale getirmek çoğu zaman bilgisayar bilimi, dil bilimi, ekonomi, sosyoloji vb. diğer alanları da etkileşimli olarak kullanmayı gerektirir. Mühendislik açısından bakıldığında bu kadar çok verinin keşfedilmesi için geleneksel veritabanı sistemi yöntemleri yetersiz kalmaktadır. Bunun nedeni ise geleneksel veritabanı sistemlerinin veriye hızlı erişim ve hızlı veri özetlemek için optimize edilmiş olmalarıdır.

Bazı verilerin anlamlı kombinasyonu, büyük bir veri yığınından çok daha fazla işe yarayabilir. 100 GB’lık veriniz işe yaramaz, ancak 3 KB’lık veri ise sorunuzun cevabını içerebilir [John Tukey]. Bu büyük verinin disiplinler arası bir şekilde seçilmesi, ayırt edilmesi ve işlenmesi gerekmektedir. Veri bilimi başlangıçta bir soru ile başlar. Bir soru sorulduğunda yeni veriler toplanıp toplanmayacağı gerektiğine de karar verilir. Ve bu verilerden doğru bir sonuç elde edilip edilmeyeceği deneysel bir şekilde değerlendirilebilir. İşte bu sebeplerden ötürü bu alan bilimsel bir alandır. Veri dizisinde yapı ya da ağ bloğu bulmak kolaydır. Eğer yeteri miktarda veri toplanırsa daima binlerce neden için korelasyonlar olacaktır. “Science” kelimesinin özellikle bu alanda kullanılmasının nedeni, sistematik çalışmalarla bilgiye ulaşılması nedeniyledir. Bir başka tanım ise test edilebilir açıklamalar ve tahminler içerisinde sistematik bir bilgi oluşumu ve bilgi organizasyonu olduğudur.

Teknoloji yaşamlarımızın tüm alanlarını yeniden şekillendiriyor ve iş hayatı da bu alanların başında gelmektedir. Her geçen gün dijitalleşen dünyada oluşturulan verilerin artması bu verilerin işlenmesi ve analiz edilmesine yönelik önemli bir ihtiyacı ortaya çıkartıyor. İşte bu nedenle veri bilimi geleceğin en önemli mesleklerinden biri olmaya adaydır. Veri bilimi özetle, çok yüksek miktarlardaki verinin hızlı ve etkili bir biçimde incelenmesi ve işlenmesi anlamına geliyor. Özellikle büyük miktarlarda veri üreten veya bu oranda verilere erişim sağlayabilen büyük işletmeler için veri bilimi önem kazanıyor. Doğal olarak finans sektörü ilk akla gelenlerden olsa da bunun yanı sıra sağlık sektörü de bu ihtiyacın yaşandığı önemli alanlar arasındadır. Elbette bilgi teknolojileri ve bilişim sistemleri alanları için veri bilimi günümüzde bile büyük önem taşıyan bir alandır.

Yoğun olarak veri üretilen ve verilerin incelenmesinin önemli olduğu çok farklı sektörlerde önemini artıran veri biliminin çok yakın bir zamanda önemli bir kariyer seçimi olacağı tahmin edilmektedir. Yapılan bir araştırmaya göre katılımcıların yüzde 63’ü önümüzdeki on yılda piyasada veri bilimi ile uğraşan profesyonellerin sayısının ihtiyacın altında kalacağını tahmin ediyor. Yüzde 31’i bu anlamda bir denge olacağını, sadece yüzde 6’sı ihtiyaçtan fazla kalifiye personel olacağını düşünüyorlar. Kimlerin veri bilimi alanında profesyonel olabileceğine bakıldığında; katılımcıların yüzde 34’ü bilgisayar bilimleri üzerine eğitim gören öğrencilerin ideal birer aday olabileceklerine inanıyor. Yüzde 27’si bilgisayar bilimi dışındaki alanlarda görev alan profesyonellerin, yüzde 24’ü ise farklı bir alanda eğitim gören öğrencilerin bu işe uygun olabileceğini düşünüyor. Buradaki önemli detay, katılımcıların yüzde 58’inin öğrencilerin var olan profesyonellerden daha uygun olduğuna inanıyor olmalarıdır.

Günümüzde veri biliminin olması gerektiği gibi uygulanamıyor olmasının önündeki en önemli engeller arasında çalışanların uygun beceri ve eğitime sahip olmamaları, yetersiz kaynak, yetersiz teknolojik araçlar ve hatalı kurumsal yapılanma geliyor. Veri bilimine en yakın olduğu kabul edilen alan iş zekâsıdır. Fakat her ikisi arasında bazı temel farklılıklar da vardır. Örneğin iş zekâsı profesyonelleri genellikle işletme konusunda uzmanlar ama veri bilimi profesyonellerinde; bilgisayar bilimleri, mühendislik, sosyal bilimler gibi daha farklı uzmanlıklar da görülebiliyor.

Veri bilimi ile uğraşan profesyonellerin görevleri arasında veriyi görsel olarak sunulabilir hale getirmek önemli bir yer işgal ediyor. Tabi ki bunun için verileri ayrıştırabilmek ve organize etmek gereklidir. Buradaki en önemli zorluklardan biri ise dinamik yani değişken verilerle çalışma gerekliliğidir. Bu verileri yorumlayabilmek için gelişmiş algoritmalar hazırlanması ve bu şekilde işlenen verilerle iş kararları verilebilmesi ise işin kilit noktalarından biri. Veri bilimi geleceğin en önemli kariyer alanlarından biri olarak görünüyor ama buradaki “gelecek” kavramı yanıltıcı olmasın. Bugün bile veri bilimine duyulan ihtiyaç çok yüksektir. Günümüzde görülen en büyük sorun ise bu ihtiyacı henüz fark edememiş olan yöneticilerdir.



Birçok sosyal medya ve internet sitesinde bir gün içinde milyarlarca veri ve bilgi aktarımı oluşuyor. Tüm bu elde edilen veriler kurum ve kuruluşların rekabet edebilirliğini, kârlılığını, müşteri memnuniyetini ve müşteri artışını etkileyebilecek ipuçları saklamaktadır. Veri analizinin performansları üzerinde büyük ve olumlu bir etkiye sahip olduğunu fark eden tüm kurum ve kuruluşlar bünyelerinde veri bilimi teknolojilerine hâkim veri bilimcisi olarak adlandırılan profesyoneller çalıştırıyor. Veri bilimciler elde edilen tüm verilerin temizlenmesi, sınıflandırılması, değerli veriler ile değerli olmayan verilerin ayırt edilmesiyle kullanılabilir hale gelmesini sağlıyor.

Veri bilimciler çalıştıkları kurum ve kuruluşların yönetim ve karar alma gibi stratejik öneme sahip süreçlerinde de önemli rol oynuyorlar. Kurum ve kuruluşların çalışma alanlarına giren tüm verilerin toplanması, ayırt edilmesi, sınıflandırılması ve kullanılabilir bir ürün olarak ortaya koyulması; kurum veya kuruluşun performans ve kâr artışı üzerinde önemli bir etkiye sahip oluyor. İş hayatına ve veri topladıkları alana ilişkin uzmanlık sahibi olan veri bilimciler, karar alma süreçlerinde, verileri doğru anlayıp yorumlama, geleceğe ilişkin tahminlerde bulunma ve en iyi sonuçları verecek eylemleri yerine getirme konusunda yöneticilere ve yönetici birimlere geleceğe yönelik tavsiyelerde bulunuyorlar.

Veri bilimcilerin günümüzde ve gelecekte geniş bir çalışma alanına sahip olmaları bekleniyor. İstatistik, ekonomi, matematik ve bilgisayar mühendisliği alanlarında eğitim gören bireyler veri bilimci olarak kendilerini geliştirerek ve bu alanda uzmanlaşarak daha fazla iş olanağına sahip olabileceklerdir. Bunun yanı sıra analitik düşünme yeteneği gelişmiş, ayrıntıları fark edebilen ve aynı zamanda büyük resmi görebilen, elde ettiği verilerle eğilimleri gözlemleme yeteneğine sahip, sözlü ve yazılı iletişim yetenekleri gelişmiş kişiler veri bilimci olarak iş piyasasında yer alabiliyorlar.


Kaynakça
1. Big Data, Small World: Kirk Borne at TEDxGeorgeMasonU
2. www.mshowto.org