|

Büyük Veri Nedir?

Big Data

Yani “Büyük Veri” terimi, karmaşıklığı ve boyutundan dolayı geleneksel verilerin yönetim teknikleri ile yönetilememesi ve işlenememesinden dolayı, çok büyük miktarda veriyi tanımlamak için, bilgisayar dünyasına ilk olarak 2005 yılında O’Reilly Media’dan Roger Magoulas tarafından tanıtıldı.

Bir Araştırma ve Bilimsel Konu olarak Büyük Verinin Evrimi üzerine bir çalışma şunu gösterdi ki, “Big Data” üzerine 1970’lerde başlayan araştırmalar mevcuttu. Fakat 2008 içerisinde yayınlarda görünmeye başladı. Günümüzde Büyük Veri konsepti, birçok alanlardaki uygulamalarda farklı şekilde ele alınmaktadır.

Veri, kişisel bilgi parçaları tarih boyunca toplanmış ve kullanılmıştır. Son günlerde değişen bakış ise veri toplama, depolama ve analiz etmede belirgin bir şekilde artan yeteneklere sahip dijital teknolojilerdeki ilerlemelerdir. Büyük Verinin dünyada birçok dolaşan tanımı vardır, fakat her şirket kendisi önem verdiği şekilde tanımlamaktan yanadır. Örneğin, MIKE 2.0 (Veri Yönetimi İçin Açık Kaynak Standardı)’na göre, Büyük Veri birbiriyle etkileşimli, çok büyük, karmaşık ve bağımsız veri setleri ve boyutu tarafından tanımlanmaktadır. O’Reilly Strata Konferansındaki Ed Dumbill’e göre, Büyük Veri “geleneksel veritabanı sistemlerinin işlem kapasitesini aşan veri” olarak açıklanabilir. Veri çok büyüktür, çok hızlıdır, sizin veritabanı mimarisinin yapılandırmasına sığdırılamaz. Bu veriden değer elde etmek için, onu işlemek için alternatif yollar seçmeliyiz. Her lider şirkete rekabet üstünlüğü getirmek için yeni kavramlar tanımlamak zorundadır.

Kavram

Teknolojik ilerlemelerin neticesi olarak ortaya çıkan, geleneksel veri tabanı yönetim sistemlerinin işlem kapasitesini aşan, yapısal olmayan/akışkan yüksek hacim, hız ve çeşitlilikteki verilerin saklanması, içindeki bilgilere erişimi,  işlenmesi, analizi ve anlamlandırılması: toplanan veriden gerekli bilgiyi çıkarma süreci olarak ifade edilebilir.

Kurumların kendi veri ambarlarında –tüm veri deposu– ve veri silolarında –diğer departmanlarından bağımsız bir departmanın kontrolü altındaki alt veri depoları– yapılandırılmış şekilde yerel veri birikmektedir. Yerel veri ambarındaki veriler ile stratejik kararlar hedeflenirken, veri silolarındaki veriler ile acil bir amaca yönelik ya da taktiksel kararlar hedeflenmektedir. Fakat bu yerel veriler, içinde bulunduğumuz çağ itibariyle kurumlar ve işletmeler için doğru ve stratejik kararlar vermeye yardımcı olma hususunda yetersiz kalmaktadır.

Bugün bu yerel verilerden başka, milyonlarca insan tarafından kullanılan bilgisayar, GPS aygıtları, cep telefonları, tıbbi aygıtların milyarlarca etkileşimleri ve bloglar, sosyal medyada paylaşılan veriler, muhtelif sensörlerden toplanan veriler, elektronik postalar, fotoğraflar, videolar, web günlükleri gibi platformlar tarafından yapılandırılmamış ya da yarı-yapılandırılmış “Veri Seli” oluşmaktadır. Ağırlıklı olarak bu karşılıklı etkileşimlerin birçoğu şu ana kadar ihtiyaçları ve alışkanlıkları yetersiz bir şekilde anlaşılan insanlar tarafından kullanılan mobil aygıtlar aracılığıyla oluşmaktadır.

Bu doğrultuda artışı devam eden ancak yapısal veri olarak dikkate alınmayan verinin analiz edilerek yapısal veri birikimi gibi değerlendirilmesi gündeme geldi. Söz konusu verinin kurum ve kuruluşlardaki örtük veya saklı bilginin, açık bilgi ile birleştirilmesiyle elde edilen yapısal veya kurumsal bilgiyi daha da güçlendirecek bir içerik ve zenginliğe eriştirmesi beklenebilir. Böyle bir uygulamanın sonucu ise kurum ve kuruluşların alacakları stratejik kararların hedef kitleyi kapsama ve etkileme alanını genişletebileceği olasılığını da beraberinde getirecektir.

Bu doğrultuda, modern çağda veri hacmi gitgide büyürken, işletmeler ve diğer kuruluşlar geleneksel veri yöntemlerinden çok daha geniş bir şekilde tanımlanan “Büyük Veri” ile başa çıkmak zorunda kalmaktadırlar. Büyük Veri birçok kurum ve şirket için zorluk anlamına geldiği gibi, aynı zamanda fırsat anlamına da gelmektedir. Diğer yandan pek çok endüstri trendi geleneksel veri yönetimi, iş zekâsı platform ve araçları üzerinde baskı meydana getirmektedir.

Kar amacı güden özel ya da gütmeyen birçok gönüllü kurum ve kuruluşlarca yapılan yatırımlar, problem çözümleri, süreç iyileştirmeleri, müşteri memnuniyeti çalışmaları, satış politikaları ve genel kurum stratejileri oluşturmada “Büyük Veri” analizlerinden faydalanmaları gerektiğini öngörmektedirler.

Bununla birlikte, araştırmacılar ve politikacılar da düşük gelirli nüfusun faydası için krizlerin öngörülmesi ve önlenmesi, muhtelif hizmetler sağlanması, ihtiyaçların tanımlanması için kullanılabilen, işlemeye uygun bilgi içerisindeki veri sağanaklarının potansiyel zorluğunu fark etmeye başlıyor.

Birlikte kararlaştırılmış uyumlu aksiyon ile veriyi oluşturan bireylere ve topluluklara yardım eden hükümetlerin, kalkınma kuruluşlarının ve şirketlerin için bu veriden faydalanması gereklidir.

Bugün, Büyük Veri tek veri depolarının (veri tabanları ya da veri ambarları) çok ötesinde veri setlerini ifade etmek için kullanılmaktadır. Geleneksel veri yönetim süreçleri ve işleme araçları tarafından işlenmek için çok büyük ve çok karmaşıktır. Büyük Veri işlemsel veriler, sosyal medya, kurumsal içerik, sensörler ve mobil cihazlar gibi bilgileri kapsayabilirler.

MIKE 2.0 (Veri Yönetimi İçin Açık Kaynak Standardı)’na göre, Büyük Veri birbiriyle etkileşimli, çok büyük, karmaşık ve bağımsız veri setleri ve boyutu tarafından tanımlanmaktadır. Ek olarak, Büyük Verinin önemli bir yanı, geleneksel veri yönetimi ile ele alınamaması gerçeğidir.

Unsurlar

Büyük veri platformları, sayısal ağlar üzerinde farklı, ayrıksı, aykırı olanları kategorize etmeye çalışırken diğer yandan da sanal ortamlara daha çok verinin eklemlenmesini sağlayarak maliyetleri düşürmeye çalışmaktadır. Bu kapsamda büyük verinin 5V (bileşenlerin İngilizce isimlerinin baş harfleri) olarak adlandırılan unsurları önem kazanmıştır (Gürsakal, 2013; Ege, 2013; Wikipedia, 2012).

Yani şunu diyebiliriz ki, Büyük Veri platformunun oluşumunda beş bileşen vardır. İngilizce ifadelerinin baş harfleri kullanılarak kısaca 5V denilmektedir.

Çeşitlilik: Variety

Veri yapılandırılmış, yapılandırılmamış ya da yarı-yapılandırılmış olabilir ve bu üç veri tipinin hepsi sık ve yoğun bir şekilde birbiriyle yer değiştirebilmektedir. Yapılandırılmış veriler veri tabanlarında depolanan büyük verinin sadece %20’lik bir kısmını oluşturmaktadır. Kullanıcılar tarafından internet üzerinde, sosyal ağlarda, fiziksel algılama cihazlarındaki veriler dinamiktir ve yapılandırılmamıştır.

Üretilen ve veri tabanlarında depolanan verinin yüzde 80’i yapısal (yapılandırılmış) değildir ve her yeni üretilen teknoloji, farklı formatlarda veri üretebilmektedir. Telefonlardan, tabletlerden, bütünleşik devrelerden gelen türlü çeşitlilikte “Veri Tipi” ile uğraşılması gerekmektedir. Bir de bu verilerin farklı dillerde, Non-Unicode olabileceğini düşünürseniz, bütünleşik olmaları, birbirlerine dönüşmeleri de gereklidir.

Sosyal medya, sensör verileri, CRM dosyaları, dokümanlar, imajlar, videolar vb. aklınıza gelebilecek bütün verileri, kaynakları hayal edin. Bunların tamamını ilişkisel bir veri tabanında sakladığınızı hatta veri tabanını dahi değil, bildiğimiz bir dosya sistemi üzerinde bile saklamak pek mümkün değil ve maliyetlidir. Verilerin çeşitliliği artmışsa ve bütün bu verileri işlemek, analiz etmek ve saklamak istiyorsak Büyük Veri kavramı bunun için biçilmiş kaftandır.

Hız: Velocity

Hız, büyük veri analizlerindeki yarı-gerçek zamanlı ve gerçek zamanlı işleme üzerindeki yüksek gereksinimleri ifade etmektedir. Geleneksel veri ambarı ve iş zekâsı için gerçek-zaman gereksinimleri daha düşüktür.

Büyük Verinin üretilme hızı çok yüksek ve gittikçe artmaktadır. Daha hızlı üreyen veri, o veriye muhtaç olan işlem sayısının ve çeşitliliğinin de aynı hızda artması sonucunu doğurmaktadır.

Veri Büyüklüğü: Volume

Üretilen verinin çok hızlı artmasından dolayı, dünya çapında veri hacmi çok devasa boyutlara ulaşmaktadır. Her yerdeki mobil cihazlar ve kablosuz veri sensörleri her dakika veri üretiyor ve toplu veri alışverişleri milyarlarca internet servisleri arasında her saniye oluşmaya devam ediyor. Bilimsel uygulamalar, video gözetimleri, tıbbi kayıtlar, operasyonel ticari veriler ve e-ticaret verileri büyük veri kaynaklarını oluşturmaktadır.

Uluslararası Veri Kurumu IDC, 2011’de, dünyadaki verilerin her iki yılda bir ikiye katlandığını iddia etmiştir. Yine IDC istatistiklerine göre, 2020’de ulaşılacak veri miktarının, 2009’un 44 katı olacağı öngörülmektedir.

Şu anda kullanılan, “büyük” diye adlandırdığımız kapasiteleri ve “büyük sistemleri” düşünüp, bunların 44 kat büyüklükte verilerle nasıl başa çıkacaklarını hayal etmek gerekiyor. Bu devasa artışlar depolama için önemli sorunlar oluşturmaktadır. Veri arşivleme, işleme, bütünleştirme, saklama vb. teknolojilerinin bu büyüklükte veri hacmi ile nasıl başa çıkacağının kurgulanması gerekiyor. 2010’lu yıllarda dünyadaki toplam bilişim harcamaları yılda %5 artmakta, ancak üretilen veri miktarı %40 artmaktadır.

Doğrulama: Verification

Bu bilgi yoğunluğu içinde verinin akışı sırasında “güvenli” olması da bir diğer bileşendir. Akış sırasında, doğru katmadan, olması gerektiği güvenlik seviyesinde izlenmesi, doğru kişiler tarafından görünebilir veya gizli kalması gerekmektedir.

Değer: Value

Bir işletmedeki geleneksel veri statik ve arşivsel analizler için kullanılabilmektedir. Ancak, Büyük Veri daha çok gelecek trendleri ve önemli kararların alınmasını etkileyecek önemli bir faktördür. Bununla birlikte Büyük Veri daha düşük değer yoğunluğuna sahiptir. Örneğin bir video kayıt cihazından sürekli gözetim verileri üretilebilir, fakat bu görüntülerin sadece birkaç saniyesi aslında faydalı olabilecektir.

Bu yüzden en önemli bileşen ise büyük verinin bir değer oluşturmasıdır. Bütün yukarıdaki bileşenlerle tarif edilen Büyük Verinin, veri üretim ve işleme katmanlarınızdan sonra kurum için bir artı değer meydana getiriyor olması gereklidir.

Karar veriş süreçlerine anlık olarak etki etmesi, doğru kararı vermede hemen el altında olması gerekiyor.

Örneğin; sağlık konusunda stratejik kararlar alan bir devlet kurumu anlık olarak bölge, il, ilçe vb. detaylarda hastalık, ilaç, doktor dağılımlarını görebilmelidir. Hava Kuvvetleri bütün uçucu envanterindeki taşıtlarının anlık yerlerini ve durumlarını görebilmeli, geriye dönük bakım tarihçelerini izleyebilmelidir. Bir banka kredi vereceği kişinin, sadece demografik bilgilerini değil, yemek yeme, tatil yapma alışkanlıklarını dahi izleyebilmeli, gerekirse sosyal ağlarda ne yaptığını dahi görebilmelidir.

Özet

İnternetin ve bilişim araçlarının hızlı gelişimi, yaygınlaşması ve hayatımızın her alanına girmesiyle, klasik verinin aksine çok fazla kaynaktan, çok fazla dağınık ve çok büyük miktarda “Veri Üretimi” gerçekleşmektedir.

Makineler ve kullanılan teknolojik aygıtlar vasıtasıyla insanlar tarafından üretilen bu veri, kullanıcıların coğrafi konumları, alışkanlıkları, harcamaları, sevdikleri, beğendikleri, izledikleri şeyler ve bunun gibi birçok konu hakkında bilgi sağlamaktadır.

Uluslararası alanda “Big Data” olarak adlandırılan ve bilişim çağının yeni bir olgusu olduğu düşünülen “Büyük Veri” ile yapılan analizlerin, endüstriyel alanda yapılabilecek yatırımlar, problem çözümleri, süreç iyileştirmeleri, müşteri memnuniyet analizleri, satış politikaları ve genel şirket stratejileri oluşturmada kullanılması hedeflenmektedir.

“Büyük Veri” analizi başta e-ticaret, finansal hizmetler, kamu hizmetleri, eğitim, sağlık olmak üzere birçok alanda uygulanma imkânı bulmaktadır. En net şekilde, çok fazla özelleştirilmiş teklifler ve iletişim biçimleri şeklinde e-ticaret ile karşımıza çıkmaktadır. “Büyük Veri” artık kaçınılmaz bir olgu olarak karşımızda durmaktadır.

Start typing and press Enter to search