Veri bilimi projeleri için veri kaynakları

Veri bilimi projeleri için veri kaynakları

Bu yazımızda veri bilimi projeleriniz için hayati önem taşıyan veri seti kaynaklarından ve bu kaynaklara nasıl erişebileceğinizden bahsedeceğiz.
Serdar Tafralı28 Ağu 2022

Veri bilimi projelerinde kullanılmak amacıyla yapılan veri arayışlarında, genellikle yapılandırılmış (structured), yarı-yapılandırılmış (semi-structured) ve yapılandırılmamış veri (unstructured) olarak kategorize edebilecek 3 türde veri şekli ile karşılaşılır. Bu kapsamda, projelerde kullanılmak üzere her tür veri halini bulabileceğiniz 100’den fazla veri kaynağını, konularına göre kategorize edilmiş şekilde sizler için listeledik.
 

Genel/Akademik

KaggleVeri seti denildiğinde akla ilk gelen platformlardan biri olan Kaggle’da birçok konuda, halka açık şekilde sunulmuş binlerce veri seti mevcuttur.

EarthdataNASA tarafından oluşturulan, Yer Bilimi Veri Sistemleri Programı’nın bir parçası olan proje, Dünya’nın ve Güneş’in atmosferi, coğrafi özellikleri ve olayları hakkında veri setleri sağlıyor.

Global Health ObservatorySağlık üzerine binlerce veri setini ücretsiz bir şekilde kullanıma sunan bir platform. 

Google Cloud Public DatasetsGoogle Cloud üzerinden erişilebilen, çeşitli analizler gerçekleştirmek ve içgörüler elde etmek üzerine kullanılabilecek çok sayıda veri setini ücretsiz olarak kullanıcıya sunar.

National Center for Environmental Information: Amerika Birleşik Devletleri’nin iklim ve hava koşulları hakkında birçok veri setini içeren platform. Aynı zamanda dünyanın en geniş çevresel veri deposudur. 

UCI Machine Learning Repositoryİnternette bulunan ilk ve en eski veri kaynaklarından biri olan bu platform, ilginç konular hakkında veriler içeren veri setleri arayışı için mükemmel bir yer.

Amazon Public Data SetsAWS açık veri kayıtlarında, verileri Amazon EC2 (Amazon Elastic Compute Cloud) üzerinde analiz edebileceğiniz (ücretsiz bir AWS hesabına sahip olmanız gerekir) ya da indirip kendi sisteminizde kullanabileceğiniz birçok veri seti bulunur.

UNDataBirleşmiş Milletlerin tüm verilerinin tutulduğu istatistiksel veritabanıdır.

Google Scholar: Kaggle gibi direkt olarak veri seti paylaşım platformu olmasından ziyade makaleler, tezler, kitaplar, özetler, beyaz kağıtlar ve mahkeme görüşleri dahil olmak üzere çok çeşitli bilgiye erişilebilir.

Datasets Subreddit: 14. Yüzyılın İngiliz tahıl fiyatlarından ABD evsizlik oranlarına kadar birçok veriye erişilebilen bir platformdur.

Qlik DataMarket: Ekonomi, sağlık, gıda, tarım ve otomotiv endüstrisi ile ilgili verilere ulaşabileceğiniz bir web sitesidir.

 

İçerik pazarlama

BufferDijital pazarlamaya ilişkin veri içgörülerini içerir.

MozSEO hakkında içgörüleri içerir.

HubSpotPazarlama verileri içeren büyük bir depodur.

Content Marketing Instituteİçerik pazarlamayla ilgili en güncel haberler ve araştırmalar yer alır.

 

Suç verileri

Uniform Crime Reporting Statistics: Çeşitli suçlara ilişkin istatistikler; şehir, ilçe, eyalet ve ulusal düzeylerde onlarca yıllık veriye sahiptir.

FBI Crime Statistics: Hem yerel hem de ulusal düzeyde suç tehditlerini anlamak için belirli suçları detaylandıran ve eğilimleri özetleyen istatistiksel suç raporları ve yayınlar yer almaktadır.

National Archive of Criminal Justice Data: Ceza adaleti ve kriminoloji ile ilgili arşivlenmiş verilere dayanan bir araştırmadır.

Bureau of Justice Statistics: Hapishane mahkumlarının sayımı, DNA suç laboratuvarlarının ulusal anketi, polis teşkilatının çete birimlerinin anketleri vb. dahil olmak üzere ABD adalet sistemi ile ilgili çeşitli bilgiler içeren platform.

 

İlaçlar

U.S. Food and Drug Administration: Çok kaynaklı, reçeteli ilaç ürünleri için ilaç onayları ve veritabanlarını içerir.

National Institute on Drug Abuse: Yasaklı madde kullanımı, acil servis verileri ve uyuşturucuyla mücadele programları gibi çeşitli konuları kapsayan kaynakları içerir.

United Nations Office on Drugs and Crime: Küresel ve bölgesel veri koleksiyonlarıyla araştırma ve trend analizleri yer alır.

Drug War Facts: Halk sağlığı, ceza adaleti uygulamaları ve yasaklı madde politikasına kapsamlı bir bakış.

Drug Data and Database by First Databank: İlaçlarla tedavi süreçlerinde karar verme kapsamında, bilgi ve ilham vermesi umulan ilaç verileri ve veritabanları yer alır.

 

Eğitim

Government Data About Education: Eğitim veri setleri, uygulamalar, sınıflar için gerekli kaynaklar ve üniversite ücretleriyle ilgili ayrıntılar yer alır.

Education Data by the World BankOkuryazarlık oranları ve devletlerin eğitim harcamaları gibi eğitimdeki temel konularla ilgili kapsamlı veri ve analiz kaynağıdır.

Education Data by Unicef: Sürdürülebilir kalkınma, okul bitirme oranları, devamsızlık oranları, okuryazarlık oranları ve daha fazlasıyla ilgili verileri içerir.

National Center for Education Statistics: Eğitimle ilgili verileri toplamak ve analiz etmek için kurulmuş federal bir yapılanma. 

 

Eğlence

Million Song Dataset: Bir milyon çağdaş popüler müzik parçası için ses özellikleri ve meta verileri içeren 28 veri setinden oluşan bir koleksiyondur.

The Numbers: Gişe, DVD ve Blu-ray satış raporları ve yayın programları dahil olmak üzere ayrıntılı finansal film analizlerini içerir.

BFI Film Forever: Birleşik Krallık film endüstrisi ve film kültürü odaklı veriler ve pazar araştırması hakkında veri içerir.

IFPI: Kayıt endüstrisi hakkında küresel istatistikler yer alır.

Statista: Video Game Industry: Küresel oyun yazılımı harcamalarından, Nintendo Wii’nin ABD marka değerine kadar video oyunu endüstrisi hakkında istatistikler ve bilgileri içerir.

Statista: Film Industry: ABD ve Kanada’da satılan sinema biletlerinin sayısından dünya çapındaki 3D sinema ekranlarının sayısına kadar film endüstrisi hakkında istatistiklere yer verir.

Statista: Music Industry: Konser gelirlerinden plak şirketlerinin pazar payına kadar müzik endüstrisi hakkında istatistikler ve verileri içerir.

Academic Rights Press: Müzik sektöründe geçmiş ve güncel satış verilerinin bulunduğu bir havuzdur.

BLS: Arts, Entertainment, and Recreation: Sanat, eğlence ve rekreasyonla ilgili istatistikler ve veri setlerini içerir.

 

Çevre/Hava Verileri

National Center for Environmental Health: Çevresel halk sağlığı ile ilgili, ulusal olarak finanse edilen veri sistemlerini içerir.

National Climatic Data Center: Ulusal Okyanus ve Atmosfer İdaresi’nden alınan, fırtına verilerinden iklim endekslerine kadar her şeyi kapsayan hızlı bağlantılar yer alır.

National Weather Service: Amerika Birleşik Devletleri’ndeki belirli gözlem istasyonlarından alınan geçmiş hava koşulları ve uzun vadeli ortalamalar dahil iklim verilerini içerir.

Weather Underground: Bölgesel radar, bölgesel şiddetli hava durumu ve küresel sıcaklıklara göre izlenen hava durumu verileri yer alır.

WeatherBase: Dünya çapında 41997 şehir için seyahat hava durumu, iklim ortalamaları, tahminler, mevcut koşullar ve mevsim normallerine dair verileri içerir.

International Energy Agency Atlas: Her ülkenin enerji üretim ve tüketim şekillerine odaklanan bir platformdur.

Environmental Protection Agency: Çevredeki çeşitli maddelere maruz kalmanın insan sağlığına etkileri hakkında bilgi içeren 540'tan fazla kimyasal madde için bilgi kaynağıdır.

 

Finansal/Ekonomik Veriler

OpenCorporates: Dünyanın en büyük açık kaynak şirket veri tabanıdır.

Google Finance: Gerçek zamanlı hisse senedi fiyatları ve çizelgeleri, finans haberleri, para birimi değerleri ve izlenen portföyler yer alır.

Google Public Data Explorer: Dünya çapında ekonomik kalkınma hakkında büyük veri setlerini içerir.

U.S. Bureau of Economic Analysis: Ulusal gelir ve gayri safi yurtiçi hasıla dahil ABD ekonomik istatistiklerini içerir.

National Bureau of Economic Research: Makro veriler, sektör verileri, üretkenlik verileri, ticaret verileri, uluslararası finans verileri ve daha fazlasını sunar.

U.S. Securities and Exchange Commission: Üç aylık dönemlere göre çıkarılmış kurumsal finans raporlamalarını içeren veri setlerini içerir.

World Bank Open Data: Finanstan hizmet sunum göstergelerine kadar her konu hakkında eğitim istatistikleri yer alır.

IMF Economic Data: Küresel finansal istikrar raporları, bölgesel ekonomik raporlar, uluslararası finansal istatistikler, döviz kurları ve daha fazlasını içerir.

The Atlas of Economic Complexity: Veri görselleştirmeleri ile ticaret akışlarının ve bir ekonominin sektörel kompozisyonunun analizi.

World Bank Doing Business Database: Ticaret kapasitesi ve maliyetleri de dahil olmak üzere dünya çapındaki iş ortamı göstergelerini değerlendiren oldukça faydalı bir bilgi kaynağıdır.

UN Comtrade Database: Görselleştirmelerle üst düzey ticaretle ilgili ham veriler yer alır.

Global Financial Data: 300 yıllık zaman aralığında 60.000 şirketi içeren araştırmaların yapıldığı, küresel ekonominin kıvrımlarını ve dönüşlerini analiz eden bir platformdur.

Visualizing Economics: Ekonomi ile ilgili veri görselleştirmelerini içerir.

Federal Reserve Economic Database: Para politikası, bankacılık, makroekonomi, uluslararası ve bölgesel ekonomi vb. ile ilgili veriler yer alır.

 

Devlet/Dünya

U.S. Census Bureau: Nüfus, ekonomi, eğitim, coğrafya ve daha fazlası hakkında ABD hükümeti tabanlı istatistikler.

Data.gov: ABD Hükumetinin halka açık olarak sunduğu veri setlerini içeren platformda, araştırmalar, veri görselleri, mobil ve web uygulamaları geliştirmek amacıyla kullanılabilecek birçok kaynak mevcuttur.

Unicef: Ulusal ve küresel karar alma mekanizmalarını bilgilendirmek için dünyadaki çocukların ve kadınların durumuna ilişkin bulgulara yer verir.

Data Catalogs: Önde gelen açık veri uzmanlarından oluşan bir grubun küratörlüğünü yaptığı, dünyadaki açık veri kataloglarının kapsamlı listesini içerir.

European Union Open Data Portal: Avrupa Birliği kurumlarından alınan veriler.

Open Data Network: Yerleşik bazı görselleştirme araçları kullanılarak oluşturulmuş Amerika Birleşik Devleti ile ilgili verileri içerir.

Gapminder: Tarım, istihdamdan, yardım kuruluşları ve birçok alanda detaylı bir kapsama alanına sahip devasa veri kaynakları koleksiyonudur.

Land Matrix (Transnational Land Database): Çok sayıda görselleştirme aracıyla titizlikle geliştirilmiş uluslararası arazi işlemleri veritabanıdır.

The World Bank’s World Development Indicators: Her ülkeye ilişkin verileri içeren yüzlerce göstergeye sahip büyük bir ulusal veri koleksiyonudur.

UNDP’s Human Development Index: İnsani gelişme merceği altında ülkelerin gelişmişlik sıralamasını içerir.

OECD Aid Database: Hükümetlerden toplanan yardımlarla ilgili görselleştirilmiş verileri sunar.

The CIA World Factbook: Dünyadaki her ülke, bağımlılık ve coğrafi varlık hakkında gerçekler; tarih, insanlar, hükümetler, ekonomi, enerji, coğrafya, iletişim, ulaşım, askeri ve uluslararası konulara odaklanır.

 

Sağlık

Centers for Disease Control and Prevention: Alkol kullanımından, viral hepatite kadar birçok konuda halk sağlığı verileri ve istatistiklerini içerir.

World Health Organization: Uluslararası halk sağlığı ile ilgili bilgi, veri, istatistik ve raporlar.

President’s Council on Fitness, Sports & Nutrition: Her yaştan Amerikalıyı fiziksel olarak aktif olmaya ve spora teşvik etmeyi ve motive etmeyi amaçlayan bilgiler sunar.

Partners in Information Access for the Public Health Workforce: ABD devlet kurumları, halk sağlığı kuruluşları ve sağlık bilimleri kütüphanelerinin işbirliği ile oluşturulmuştur.

Health Services Research Information Central: Sağlık hizmetleri kaynaklarıyla ilgili bilgi ve veri sağlamayı amaçlayan seçici bağlantılar yer alır.

MedicinePlus: Obez vatandaşların yüzdesinden, insanların gribe yakalanma oranlarına kadar geniş yelpazede sağlık istatistiklerini içerir.

National Center for Health Statistics: Sağlık sektörü alanında veri setleri, belgeler, veri erişim araçları, büyüme çizelgeleri ve kaynakları içerir.

America’s Health Rankings: Derinlemesine veri ve analizlerle Amerika Birleşik Devletleri’ni bütünsel gözlemleyen sağlık raporları yer alır.

Health & Social Care Information Centre: Sağlık ve sosyal bakım için ulusal bilgi, veri ve BT sistemleri sağlayıcısıdır.

Medicare Hospital Quality: İlginç karşılaştırmalarla birlikte hastanelere göre komplikasyon oranlarına ilişkin bir veri tabanıdır.

SEER Cancer Incidence: Kanserle ilgili istatistiksel özetler, etkileşimli araçlar ve yayınlar yer alır.

The BROAD Institute: Kanser hastalığı üzerine eski yayınlar, kaynaklar ve kanserle ilgili veri setlerini içerir.

HealthData.gov: Girişimciler ve araştırmacılar için yüksek değerli sağlık verileri; Medicaid, Medicare, klinik çalışmalar ve tedavilere ilişkin verileri içerir.

 

İnsan hakları

Human Rights Data Analysis Group: Kar amacı gütmeyen tarafsız bir grupça titizlikle yapılan, dünya çapındaki insan hakları ihlallerinin analizlerini içeren bir platformdur.

Harvard Law School: Siyasi kurum veritabanlarından uluslararası ilişkiler ve insan hakları verilerine kadar birçok çeşitli konuyu kapsayan bir bağlantı koleksiyonudur.

The Armed Conflict Database by Uppsala University: Dünya çapında küçük veya büyük ölçekli şiddet içeren çatışmalar özelinde, çatışmalardan etkilenen bölgelere bir bakış sunar.

Amnesty International: Herhangi bir siyasi ideolojiden, ekonomik çıkardan veya dinden bağımsız şekilde gerçekleştirilmiş çalışmalara dayalı insan hakları verilerini içerir.

 

İş gücü/İstihdam verileri

Department of Labor: Yakından izlenen istihdam ve işsizlik önlemleri üzerine veriler içeren platform.

U.S. Small Business Administration: Ekonomik göstergeler ve projeksiyonlar dahil olmak üzere işletme sahiplerinin bakış açısından istihdam verilerini içerir.

Employment by U.S. Census: İstihdam ve işsizlik düzeylerinin yanı sıra çalışılan haftalar ve saatler dahil olmak üzere ABD’nin işgücünün durumunu ölçen verileri içerir.

Bureau of Labor Statistics: ABD hükümetinin bölgeler, eyaletler ve yerel alanlarda istihdamla ilgili istatistiklerden oluşan veri koleksiyonudur.

 

Siyaset

Gallup: ABD ve dünya anketleri kapsamında, veriye dayalı haberler yer alır.

Real Clear Politics: Politika desteğinden seçim anket verilerine kadar genel bir bakış sunar.

Intro to Political Science Research by UC Berkeley: Siyaset bilimi ile ilgilenenler için istatistikler ve veriler sunar.

California Field Poll: Kaliforniya kamuoyunu inceleyen bağımsız, tarafsız, medya destekli kamuoyu haber servisidir.

Rand State Statistics: ABD için ulusal ve yerel düzeylerde sosyal bilim verilerini içerir.

Roper Center for Public Opinion Research: ABD ve uluslararası anket ve kamuoyu araştırması verileri yer alır.

Open Secrets: Tarafsız, bağımsız ve kâr amacı gütmeyen, ABD siyasetindeki para akışını ve bu akışın seçimlere ve kamu politikası üzerindeki etkisini izleyen, ülkenin önde gelen araştırma grubudur.

Crowdpac: Siyasi adayların genel siyasi konumlarını ve belirli konulardaki konumlarını gösteren objektif puanları hesaplar.

 

Perakende

Love the Sales: Küresel perakende sektörüyle ilgili içgörüler ve verileri içerir.

 

Sosyal medya

Facebook Graph: Facebook etkileşimi hakkında veri çekmek amacıyla oluşturulmuş bir API’dir.

SocialMention: Gerçek zamanlı sosyal medya araştırmaları ve analizlerini içerir.

Google Trends: Arama motoru etkileşimine göre veriler ve eğilimlere ulaşılabilen bir platformdur.

 

Seyahat/Ulaşım

Monthly Tourism Statistics — U.S. Travelers Overseas: ABD’nin uluslararası hava yolcu istatistiklerini içeren bir platformdur.

SkiftStats: Seyahat endüstrisi hakkında en güncel istatistikler, araştırmalar ve verileri içerir.

Search the World: Dünya çapında milyonlarca lokasyonu baz alan istatistikler, nüfus, hava durumu, web kameraları ve seyahat bilgileri yer alır.

U.S. Travel Association: Seyahatin ABD ekonomisi üzerindeki etkilerinin analizleri ve seyahat endüstrisi kapsamında birçok konuyu inceleyen bir  platformdur.

Bureau of Transportation Statistics: Ulaştırma istatistik verileri, araştırma faaliyetleri ve bütçe kaynakları hakkında bilgiler içeren bir web sitesidir.

 

Bu yazımızda makine öğrenmesi uygulamalarınızda, projelerinizde kullanabileceğiniz verilere erişebileceğiniz 100’ü aşkın veri kaynağını derledik. Siz de makine öğrenmesi hakkında detaylı bilgi edinmek isterseniz Miuul'un Makine Öğrenmesi üzerine oluşturduğu eşsiz eğitimlere mutlaka göz atmalısınız. Veri bilimini kariyer yolunuz haline getirmek ve gerçek hayat verileriyle projeler için Miuul’un sunmuş olduğu Veri Bilimci Kariyer Yolculuğu tam olarak aradığınız eğitim içeriğini sizlere sunacaktır.

 

Kaynaklar

Miuul topluluğunun bir parçası ol!

Abone ol butonuna tıklayarak Miuul'dan pazarlama ve haber içerikleri almayı onaylıyorum.