Tuesday, October 23, 2012

Data Mining


Data Mining adalah serangkaian proses untuk menggali nilai tambah dari suatu kumpulan data berupa pengetahuan yang selama ini tidak diketahui secara manual. Patut diingat bahwa kata mining sendiri berarti usaha untuk mendapatkan sedikit barang berharga dari sejumlah besar material dasar. Karena itu Data Mining sebenarnya memiliki akar yang panjang dari bidang ilmu seperti kecerdasan buatan (artificial intelligent), machine learning, statistik dan database. Data mining adalah proses menerapkan metode ini untuk data dengan maksud untuk mengungkap pola-pola tersembunyi. Dengan arti lain Data mining adalah proses untuk penggalian pola-pola dari data. Data mining menjadi alat yang semakin penting untuk mengubah data tersebut menjadi informasi. Hal ini sering digunakan dalam berbagai praktek profil, seperti pemasaran, pengawasan, penipuan deteksi dan penemuan ilmiah. Telah digunakan selama bertahun-tahun oleh bisnis, ilmuwan dan pemerintah untuk menyaring volume data seperti catatan perjalanan penumpang penerbangan, data sensus dan supermarket scanner data untuk menghasilkan laporan riset pasar.

Alasan utama untuk menggunakan data mining adalah untuk membantu dalam analisis koleksi pengamatan perilaku. Data tersebut rentan terhadap collinearity karena diketahui keterkaitan. Fakta yang tak terelakkan data mining adalah bahwa subset/set data yang dianalisis mungkin tidak mewakili seluruh domain, dan karenanya tidak boleh berisi contoh-contoh hubungan kritis tertentu dan perilaku yang ada di bagian lain dari domain . Untuk mengatasi masalah semacam ini, analisis dapat ditambah menggunakan berbasis percobaan dan pendekatan lain, seperti Choice Modelling untuk data yang dihasilkan manusia. Dalam situasi ini, yang melekat dapat berupa korelasi dikontrol untuk, atau dihapus sama sekali, selama konstruksi desain eksperimental.
Beberapa teknik yang sering disebut-sebut dalam literatur Data Mining dalam penerapannya antara lain: clustering, classification, association rule mining, neural network, genetic algorithm dan lain-lain. Yang membedakan persepsi terhadap Data Mining adalah perkembangan teknik-teknik Data Mining untuk aplikasi pada database skala besar. Sebelum populernya Data Mining, teknik-teknik tersebut hanya dapat dipakai untuk data skala kecil saja.

Untuk memanfaatkan data mining dan untuk mempelajari pola dari data yang dimiliki oleh suatu perusahaan dan mampu memberikan prediksi berdasarkan pola data yang ada, maka diperlukan langkah-langkah penentuan definisi data mining dari awal sampai dengan data mining siap untuk memberikan prediksi. Langkah-langkah tersebut adalah :
 
1. Definisi permasalahan bisnis yang ingin diketahui.
Langkah pertama dalam pembuatan data mining adalah definisi permasalahan bisnis yang ingin dijawab, misalnya ingin mengetahui apakah seorang customer berpotensi memiliki kredit macet, atau mengidentifikasi seorang customer apakah akan pindah ke kompetitor bisnis kita, dan lain sebagainya. Setelah menemukan pertanyaan bisnis yang perlu dijawab oleh data mining, selanjutnya tentukan tipe tugas dasar untuk menjawab pertanyaan bisnis tersebut. Tugas dasar yang menjadi dasar algoritma data mining adalah klasifikasi, regresi, segmentasi, asosiasi dan sequence analysis. Dengan mengetahui tugas dasar, anda memiliki pedoman kira-kira algoritma mana yang bisa digunakan untuk menjawab pertanyaan bisnis.

2. Mempersiapkan data yang menjadi sumber untuk data mining untuk dipelajari polanya.
Setelah menentukan definisi masalah, langkah berikutnya adalah mencari data yang mendukung definisi masalah anda. Sumber data dapat berasal dari OLTP maupun dari cube OLAP. Bila sumber data berasal dari OLTP, sebaiknya pastikan datanya telah konsisten. Bila belum konsisten, SSIS bisa digunakan untuk melakukan cleansing data sampai data tersebut konsisten.

3. Menentukan porsi data yang digunakan men-training data mining berdasarkan algoritma data mining yang telah dibuat.
Setelah persiapan data selesai dilakukan, langkah berikutnya adalah memberikan sebagian data kedalam algoritma data mining. Algoritma data mining perlu mempelajari pola data yang diberikan guna menarik informasi dan trend dari data tersebut. Istilah itu dikenal dengan sebutan training data mining.
4. Validasi apakah data mining memberikan prediksi yang akurat.
Setelah training data selesai dilakukan, data mining tersebut perlu di-“uji” atau di-validasi keakuratannya terhadap data testing. Biasanya tidak hanya 1 algoritma data mining yang diimplementasikan ke dalam suatu data mining. Berarti data yang dipersiapkan pada persiapan data mengandung data yang digunakan untuk training dan data yang digunakan untuk testing. Pemilihan data training dan data testing dapat dilakukan secara manual ataupun secara acak oleh SQL Server.

1.Association Rule Mining
Association rule mining adalah teknik mining untuk menemukan aturan assosiatif antara suatu kombinasi item. Penting tidaknya suatu aturan assosiatif dapat diketahui dengan dua parameter, support yaitu persentase kombinasi item tsb. dalam database dan confidence yaitu kuatnya hubungan antar item dalam aturan assosiatif.
Algoritma yang paling populer dikenal sebagai Apriori dengan paradigma generate and test, yaitu pembuatan kandidat kombinasi item yang mungkin berdasar aturan tertentu lalu diuji apakah kombinasi item tersebut memenuhi syarat support minimum. Kombinasi item yang memenuhi syarat tsb. disebut frequent itemset, yang nantinya dipakai untuk membuat aturan-aturan yang memenuhi syarat confidence minimum. Algoritma baru yang lebih efisien bernama FP-Tree.
2. Classification
Classification adalah proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan konsep atau kelas data, dengan tujuan untuk dapat memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Model itu sendiri bisa berupa aturan “jika-maka”, berupa decision tree, formula matematis atau neural network.
Decision tree adalah salah satu metode classification yang paling populer karena mudah untuk diinterpretasi oleh manusia. Disini setiap percabangan menyatakan kondisi yang harus dipenuhi dan tiap ujung pohon menyatakan kelas data. Algoritma decision tree yang paling terkenal adalah C4.5, tetapi akhirakhir ini telah dikembangkan algoritma yang mampu menangani data skala besar yang tidak dapat ditampung di main memory seperti RainForest. Metode-metode classification yang lain adalah Bayesian, neural network, genetic algorithm, fuzzy, case-based reasoning, dan k-nearest neighbor.
Proses classification biasanya dibagi menjadi dua fase : learning dan test. Pada fase learning, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model perkiraan. Kemudian pada fase test model yang sudah terbentuk diuji dengan sebagian data lainnya untuk mengetahui akurasi dari model tsb. Bila akurasinya mencukupi model ini dapat dipakai untuk prediksi kelas data yang belum diketahui.
3. Clustering
Berbeda dengan association rule mining dan classification dimana kelas data telah ditentukan sebelumnya, clustering melakukan penge-lompokan data tanpa berdasarkan kelas data tertentu. Bahkan clustering dapat dipakai untuk memberikan label pada kelas data yang belum diketahui itu. Karena itu clustering sering digolongkan sebagai metode unsupervised learning. Prinsip dari clustering adalah memaksimalkan kesamaan antar anggota satu kelas dan meminimumkan kesamaan antar kelas/cluster. Clustering dapat dilakukan pada data yan memiliki beberapa atribut yang dipetakan sebagai ruang multidimensi.
Banyak algoritma clustering memerlukan fungsi jarak untuk mengukur kemiripan antar data, diperlukan juga metode untuk normalisasi bermacam atribut yang dimiliki data. Beberapa kategori algoritma clustering yang banyak dikenal adalah metode partisi dimana pemakai harus menentukan jumlah k partisi yang diinginkan lalu setiap data dites untuk dimasukkan pada salah satu partisi, metode lain yang telah lama dikenal adalah metode hierarki yang terbagi dua lagi : bottom-up yang menggabungkan cluster kecil menjadi cluster lebih besar dan top-down yang memecah cluster besar menjadi cluster yang lebih kecil. Kelemahan metode ini adalah bila bila salah satu penggabungan/pemecahan dilakukan pada tempat yang salah, tidak dapat didapatkan cluster yang optimal. Pendekatan yang banyak diambil adalah menggabungkan metode hierarki dengan metode clustering lainnya seperti yang dilakukan oleh Chameleon. Akhir-akhir ini dikembangkan juga metode berdasar kepadatan data, yaitu jumlah data yang ada di sekitar suatu data yang sudah teridentifikasi dalam suatu cluster. Bila jumlah data dalam jangkauan tertentu lebih besar dari nilai ambang batas, data-data tsb dimasukkan dalam cluster. Kelebihan metode ini adalah bentuk cluster yang lebih fleksibel. Algoritma yang terkenal adalah DBSCAN. 


1. Pembersihan data untuk membuang data yang tidak konsisten dan noise.
2. Integrasi data merupakan penggabungan data dari beberapa sumber.
3. Transformasi data yaitu data diubah menjadi bentuk yang sesuai untuk di-mining.
4. Aplikasi teknik Data Mining
§ Pemasaran/ Penyewaan
–Identifikasi pola pembayaran pelanggan
–Menemukan asosiasi diantara karakteristik demografik pelanggan
–Analisis keranjang pemasaran
§Perbankan
–Mendeteksi pola penyalahgunaan kartu kredit
–Identifikasi pelanggan yang loyal
–Mendeteksi kartu kredit yang dihabiskan oleh kelompok pelanggan
§ Asuransi & Pelayanan Kesehatan
–Analisis dari klaim
–Memprediksi pelanggan yang akan membeli polis baru
–Identifikasi pola perilaku pelanggan yang berbahaya
§ Transformasi
–Menentukan jadual distribusi ke outlet-outlet
5. Evaluasi pola yang ditemukan untuk menemukan yang menarik/bernilai.
6. Presentasi pengetahuan menggunakan dengan teknik visualisasi. 
 
Sumber: http://garethdata.blogspot.com/

Data Mining: What is Data Mining?

Overview

Generally, data mining (sometimes called data or knowledge discovery) is the process of analyzing data from different perspectives and summarizing it into useful information - information that can be used to increase revenue, cuts costs, or both. Data mining software is one of a number of analytical tools for analyzing data. It allows users to analyze data from many different dimensions or angles, categorize it, and summarize the relationships identified. Technically, data mining is the process of finding correlations or patterns among dozens of fields in large relational databases.

Continuous Innovation

Although data mining is a relatively new term, the technology is not. Companies have used powerful computers to sift through volumes of supermarket scanner data and analyze market research reports for years. However, continuous innovations in computer processing power, disk storage, and statistical software are dramatically increasing the accuracy of analysis while driving down the cost.

Example

For example, one Midwest grocery chain used the data mining capacity of Oracle software to analyze local buying patterns. They discovered that when men bought diapers on Thursdays and Saturdays, they also tended to buy beer. Further analysis showed that these shoppers typically did their weekly grocery shopping on Saturdays. On Thursdays, however, they only bought a few items. The retailer concluded that they purchased the beer to have it available for the upcoming weekend. The grocery chain could use this newly discovered information in various ways to increase revenue. For example, they could move the beer display closer to the diaper display. And, they could make sure beer and diapers were sold at full price on Thursdays.

Data, Information, and Knowledge

Data

Data are any facts, numbers, or text that can be processed by a computer. Today, organizations are accumulating vast and growing amounts of data in different formats and different databases. This includes:
  • operational or transactional data such as, sales, cost, inventory, payroll, and accounting
  • nonoperational data, such as industry sales, forecast data, and macro economic data
  • meta data - data about the data itself, such as logical database design or data dictionary definitions

Information

The patterns, associations, or relationships among all this data can provide information. For example, analysis of retail point of sale transaction data can yield information on which products are selling and when.

Knowledge

Information can be converted into knowledge about historical patterns and future trends. For example, summary information on retail supermarket sales can be analyzed in light of promotional efforts to provide knowledge of consumer buying behavior. Thus, a manufacturer or retailer could determine which items are most susceptible to promotional efforts.

Data Warehouses

Dramatic advances in data capture, processing power, data transmission, and storage capabilities are enabling organizations to integrate their various databases into data warehouses. Data warehousing is defined as a process of centralized data management and retrieval. Data warehousing, like data mining, is a relatively new term although the concept itself has been around for years. Data warehousing represents an ideal vision of maintaining a central repository of all organizational data. Centralization of data is needed to maximize user access and analysis. Dramatic technological advances are making this vision a reality for many companies. And, equally dramatic advances in data analysis software are allowing users to access this data freely. The data analysis software is what supports data mining.

What can data mining do?

Data mining is primarily used today by companies with a strong consumer focus - retail, financial, communication, and marketing organizations. It enables these companies to determine relationships among "internal" factors such as price, product positioning, or staff skills, and "external" factors such as economic indicators, competition, and customer demographics. And, it enables them to determine the impact on sales, customer satisfaction, and corporate profits. Finally, it enables them to "drill down" into summary information to view detail transactional data.
With data mining, a retailer could use point-of-sale records of customer purchases to send targeted promotions based on an individual's purchase history. By mining demographic data from comment or warranty cards, the retailer could develop products and promotions to appeal to specific customer segments.
For example, Blockbuster Entertainment mines its video rental history database to recommend rentals to individual customers. American Express can suggest products to its cardholders based on analysis of their monthly expenditures.
WalMart is pioneering massive data mining to transform its supplier relationships. WalMart captures point-of-sale transactions from over 2,900 stores in 6 countries and continuously transmits this data to its massive 7.5 terabyte Teradata data warehouse. WalMart allows more than 3,500 suppliers, to access data on their products and perform data analyses. These suppliers use this data to identify customer buying patterns at the store display level. They use this information to manage local store inventory and identify new merchandising opportunities. In 1995, WalMart computers processed over 1 million complex data queries.
The National Basketball Association (NBA) is exploring a data mining application that can be used in conjunction with image recordings of basketball games. The Advanced Scout software analyzes the movements of players to help coaches orchestrate plays and strategies. For example, an analysis of the play-by-play sheet of the game played between the New York Knicks and the Cleveland Cavaliers on January 6, 1995 reveals that when Mark Price played the Guard position, John Williams attempted four jump shots and made each one! Advanced Scout not only finds this pattern, but explains that it is interesting because it differs considerably from the average shooting percentage of 49.30% for the Cavaliers during that game.
By using the NBA universal clock, a coach can automatically bring up the video clips showing each of the jump shots attempted by Williams with Price on the floor, without needing to comb through hours of video footage. Those clips show a very successful pick-and-roll play in which Price draws the Knick's defense and then finds Williams for an open jump shot.

How does data mining work?

While large-scale information technology has been evolving separate transaction and analytical systems, data mining provides the link between the two. Data mining software analyzes relationships and patterns in stored transaction data based on open-ended user queries. Several types of analytical software are available: statistical, machine learning, and neural networks. Generally, any of four types of relationships are sought:
  • Classes: Stored data is used to locate data in predetermined groups. For example, a restaurant chain could mine customer purchase data to determine when customers visit and what they typically order. This information could be used to increase traffic by having daily specials.
  • Clusters: Data items are grouped according to logical relationships or consumer preferences. For example, data can be mined to identify market segments or consumer affinities.
  • Associations: Data can be mined to identify associations. The beer-diaper example is an example of associative mining.
  • Sequential patterns: Data is mined to anticipate behavior patterns and trends. For example, an outdoor equipment retailer could predict the likelihood of a backpack being purchased based on a consumer's purchase of sleeping bags and hiking shoes.
Data mining consists of five major elements:
  • Extract, transform, and load transaction data onto the data warehouse system.
  • Store and manage the data in a multidimensional database system.
  • Provide data access to business analysts and information technology professionals.
  • Analyze the data by application software.
  • Present the data in a useful format, such as a graph or table.
Different levels of analysis are available:
  • Artificial neural networks: Non-linear predictive models that learn through training and resemble biological neural networks in structure.
  • Genetic algorithms: Optimization techniques that use processes such as genetic combination, mutation, and natural selection in a design based on the concepts of natural evolution.
  • Decision trees: Tree-shaped structures that represent sets of decisions. These decisions generate rules for the classification of a dataset. Specific decision tree methods include Classification and Regression Trees (CART) and Chi Square Automatic Interaction Detection (CHAID) . CART and CHAID are decision tree techniques used for classification of a dataset. They provide a set of rules that you can apply to a new (unclassified) dataset to predict which records will have a given outcome. CART segments a dataset by creating 2-way splits while CHAID segments using chi square tests to create multi-way splits. CART typically requires less data preparation than CHAID.
  • Nearest neighbor method: A technique that classifies each record in a dataset based on a combination of the classes of the k record(s) most similar to it in a historical dataset (where k 1). Sometimes called the k-nearest neighbor technique.
  • Rule induction: The extraction of useful if-then rules from data based on statistical significance.
  • Data visualization: The visual interpretation of complex relationships in multidimensional data. Graphics tools are used to illustrate data relationships.

What technological infrastructure is required?

Today, data mining applications are available on all size systems for mainframe, client/server, and PC platforms. System prices range from several thousand dollars for the smallest applications up to $1 million a terabyte for the largest. Enterprise-wide applications generally range in size from 10 gigabytes to over 11 terabytes. NCR has the capacity to deliver applications exceeding 100 terabytes. There are two critical technological drivers:
  • Size of the database: the more data being processed and maintained, the more powerful the system required.
  • Query complexity: the more complex the queries and the greater the number of queries being processed, the more powerful the system required.
Relational database storage and management technology is adequate for many data mining applications less than 50 gigabytes. However, this infrastructure needs to be significantly enhanced to support larger applications. Some vendors have added extensive indexing capabilities to improve query performance. Others use new hardware architectures such as Massively Parallel Processors (MPP) to achieve order-of-magnitude improvements in query time. For example, MPP systems from NCR link hundreds of high-speed Pentium processors to achieve performance levels exceeding those of the largest supercomputers.

Sumber: http://www.anderson.ucla.edu/faculty/jason.frand/teacher/technologies/palace/datamining.htm

Friday, October 5, 2012

Pengertian Datawarehouse

Datawarehouse adalah kumpulan macam-macam data yang subject oriented, integrated, time variant, dan nonvolatile.  dalam mendukung proses pembuatan keputussan. Inmon
and Hackathorn (1994).
Datawarehouse sering diintegrasikan dengan berbagai sistem aplikasi untuk mendukung proses laporan dan analisis data dengan menyediakan data histori, yang menyediakan infrastruktur bagi EIS dan DSS.
Kenapa subject oriented?
Datawarehouse diorganisasikan pada subjek-subjek utama, seperti pelanggan, barang/ produk, dan penjualan.
Berfokus pada model dan analisis pada data untuk membuat keputusan, jadi bukan pada setiap proses transaksi atau bukan pada OLTP.
Menghindari data yang tidak berguna dalam mengambil suatu keputusan.
Kenapa integrated ?
Dibangun dengan menggabungkan/menyatukan data yang berbeda. relational databse, flat file, dan on-line transaction record.
Menjamin konsistensi dalam penamaan, struktur pengkodean, dan struktur atribut diantara data satu sama lain.
Datawarehouse time variant?
Data disimpan untuk menyediakan informasi dari perspektif historical, data yang tahun-tahun lalu/ 4-5 thn.
Waktu adalah elemen kunci dari suatu datawarehouse/ pada saat pengcapture-an.
Kenapa Non Volatile?
Setiap kali proses perubahan, data akan di tampung dalam tiap-tiap waktu. Jadi tidak di perbaharui terus menerus.
Datawarehouse tidak memerlukan pemrosesan transaksi dan recovery.
Hanya ada dua operasi initial loading of data dan access of data.
Datawarehouse bukan hanya tempat penyimpanan data, Datawarehouse adalah Business Intelligence tools, tools to extract, merubah (transform) dan menerima data (load) ke penyimpanan (repository) serta mengelola dan menerima metadata.
Sejarah / Evolution
-1960, Dunia komputerisasi membuat aplikasi individu yang digunakan pada file utama. General mill mulai  mengembangkan istilah dimensi dan fakta.
-1970, IRI menyediakan database dimensi untuk pembeli eceran, tahun untuk memperbaiki, mengembangkan dan mencocokan dengan hardware yang dimiliki.
-1983, DBMS diperkenalkan untuk mengambil keputusan.
-1988, Barry dan Paul mempublikasikan karyanya tentang Arsitektur Bisnis dan Sistem Informasi
-1990, memperkenalkan tool DBMS sebagai alat untuk datawarehouse.
-1990-sekarang, banyak bermunculan buku-buku datawarehouse dan aplikasi-aplikasi datawarehouse.


Arsitektur Datawarehouse
Maksudnya adalah bagaimana datawarehouse dibangun, arsitektur tidak ada yang benar dan salah tetapi suatu arsitektur dibangun tergantung situasi dan kondisi. Arsitektur datawarehouse akan berpengaruh pada penggunaan dan pemeliharaan. Lapisan-lapisan arsitektur datawarehouse :
1. Operational database layer / Lapisan basis data operasional
a. Sumber data (source) untuk datawarehouse
b. Data lengkap, Data hari ke hari
c. Mempunyai nilai saat ini/ data berarti.
d. Tingkat kemungkinan data besar.
2. Data Access Layer/ Lapisan Akses Data
a. Tools untuk mengekstrak, mengubah dan mengambil(load) data.
b. Meliputi karakteristik datawarehouse.
3. Metadata Layer / Lapisan Metadata
a. File data tersimpan / Direktori
b. Lebih detil dari direktori data sistem, maksudnya lebih mendalam dari file data yang tersedia sebelumnya.
c. Ada pentunjuk untuk keseluruhan warehouse dan ada petunjuk data yang dapat diakses report khusus untuk di analisis.
4. Informational access layer (lapisan akses informasi)
a. Akses data dan juga tool untuk laporan dan analisis.
b. Tools Business Intelligence masuk ke tahap ini.

Kenapa dan Untuk apa Datawarehouse?
Disini saya akan memberikan ilustrasi untuk datawarehouse. Datawarehouse itu dimiliki oleh perusahaan yang sudah besar, yang memiliki banyak cabang, data yang banyak dan tentunya struktur organisasi yang kompleks.
Mari bayangkan sebuah perusahaan yang memiliki banyak transaksi, yang memiliki banyak cabang. Tentu data-data tersebut tersebar dilokasi yang berbeda, sistem operasi yang berbeda, bahkan di basisdata (database) yang berbeda. Nah, Lalu bagaimana seorang pimpinan/ manager mengambil sebuah keputusan? Tentu bagi sang pembuat keputusan hanya membutuhkan akses ke semua sumber data tersebut. Kalau melakukan query di setiap masing-masing cabang tentu tidak efisien dan tidak praktis. Atau bahkan data yang dimiliki oleh perusahaan adalah data-data terbaru, bukan data-data terdahulu dari perusahaan tersebut. Dari permasalahan ini, Datawarehouse hadir sebagai solusinya.
Jika mengandalkan database OLTP untuk dilakukan query terlalu besar. Datawarehouse dibuat agar prosesnya lebih efisien. Dan selalu berkompetitif, maksudnya di zaman saat ini perusahaan sudah mengandalkan teknologi datawarehouse untuk pengambilan keputusan di perusahaan.
Tujuan Akhir menggunakan Datawarehouse
 Menyediakan data organisasi yang mudah diakses oleh manager.
 Data yang berada di datawarehouse bersifat konsisten, dan merupakan kebenaran.
 Datawarehouse merupakan tempat, dimana data yang telah digunakan di publikasikan.
 Kualitas data di datawarehouse dapat diandalkan.

Konsep Data Warehouse

  1. Perubahan pada fokus perkembangan komputasi
    1. Perkembangan komputasi pada awalnya terfokus pada kebutuhan operasional.
      Ada sebuah istilah dinamakan Business Cycle, dimana kalangan enterprise harus melakukannya
      1. Operational : kegiatan bisnis yang berjalan sehari-hari
      2. Tactical : kebijakan dan pemantauan kegiatan operasional
      3. Strategic : visi dan tujuan organisasi
    2. Kebutuhan yang membutuhkan keputusan tidak dapat sepenuhnya diantisipasi
      Para pembuat keputusan membutuhkan analisis terhadap data untuk memanfaatkan peluang yang ada. Mereka menganalisis tren yang terjadi pada sebuah situasi bisnis untuk mengambil keuntungan, menambah profit, dan mengurangi cost.
    3. Sistem operasional gagal untuk menyediakan informasi berupa keputusan
      Sistem operasional memiliki fokus untuk merekam dan menyediakan layanan untuk berbagai macam transaksi bisnis. Para pembuat keputusan membutuhkan sebuah decision information secepat mungkin sedangkan bagi para IT profesional, untuk men-extract data menjadi sebuah information decision dari sistem operasional yang berbeda-beda memerlukan waktu yang lama.
    4. Sebuah sistem decision dibuat untuk memenuhi kebutuhan information decision.
      Sejak itulah perkembangan data warehouse dimulai. Dari masa yang dinamakan “bleeding edge” hingga sekarang.
  2. Definisi Data Warehouse
    “Sebuah kumpulan database yang terintegrasi, didesain untuk menyediakan informasi untuk decision making”
    1. Integrasi
      Sebuah data warehouse memiliki data yang diambil dari berbagai sistem operasional dan data eksternal. Sebagai contoh, data warehouse untuk sebuah bank memerlukan integrasi data anatar deposit sistem, sistem peminjaman, dll.
    2. Subject Oriented
      Data warehouse data diperoleh berdasarkan enterprise subject seperti pelanggan, sales, dan profit.
    3. Database
      Database yang digunakan untuk membangun sebuah data warehouse terdiri dari internal data dan external data. Internal data diperoleh dari sistem operasional sedangkan external data diperoleh pihak ketiga seperti partner bisnis, customer ataupun pemerintah.
    4. Dibuat untuk decision making
      Tidak seperti database pada sistem operasional yang biasanya dinormalilasasi, sebuah data warehouse didesain dengan melakukan de-normalisasi. Sebagai contoh, manajer keuangan tertarik dengan keuntungan dari berbagai jenis produk di sebuah perusahaan sedangkan berbeda lagi dengan manajer produk yang tertarik pada jumlah penjualan dari setiap produk. Oleh karena itu, dalam proses data warehouse, akan dilakukan proses “mengiris” dari berbagai database untuk mengambil hanya apa yang mereka perlukan.
    5. Data warehouse terdiri dari atomic dan summarized data
      Data warehouse menyimpan data pada berbagai level, diantaranya atomic dan summarized level. Pada atomic level digunakan untuk meyimpan summarized data. Sedangkan aggregate data akan disimpan pada summarized level untuk mempercepat proses query. Jika data warehouse hanya menyimpan data pada summarized level, maka user tidak akan dapat menggali data tersebut untuk mendapatkan detail data.
  3. Dynamic Report

    Contoh yang tertera pada gambar diatas adalah berupa laporan per region. Ketika kalangan
    enterprise menginginkan detail salah satu region, maka data dapat ditampilkan tanpa melakukan
    programming.
  4. Tujuan Data Warehouse
    1. Menyediakan kalangan bisnis untuk mengakses data
      Data warehouse menyediakan layanan sehingga kalangan bisnis dapat mengakses data, yang
      sebenarnya rumit dan sulit dipahami, dengan cukup mudah.
    2. Menyediakan data yang valid
      Sebagai contoh kasus, customer bukan merupakan sebuah istilah yang diberikan kepada semua
      klien. Ada sebuah patokan dimana klien pantas diberi title customer atau tidak. Dengan adanya
      data warehouse, sebuah title customer dapat ditentukan mungkin dari jumlah total pembelian
      atau faktor lainnya.
    3. Untuk menyimpan data yang lama dengan akurat
      Hal ini sangat diperlukan ketika diperlukan sebuah perbandingan antara laporan sekarang
      dengan yang lalu.
    4. Slice and Dice data
      Sebuah ketersediaan data detail seperti yang dicontohkan gambar diatas dapat meningkatkan
      bisnis analisis dengan mengurangi waktu dan usaha yang diperlukan untuk mengumpulkan data
      kembali.
    5. Memisahkan antara proses analisis dan operasional
      Biasanya data warehouse diperlukan untuk mendukung proses analisis karena sifatnya yang
      cepat dalam mengolah data yang sangat banyak walaupun dengan kemampuan terbatas.
      Beberapa sifat antara lain :
      Proses analisis -> READ
      Proses operasional -> READ, WRITE, UPDATE
    6. Mendukung re-engineering pada decisional proces
      Dengan sifatnya yang memfokuskan pada pengambilan keputusan bisnis, data warehouse adalah sebuah sistem yang ideal apabila diperlukan re-engineering pada proses pengambilan keputusan bisnis.
  5. Deskripsi Data Marts
    Data Mart hanya terdiri dari sebuah subset dari data yang tersimpan pada data warehouse. Data Mart dibuat berdasarkan kebutuhan yang spesifik dari sebuah organisasi.
  6. Operational Data Stores
    1. Deskripsi
      Operational Data Stores adalah sebuah kumpulan database yang terintegrasi yang didesain untuk mendukung operational monitoring.
      Perbandingan Data Warehouse dengan Operational Data Stores

      DW ODS
      Tujuan Strategic Decision Support Operational Monitoring
      Persamaan Integrated Data Integrated Data

      Subject-Oriented Subject-Oriented
      Perbedaan Static Data Volatile Data

      Historical Data Current Data

      Summarized Data More Detailed
    2. Flash Monitoring and Reporting Tools

      Seperti layaknya sebuah dashboard yang menyediakan informasi yang berharga untuk kalangan enterprise. Layanan ini menggunakan ODS sebagai input untuk menyediakan bagi user bisnis sebuah operasi tanpa henti.
    3. Hubungan antara Operational Data Stores dengan Data Warehouse

      Operational Data Stores memiliki fokus waktu sekarang sedangkan Data Warehouse digunakan untuk melihat data-data lama sehingga data yang telah terpakai di ODS akan disimpan ke DW untuk digunakan sebagai Decision Making nantinya.
  7. Data Warehouse Cost and Benefit
    1. Keuntungan / Benefit :
      1. Produktifitas staff analisis meningkat karena ketersediaan data
      2. Peningkatan dari segi bisnis karena analisis dari data warehouse
    2. Biaya / Cost
      1. Hardware
        Data warehouse yang besar tentu menuntut kebutuhan hardware yang mencukupi.
      2. Software
        Membeli lisensi software yang digunakan untuk proses data warehouse
      3. Services
        Memakai jasa konsultan ataupun trainers
      4. Biaya untuk internal staff

Sumber : Data Warehouse Architecture and Implementation; Humphries, Hawkins, Dy; Prentice Hall

MANFAAT DATABASE

A.   Pengertian Database
Istilah “database” berawal dari ilmu komputer. Meskipun kemudian artinya semakin luas, memasukkan hal-hal di luar bidang elektronika, artikel ini mengenai database komputer. Catatan yang mirip dengan database sebenarnya sudah ada sebelum revolusi industri yaitu dalam bentuk buku besar, kuitansi dan kumpulan data yang berhubungan dengan bisnis.
Database (basis data) adalah kumpulan file-file yang mempunyai kaitan antara satu file dengan file yang lain sehingga membentuk data untuk menginformasikan satu perusahaan dan instansi. Bila terdapat file yang tidak dapat dipadukan atau dihubungkan dengan file yang lainnya, berarti file tersebut bukanlah kelompok dari satu database, melainkan membentuk satu database sendiri. Database juga merupakan landasan bagi pembuatan dan pengembangan program aplikasi. Oleh sebab itu, database harus dibuat sedemikian rupa sehingga pembuatan program lebih mudah dan cepat.
Database merupakan salah satu komponen yang penting dalam sistem informasi, karena merupakan basis dalam menyediakan informasi bagi para pemakai. Databse terdiri dari data yang akan digunakan atau diperuntukkan terhadap banyak user, dari masing-masing user akan menggunakan data tersebut sesuai dengan tugas dan fungsinya.

Beberapa Definisi tentang Database :
1.      Menurut Gordon C. Everest :
Database adalah koleksi atau kumpulan data yang mekanis, terbagi / shared, terdefinisi secara formal dan dikontrol terpusat pada organisasi.
2.      Menurut C.J. Date :
Database adalah koleksi “data operasional” yang tersimpan dan dipakai oleh sistem aplikasi dari suatu organisasi.
·        Data input adalah data yang masuk dari luar sistem
·        Data output adalah data yang dihasilkan sistem
·        Data operasional adalah data yang tersimpan pada sistem
3.      Menurut Toni Fabbri :
Database adalah sebuah sistem file-file yang terintegrasi yang mempunyai minimal primary key untuk pengulangan data.
4.      Menurut S. Attre :
Database adalah koleksi data-data yang saling berhubungan mengenai suatu organisasi / enterprise dengan macam-macam pemakaiannya.

Definisi Dasar Struktur Database :
·        Data: Sekumpulan fakta mengenai objek tertentu, orang dan lain-lain yang dinyatakan dengan angka, huruf, gambar, film, suara dan sebagainya yang relevan dan belum mempunyai arti.
·        Informasi: Hasil pengolahan data yang konkrit dan sudah mempunyai arti untuk mencapai suatu tujuan tertentu.
·        Tabel: Merupakan hal yang paling mendasar dalam hal penyimpanan data yang terdiri dari field dan record.
·        Field (kolom): Merupakan elemen dari tabel yang berisikan informasi tertentu yang spesifik tentang subjudul tabel pada sebuah item data.
Syarat-syarat pembentukan Field Name pada tabel:
a)      Harus Unik atau Spesifik
b)      Boleh disingkat
c)      Pemisah sebagai pengganti spasi dalam pembentuk field adalah tanda lambang "_"
Contoh: Kode Barang menjadi KdBarang, KodeBrg, Kd_Brg, Kd_Barang.
·        Record (baris): Sekumpulan data yang saling berkaitan tentang sebuah subjek tertentu, misalnya data seorang siswa akan disimpan dalam record yang terdiri dari beberapa kolom / field.

Sifat-sifat Database :
·        Internal:  Kesatuan (integritas) dari file-file yang terlibat.
·        Terbagi/share:  Elemen-elemen database dapat dibagikan pada para user baik secara sendiri-sendiri maupun secara serentak dan pada waktu yang sama (Concurrent sharing).


B.   Perangkat Untuk Membuat Database
Database dapat dibuat dan diolah dengan menggunakan suatu program komputer, yaitu yang biasa kita sebut dengan software (perangkat lunak). Software yang digunakan untuk mengelola dan memanggil kueri (query) database disebut Database Management System (DBMS) atau jika diterjemahkan kedalam bahasa indonesia berarti “Sistem Manajemen Basis Data”.
 
C.   Tipe Database
Terdapat 12 tipe database, antara lain:
1.      Operational database: Database ini menyimpan data rinci yang diperlukan untuk mendukung operasi dari seluruh organisasi. Mereka juga disebut subject- area databases (SADB), transaksi database, dan produksi database. Contoh: database pelanggan, database pribadi, database inventaris, akuntansi database.
2.      Analytical database: Database ini menyimpan data dan informasi yang diambil dari operasional yang dipilih dan eksternal database. Mereka terdiri dari data dan informasi yang dirangkum paling dibutuhkan oleh sebuah organisasi manajemen dan End-user lainnya. Beberapa orang menyebut analitis multidimensi database sebagai database, manajemen database, atau informasi database.
3.      Data warehouse: Sebuah data warehouse menyimpan data dari saat ini dan tahun- tahun sebelumnya - data yang diambil dari berbagai database operasional dari sebuah organisasi.
4.      Distributed database: Ini adalah database-kelompok kerja lokal dan departemen di kantor regional, kantor cabang, pabrik-pabrik dan lokasi kerja lainnya. Database ini dapat mencakup kedua segmen yaitu operasional dan user database, serta data yang dihasilkan dan digunakan hanya pada pengguna situs sendiri.
5.      End-user database: Database ini terdiri dari berbagai file data yang dikembangkan oleh end-user di workstation mereka. Contoh dari ini adalah koleksi dokumen dalam spreadsheet, word processing dan bahkan download file.
6.      External database: Database ini menyediakan akses ke eksternal, data milik pribadi online - tersedia untuk biaya kepada pengguna akhir dan organisasi dari layanan komersial. Akses ke kekayaan informasi dari database eksternal yang tersedia untuk biaya dari layanan online komersial dan dengan atau tanpa biaya dari banyak sumber di Internet.
7.      Hypermedia databases on the web: Ini adalah kumpulan dari halaman-halaman multimedia yang saling berhubungan di sebuah situs web. Mereka terdiri dari home page dan halaman hyperlink lain dari multimedia atau campuran media seperti teks, grafik, gambar foto, klip video, audio dll.
8.      Navigational database: Dalam navigasi database, queries menemukan benda terutama dengan mengikuti referensi dari objek lain.
9.      In-memory databases: Database di memori terutama bergantung pada memori utama untuk penyimpanan data komputer. Ini berbeda dengan sistem manajemen database yang menggunakan disk berbasis mekanisme penyimpanan. Database memori utama lebih cepat daripada dioptimalkan disk database sejak Optimasi algoritma internal menjadi lebih sederhana dan lebih sedikit CPU mengeksekusi instruksi.
10.  Document-oriented databases: Merupakan program komputer yang dirancang untuk aplikasi berorientasi dokumen. Sistem ini bisa diimplementasikan sebagai lapisan di atas sebuah database relasional atau objek database. Sebagai lawan dari database relasional, dokumen berbasis database tidak menyimpan data dalam tabel dengan ukuran seragam kolom untuk setiap record. Sebaliknya, mereka menyimpan setiap catatan sebagai dokumen yang memiliki karakteristik tertentu. Sejumlah bidang panjang apapun dapat ditambahkan ke dokumen. Bidang yang dapat juga berisi beberapa bagian data.
11.  Real-time databases Real-time: Database adalah sistem pengolahan dirancang untuk menangani beban kerja negara yang dapat berubah terus-menerus. Ini berbeda dari database tradisional yang mengandung data yang terus- menerus, sebagian besar tidak terpengaruh oleh waktu. Sebagai contoh, pasar saham berubah dengan cepat dan dinamis. Real-time processing berarti bahwa transaksi diproses cukup cepat bagi hasil untuk kembali dan bertindak segera. Real-time database yang berguna untuk akuntansi, perbankan, hukum, catatan medis, multi-media, kontrol proses, sistem reservasi, dan analisis data ilmiah.
12.  Relational Database: Database yang paling umum digunakan saat ini. Menggunakan meja untuk informasi struktur sehingga mudah untuk mencari.

D.   Model Database
Database mempunyai dua varian model, yaitu model Post-relational database dan model Object database.
1.      Post-relational database models
Sebuah produk yang menawarkan model data yang lebih umum dari model relasional dan dikenal sebagai post-relational. Model data dalam produk tersebut mencakup hubungan namun tidak dibatasi oleh Prinsip Informasi yang mana mewakili semua informasi dengan nilai-nilai data dalam kaitannya dengan hal itu.
2.      Object database models
Dalam beberapa tahun terakhir,[update], paradigma yang berorientasi pada obyek telah diterapkan dalam bidang-bidang seperti teknik dan spasial database, telekomunikasi dan ilmu pilmiah lainnya. Para konglomerasi pemrograman berorientasi objek dan teknologi database mengarah pada model pemrograman baru yang dikenal sebagai Object database.

E.   Tujuan Database
Setiap manajemen dalam merancang dan menyusun database harus mempunyai tujuan, yaitu:
1.      Membuat agar user mudah mendapatkan data.
2.      Menyediakan tempat penyimpanan data yang relevan.
3.      Menghapus data yang berlebihan.
4.      Melindungi data dari kerusakan fisik.
5.      Memungkinkan perkembangan lebih lanjut di dalam sistem database.

F.    Ciri-ciri Database
Adapun ciri-ciri database adalah:
1.      Sistem yang dapat menyimpan data ke dalam floppy disk atau harddisk.
2.      Sistem yang menganut pengolahan data untuk ditambah, diubah, atau dihapus dengan mudah dan terkontrol.
3.      Data terpisah dari program.

G.  Keuntungan Database
Adapun keuntungan database terhadap sistem pemrosesan adalah:
1.      Kemubajiran data terkurangi.
2.      Integritas data dapat selalu terjaga.
3.      Berbagai data dapat selalu dilakukan oleh setiap user.
4.      Penggunaan data lebih mudah.
5.      Konsistensi data dapat selalu terjaga.

H.   Manfaat Database
Adapun manfaat database adalah:
1.      Sebagai komponen utama atau penting dalam sistem informasi, karena merupakan dasar dalam menyediakan informasi.
2.      Menentukan kualitas informasi yaitu cepat, akurat, dan relevan, sehingga infromasi yang disajikan tidak basi. Informasi dapat dikatakan bernilai bila manfaatnya lebih efektif dibandingkan dengan biaya mendapatkanya.
3.      Mengatasi kerangkapan data (redundancy data).
4.      Menghindari terjadinya inkonsistensi data.
5.      Mengatasi kesulitan dalam mengakses data.
6.      Menyusun format yang standar dari sebuah data.
7.      Penggunaan oleh banyak pemakai (multiple user). Sebuah database bisa dimanfaatkan sekaligus secara bersama oleh banyak pengguna (multiuser).
8.      Melakukan perlindungan dan pengamanan data. Setiap data hanya bisa diakses atau dimanipulasi oleh pihak yang diberi otoritas dengan memberikan login dan password terhadap masing-masing data.
9.      Agar pemakai mampu menyusun suatu pandangan (view) abstraksi dari data. Hal ini bertujuan menyederhanakan interaksi antara pengguna dengan sistemnya dan database dapat mempresentasikan pandangan yang berbeda kepada para pengguna, programmer dan administratornya.

Kesimpulan
Database merupakan salah satu komponen yang penting dalam sistem informasi, karena merupakan basis dalam menyediakan informasi bagi para pemakai. Databse terdiri dari data yang akan digunakan atau diperuntukkan terhadap banyak user, dari masing-masing user akan menggunakan data tersebut sesuai dengan tugas dan fungsinya.
Jadi, mau apapun bidang dan ruang lingkupnya seperti ekonomi, manajemen, dan psikologi pastilah membutuhkan database ini yang dirasakan sangat bermanfaat. Contohnya saja jika dalam bidang psikologi dapat mencari nama mahasiswa psikologi dari nomor npm dan dapat mencari mata kuliah dari nomor kode mata kuliah. Sehingga para pengguna pun dengan mudah dan cepat dalam mencari informasi tersebut.


Followers

English French German Spain Italian Dutch Russian Portuguese Japanese Korean Arabic Chinese Simplified


  © Blogger template 'A Click Apart' by Ourblogtemplates.com 2008

Back to TOP