معمار المرشدي

Page 1

Summary Of Data mining Radwan Mohammed

10/7/2014


Unit one Define Data? Data are any facts, numbers or text that can be processed by a computer. What are the types of data?  Operational Data  Non-Operational Data  Meta Data What is the different between Relational and Multidimensional database structure?  In a relational structure data is stored in tables permitting ad hoc queries.  In a multidimensional structure on other hands set of cubes are arranged in arrays with subset created according to category. What are things that can provide us information?  Patterns  Associations  Relationships Note: information can be converted into knowledge about historical patterns and future trends. Define Data mining? Is a process of extracting hidden patterns from data. Explain The important of Data mining?  Data mining an increasingly important tool to transform this data into information.  Used in wide range of application such as marketing and fraud and scientific discovery.

‫الوحده االولى‬ ‫عرف البٌانات ؟‬ ‫هً حقائق أو ارقام أو نصوص تم معالجتها‬ .‫بإستخدام الحاسوب‬ ‫عدد أنواع البٌانات ؟‬ ‫ البٌانات التشغٌلٌه أو المتغٌره‬ ) ‫ البٌانات غٌر العملٌه ( مستقره‬ ‫ البٌانات نفسها‬ ً‫ماهو الفرق بٌن مخطط قواعد البٌانات العالئق‬ ‫و المخطط متعدد االتجاهات ؟‬ ‫ فً مخطط العالقات ٌتم تخزٌن البٌانات‬ ‫فً جداول و السماح بإستعمال‬ . ‫االستعالمات للوصول الٌها‬ ‫ اما فً متعدده االتجاهات تكون البٌانات‬ ‫عباره عن مجموعه من المكعبات و‬ ‫التً ٌتم ترتٌب البٌانات فٌها بشكل‬ ‫مصفوفات و إنشاء مجموعه فرعٌه‬ .‫منها‬ ‫ماهً االشٌاء التً ٌمكن ان تزودنا بالمعلومات‬ ‫؟‬ ‫ االنماط‬ ‫ المجموعات‬ ‫ العالقات‬ ‫ المعلومات ٌمكن أن تتحول الى‬:‫مالحظه‬ ‫معرفه حول انماط تارٌخٌه معٌنه أو بإتجاه‬ ‫المستقبل‬ ‫عرف تنقٌب البٌانات ؟‬ ‫هً عملٌه إنتزاع االنماط المخفٌه من البٌانات‬ ‫أشرح اهمٌه تنقٌب البٌانات ؟‬ ‫ تنقٌب البٌانات تعتبر من اهم االدوات‬ ‫التً تستخدم فً تحوٌل البٌانات الى‬ ‫معلومات‬ ‫ تستخدم بشكل واسع فً التطبٌقات مثل‬ ‫التسوق و اكتشاف الخدع و االكتشافات‬ ‫العلمٌه‬


Define knowledge discovery (Data m)? Is the process of analyzing data from different perspectives and summarizing it into useful information. Define data warehouse? Is a process of centralized data management and retrieval. Note: centralization of data is needed to maximize user access and analysis. What are Data mining tasks?  Classification  Clustering  Association  Regression Define the classification? Arranges the data into predefined groups for example the Email Working with 2 algorithms Nearest neighbor and Neural network Define clustering? Give a set of data point each having a set of attributes and similarity measure Data in one cluster are more similar to one another Define Association Rule Discovery? Given a set of records each of which contain some number of items from a given collection. Searches for relationships between variables. Note: the clustering is like classification but the groups are not predefined

‫عرف إكتشاف المعرفه ( أو تنقٌب البٌانات ) ؟‬ ‫هً عملٌه تحلٌل البٌانات من أوجه مختلفه‬ ‫و تحلٌلها و تلخٌصها لتصبح معلومات مفٌده‬ ‫عرف مستودع البٌانات ؟‬ ‫هو عملٌه إداره و إسترجاع البٌانات المركزٌه‬ ‫ البٌانات المركزه تحتاج الى مستخدم‬: ‫مالحظه‬ . ‫كحد اقصى للوصول للبٌانات و تحلٌلها‬ ‫عدد مهام تنقٌب البٌانات ؟‬ ‫ التصنٌف‬ ‫ المجموعات‬ ‫ الروابط‬ ‫ االنحدار‬ ‫عرف التصنٌف؟‬ ‫هو عملٌه ترتٌب البٌانات داخل مجموعات‬ . ‫معرفه مثل االٌمٌل‬ ‫وتعمل بخوارزمٌتٌن اقرب جار و الشبكه‬ ‫العصبٌه‬ ‫عرف المجموعات ؟‬ ‫تعطً مجموعه من النقاط من البٌانات وكل‬ ‫مجموعه تمتلك مجموعه من الخصائص و لها‬ ‫نفس المقٌاس‬ ‫كلما كانت نقطه البٌانات فً نفس المجموعه كان‬ ‫التشابه كبٌر‬ ‫عرف إكتشاف قاعده الربط ؟‬ ‫ٌعطً مجموعه من الحقول وكل حقل ٌحتوي‬ ‫على مجموعه من العناصر‬ ‫نالحظ أكثر العناصر إرتباطا مع العناصر‬ ‫االخرى و نعتبرها هً قاعده االرتباط‬ ‫أو هً البحث بٌن المتغٌرات عن عالقه‬ ‫تربطهم‬ ‫ المجموعات تشبه التصنٌفات لكن‬:‫مالحظه‬ ‫المجموعات ال تكون معرفه‬


Define Regression? Attempts to find a function which models the data with least error And used Genetic programming What are data mining elements?  Extract, transform, and load transaction data onto the data warehouse system.  Store and manage the data in a multidimensional database system.  Provide data access to business analysts and information technology professionals.  Analyse the data by application software.  Present the data in a table.

‫عدد مستوٌات التحلٌل ؟‬ Artificial neural networks: ً‫ ه‬:‫ الشبكه العصبٌ​ٌه االصطناعٌه‬ Non-linear predictive models that learn ‫عباره عن نموذج غٌر خطً ٌتعلم‬ through training and resemble (imitate) ً‫بالتدرٌب وهو ٌشبه الجهاز العصب‬ biological neural networks in structure. ً‫الطبٌع‬ Genetic algorithms: ‫ هً عباره عن‬: ‫ الخوارزمٌه الجٌنٌه‬ Optimization techniques that use ‫تقنٌات إختٌارٌه تستخدم مجموعه‬ processes such as genetic combination, ً‫وراثٌه لتصمٌم المفاهٌم االساسٌه ف‬ mutation (change), and natural selection ‫الوراثه الطبٌعٌه‬ in a design based on the concepts of natural evolution. ‫ هً تمثل نفس هٌكل‬:‫ شجره القرار‬ Decision trees: ‫الشجره الطبٌعً وهً مجموعه من‬ o Tree-shaped structures that ‫القرارات التً تولد قواعد لتصنٌف‬ represent sets of decisions. ‫البٌانات‬ o These decisions generate rules for ‫ هً عملٌه‬: ‫ قاعده زٌاده االنتاجٌه‬ the classification of a data set. ) ‫إستخالص القواعد المهمه (إذا كان فإن‬ Rule induction: The extraction of useful if‫من البٌانات االساسٌه فً المستندات‬ then rules from data based on statistical ‫االحصائٌه‬ significance. ‫ هً تمثٌل‬: ‫ البٌانات االفتراضٌه‬ Data visualization: The visual ‫العالقات المعقده فً بٌانات متعدده‬ interpretation of complex relationships in ‫االبعاد‬ multidimensional data.

What are analysis levels ? 

‫عرف االنحدار؟‬ ‫هو محاوله أٌجاد داله لتشكٌل وتمثٌل البٌانات‬ ‫مع اقل عدد ممكن من االخطاء بإستخدام‬ ‫البرمجه الوراثٌه‬ ‫عدد عناصر تنقٌب البٌانات ؟‬ ‫ تخزٌن و نقل البٌانات و تحمٌل‬ ‫البٌانات الى نظام تخزٌن قواعد‬ ‫البٌانات‬ ‫ تخزٌن و إداره البٌانات بإستخدام‬ ‫أنظمه قواعد البٌانات المتعدده‬ ‫ تمكٌن البٌانات من الوصول الى‬ ‫تحلٌل العملٌات و المعلومات‬ ‫االحترافٌه‬ ‫ تحلٌل البٌانات بواسطه التطبٌقات‬ ‫ تمثٌل البٌانات و تخزٌنها فً جداول‬


‫ تطبٌقات تنقٌب البٌانات متاحه فً كل‬: ‫مالحظه‬ Note: data mining applications are client/server , PC , mainframe ‫االنظمه‬ available on all size systems for mainframe, client/server, PC platforms ‫ٌقوم تنقٌب البٌانات بعملٌتٌن رئٌسٌتٌن إذكرهما‬ Data mining do tow processes what are ‫؟‬ this? ‫ االستكشاف‬  Discovery ‫ التنبئ‬  Prediction ‫عدد التطبٌقات المستخدمه فً تنقٌب البٌانات؟‬ What are the applications that uses in Data mining ?  RapidMiner RapidMiner   Weka Weka   Art Art  ‫ماهً قضاٌا تنقٌب البٌانات ؟‬ What are the data mining issues? ‫ هً عملٌه تحلٌل‬:‫ القضاٌا التجارٌه‬  1. Business issues: analysing routine ‫البٌانات التجارٌه الموجهه و تحوٌلها‬ business transactions and . ‫و تصنٌفها‬ classifications. ‫ القضاٌا االجتماعٌه‬  2. social issues: ‫ مناسبه ومالئمه‬: ‫ قضاٌا منهجٌه التنقٌب‬  3. Mining Methodology Issues: ‫لتنقٌب البٌانات و ٌطبق فً تحدٌدها‬ Pertain to data mining approaches ً‫ عند حدوث توقف دراماتٌك‬: ‫ التكلفه‬ applied and their limitations. ‫لتكلفه فً السنوات الماضٌه فإن تنقٌب‬  4. Cost: While system hardware ً‫البٌانات و تخزٌنها ٌوفر الدعم الذات‬ costs have dropped dramatically ‫لحل هذه المشكله‬ within the past few years, data ‫ المعرفه‬: ‫ قضاٌا واجهات المستخدم‬ mining and data warehousing tend ‫المكتشفه بواسطه تنقٌب البٌانات تكون‬ to be self-reinforcing ‫مفٌده ومفهومه للمستخدم وهو ٌحتاج‬  5. User Interface Issues: ‫الى نتٌجه جٌده وتناظرٌه لتنقٌب‬ The knowledge discovered by data ‫البٌانات‬ mining tools is useful as long as it is ‫هً مجموعه‬: ‫ قضاٌا مصادر البٌانات‬ interesting, and above all ‫من البٌانات المنفذه و التً تظهر عندما‬ understandable by the user. ‫نمتلك الكثٌر من البٌانات التً ٌمكن ان‬  6. Data Source issue: ‫نستعملها و قد تكون مجموعه من‬ ‫االنواع المخزنه فً تشكٌله من االنماط‬ An excess of data appear when we have more data than we can handle - different types of data are stored in a variety of repositories


What is Data mining software? Data mining software is one of a number of analytical tools for analysing data. It allows users to analyse data from many different dimensions or angles, categorize it, and summarize the relationships identified.

‫عرف برامج تنقٌب البٌانات ؟‬ ‫هً واحده من االدوات المستعمله فً تحلٌل‬ ‫البٌانات بحٌث ٌسمح للمستخدم بتحلٌل البٌانات‬ ‫من عدد كبٌر من المصادر و تلخٌصها و تحدٌد‬ . ‫عالقات الربط بٌنها‬

What is Technically of Data mining? Technically, data mining is the process of finding correlations or patterns among dozens of fields in large relational databases. And that are two groups data mining tools and data mining applications

‫عرف تقنٌه تنقٌب البٌانات ؟‬ ‫هً عملٌه إٌجاد إرتباطات و انماط من بٌن‬ ‫عشرات الحقول فً قواعد البٌانات العالئقٌه‬ ‫الكبٌره‬ : 2 ‫وٌتم تقسٌمها الى‬ ‫ادوات تنقٌب البٌانات وتطبٌقات تنقٌب البٌانات‬

Note: Organizations are using data mining tools and data mining applications together in an integrated environment for predictive analytics.

‫ لعمل إنتاج تحلٌلً ممٌز ٌتم‬: ‫مالحظه‬ ‫إستعمالهما معا ً االدوات و التطبٌقات و كالهما‬ ‫متاح‬

What are the goals of Data mining tools

‫عدد المهام التً تقوم بها ادوات تنقٌب البٌانات‬ ‫؟‬ ‫توفر للمستخدم الشاشات التً تساعده على‬ ‫ االكتشاف‬‫ المعالجه‬‫ التحلٌل‬‫اشرح تنقٌب النصوص و تنقٌب االنترنت ؟‬ ‫فوائد جدٌده ٌمكن ان تقود الى مجموعه جدٌده‬ ‫وموجهه من تنقٌب البٌانات‬ ‫وهذه التقنٌات تغذي العمٌل بالبٌانات حٌث تسمح‬ ‫له بإستعراضها خالل تصفح االنترنت و تحلٌلها‬ ‫وإضافه المعلومات الى السرفر‬

Data mining tools provide both developers and business users with an interface for discovering, manipulating, and analysing corporate data Explain Text mining and web mining? Recent advances have led to the newest and hottest trends in data mining—text mining and Web mining. These two data mining technologies open a rich vein of customer data in the form of textual comments from survey research and log files from Web servers


Unite TOW Note: data mining is the core of KDD Define KDD (knowledge Discovery in Database)? process of finding useful information and patterns in data. What are data mining algorithm components?  Model representation descriptions of discovered patterns  Model evaluation criteria how well a pattern (model) meets goals  Search method parameter search: optimization of parameters for a given model representation Note: Data mining involves fitting models to and determining patterns from observed data What are the steps involved in KDD process?  Selection: Obtain data from various sources.  Preprocessing: data cleaning.  Transformation: Convert to common format. Transform to new format.  Data Mining: Obtain desired results by applying Data Mining tasks tools.  Interpretation/Evaluation: Present results to user in meaningful manner.

‫الوحده الثانٌه‬ KDD ‫ تنقٌب البٌانات تعتبر نواه الـ‬:‫مالحظه‬ ‫ عملٌه اكتشاف المعرفه‬KDD ‫ماهو تعرٌف‬ ‫فً قواعد البٌانات ؟‬ ‫هً عملٌه اٌجاد المعلومات و االنماط المفٌده من‬ ‫البٌانات‬ ‫ماهً مكونات خوارزمٌات تنقٌب البٌانات ؟‬ : ‫نموذج التمثٌل‬ ‫ٌقوم بوصف االنماط المكتشفه‬ : ‫نموذج تقدٌر المقٌاس‬ ‫وصف كٌف ٌمكن لهذه االنماط تحقٌق‬ ‫االهداف‬ : ‫طرٌقه البحث‬ ‫معامل البحث ٌنظم االنماط العطاء‬ ً‫نموذج تماثل‬

   

‫ تنقٌب البٌانات ٌشمل تركٌب النماذج‬: ‫مالحظه‬ ‫و تحدٌد االنماط من مجموعه من النماذج‬ ‫المعروضه‬ ‫ ؟‬KDD ‫ماهً الخطوات التً تتم فً معالجه ال‬ ‫ أختٌار البٌانات من‬: ‫االختٌار‬ ‫مصادر مختلفه‬ ‫ تنظٌف البٌانات‬: ‫االعداد‬ ‫ نقل البٌانت الى إطار جدٌد‬: ‫النقل‬ ‫ أختٌار النتٌجه‬: ‫تنقٌب البٌانات‬ ‫المطلوبه من خالل إستخدام أدوات‬ ‫ومهام تنقٌب البٌانات‬ ‫ عرض و تمثٌل النتائج‬: ‫التفسٌر‬ . ‫للمستخدم‬

    


What are the stages of data mining process? Consists of three stages: (1) The initial exploration, (2) Model building (3) Deployment Explain Exploration? (stage one ) This stage usually starts with data preparation which may involve cleaning data, data transformations, selecting subsets of records. Where EDA used? Exploratory Data Analysis (EDA) is used to identify systematic relations between variables when there are no (or not complete) expectations as to the nature of those relations. Explain Model Building? (stage tow ) choose the suitable models to represent the explored data Explain Deployment? ( stage three) in deployment ensure that the resultant patterns meet the required patterns for prediction and decision making What are data mining functionalities?  -Characterization: summarization of general features of objects and produces characteristics rules.  - Discrimination: Comparison between two classes, target class and contrasting class  - Association analysis: the frequency of items occurring together in transactional database.  - Classification: Organization of data in a given class.

‫ماهً المراحل التً تتم فً عملٌه تنقٌب‬ ‫البٌانات؟‬ :‫ مراحل‬3 ‫عملٌات تنقٌب البٌانات تتكون من‬ ً‫ االستكشاف الداخل‬-1 ‫ بناء النموذج‬-2 ‫ االنتشار‬-3 ‫اشرح مفهوم االكتشاف االولً؟‬ ً‫فً هذه المرحله نبداء بإعداد البٌانات و الت‬ ‫تشمل تنظٌف البٌانات و تحوٌلها وإختٌار‬ ‫الحقول الفرعٌه‬ ‫ ؟‬EDA ‫فً ماذا تستخدم تقنٌه‬ ‫تستخدم فً توضٌح العالقات المنظمه بٌن‬ ‫المتغٌرات عندما التكون مكتمله فٌقوم بتوقع‬ ‫العالقات الطبٌعٌه فٌها‬

‫اشرح معنى بناء النموذج؟‬ ‫إختٌار النموذج المالئم لتمثٌل البٌانات‬ ‫المكتشفه‬ ‫اشرح معنى االنتشار ؟‬ ‫هو التأكد بان االنماط الناتجه قابلت االنماط‬ ‫المطلوبه للتنبئ و إتخاذ القرار‬

‫ماهً وظائف تنقٌب البٌانات ؟‬ ‫ هو ملخص للممٌزات العامه‬: ‫ الوصف‬ ‫للعناصر و إنتاج القواعـد الممٌزه‬ ‫ مقارنه بٌن نوعٌن من‬:‫ االختالف‬ ‫التصنٌف ( تصنٌف الهدف و التصنٌف‬ ) ‫المناقض‬ ‫ هو عملٌله تكرار‬: ‫ تحلٌل الروابط‬ ‫العناصر التً تحدث معا فً عملٌه نقل‬ ‫قواعد البٌانات‬ ً‫ هو تنظٌم البٌانات ف‬: ‫ التصنٌف‬ ‫أصناف معطاه‬


What are the types of prediction?  predict some unavailable data values  predict a class label for some data What is Outlier analysis? Outliers are data elements that cannot be grouped in a given class or cluster. Known as exceptions or surprises. In some applications they are noise, but they can reveal important knowledge in other domains. What is the different between Evolution and deviation analysis?  Evolution pertain to the study of time related data that changes in time.  Deviation analysis considers differences between measured values and expected values.

Unite three What are data processes?  Data Cleaning  Data Integration  Data Transformation  Data Reduction What are data cleaning capabilities include?  Smoothing noisy data  -Eliminate duplicate records  -Identification of missing or incomplete data  -Removal of obsolete (not used) data What is noise data? Noise is a random error or variance in a measured or recorded data

‫ماهً أنواع التنبئ ؟‬ ‫ التنبئ للقٌم الغٌر متاحه‬ ‫ التنبئ بالتصنٌف لبعض البٌانات‬ ‫ماهو التحلٌل الخارجً؟‬ ‫هً عباره عن بٌانات ال تستطٌع أن تكون‬ ‫مجموعه فً تصنٌف معٌن أو تجمع (تعرف‬ ) ‫باالستثنائات‬ ‫فً بعض التطبٌقات تعتبر ضوضاء لكن ٌمكن‬ ‫ان تكون مهمه فً بعض التطبٌقات االخرى‬ ‫ماهو الفرق بٌن االنحراف المعٌاري و التدرج ؟‬ ‫ هو دراسه‬:‫ االنحراف المعٌاري‬ ‫التغٌرات التً تحصل فً التحلٌل خالل‬ .‫فتره زمنٌه معٌنه‬ ‫ هو الفرق بٌن القٌمه الفعلٌه‬:‫ التدرج‬ .‫و القٌمه المتوقعه‬

‫الوحده الثالثه‬ ‫ماهً عملٌات البٌانات ؟‬ ‫ تنظٌف البٌانات‬ ‫ تكامل البٌانات‬ ‫ تحوٌل البٌانات‬ ‫ فصل البٌانات أو إختصارها‬ ‫ماهً العملٌه التً تتم عند تنظٌف البٌانات؟‬ ‫تنعٌم البٌانات المزعجه‬ ‫التخلص من الحقول المكرره‬ ‫تعٌ​ٌن البٌانات المفقوده و غٌر المكتمله‬ ‫حذف و إزاله البٌانات المهمله او غٌر‬ ‫المستعمله‬

   

‫ماهً البٌانات المزعجه ؟‬ ‫هً أخطاء عشوائٌه أو إختالف فً المقٌاس او‬ ‫فً حقول البٌانات‬


‫كٌف ٌمكن تنعٌم البٌانات فً تنقٌب البٌانات ؟‬ How can we smoothing data in DM? ‫ٌتم إستعمال الصنادٌق لتقسٌم و تصنٌف البٌانات‬ In data mining binning method is used to ‫ومن ثم تنعٌمها‬ smooth data Given a numerical attribute such as Price with data: 3,27,7,32,25,25,6,28,22 Using Binning (with three bins) will give  Partitioning Bin 1: 3 6 7 Bin 2: 22 25 25 Bin 3: 27 28 32  Smoothing by Bin Mean (for the nearest recorded value) Bin 1: 6 6 6 Bin 2: 25 25 25 Bin 3: 28 28 28 Suppose a group of 12 sales price records has been stored as following: 5,10,11,13,15,35,50,55,72,92,204,215 Partition them into three bins by each of the following methods : a- Equal frequency partitioning b- Equal width partitioning c- Clustering a- Bin 1: 5 10 11 13 Bin 2: 15 35 50 55 Bin 3: 72 92 204 215 b- ? c- Clustering A={ 5,10,15,35,50,55,215} B={11,13,72,92,204} ‫ماهو تكامل البٌانات ؟‬ What is data integration? ‫خلط البٌانات من مخازن بٌانات متنوعه‬ Combining data from multiple data stores ‫و البٌانات المتماسكه تم تخزٌنها فً مستودع‬ into a coherent data store as in data ‫البٌانات‬ warehousing. ‫ماهً عملٌات تحوٌل البٌانات ؟‬ What are data transformation processes? ‫االجمالً و عباره عامه و التطبٌع و تقٌ​ٌم البناء‬ Aggregation,Generalization Normalization,Feature Construction ‫ماهو تطبٌع البٌانات ؟‬ What is the meaning of normalization? ‫هً عملٌه إختصار الخصائص الى مدى صغٌر‬ In Normalization attribute data are scaled ‫ومحدود وهو مفٌد لعملٌه التصنٌف والمجموعات‬ so as to fall within small specified range. Useful for classification and clustering.


‫ماهً تقنٌات و انواع تطبٌع البٌانات ؟‬ What are normalization techniques? ‫ التطبٌع االكبر و االصغر‬  Min-Max Normalization ً‫ التطبٌع النهائ‬  Z-Score normalization Min-Max Normalization: v - minA ύ= × (new_maxA - new_minA) new_minA maxA-minA Z-Score normalization: ύ = v–Ã A where: Ã is the mean value A is the standard deviation Consider min and max values for the attribute income are $12,000 and $98,000. Map range = [0.0, 1.0] or minA = 0, maxA=1.0 then a value of v=$73.600 for income is transformed to: What is the value of normalization? 73,600 – 12,000 ×(1.0 – 0.0) +0= 0.716 98,000 – 12,000 Consider the mean and standard deviation of the values for the attribute income are $54,000 and $16,000 respectively, with z-score normalization, a value of $73,600 for income is transformed to: 73,600 – 54,000 = 1.225 16,000 ‫أشرح عملٌه فصل البٌانات ؟‬ Explain Data Reduction? ‫تنقٌب البٌانات فً محتوى ضخم من البٌانات‬ Data mining on huge amounts of data . ‫غٌر عملً وٌأخذ الكثٌر من الوقت‬ is impractical and takes a long time. ‫فصل البٌانات مفٌد لكسب مجموعه من البٌانات‬ Data reduction is useful for obtaining ‫بدون حدوث فقد فً البٌانات و جعلها متكامله‬ reduced data set without losing its integrity. ‫هناك عده مراحل لفصل البٌانات ماهً ؟‬ There are some steps for reduction data? ‫البٌانات المجموعه المكعبه – إختٌار الخصائص‬ Data cube aggregation, Attribute subset ‫الفرعٌه و المنحنى التكراري‬ selection, Histograms


Draw a 3-D data cube representation of the data in Table below according to time , Time ,Item , and location ( Khartoum , Nyala , Kassala , Medani ) The answer :

Unite Four What are data mining techniques?  Classification  Decision Tree  Neural Networks  Genetic Algorithms Note: Prediction predicts unknown or missing values. What is decision tree and what are his parts? is a computational model consisting of three parts: • Decision Tree • Algorithm to create the tree • Algorithm that applies the tree to data

‫الوحده الرابعه‬ ‫ماهً تقنٌات تنقٌب البٌانات ؟‬ ‫ التصنٌفات‬ ‫ شجره القرارات‬ ‫ الشبكه الصناعٌه‬ ‫ الخوارزمٌه الجٌنٌه‬ ‫ التنبئ قد ٌتنبئ قٌم غٌر معروفه‬: ‫مالحظه‬ .‫او قٌم مفقوده‬ ‫ماهً شجره القرارات وماهً اجزائها ؟‬ 3 ‫هً عباره عن نموذج حسابً ٌتكون من‬ : ‫اجزاء‬ ‫ شجره القرار‬ ‫ الخوارزمٌه النشاء الشجره‬ ‫ الخوارزمٌه التً تطبق الشجره على‬ ‫البٌانات‬


‫ماهً ممٌزات و عٌوب شجره القرارات ؟‬ What are DT advantages/disadvantages? : ‫ الممٌزات‬  Advantages: ‫ سهل فً الفهم‬o o Easy to understand. ‫ سهل فً تولٌد القواعد‬o o Easy to generate rules : ‫ عٌوبها‬  Disadvantages: ‫ ٌمكن ان تعانً من زٌاده‬o o May suffer from overfitting. ‫المقٌاس‬ o Classifies by rectangular ‫ التصنٌف ٌكون بالمستطٌالت‬o partitioning. ‫المقسمه‬ o Does not easily handle ‫ لٌست سهله للبٌانات غٌر العددٌه‬o nonnumeric data. ‫ ٌمكن ان تكون ضخمه فً حاله‬o o Can be quite large – pruning ‫ضروره التجزئه‬ is necessary. ‫ماهً الشبكه االصطناعٌه؟‬ What is neural network? ‫هً مجموعه من العقد المتحوله و النشطه‬ Is a collection of processing nodes ‫و المترابطه مع بعضها البعض مثل المخ‬ transferring activity to each other via connections (the brain). ‫اشرح مفهوم الشبكه العصبٌه؟‬ Explain Artificial network? ‫فً الشبكه العصبٌه تكون كل القٌم و االشارات‬ In Artificial Neuron all signals can be 1 or 1- ,1 ‫بٌن‬ 1 as a binary case often called classic spin. ‫نقوم بحساب مجموع االوزان المدخله ومقارنتها‬ The neuron calculates a weighted sum (X) T ‫مع قٌمه العتبه‬ of the inputs, and compare it with a 1 = ‫اذا كانت اكبر منها‬ Threshold (T). 1- = ‫اذا كانت اصغر منها‬ If the input is higher than Threshold T, the 0 = ‫اذا كانت تساوٌها‬ output is set to 1, otherwise to -1. Output S either 1 or -1. ‫ماهً التغذٌه العكسٌه ؟‬ What is feed forward approach? ‫تقود انماط التصنٌف الى مجموعات مركزٌه‬ NN is trained to classify certain patterns ‫و استخدامها فً تصنٌف انماط جدٌده و تمثٌلها‬ into certain groups, and then used to ‫و عرضها فً االنترنت‬ classify new patterns presented to the net. ‫ماهً مكونات الخوارزمٌه الجٌنٌه ؟‬ What are the components of Genetic Algorithm?  Flags ‫ اي اعرض‬1= ‫ له حالتان‬: ‫ االعالم‬ ‫الشرط الذي ٌتناسق مع الشرط‬  Relation operator ‫ اعرض الشرط الذي سوف ٌحذف‬0=  Values ‫من القاعده‬ ‫االرتباط له حالتان اذا كانت صرٌحه‬ <and = ‫= ومكمله‬and=


Explain OLAP? On Line Analytical Processing performs multidimensional analysis of business data and provide capability for sophisticated data modelling. ROLAP - Relational OLAP MOLAP - Multidimensional OLAP Note: (OLAP): provides more complex queries than OLTP. What are OLAP operations?  Single cell  Multiple cell  Slice  Dice

Unit Five What is Estimation Error? Difference between expected value and actual value.

‫ ؟‬OLAP ‫اشرح مفهوم الـ‬ ‫هً تحلٌل علمً ٌمثل أبعاد متعدده من تحلٌل‬ ‫البٌانات التجارٌه و تزوٌدها بالكفائه و الخبره‬ : ‫لها نوعٌن‬ Relational OLAP - ROLAP ‫الـ‬ Multidimensional OLAP – MOLAP ‫الـ‬ ‫ ٌزودنا بإستعالمات معقده‬OLAP ‫ الـ‬: ‫مالحظه‬ OLTAP ‫أكثر من الـ‬ ‫ ؟‬OLAP ‫عدد عملٌات الـ‬ ‫ خلٌه فردٌه‬ ‫ خلٌه متعدده‬ ‫ شرٌحه‬ ‫ نرد‬

‫الوحده الخامسه‬ ‫ماهو توقع الخطاء؟‬ ‫هو االختالف او الفرق بٌن القٌمه المتوقعه‬ ‫و القٌمه الفعلٌه‬

MLE= Coin toss five times: {H,H,H,H,T} Assuming a perfect coin with H and T equally likely, the likelihood of this sequence is:

However if the probability of a H is 0.8 then:


Variance( ‫ & )التباٌن‬Standard Deviation ( ‫) االنحراف المعٌاري‬

‫التباٌن‬ Note:  = 0 only when there is no spread Explain Regression?  The unknown parameters denoted as β. This may be a scalar or a vector of length k.  The independent variables, X.  The dependent variable, Y. Y = f (X, β)

‫االنحراف المعٌاري‬ 0 = ‫ تكون قٌمه االنحراف المعٌاري‬: ‫مالحظه‬ ‫عندما ال ٌكون هناك إنتشار‬ ‫اشرح مفهوم االنحدار ؟‬ ‫ٌمكن ان ٌستخدم فً التنبئ داخل سلسله زمنٌه‬ ‫من البٌانات‬ ‫= عنصرغٌر‬B , ‫ = تابع‬Y , ‫× = مستقل‬ ‫معروف‬

‫قانون اٌجاد القٌمه المتوقعه‬

O={50,93,67,78,87} E=75 (50 – 75) ² +(93 – 75) ² +( 67- 75) ² + (78 – 75 ) ² + (87 – 75) ² X²= =15.54 75 75 75 75 75

‫ ٌفحص درجه كل القٌم لكل قٌمتٌن ٌتصرفان‬: ‫الربط‬ ‫بشكل متشابه‬ ً‫ ٌكون إرتباط مثال‬1 = ‫لو‬ ً‫ ٌكون إرتباط مثالً عكس‬-1 = ‫لو‬ ‫ ال ٌوجد هناك إرتباط‬0 = ‫لو‬

Examine the degree to which the values for two variables behave similarly. Correlation coefficient r: 1 = perfect correlation -1 = perfect but opposite correlation 0 = no correlation r


Good Luck

Radwan Mohammed Aljaki2@live.com 7/10/2014 2:02 AM


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.