Previous Page  53 / 76 Next Page
Information
Show Menu
Previous Page 53 / 76 Next Page
Page Background

53

Predictive Modelleme

Yukarıda da bahsedildiği üzere çalışmanın ilk aşamasında

sigorta şirketlerinden bugüne kadar fraud şüphesi ile

inceledikleri claim’ler ve bunlara ait sonuçlar istenmiş ve 22

şirketten yaklaşık 43 bin claim için geri dönüş yapılmıştır.

Toplanan bu veri hem iş kurallarının ağırlıklandırılması ile

exper model skorlamasında kullanılmış hem de eğitim verisi

olarak kullanılmak üzere predictive modelleme çalışmasına da

baz teşkil etmiştir.

Predictive modelleme, bir olay/olgu’nun mantıksal olarak

ilişkili olabileceği düşünülen (hipotetik model) değişkenler

ile açıklanmaya çalışılarak bu değişkenlere göre pattern

farklılıklarının belirlenmesi ve formüle edilmesidir. Bu projede

tahminlenmek istenen, bir claim’in fraud olma eğilimidir. Bu

eğilimi açıklamak üzere kullanılan potansiyel değişkenler iş

kurallarının geliştirilmesi sırasında oluşturulan veri seti iken

öğrenme verisi (fraud olma/olmama) şirketlerden elde edilen

fraud inceleme dosyalarıdır. Modelleme çalışması SAS E-Miner

data mining tool’u kullanılarak gerçekleştirilmiştir.

Predictive modelleme için oluşturulan öğrenme datası

bivariete analiz ile incelenerek hangi değişkenlerin fraud

(olup/olmama) ile anlamlı bir ilişkisi olduğu belirlenmiştir.

Belirlenen bu değişkenler kullanılarak yapılan her bir model,

ilk olarak modelde bulunan değişkenler ile fraud arasında-

ki ilişkinin mantıksal olup olmadığı ardından lift, kümülatif

response, ROC curve eğrileri incelenerek de modelin ro-

bust (güvenilir, tutarlı) ve tahmin gücü değerlendirilmiştir.

Yapılan denemeler sonucunda 6 değişkenli %20’lik dilimde

lift 1.35 ve kümülatif response rate i %28 olan model nihai

model olarak seçilmiştir.

Prediktive modelin de tamamlanması ile bir claim için hem

“expert model skoru” hem de fraud eğilim skorunu göster-

en “predictive skor” üretilmiştir. Bu iki skorun exper mod-

el yönünde ağırlıklandırılması ile her bir claim için “Claim

risk skoru” hesaplanmıştır. Claim risk skoru 0-1 aralığında

değer almaktadır.

Predictive Modeling

As mentioned above, insurance companies were asked to

send the suspicious claims they have been investigating and

a total of 43 claims were received from 22 companies. The

data collected was used both in scoring of the expert model

by developing weights for the business rules and served as a

basis for the predictive modeling phase where it was used as

training data.

Predictive modeling is the process whereby an event/

phenomenon is explained by the variables which are

considered to be related to it (hypothetical model) and

pattern variations are determined and formulated based on

these variables. In this project what is being estimated is the

inclination of the fraud to happen. The potential variables

used to explain this trend are the data set created during the

development phase of the business rules and the learning

data (fraud/not fraud) are the fraud investigation files received

from the companies. Modeling was carried out using SAS

E-Miner data mining tool.

Learningdata developed for predictivemodelingwas analyzed

using bivariate analysis and variables with significant

relationship with fraud (fraud or not) were determined. For

every model developed using these variables the following

analyses were made: analysis to determine weather or not

the relationship between the variables in the model and the

fraud are logical, analysis to determine cumulative response,

analysis of ROC curves to determine weather or not the model

is robust and the estimation effectiveness of the model. As a

result of the tests, the model with 6 variables that had a 1.35

lift and response rate of 28% in the 20% segment was chosen

as the final model.

After the completion of the predictive model, a “predictive

score” that indicates both the “expert model score” and the

fraud trend score for a claim was generated. With weighting

of these two scores in the expert model direction, a “Claim

risk score” was calculated for every claim. Claim risk score

ranges between 0 to 1.

UZMAN GÖZÜYLE

EXPERT VIEW

Şekil (figure) 3:

Prediktif Modelleme

Akış Diagramı

/

Predictive Modeling Flow

Chart

MODEL_CLAIM_

VARS1

Interactive

Grouping

Scorecard

DMDB

FinalModel_V2

Score

Score Code

Export

Model

Comparison

FinalModel

Data Partition

Impute