init routes

2024-04-04 03:47:57 +01:00 · 2024-04-04 03:47:57 +01:00 · 2b553d78e3
parent 2371f14c3c
commit 2b553d78e3
15 changed files with 165 additions and 161 deletions
--- a/.gitignore
+++ b/.gitignore
@ -2,4 +2,3 @@ __pycache__
 build
 barclays_credit_classifier.egg-info
 .env
--- a/db.py
+++ b/db.py
--- a/docker/docker-compose.yml
+++ b/docker/docker-compose.yml
@ -0,0 +1,17 @@
 services:
  mongo:
    image: mongo
    restart: always
    environment:
      MONGO_INITDB_ROOT_USERNAME: root
      MONGO_INITDB_ROOT_PASSWORD: example
    ports:
      - 27017:27017
  server:
    build:
      context: .
      dockerfile: server.Dockerfile
    ports:
      - 12345:12345
--- a/docker/server.Dockerfile
+++ b/docker/server.Dockerfile
@ -0,0 +1,11 @@
 FROM python:3
 WORKDIR $HOME/projects/uni/barclays_challenge_event_2024/
 ADD setup.py ./
 ADD routes/ ./
 ADD model/ ./
 ADD main.py ./
 ADD db.py ./
 ADD credit_risk_dataset.csv ./
 RUN pip install .
--- a/main.py
+++ b/main.py
@ -1,77 +0,0 @@
 import models
 import pandas as pd
 import preprocessing as pp
 from sklearn.metrics import accuracy_score
 # Load Data
 credit_risk = pd.read_csv("credit_risk_dataset.csv")
 # Feature Addition
 # Feature Conversion
 person_home_ownership_values = {
    "RENT": 1,
    "MORTGAGE": 2,
    "OWN": 3,
    "OTHER": 4,
 }
 loan_intent_values = {
    "EDUCATIONAL": 1,
    "MEDICAL": 2,
    "VENTURE": 3,
    "PERSONAL": 4,
    "DEBTCONSOLIDATION": 5
 }
 loan_grade_values = {
    "A": 1,
    "B": 2,
    "C": 3,
    "D": 4,
    "E": 5
 }
 cb_person_default_on_file_values = {
    "Y": 1,
    "N": 0,
 }
 # Convert categorical column to a numerical column
 credit_risk["person_home_ownership"] = credit_risk["person_home_ownership"].map(person_home_ownership_values)
 credit_risk["loan_intent"] = credit_risk["loan_intent"].map(loan_intent_values)
 credit_risk["loan_grade"] = credit_risk["loan_grade"].map(loan_grade_values)
 credit_risk["cb_person_default_on_file"] = credit_risk["cb_person_default_on_file"].map(cb_person_default_on_file_values)
 print("Feature Conversion Complete")
 # Feature Removal
 # columns_for_removal = ["housing_median_age", "total_rooms", "total_bedrooms"]
 # for column in columns_for_removal:
 #    housing.drop(column, axis=1, inplace=True)
 # Preprocessing
 credit_risk = pp.impute_missing_values(credit_risk)  # Handle missing values
 print("Missing Values handling Complete")
 # housing = pp.remove_outliers(housing) #Remove outliers
 # Training and Testing Preperation
 training_features, training_target_value, test_features, test_target_value = pp.training_test_split(credit_risk, "loan_status")  # Split the data into Training and Test sets
 print("Training and Test features split Complete")
 # Normalise the data
 training_features, test_features = pp.normalise(training_features,
                                                test_features)
 print("Normalisation Complete")
 # Init Models
 rf_model = models.random_forest_classifier(training_features,
                                           training_target_value)
 print("Model Init Complete")
 # Get Predictions
 rf_predictions = rf_model.predict(test_features)
 print("Predictions Complete")
 # Compare Results
 accuracy = accuracy_score(test_target_value, rf_predictions)
 print(f"Accuracy: {accuracy}")
 print(rf_predictions)
--- a/model/model.py
+++ b/model/model.py
@ -0,0 +1,69 @@
 import pandas as pd
 import preprocessing as pp
 from sklearn.ensemble import RandomForestClassifier
 # Feature Conversion Values
 categorical_columns = ["person_home_ownership",
                       "loan_intent",
                       "loan_grade",
                       "cb_person_default_on_file"]
 person_home_ownership_values = {
    "RENT": 1,
    "MORTGAGE": 2,
    "OWN": 3,
    "OTHER": 4,
 }
 loan_intent_values = {
    "EDUCATIONAL": 1,
    "MEDICAL": 2,
    "VENTURE": 3,
    "PERSONAL": 4,
    "DEBTCONSOLIDATION": 5
    }
 loan_grade_values = {
    "A": 1,
    "B": 2,
    "C": 3,
    "D": 4,
    "E": 5
 }
 cb_person_default_on_file_values = {
    "Y": 1,
    "N": 0,
 }
 def get_default_predictor():
    data = pd.from_csv("credit_risk_dataset.csv")
    data = convert_categories(data)
    # Imputation
    data = pp.impute_missing_values(data)
    # Training and Testing Preperation
    train_features, train_target, test_features, test_target = pp.training_test_split(data, "loan_status")
    # Normalise the data
    training_features, test_features = pp.normalise(train_features,
                                                    test_features)
    # Init Models
    rf_model = random_forest_classifier(training_features,
                                        train_target)
    return rf_model
 def random_forest_classifier(training_features, training_target):
    model = RandomForestClassifier(max_features="log2",
                                   random_state=79,
                                   n_jobs=-1)
    return model
 def convert_categories(data):
    data["person_home_ownership"] = data["person_home_ownership"].map(
            person_home_ownership_values)
    data["loan_intent"] = data["loan_intent"].map(loan_intent_values)
    data["loan_grade"] = data["loan_grade"].map(loan_grade_values)
    data["cb_person_default_on_file"] = data["cb_person_default_on_file"].map(
            cb_person_default_on_file_values)
    return data
--- a/model/preprocessing.py
+++ b/model/preprocessing.py
--- a/models.py
+++ b/models.py
@ -1,9 +0,0 @@
 from sklearn.ensemble import RandomForestClassifier
 def random_forest_classifier(training_features, training_target):
    model = RandomForestClassifier(max_features="log2",
                                   random_state=79,
                                   n_jobs=-1)
    model.fit(training_features, training_target)
    return model
--- a/routes/application_routes.py
+++ b/routes/application_routes.py
@ -0,0 +1,11 @@
 from flask import Blueprint
 blueprint = Blueprint("user", __name__)
@blueprint.route("/api/user", methods=["POST"])
@blueprint.route("/api/user", methods=["PATCH"])
@blueprint.route("/api/user", methods=["GET"])
@blueprint.route("/api/user", methods=["OPTIONS"])
--- a/routes/authentication_routes.py
+++ b/routes/authentication_routes.py
@ -0,0 +1,15 @@
 from flask import Blueprint, request
 blueprint = Blueprint("application", __name__)
@blueprint.route("/api/application/apply", methods=["POST"])
 def process_application():
    req = request.json
@blueprint.route("/api/application", methods=["PATCH"])
@blueprint.route("/api/application", methods=["OPTIONS"])
@blueprint.route("/api/application", methods=["GET"])
 def authenticate_user():
    req = request.json
--- a/routes/bureau_routes.py
+++ b/routes/bureau_routes.py
@ -0,0 +1,7 @@
 from flask import Blueprint
 blueprint = Blueprint("user", __name__)
@blueprint.route("/api/user", methods=["GET"])
@blueprint.route("/api/user", methods=["OPTIONS"])
--- a/routes/referral_routes.py
+++ b/routes/referral_routes.py
@ -0,0 +1,13 @@
 from flask import Blueprint
 blueprint = Blueprint("user", __name__)
@blueprint.route("/api/referral", methods=["POST"])
@blueprint.route("/api/referral", methods=["PATCH"])
@blueprint.route("/api/referral", methods=["DELETE"])
@blueprint.route("/api/referral", methods=["GET"])
@blueprint.route("/api/referral", methods=["OPTIONS"])
--- a/routes/user_routes.py
+++ b/routes/user_routes.py
@ -0,0 +1,15 @@
 from flask import Blueprint
 blueprint = Blueprint("user", __name__)
@blueprint.route("/api/user", methods=["POST"])
@blueprint.route("/api/user", methods=["PUT"])
@blueprint.route("/api/user", methods=["PATCH"])
@blueprint.route("/api/user", methods=["DELETE"])
@blueprint.route("/api/user", methods=["GET"])
@blueprint.route("/api/user", methods=["OPTIONS"])
--- a/setup.py
+++ b/setup.py
@ -1,18 +1,17 @@
 from setuptools import setup, find_packages
 setup(
-        name="barclays_credit_classifier",
+        name="Credit Assessment",
        version="1.0.0",
-        description="Predicts whether someone will default on their loan. Uses the Credit Risk Dataset from Kaggle",
+        description="ML Assisted Credit Assessment",
        author="r0r-5chach",
        author_email="r0r-5chach.xyz@proton.me",
        packages=find_packages(),
        install_requires=[
-            "numpy",
+            "asyncio",
-            "scipy",
+            "Flask",
            "matplotlib",
            "pandas",
            "scikit-learn",
-            "seaborn"
+            "pandas",
            "pymongo"
            ]
        )
--- a/visualisations.py
+++ b/visualisations.py
@ -1,66 +0,0 @@
 import matplotlib.pyplot as plt
 import seaborn as sns
 def missing_value_pairwise_plots(data_frame, null_column, save=False):
    not_missing_data = data_frame.dropna()
    mising_data = data_frame[data_frame[null_column].isnull()]
    for column in data_frame.columns:
        if column != null_column:
            plt.figure()
            plt.title(f"Scatter Plot of {column} against {null_column}")
            plot_missing_values(column)
            plt.scatter(not_missing_data[column], not_missing_data[null_column], color=[[0.502, 0, 0.502, 0.4]], label="Existing Values")
            plt.xlabel(column)
            plt.ylabel(null_column)
            plt.legend()
            if save:
                plt.savefig(f"missing_values[{column}:{null_column}].png")
            else:
                plt.show()
            plt.close()
 def plot_missing_values(column):
    plt.plot([], [], color="red", alpha=0.4, label="Missing Values")
    for value in column:
        plt.axvline(x=value, color="red", alpha=0.4)
 def correlation_matrix(data_frame, save=False):
    matrix = data_frame.corr()
    plt.figure()
    sns.heatmap(matrix, annot=True)
    plt.title("Correlation Matrix of Existing Features")
    if save:
        plt.savefig("correlation_matrix.png")
    else:
        plt.show()
    plt.close()
 def imputation_plots(data_frame, imputed_data, null_column, columns, save=False):
    not_missing_data = data_frame.dropna()
    for column in columns:
        plt.figure()
        plt.scatter(imputed_data[column], imputed_data[null_column], color=[[0, 0.502, 0, 0.4]], label="Imputed Data")
        plt.scatter(not_missing_data[column], not_missing_data[null_column], colot=[[0.502, 0, 0.502, 0,4]], label="Original Data")
        plt.title(f"Scatter Plot of {column} against {null_column} after KNN(9) Imputation")
        plt.xlabel(column)
        plt.ylabel(column)
        plt.legend()
        if save:
            plt.savefig(f"imputation_results[{column}:{null_column}].png")
        else:
            plt.show()
        plt.close()
 def outlier_box_plots(data_frame, save=False):
    for column in data_frame.columns:
        plt.figure()
        plt.title(f"Box Plot of {column}")
        plt.boxplot(data_frame[column])
        plt.ylabel(column)
        plt.xticks(rotation=45)
        if save:
            plt.savefig(f"outlier_box_plot[{column}].png")
        else:
            plt.show()
        plt.close()