from sklearn import datasets

iris = datasets.load_iris()
X = iris.data
y = iris.target

X

y

# In general, it's a good idea to scale the data prior to PCA.

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
X = scaler.transform(X)    

X

from sklearn.decomposition import PCA

pca = PCA()
x_new = pca.fit_transform(X)

x_new

import numpy as np
import pandas as pd

# loadings = columns of the following dataframe
# vectors ploted on a biplot - rows of this dataframe
loadings = pca.components_.T * np.sqrt(pca.explained_variance_)

loading_matrix = pd.DataFrame(loadings[:,:2], columns=['PC1', 'PC2'], index=iris.feature_names)

loading_matrix

pca.components_

np.transpose(pca.components_[1:3, :])

import matplotlib.pyplot as plt

def biplot(score,coeff,labels=None):
    xs = score[:,0]
    ys = score[:,1]
    n = coeff.shape[0]
    scalex = 1.0/(xs.max() - xs.min())
    scaley = 1.0/(ys.max() - ys.min())
    plt.scatter(xs * scalex,ys * scaley, c = y)
    for i in range(n):
        plt.arrow(0, 0, coeff[i,0], coeff[i,1],color = 'r',alpha = 0.5)
        if labels is None:
            plt.text(coeff[i,0]* 1.15, coeff[i,1] * 1.15, "Var"+str(i+1), color = 'g', ha = 'center', va = 'center')
        else:
            plt.text(coeff[i,0]* 1.15, coeff[i,1] * 1.15, labels[i], color = 'g', ha = 'center', va = 'center')
    plt.xlim(-1,1)
    plt.ylim(-1,1)
    plt.xlabel("first considered component")
    plt.ylabel("second considered component")
    plt.grid()

# code source: https://stackoverflow.com/questions/39216897/plot-pca-loadings-and-loading-in-biplot-in-sklearn-like-rs-autoplot

biplot(x_new[:,0:2],np.transpose(pca.components_[0:2, :]))

biplot(x_new[:,1:3],np.transpose(pca.components_[1:3, :]))

pca.explained_variance_

pca.explained_variance_ratio_

import seaborn as sns # install via "pip install seaborn" in terminal if the command is not working

pve_df = pd.DataFrame({'component': [1,2,3,4], 'PVE': pca.explained_variance_ratio_})

cumulative_pve = [0]*(len(pca.explained_variance_ratio_)+1)
cumulative_pve[0] = 0
cumulative_pve[1] = pca.explained_variance_ratio_[0]
for i in range(1,len(pca.explained_variance_ratio_)+1):
    cumulative_pve[i] = cumulative_pve[i-1]+pca.explained_variance_ratio_[i-1]
    
cumulative_pve_df = pd.DataFrame({'component': [0,1,2,3,4], 'cumulative PVE': cumulative_pve})

fig, axs = plt.subplots(ncols=2)

sns.pointplot(x='component', y='PVE', data=pve_df, ax=axs[0]);
sns.pointplot(x='component', y='cumulative PVE', data=cumulative_pve_df, ax=axs[1]);

# Provide scikit
import sklearn
from sklearn import datasets

diabetes = datasets.load_diabetes()

diabetes.feature_names

diabetes.data

diabetes.target

X, y = diabetes.data, diabetes.target

X

# In general, it's a good idea to scale the data prior to PCA.
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(X)
X = scaler.transform(X)

X

from sklearn.decomposition import PCA

pca = PCA()
X_pca = pca.fit_transform(X)

X_pca

pca.explained_variance_ratio_

import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt

pve_df = pd.DataFrame({'component': [1,2,3,4,5,6,7,8,9,10], 'PVE': pca.explained_variance_ratio_})

cumulative_pve = [0]*(len(pca.explained_variance_ratio_)+1)
cumulative_pve[0] = 0
cumulative_pve[1] = pca.explained_variance_ratio_[0]
for i in range(1,len(pca.explained_variance_ratio_)+1):
    cumulative_pve[i] = cumulative_pve[i-1]+pca.explained_variance_ratio_[i-1]
    
cumulative_pve_df = pd.DataFrame({'component': [0,1,2,3,4,5,6,7,8,9,10], 'cumulative PVE': cumulative_pve})

fig, axs = plt.subplots(ncols=2)

sns.pointplot(x='component', y='PVE', data=pve_df, ax=axs[0]);
sns.pointplot(x='component', y='cumulative PVE', data=cumulative_pve_df, ax=axs[1]);

X_pca_selected = X_pca[:,[0,1]]

X_pca_selected

# We import the submodule allowing to split the data into train and test parts
from sklearn.model_selection import train_test_split

data_idies = range(len(X))

data_idies

idies_train, idies_test = train_test_split(data_idies, test_size=0.35)

y_train, y_test = y[idies_train], y[idies_test]

X_train, X_test = X[idies_train], X[idies_test]

X_pca_train, X_pca_test = X_pca_selected[idies_train], X_pca_selected[idies_test]

# we must load the linear regression submodule
from sklearn.linear_model import LinearRegression

def regression_model(x, y):
    model = LinearRegression()
    model.fit(x, y)
    return model

original_model = regression_model(X_train, y_train)

pca_model = regression_model(X_pca_train, y_train)

import numpy as np

def RSS_RSE(model, x, y):
    y_predict = model.predict(x)
    n = len(x)
    RSS = sum((y-y_predict)**2)
    RSE = np.sqrt(1/(n-2)*RSS)
    return RSS, RSE

def R2(model, x, y):
    y_mean = np.mean(y)
    TSS = sum((y-y_mean)**2)
    RSS, RSE = RSS_RSE(model, x, y)
    return (TSS-RSS)/TSS

rss_rse_original_train = R2(original_model, X_train, y_train)
rss_rse_original_test = R2(original_model, X_test, y_test)
rss_rse_pca_train = R2(pca_model, X_pca_train, y_train)
rss_rse_pca_test = R2(pca_model, X_pca_test, y_test)

print("r2_original_train:", rss_rse_original_train)
print("r2_original_test:", rss_rse_original_test)
print("r2_pca_train:", rss_rse_pca_train)
print("r2_pca_test:", rss_rse_pca_test)

def R2_k_components(k):
    X_pca_selected = X_pca[:,[i for i in range(k)]]
    X_pca_train, X_pca_test = X_pca_selected[idies_train], X_pca_selected[idies_test]
    pca_model = regression_model(X_pca_train, y_train)
    r2_train = R2(pca_model, X_pca_train, y_train)
    r2_test = R2(pca_model, X_pca_test, y_test)
    return r2_train, r2_test

r2_train_pca, r2_test_pca = [0]*10, [0]*10
for k in range(1,10):
    r2_train_pca[k], r2_test_pca[k] = R2_k_components(k)

r2_train_pca

r2_test_pca

train_df = pd.DataFrame({'component': [1,2,3,4,5,6,7,8,9,10], 'pca train': r2_train_pca})
test_df = pd.DataFrame({'component': [1,2,3,4,5,6,7,8,9,10], 'pca test': r2_test_pca})

fig, axs = plt.subplots(ncols=2)

sns.pointplot(x='component', y='pca train', data=train_df, ax=axs[0]);
sns.pointplot(x='component', y='pca test', data=test_df, ax=axs[1]);

# Run it if not yet downloaded only

import urllib.request
import zipfile
import os
from pathlib import Path

url = "https://www.statlearning.com/s/ALL-CSV-FILES-2nd-Edition-corrected.zip"
zip_path = Path("ALL-CSV-FILES-2nd-Edition-corrected.zip")
extract_dir = Path("ALL-CSV-FILES-2nd-Edition-corrected")

# 1) download only if not present
if not zip_path.exists():
    print("Downloading zip...")
    urllib.request.urlretrieve(url, zip_path)
    print("Saved to", zip_path)
else:
    print("Zip already exists:", zip_path)

# 2) unzip
if not extract_dir.exists():
    print("Extracting...")
    with zipfile.ZipFile(zip_path, "r") as zf:
        zf.extractall(extract_dir)
    print("Extracted to", extract_dir)
else:
    print("Already extracted to:", extract_dir)

# 3) list extracted files
print("\nFiles:")
for p in sorted(extract_dir.glob("**/*")):
    if p.is_file():
        print(p)

import pandas as pd

credit_df = pd.read_csv('ALL-CSV-FILES-2nd-Edition-corrected/ALL CSV FILES - 2nd Edition/Credit.csv')

credit_df

import statsmodels.formula.api as smf # install via "pip install statsmodels" in terminal if the command is not working
import numpy as np
from itertools import combinations

# region is categorical with 3 possible values
# so the number of predictors is (10-1) + 2 = 11
n_predictors_with_dummy = 11
n = len(credit_df)
cp, bic, adj_r2 = [], [], []

# estimate σ^2
columns = credit_df.columns[:-1]
formula = f'{credit_df.columns[-1]} ~ {" + ".join(columns)}'
object_to_fit = smf.ols(formula, credit_df)
model = object_to_fit.fit()
sigma2 = np.sum(model.resid**2)/(n-len(columns)-1)

# Best subset selection (brute force)
# Step 2.
for d in range(1, n_predictors_with_dummy):
    r2_max = 0
    for selection in combinations(range(len(columns)), d):
        selection = list(selection)
        formula = f'{credit_df.columns[-1]} ~ {" + ".join(columns[selection])}'
        p_k = smf.ols(formula, credit_df).fit()
        rss = p_k.ssr
        tss = p_k.centered_tss
        if 1-rss/tss > r2_max:
            r2_max = 1-rss/tss
            M_k = p_k
    
    rss = M_k.ssr
    tss = M_k.centered_tss
    cp.append(1/n * (rss + 2 * d * sigma2))
    bic.append(1/n * (rss + np.log(n) * d * sigma2))
    adj_r2.append(1 - rss / (n - d - 1) * (n - 1) / tss)

import seaborn as sns

plot_df = pd.concat([
  pd.DataFrame({'val': cp, 'type': 'cp'}).reset_index(),
  pd.DataFrame({'val': bic, 'type': 'bic'}).reset_index(),
])
plot_df['index'] += 1
plot_df = plot_df.reset_index(drop=True)
sns.pointplot(x='index', y='val', hue='type', data=plot_df);

bic

r2_df = pd.DataFrame({'val': adj_r2, 'type': 'adj_r2'}).reset_index()
sns.pointplot(x='index', y='val', data=r2_df);

adj_r2

Module 3: overview of selected data analysis methods for high-dimensional data¶

Principal Component Analysis¶

Comments concerning PCA¶

Example: Iris dataset¶

Scale the data¶

Perform PCA¶

Loadings of PCA¶

Biplots¶

Proportion variance explained¶

Principal Component Regression (PCR) - PCA as a prestep for supervised learning - diabetes dataset¶

Load the dataset¶

Perform PCA¶

Select the principal components with highest variance¶

Split the data into train and test (we want to compare the results)¶

Create regression models¶

Assess the accuracy of the models¶

Residual sum of squares and its estimator:¶

$R^2$ - the "normalized" RSS¶

Feature selection¶

Best subset selection (brute force)¶

Stepwise selection¶

Forward Stepwise Selection (Greedy)¶

Backward Stepwise Selection (Greedy)¶

Choosing the Optimal Model¶

Information Criteria¶

Example: credit data¶

Shrinkage¶

Ridge regression¶

Lasso¶

Ridge vs lasso¶

Programming tasks¶

Task 1: Assess accuracy of regression models distilled by PCA¶

Sources used for preparation of this notebook¶