import math

import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
from scipy.stats import norm, t
from sklearn.linear_model import LinearRegression

pd.set_option("display.max_rows", 100)
pd.set_option("display.precision", 3)


# getting data
!curl -s --insecure https://www.stat.cmu.edu/~larry/all-of-statistics/=data/carmileage.dat --output data/carmileage.dat
!sed -i 's/Subaru Loyale/SubaruLoyale/g' data/carmileage.dat
data = pd.read_csv(
    "data/carmileage.dat",
    skiprows=28,
    sep="\s+",
    names=["Name", "VOL", "HP", "MPG", "SP", "WT"],
    index_col="Name",
    usecols=["Name", "HP", "MPG"],
)


X = data["HP"].values
Y = data["MPG"].values
n = X.size
X_bar = X.mean()
Y_bar = Y.mean()

beta_1_hat = np.dot((X - X_bar), (Y - Y_bar)) / np.linalg.norm(X - X_bar) ** 2
beta_0_hat = Y_bar - beta_1_hat * X_bar

Y_hat = beta_0_hat + beta_1_hat * X
RSS = np.sum(np.power(Y - Y_hat, 2))
sigma_2_hat = (1 / (n - 2)) * RSS
sigma_hat = np.sqrt(sigma_2_hat)
s_X_2 = (1 / n) * np.sum(np.power(X - X_bar, 2))
s_X = np.sqrt(s_X_2)

se_beta_0 = sigma_hat / (s_X * np.sqrt(n)) * np.sqrt(np.sum(np.power(X, 2)) / n)
se_beta_1 = sigma_hat / (s_X * np.sqrt(n))

plt.scatter(X, Y, label="Passenger Car Mileage Data")
xx = np.arange(min(X), max(X))
yy = beta_1_hat * xx + beta_0_hat
plt.plot(
    xx, yy, "--", color="orange", label=f"MPG={beta_0_hat:.3f} + {beta_1_hat:.3f} * HP"
)
plt.xlabel("HP")
plt.ylabel("MPG")
plt.grid()
plt.legend()
plt.show()

results = {
    "Covariate": ["constant", "HP"],
    "Coefficient": [beta_0_hat, beta_1_hat],
    "Std. Error": [se_beta_0, se_beta_1],
    "t value": [beta_0_hat / se_beta_0, beta_1_hat / se_beta_1],
    "p value": [
        2 * norm.cdf(-abs(beta_0_hat / se_beta_0)),
        2 * norm.cdf(-abs(beta_1_hat / se_beta_1)),
    ],
}
pd.DataFrame(results).set_index("Covariate")


X = data["HP"].values
Y = np.log(data["MPG"].values)
n = X.size
X_bar = X.mean()
Y_bar = Y.mean()

beta_1_hat = np.dot((X - X_bar), (Y - Y_bar)) / np.linalg.norm(X - X_bar) ** 2
beta_0_hat = Y_bar - beta_1_hat * X_bar

Y_hat = beta_0_hat + beta_1_hat * X
RSS = np.sum(np.power(Y - Y_hat, 2))
sigma_2_hat = (1 / (n - 2)) * RSS
sigma_hat = np.sqrt(sigma_2_hat)
s_X_2 = (1 / n) * np.sum(np.power(X - X_bar, 2))
s_X = np.sqrt(s_X_2)

se_beta_0 = sigma_hat / (s_X * np.sqrt(n)) * np.sqrt(np.sum(np.power(X, 2)) / n)
se_beta_1 = sigma_hat / (s_X * np.sqrt(n))

plt.scatter(X, Y, label="Passenger Car Mileage Data")
xx = np.arange(min(X), max(X))
yy = beta_1_hat * xx + beta_0_hat
plt.plot(
    xx,
    yy,
    "--",
    color="orange",
    label=f"log(MPG)={beta_0_hat:.3f} + {beta_1_hat:.3f} * HP",
)
plt.xlabel("HP")
plt.ylabel("log(MPG)")
plt.grid()
plt.legend()
plt.show()

results = {
    "Covariate": ["constant", "HP"],
    "Coefficient": [beta_0_hat, beta_1_hat],
    "Std. Error": [se_beta_0, se_beta_1],
    "t value": [beta_0_hat / se_beta_0, beta_1_hat / se_beta_1],
    "p value": [
        2 * norm.cdf(-abs(beta_0_hat / se_beta_0)),
        2 * norm.cdf(-abs(beta_1_hat / se_beta_1)),
    ],
}
pd.DataFrame(results).set_index("Covariate")


data = pd.read_csv(
    "data/carmileage.dat",
    skiprows=28,
    sep="\s+",
    names=["Name", "VOL", "HP", "MPG", "SP", "WT"],
    index_col="Name",
)
all_features = ["VOL", "HP", "SP", "WT"]
X = np.array(data[all_features].values)
X = np.concatenate((X, np.ones((X.shape[0], 1))), axis=1)
y = np.array(data["MPG"].values)
n, k = X.shape
beta_hat = np.linalg.inv(X.T @ X) @ X.T @ y
y_pred = X @ beta_hat
eps_hat = y_pred - y
sigma_2_hat = (1 / (n - k)) * np.linalg.norm(eps_hat) ** 2
V = sigma_2_hat * np.linalg.inv(X.T @ X)


plt.scatter(X[:, 1], y, label="True")
plt.scatter(X[:, 1], np.array(y_pred), label="Predicted")
plt.xlabel("HP")
plt.ylabel("MPG")
plt.grid()
plt.legend()
plt.show()

results = {}
results["Feature"] = all_features + ["intercept"]
results["Coefficient"] = beta_hat
results["std. error"] = np.sqrt(np.diag(V))
results["t value"] = beta_hat / results["std. error"]
results["p-value"] = 2 * norm.cdf(-np.abs(results["t value"]))
pd.DataFrame(results).set_index("Feature")


full_model_sigma_2_hat = sigma_2_hat

class LinearRegression:
    def __init__(self, features):
        X = np.array(data[features].values)
        self.X = np.concatenate((X, np.ones((X.shape[0], 1))), axis=1)
        self.s = self.X.shape[1]
        self.beta_hat = np.linalg.inv(self.X.T @ self.X) @ self.X.T @ y
        self.eps_hat = self.X @ self.beta_hat - y
        self.rss = self.eps_hat.T @ self.eps_hat
        self.V = sigma_2_hat * np.linalg.inv(self.X.T @ self.X)
        self.se = np.sqrt(np.diag(self.V))

    @property
    def mallows_cp(self):
        return self.rss + 2 * (self.s) * full_model_sigma_2_hat
    
    @property
    def bic(self):
        return n * math.log(self.rss / n) + self.s * math.log(n)


def get_score(features):
    model = LinearRegression(features)
    return model.mallows_cp


print("Subset:", "Score")
selected_features = []
remaining_features = all_features.copy()
best_score = get_score(selected_features)
print(f"{tuple(selected_features)}: {best_score:.3f}")
while True:
    candidate_feature = min(
        [feature for feature in remaining_features],
        key=lambda feature: get_score(selected_features + [feature]),
    )
    new_score = get_score(selected_features + [candidate_feature])
    if new_score < best_score:
        best_score = new_score
        selected_features.append(candidate_feature)
        remaining_features.remove(candidate_feature)
        print(f"{tuple(selected_features)}: {best_score:.3f}")
    else:
        break

Subset: Score
(): 8134.148
('WT',): 1519.372
('WT', 'SP'): 1463.077
('WT', 'SP', 'HP'): 1140.391


print("Subset:", "Score")
selected_features = all_features.copy()
remaining_features = all_features.copy()
best_score = get_score(selected_features)
print(f"{tuple(selected_features)}: {best_score:.3f}")
while True:
    candidate_feature = min(
        [feature for feature in remaining_features],
        key=lambda feature: get_score(list(set(selected_features) - set([feature]))),
    )
    new_score = get_score(list(set(selected_features) - set([candidate_feature])))
    if new_score < best_score:
        best_score = new_score
        selected_features.remove(candidate_feature)
        remaining_features.remove(candidate_feature)
        print(f"{tuple(selected_features)}: {best_score:.3f}")
    else:
        break

Subset: Score
('VOL', 'HP', 'SP', 'WT'): 1160.808
('HP', 'SP', 'WT'): 1140.391


# order features by the absolute value of their Wald statistic in the full model, in decreasing order
full_model = LinearRegression(all_features)
W = {all_features[i]: full_model.beta_hat[i] / full_model.se[i] for i in range(len(all_features))}
sorted_features = sorted(all_features, key=lambda f: abs(W[f]), reverse=True)

# Find the j that minimizes
# RSS + j * sigma_2_hat * log(n),
# where the RSS is computed using the model constructed 
# from the first j elements of the above list
best_score = np.infty
for j in range(len(W) + 1):
    model = LinearRegression(sorted_features[:j])
    score = model.rss + j * sigma_2_hat * math.log(n)
    print(sorted_features[:j], score)
    if score < best_score:
        best_score, j_hat = (score, j)
zheng_loh_features = sorted_features[:j_hat]
print("Features selected by Zheng Loh method:", tuple(zheng_loh_features))

[] 8107.462560975609
['WT'] 1524.7987933782406
['WT', 'SP'] 1500.6151441827385
['WT', 'SP', 'HP'] 1210.0414343972777
['WT', 'SP', 'HP', 'VOL'] 1262.5701385588484
Features selected by Zheng Loh method: ('WT', 'SP', 'HP')


def get_bic(features):
    model = LinearRegression(features)
    return model.bic


from itertools import combinations

all_features = ["VOL", "HP", "SP", "WT"]
subsets = sum(
    [
        list(map(list, combinations(all_features, i)))
        for i in range(len(all_features) + 1)
    ],
    [],
)
results = []
for subset in subsets:
    row = {feature: "\u2713" if feature in subset else "" for feature in all_features}
    row["Mallows $C_p$"] = get_score(subset)
    row["BIC"] = get_bic(subset)
    results.append(row)
df = pd.DataFrame(results)
df.sort_values("Mallows $C_p$", ignore_index=True)


!curl -s --insecure https://www.stat.cmu.edu/~larry/all-of-statistics/=data/coris.dat --output data/coris.dat
data = pd.read_csv(
    "data/coris.dat",
    skiprows=3,
    names="sbp tobacco ldl adiposity famhist typea obesity alcohol age chd".split(),
)
data.head()


all_features = data.columns.drop("chd").tolist()
X = data[all_features].values
X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
y = data["chd"].values


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

def logit(x):
    return np.log(x / (1 - x))

beta_hat = {}
p = {}

s = 0
tol = 1e-9
beta_hat[0] = np.zeros(X.shape[1])
while True:
    p[s] = sigmoid(X @ beta_hat[s])
    Z = logit(p[s]) + (y - p[s]) / (p[s] * (1 - p[s]))
    W = np.diag(p[s] * (1 - p[s]))
    s += 1
    beta_hat[s] = np.linalg.inv(X.T @ W @ X) @ X.T @ W @ Z
    if np.linalg.norm(beta_hat[s] - beta_hat[s-1]) < tol:
        break
beta_hat_final = beta_hat[s]


dict(zip(all_features + ['intercept'], beta_hat_final))

{'sbp': 0.006504017125714047,
 'tobacco': 0.07937644573028917,
 'ldl': 0.17392389811148842,
 'adiposity': 0.018586568160066826,
 'famhist': 0.9253704193666236,
 'typea': 0.03959502497737503,
 'obesity': -0.06290986927786987,
 'alcohol': 0.00012166240142633388,
 'age': 0.04522534963462028,
 'intercept': -6.150720864983774}


class LogisticRegression:
    def __init__(self, features):
        
        X = data[features].values
        self.X = np.concatenate([X, np.ones((X.shape[0], 1))], axis=1)
        y = data["chd"].values
        beta_hat = {}
        p = {}
        s = 0
        tol = 1e-9
        beta_hat[0] = np.zeros(self.X.shape[1])
        while True:
            p[s] = sigmoid(self.X @ beta_hat[s])
            Z = logit(p[s]) + (y - p[s]) / (p[s] * (1 - p[s]))
            W = np.diag(p[s] * (1 - p[s]))
            s += 1
            beta_hat[s] = np.linalg.inv(self.X.T @ W @ self.X) @ self.X.T @ W @ Z
            if np.linalg.norm(beta_hat[s] - beta_hat[s-1]) < tol:
                break
        self.beta_hat_final = beta_hat[s]
        self.y_pred = sigmoid(self.X @ self.beta_hat_final)
    
    @property
    def aic(self):
        log_likelihood = np.sum(y * np.log(self.y_pred) + (1 - y) * np.log(1 - self.y_pred))
        return (log_likelihood - self.X.shape[0])
    
def get_aic(features):
    model = LogisticRegression(features)
    return model.aic


print("Subset:", "Score")
selected_features = all_features.copy()
remaining_features = all_features.copy()
best_score = get_aic(selected_features)
print(f"{tuple(selected_features)}: {best_score:.3f}")
while True:
    candidate_feature = min(
        [feature for feature in remaining_features],
        key=lambda feature: get_aic(list(set(selected_features) - set([feature]))),
    )
    new_score = get_aic(list(set(selected_features) - set([candidate_feature])))
    if new_score > best_score:
        best_score = new_score
        selected_features.remove(candidate_feature)
        remaining_features.remove(candidate_feature)
        print(f"{tuple(selected_features)}: {best_score:.3f}")
    else:
        break

Subset: Score
('sbp', 'tobacco', 'ldl', 'adiposity', 'famhist', 'typea', 'obesity', 'alcohol', 'age'): -698.070


subsets = sum(
    [
        list(map(list, combinations(all_features, i)))
        for i in range(len(all_features) + 1)
    ],
    [],
)
results = []
for subset in subsets:
    row = {feature: "\u2713" if feature in subset else "" for feature in all_features}
    row["AIC"] = get_aic(subset)
    results.append(row)
df = pd.DataFrame(results)
df

	Coefficient	Std. Error	t value	p value
Covariate
constant	50.066	1.569	31.900	2.700e-223
HP	-0.139	0.012	-11.519	1.055e-30

	Coefficient	Std. Error	t value	p value
Covariate
constant	4.013	4.012e-02	100.021	0.000e+00
HP	-0.005	3.085e-04	-14.873	4.926e-50

	Coefficient	std. error	t value	p-value
Feature
VOL	-0.016	0.023	-0.685	4.931e-01
HP	0.392	0.081	4.818	1.453e-06
SP	-1.295	0.245	-5.290	1.224e-07
WT	-1.860	0.213	-8.717	2.866e-18
intercept	192.438	23.532	8.178	2.890e-16

	VOL	HP	SP	WT	Mallows $C_p$	BIC
0		✓	✓	✓	1140.391	225.426
1	✓	✓	✓	✓	1160.808	229.334
2	✓		✓	✓	1443.795	246.530
3			✓	✓	1463.077	244.895
4	✓	✓		✓	1507.484	250.346
5		✓		✓	1510.678	247.670
6				✓	1519.372	245.267
7	✓			✓	1542.175	249.456
8	✓	✓	✓		2147.887	281.220
9	✓	✓			2354.823	285.699
10		✓	✓		2436.579	288.594
11	✓		✓		3056.599	307.748
12		✓			3102.806	305.325
13			✓		4318.235	332.832
14	✓				7059.223	373.532
15					8134.148	381.100

	sbp	tobacco	ldl	adiposity	famhist	typea	obesity	alcohol	age	chd
1	160	12.00	5.73	23.11	1	49	25.30	97.20	52	1
2	144	0.01	4.41	28.61	0	55	28.87	2.06	63	1
3	118	0.08	3.48	32.28	1	52	29.14	3.81	46	0
4	170	7.50	6.41	38.03	1	51	31.99	24.26	58	1
5	134	13.60	3.50	27.78	1	60	25.99	57.34	49	1

1¶

2¶

3¶

4¶

5¶

6¶

7¶

8¶

9¶

10¶

11¶

	sbp	tobacco	ldl	adiposity	famhist	typea	obesity	alcohol	age	AIC
0										-760.054
1	✓									-751.661
2		✓								-739.324
3			✓							-744.139
4				✓						-744.526
...	...	...	...	...	...	...	...	...	...	...
507	✓	✓	✓		✓	✓	✓	✓	✓	-698.273
508	✓	✓		✓	✓	✓	✓	✓	✓	-702.535
509	✓		✓	✓	✓	✓	✓	✓	✓	-702.837
510		✓	✓	✓	✓	✓	✓	✓	✓	-698.719
511	✓	✓	✓	✓	✓	✓	✓	✓	✓	-698.070