1 Weight and height dataset
2 Maximum likelihood estimation (MLE)
- 2.1 OLS fit with and without the (red) outlier
3 Bayesian inference
- 3.1 Draws from the prior
4 Your homework is listed below

1 Weight and height dataset

We collected data from 15 volunteers (my students and myself).

n    = 15
data = matrix(c(178,70,175,80,184,82,200,89,183,80,173,65,185,70,162,70,
190,85,174,80,180,87,165,74,176,72,174,63,196,113),n,2,byrow=TRUE)
height = scale(data[,1])
weight = scale(data[,2])
par(mfrow=c(1,1))
plot(height,weight,xlab="Height (standardized)",ylab="Weight (standardized)")
points(height[n],weight[n],col=2,pch=16,cex=2)
abline(v=0,lty=2)
abline(h=0,lty=2)

2 Maximum likelihood estimation (MLE)

Below we use the lm (linear model) function from R to run the OLS estimation for the regression \[ y_i = \beta \ x_i + \varepsilon_i \qquad\qquad \varepsilon_i \ \ \mbox{iid} \ \ N(0,\sigma^2), \] where \(x_i=\mbox{height}_i\) and \(y_i=\mbox{weight}_i\), for \(i=1,\ldots,n\). From the frequentist/Fisherian approach, we have learned that the MLEs of \(\beta\) and \(\sigma^2\) are, respectively, \[ {\widehat \beta} = \frac{\sum_{i=1}^n y_i x_i}{\sum_{i=1}^n x^2_i} \qquad \mbox{and} \qquad {\widehat \sigma}^2 = \frac{\sum_{i=1}^n (y_i-{\widehat y}_i)^2}{n}. \] We also know the sampling distribution of these estimators: \[ {\widehat \beta}|{\widehat \sigma}^2 \sim t_{n-1}\left(\beta,\frac{{\widehat \sigma}^2}{\sum_{i=1}^n x_i^2}\right) \qquad and \qquad {\widehat \sigma}^2|\sigma^2 \sim IG\left(\frac{n-1}{2},\frac{(n-1)\sigma^2}{2}\right), \] from which confidence intervals and hypothesis testing can be derived. An unbiased estimator of \(\sigma^2\) is \(s^2 = n{\widehat \sigma}^2/(n-1)\).

bhat  = sum(height*weight)/sum(height^2)
sighat = sqrt(sum((weight-bhat*height)^2)/n)
s = sqrt(n*sighat^2/(n-1))
se = s/sqrt(sum(height^2))
round(c(bhat,se),4)

## [1] 0.6875 0.1941

round(c(sighat,s),4)

## [1] 0.7016 0.7262

# The -1 is to inform the lm function that the regression has no intercept
summary(lm(weight~height-1))

## 
## Call:
## lm(formula = weight ~ height - 1)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -1.0537 -0.5485 -0.1120  0.4731  1.7021 
## 
## Coefficients:
##        Estimate Std. Error t value Pr(>|t|)   
## height   0.6875     0.1941   3.542  0.00325 **
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.7262 on 14 degrees of freedom
## Multiple R-squared:  0.4727, Adjusted R-squared:  0.435 
## F-statistic: 12.55 on 1 and 14 DF,  p-value: 0.003249

2.1 OLS fit with and without the (red) outlier

par(mfrow=c(1,1))
plot(height,weight,xlab="Height (standardized)",ylab="Weight (standardized)")
points(height[n],weight[n],col=2,pch=16,cex=2)
abline(lm(weight~height-1),col=2,lwd=2)
abline(lm(weight[1:(n-1)]~height[1:(n-1)]-1),lwd=2)
legend("topleft",legend=c("With outlier","Without outlier"),col=2:1,lwd=2,lty=1,bty="n")
abline(v=0,lty=2)
abline(h=0,lty=2)

3 Bayesian inference

Let us assume the following independent prior for \(\beta\) and \(\sigma^2\) \[ p(\beta,\sigma^2) = p(\beta|\sigma^2)p(\sigma^2), \] with \(\beta \sim N(b_0,\sigma^2B_0)\) and \(\sigma^2 \sim IG(c_0,d_0)\), with hyperparameters \(b_0=0\), \(B_0=1\), \(c_0=2\) and \(d0=1\). Notice that this is a conjugate prior for \((\beta,\sigma^2)\), so closed-form posterior inference is readily available.

3.1 Draws from the prior

b0=0
B0=1
c0=2
d0=1
M    = 1000
sig2 = 1/rgamma(M,c0,d0)
beta = rnorm(M,b0,sqrt(sig2*B0))
par(mfrow=c(1,1))
boxplot(cbind(beta,sqrt(sig2)),names=c(expression(beta),expression(sigma)),outline=F,xlab="",horizontal=TRUE)
points(bhat,1,col=2,pch=16,cex=2)
points(s,2,col=2,pch=16,cex=2)
title("Prior draws (MLE in red)")

4 Your homework is listed below

Derive the closed form posterior distribution \(p(\beta,\sigma^2|\mbox{data})\), where \(\mbox{data}=\{(x_1,y_1),\ldots,(x_n,y_n)\}\).
Implement the sampling importance resampling (SIR) algorithm to obtain draws from the posterior \(p(\beta,\sigma^2|\mbox{data})\). You can either use the prior for \((beta,\sigma^2)\) as proposal density or you can use the following proposal: \(q(\beta) \equiv N(0.7,0.25)\) and \(q(\sigma^2) \equiv IG(7,5)\).

Note: These proposal densities are inspired by the sampling distributions of the corresponding estimators. Recall that the proposal distributions can be anything with or without the use of the data since it is not altering the prior in any way.

Implement the Gibbs sampler to obtain draws from the posterior \(p(\beta,\sigma^2|\mbox{data})\). Check the mixing of the Markov chains and the convergence of the draws to the posterior.
Repeat 2) but replace the Gibbs sampler by a Metropolis algorithm with proposals \(q(\beta) \equiv N(0.7,0.25)\) and \(q(\sigma^2) \equiv IG(7,5)\), which already appear in 1).
If the three algorithms are running properly, the results should be the same up to small Monte Carlo errors.

LS0tCnRpdGxlOiAiU2ltcGxlIGxpbmVhciByZWdyZXNzaW9uIHdpdGggR2F1c3NpYW4gZXJyb3JzIgphdXRob3I6ICJTSVIsIEdpYmJzIHNhbXBsZXIgYW5kIE1ldHJvcG9saXMtSGFzdGluZ3MgYWxnb3JpdGhtcyIKZGF0ZTogIjEwLzA2LzIwMjUiCm91dHB1dDoKICBodG1sX2RvY3VtZW50OgogICAgdG9jOiB0cnVlCiAgICB0b2NfZGVwdGg6IDMKICAgIHRvY19jb2xsYXBzZWQ6IHRydWUKICAgIGNvZGVfZG93bmxvYWQ6IHllcwogICAgbnVtYmVyX3NlY3Rpb25zOiB0cnVlCi0tLQoKIyBXZWlnaHQgYW5kIGhlaWdodCBkYXRhc2V0CgpXZSBjb2xsZWN0ZWQgZGF0YSBmcm9tIDE1IHZvbHVudGVlcnMgKG15IHN0dWRlbnRzIGFuZCBteXNlbGYpLgoKYGBge3IgZmlnLndpZHRoPTYsIGZpZy5oZWlnaHQ9NiwgZmlnLmFsaWduPSdjZW50ZXInfQpuICAgID0gMTUKZGF0YSA9IG1hdHJpeChjKDE3OCw3MCwxNzUsODAsMTg0LDgyLDIwMCw4OSwxODMsODAsMTczLDY1LDE4NSw3MCwxNjIsNzAsCjE5MCw4NSwxNzQsODAsMTgwLDg3LDE2NSw3NCwxNzYsNzIsMTc0LDYzLDE5NiwxMTMpLG4sMixieXJvdz1UUlVFKQpoZWlnaHQgPSBzY2FsZShkYXRhWywxXSkKd2VpZ2h0ID0gc2NhbGUoZGF0YVssMl0pCnBhcihtZnJvdz1jKDEsMSkpCnBsb3QoaGVpZ2h0LHdlaWdodCx4bGFiPSJIZWlnaHQgKHN0YW5kYXJkaXplZCkiLHlsYWI9IldlaWdodCAoc3RhbmRhcmRpemVkKSIpCnBvaW50cyhoZWlnaHRbbl0sd2VpZ2h0W25dLGNvbD0yLHBjaD0xNixjZXg9MikKYWJsaW5lKHY9MCxsdHk9MikKYWJsaW5lKGg9MCxsdHk9MikKYGBgCgojIE1heGltdW0gbGlrZWxpaG9vZCBlc3RpbWF0aW9uIChNTEUpCgpCZWxvdyB3ZSB1c2UgdGhlICpsbSogKGxpbmVhciBtb2RlbCkgZnVuY3Rpb24gZnJvbSBSIHRvIHJ1biB0aGUgT0xTIGVzdGltYXRpb24gZm9yIHRoZSByZWdyZXNzaW9uCiQkCnlfaSA9IFxiZXRhIFwgeF9pICsgXHZhcmVwc2lsb25faSBccXF1YWRccXF1YWQgXHZhcmVwc2lsb25faSBcIFwgXG1ib3h7aWlkfSBcIFwgTigwLFxzaWdtYV4yKSwKJCQKd2hlcmUgJHhfaT1cbWJveHtoZWlnaHR9X2kkIGFuZCAkeV9pPVxtYm94e3dlaWdodH1faSQsIGZvciAkaT0xLFxsZG90cyxuJC4gIEZyb20gdGhlIGZyZXF1ZW50aXN0L0Zpc2hlcmlhbiBhcHByb2FjaCwgd2UgaGF2ZSBsZWFybmVkIHRoYXQgdGhlIE1MRXMgb2YgJFxiZXRhJCBhbmQgJFxzaWdtYV4yJCBhcmUsIHJlc3BlY3RpdmVseSwKJCQKe1x3aWRlaGF0IFxiZXRhfSA9IFxmcmFje1xzdW1fe2k9MX1ebiB5X2kgeF9pfXtcc3VtX3tpPTF9Xm4geF4yX2l9IFxxcXVhZCBcbWJveHthbmR9IFxxcXVhZAp7XHdpZGVoYXQgXHNpZ21hfV4yID0gXGZyYWN7XHN1bV97aT0xfV5uICh5X2kte1x3aWRlaGF0IHl9X2kpXjJ9e259LgokJApXZSBhbHNvIGtub3cgdGhlIHNhbXBsaW5nIGRpc3RyaWJ1dGlvbiBvZiB0aGVzZSBlc3RpbWF0b3JzOgokJAp7XHdpZGVoYXQgXGJldGF9fHtcd2lkZWhhdCBcc2lnbWF9XjIgXHNpbSB0X3tuLTF9XGxlZnQoXGJldGEsXGZyYWN7e1x3aWRlaGF0IFxzaWdtYX1eMn17XHN1bV97aT0xfV5uIHhfaV4yfVxyaWdodCkgXHFxdWFkIGFuZCBccXF1YWQge1x3aWRlaGF0IFxzaWdtYX1eMnxcc2lnbWFeMiBcc2ltIElHXGxlZnQoXGZyYWN7bi0xfXsyfSxcZnJhY3sobi0xKVxzaWdtYV4yfXsyfVxyaWdodCksCiQkCmZyb20gd2hpY2ggY29uZmlkZW5jZSBpbnRlcnZhbHMgYW5kIGh5cG90aGVzaXMgdGVzdGluZyBjYW4gYmUgZGVyaXZlZC4gIEFuIHVuYmlhc2VkIGVzdGltYXRvciBvZiAkXHNpZ21hXjIkIGlzICRzXjIgPSBue1x3aWRlaGF0IFxzaWdtYX1eMi8obi0xKSQuCgpgYGB7ciBmaWcud2lkdGg9NiwgZmlnLmhlaWdodD02LCBmaWcuYWxpZ249J2NlbnRlcid9CmJoYXQgID0gc3VtKGhlaWdodCp3ZWlnaHQpL3N1bShoZWlnaHReMikKc2lnaGF0ID0gc3FydChzdW0oKHdlaWdodC1iaGF0KmhlaWdodCleMikvbikKcyA9IHNxcnQobipzaWdoYXReMi8obi0xKSkKc2UgPSBzL3NxcnQoc3VtKGhlaWdodF4yKSkKcm91bmQoYyhiaGF0LHNlKSw0KQpyb3VuZChjKHNpZ2hhdCxzKSw0KQoKIyBUaGUgLTEgaXMgdG8gaW5mb3JtIHRoZSBsbSBmdW5jdGlvbiB0aGF0IHRoZSByZWdyZXNzaW9uIGhhcyBubyBpbnRlcmNlcHQKc3VtbWFyeShsbSh3ZWlnaHR+aGVpZ2h0LTEpKQpgYGAKCiMjIE9MUyBmaXQgd2l0aCBhbmQgd2l0aG91dCB0aGUgKHJlZCkgb3V0bGllcgoKYGBge3IgZmlnLndpZHRoPTYsIGZpZy5oZWlnaHQ9NiwgZmlnLmFsaWduPSdjZW50ZXInfQpwYXIobWZyb3c9YygxLDEpKQpwbG90KGhlaWdodCx3ZWlnaHQseGxhYj0iSGVpZ2h0IChzdGFuZGFyZGl6ZWQpIix5bGFiPSJXZWlnaHQgKHN0YW5kYXJkaXplZCkiKQpwb2ludHMoaGVpZ2h0W25dLHdlaWdodFtuXSxjb2w9MixwY2g9MTYsY2V4PTIpCmFibGluZShsbSh3ZWlnaHR+aGVpZ2h0LTEpLGNvbD0yLGx3ZD0yKQphYmxpbmUobG0od2VpZ2h0WzE6KG4tMSldfmhlaWdodFsxOihuLTEpXS0xKSxsd2Q9MikKbGVnZW5kKCJ0b3BsZWZ0IixsZWdlbmQ9YygiV2l0aCBvdXRsaWVyIiwiV2l0aG91dCBvdXRsaWVyIiksY29sPTI6MSxsd2Q9MixsdHk9MSxidHk9Im4iKQphYmxpbmUodj0wLGx0eT0yKQphYmxpbmUoaD0wLGx0eT0yKQpgYGAKCiMgQmF5ZXNpYW4gaW5mZXJlbmNlCgpMZXQgdXMgYXNzdW1lIHRoZSBmb2xsb3dpbmcgaW5kZXBlbmRlbnQgcHJpb3IgZm9yICRcYmV0YSQgYW5kICRcc2lnbWFeMiQKJCQKcChcYmV0YSxcc2lnbWFeMikgPSBwKFxiZXRhfFxzaWdtYV4yKXAoXHNpZ21hXjIpLAokJAp3aXRoICRcYmV0YSBcc2ltIE4oYl8wLFxzaWdtYV4yQl8wKSQgYW5kICRcc2lnbWFeMiBcc2ltIElHKGNfMCxkXzApJCwgd2l0aCBoeXBlcnBhcmFtZXRlcnMgJGJfMD0wJCwgJEJfMD0xJCwgJGNfMD0yJCBhbmQgJGQwPTEkLiAgTm90aWNlIHRoYXQgdGhpcyBpcyBhIGNvbmp1Z2F0ZSBwcmlvciBmb3IgJChcYmV0YSxcc2lnbWFeMikkLCBzbyBjbG9zZWQtZm9ybSBwb3N0ZXJpb3IgaW5mZXJlbmNlIGlzIHJlYWRpbHkgYXZhaWxhYmxlLgoKIyMgRHJhd3MgZnJvbSB0aGUgcHJpb3IKYGBge3IgZmlnLndpZHRoPTgsIGZpZy5oZWlnaHQ9NCwgZmlnLmFsaWduPSdjZW50ZXInfQpiMD0wCkIwPTEKYzA9MgpkMD0xCk0gICAgPSAxMDAwCnNpZzIgPSAxL3JnYW1tYShNLGMwLGQwKQpiZXRhID0gcm5vcm0oTSxiMCxzcXJ0KHNpZzIqQjApKQpwYXIobWZyb3c9YygxLDEpKQpib3hwbG90KGNiaW5kKGJldGEsc3FydChzaWcyKSksbmFtZXM9YyhleHByZXNzaW9uKGJldGEpLGV4cHJlc3Npb24oc2lnbWEpKSxvdXRsaW5lPUYseGxhYj0iIixob3Jpem9udGFsPVRSVUUpCnBvaW50cyhiaGF0LDEsY29sPTIscGNoPTE2LGNleD0yKQpwb2ludHMocywyLGNvbD0yLHBjaD0xNixjZXg9MikKdGl0bGUoIlByaW9yIGRyYXdzIChNTEUgaW4gcmVkKSIpCmBgYAoKIyBZb3VyIGhvbWV3b3JrIGlzIGxpc3RlZCBiZWxvdwoKMCkgRGVyaXZlIHRoZSBjbG9zZWQgZm9ybSBwb3N0ZXJpb3IgZGlzdHJpYnV0aW9uICRwKFxiZXRhLFxzaWdtYV4yfFxtYm94e2RhdGF9KSQsIHdoZXJlICRcbWJveHtkYXRhfT1ceyh4XzEseV8xKSxcbGRvdHMsKHhfbix5X24pXH0kLiAgCgoxKSBJbXBsZW1lbnQgdGhlIHNhbXBsaW5nIGltcG9ydGFuY2UgcmVzYW1wbGluZyAoU0lSKSBhbGdvcml0aG0gdG8gb2J0YWluIGRyYXdzIGZyb20gdGhlIHBvc3RlcmlvciAkcChcYmV0YSxcc2lnbWFeMnxcbWJveHtkYXRhfSkkLiAgWW91IGNhbiBlaXRoZXIgdXNlIHRoZSBwcmlvciBmb3IgJChiZXRhLFxzaWdtYV4yKSQgYXMgcHJvcG9zYWwgZGVuc2l0eSBvciB5b3UgY2FuIHVzZSB0aGUgZm9sbG93aW5nIHByb3Bvc2FsOiAkcShcYmV0YSkgXGVxdWl2IE4oMC43LDAuMjUpJCBhbmQgJHEoXHNpZ21hXjIpIFxlcXVpdiBJRyg3LDUpJC4KCiogTm90ZTogVGhlc2UgcHJvcG9zYWwgZGVuc2l0aWVzIGFyZSBpbnNwaXJlZCBieSB0aGUgc2FtcGxpbmcgZGlzdHJpYnV0aW9ucyBvZiB0aGUgY29ycmVzcG9uZGluZyBlc3RpbWF0b3JzLiAgUmVjYWxsIHRoYXQgdGhlIHByb3Bvc2FsIGRpc3RyaWJ1dGlvbnMgY2FuIGJlIGFueXRoaW5nIHdpdGggb3Igd2l0aG91dCB0aGUgdXNlIG9mIHRoZSBkYXRhIHNpbmNlIGl0IGlzIG5vdCBhbHRlcmluZyB0aGUgcHJpb3IgaW4gYW55IHdheS4KCjIpIEltcGxlbWVudCB0aGUgR2liYnMgc2FtcGxlciB0byBvYnRhaW4gZHJhd3MgZnJvbSB0aGUgcG9zdGVyaW9yICRwKFxiZXRhLFxzaWdtYV4yfFxtYm94e2RhdGF9KSQuIENoZWNrIHRoZSBtaXhpbmcgb2YgdGhlIE1hcmtvdiBjaGFpbnMgYW5kIHRoZSBjb252ZXJnZW5jZSBvZiB0aGUgZHJhd3MgdG8gdGhlIHBvc3Rlcmlvci4KCjMpIFJlcGVhdCAyKSBidXQgcmVwbGFjZSB0aGUgR2liYnMgc2FtcGxlciBieSBhIE1ldHJvcG9saXMgYWxnb3JpdGhtIHdpdGggcHJvcG9zYWxzCiRxKFxiZXRhKSBcZXF1aXYgTigwLjcsMC4yNSkkIGFuZCAkcShcc2lnbWFeMikgXGVxdWl2IElHKDcsNSkkLCB3aGljaCBhbHJlYWR5IGFwcGVhciBpbiAxKS4gCgo0KSBJZiB0aGUgdGhyZWUgYWxnb3JpdGhtcyBhcmUgcnVubmluZyBwcm9wZXJseSwgdGhlIHJlc3VsdHMgc2hvdWxkIGJlIHRoZSBzYW1lIHVwIHRvIHNtYWxsIE1vbnRlIENhcmxvIGVycm9ycy4KCgo=

Simple linear regression with Gaussian errors

SIR, Gibbs sampler and Metropolis-Hastings algorithms

10/06/2025