\documentclass[a4paper,12pt]{article}
\usepackage[papersize={216mm,330mm},tmargin=25mm,bmargin=25mm,lmargin=25mm,rmargin=25mm]{geometry}
\usepackage[english]{babel}
\usepackage[utf8]{inputenc}
\usepackage{amsmath,amssymb}% for \eqref
\usepackage{graphicx}
\usepackage[colorinlistoftodos]{todonotes}
\pagestyle{myheadings}
\markright{Editado por Mauricio Zelaya Aguilar en www.write \LaTeX{}.com\hfill}
\title{Lecturas de Métodos Estadísticos Multivariantes}
\author{M.Sc. Fidel Ordoñez}
\date{Mayo-Agosto 2014}
\begin{document}
\maketitle
\subsection*{Rotaciones}
Sea $x\in \mathbb{R}^p$ , $\Gamma_{p\times p}$ ortogonal. $\Gamma x$ lo que hace es tener las nuevas coordenadas en un sistema rotado. $A_{p\times p}$ simétrica, entonces
\begin{align*}
A&=\Gamma \Lambda \Gamma^T\\
A^{\alpha}&=\Gamma \Lambda^{\alpha} \Gamma^T\\
A^{-1}&=\Gamma \Lambda^{-1} \Gamma^T\\
\operatorname{tra}(A)&=\sum_{i=1}^p \lambda_i\\
|A|&=\prod_{i=1}^p \lambda_i\\
\Gamma &=\operatorname{diag}(\lambda_1,\ldots,\lambda_p)
\end{align*}
Sea $X=(X_1,\ldots,X_p)^T$ con $X\sim (\mu,\Sigma)$ entonces
\begin{align*}
\operatorname{E}(X)&=(\operatorname{E}(X_1),\ldots,\operatorname{E}(X_p))^T\\
&=\mu\\
\operatorname{Var}(X)&=\operatorname{Cov}(X,X)\\
&=\Sigma\\
\Sigma&=
\begin{pmatrix}
\sigma_{X_1 X_1} & \ldots & \sigma_{X_1 X_p}\\
\vdots & \ddots & \vdots\\
\sigma_{X_p X_1} & \ldots & \sigma_{X_p X_p}
\end{pmatrix}_{p \times p}\\
\rho&=
\begin{pmatrix}
\rho_{X_1 X_1} & \ldots & \rho_{X_1 X_p}\\
\vdots & \ddots & \vdots\\
\rho_{X_p X_1} & \ldots & \rho_{X_p X_p}
\end{pmatrix}_{p \times p}\\
\rho_{X_i X_j}&=\frac{\operatorname{Cov}(X_i X_j)}{\sqrt{\sigma_{X_i X_i} \sigma_{X_j X_j}}}\\
\sigma_{ij}&=\sigma_{X_i X_j}\\
\sigma^2_i&=\sigma_{X_i X_i}\\
\operatorname{Cov}(X_i X_i)&=\sigma^2_{X_i}
\end{align*}
Suponga que se tienen $n$ realizaciones de $X_{p+1}$ y se tiene la matriz de datos
$$\mathcal{X}_{n\times p}=
\begin{pmatrix}
x_{11} & \ldots & x_{1j} & \ldots & x_{1p}\\
\vdots & & \vdots & & \vdots\\
x_{i1} & \ldots & x_{ij} & \ldots & x_{ip}\\
\vdots & & \vdots & & \vdots\\
x_{n1} & \ldots & x_{nj} & \ldots & x_{np}
\end{pmatrix}$$
$x_i=(x_{i1},\ldots,x_{ij},\ldots,x_{ip})^T \in \mathbb{R}^n$ $i=1,2,\ldots,n>p$ es la $i$-esima observacion\\
$x_{(j)}=(x_{1j},\ldots,x_{ij},\ldots,x_{nj})^T \in \mathbb{R}^n$ $j=1,2,\ldots,p$ es la observacion de $X_j$
\begin{align*}
\bar{x}&=\frac{1}{n}\sum_{i=1}^n x_i\\
&=
\begin{pmatrix}
\bar{x}_1\\
\vdots\\
\bar{x}_j\\
\vdots\\
\bar{x}_p
\end{pmatrix}\\
&=\frac{1}{n}\mathcal{X}^T \textbf{1}_n \qquad \mathcal{X}_{n\times p}\\
\bar{x}_j&=\frac{1}{n}\sum_{i=1}^n x_{ij}
\end{align*}
\begin{align*}
\textbf{1}_n&=
\begin{pmatrix}
1\\
\vdots\\
1
\end{pmatrix}_{n\times 1}\\
\mathcal{S}&=\frac{1}{n}\sum_{i=1}^n (x_i-\bar{x})(x_i-\bar{x})^T \qquad \textrm{estimador sesgado}\\
&=\frac{1}{n}\mathcal{X}^t\mathcal{X}-\bar{x}\bar{x}^T\\
&=\frac{1}{n}\left(\mathcal{X}^T\mathcal{X}-\frac{1}{n}\mathcal{X}^T \textbf{1}_n \textbf{1}^T_n \mathcal{X}\right)\\
&=\frac{1}{n}\mathcal{X}^T \left(I_n-\frac{1}{n}\textbf{1}_n \textbf{1}^T_n\right) \mathcal{X}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H} \mathcal{X} \qquad \mathcal{H} \qquad \textrm{simétrica e idempotente}\\
\mathcal{S}_u&=\frac{n}{n-1}\mathcal{S} \qquad \textrm{estimador insesgado}\\
\mathcal{S}&=\frac{1}{n}\mathcal{X}^T\mathcal{X}-\bar{x}\bar{x}^T\\
&=\frac{1}{n}\mathcal{X}^T\mathcal{H}\mathcal{X}\\
\mathcal{H}&=I_n-\frac{1}{n}\textbf{1}_n\textbf{1}^T_n\\
R&=D^{-1/2}\mathcal{S}D^{-1/2} \qquad D=diag(S_{X_iX_j})
\end{align*}
\subsection*{Transformaciones Lineales $X=(X_1,\ldots,X_p)$}
\begin{enumerate}
\item $\mathcal{X}_{n\times p} \qquad \mathcal{A}_{g\times p}$
\begin{align*}
y_{n\times q}&=\mathcal{X}\mathcal{A}^T\\
&=(y_1,\ldots,y_n)^T
\end{align*}
fila $y_i=(y_{i1},\ldots,y_{iq})\in \mathbb{R}^q$ $i$ esima observación de $y_{q\times 1}=\mathcal{A}X \qquad
\bar{y}=\mathcal{A}\bar{x} \qquad
\mathcal{S}_y=\mathcal{A}\mathcal{S}_x\mathcal{S}^T$
\item Mahalanobis\\
Sea $z_i=\mathcal{S}^{-1/2}(x_i-\bar{x} \qquad i=1,\ldots,n$, luego $Z=(z_1,\ldots,z_n) \qquad \bar{Z}=0 \qquad \mathcal{S}_z=I_p$
\begin{align*}
S_{X_jX_k}&=\frac{1}{n}\sum_{i=1}^n(x_{ij}-\bar{x}_j)(x_{ik}-\bar{x}_k) \qquad
r_{X_jX_k}=\frac{S_{X_jX_k}}{\sqrt{S_{X_jX_j}S_{X_kX_k}}}\\
R&=
\begin{pmatrix}
r_{X_1X_1} & \ldots & r_{X_pX_p}\\
\vdots & \ddots & \vdots\\
r_{X_pX_1} & \ldots & r_{X_pX_p}
\end{pmatrix}_{p\times p} \qquad
\mathcal{S}=
\begin{pmatrix}
S_{X_1X_1} & \ldots & S_{X_1X_p}\\
\vdots & \ddots & \vdots\\
S_{X_pX_1} & \ldots & S_{X_pX_p}
\end{pmatrix}\\
D&=
\begin{pmatrix}
S_{X_1X_1} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & S_{X_pX_p}
\end{pmatrix} \qquad
D^{-1}=
\begin{pmatrix}
\frac{1}{S_{X_1X_1}} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & \frac{1}{S_{X_pX_p}}
\end{pmatrix}\\
D^{-1/2}&=
\begin{pmatrix}
\frac{1}{\sqrt{S_{X_1X_1}}} & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & \frac{1}{\sqrt{S_{X_pX_p}}}
\end{pmatrix}\\
\sum_{i=1}^n(x_i-\bar{x})&=0 \qquad \mathcal{S}\geq 0 \qquad \textrm{semidefinida positiva}
\end{align*}
\begin{align*}
\mathcal{S}&=\frac{1}{n}\mathcal{X}^T \mathcal{H}\mathcal{X} \qquad \mathcal{S}\geq 0 \qquad \textrm{semidefinida positiva}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H}\mathcal{H} \mathcal{X}\\
&=\frac{1}{n}\mathcal{X}^T \mathcal{H}^T \mathcal{H} \mathcal{X}\qquad y=\mathcal{H}\mathcal{X}\\
&=\frac{1}{n}y^T y \geq 0\\
\bar{y}&=\frac{1}{n}
\end{align*}
\end{enumerate}
\subsection*{Distribución Normal Multivariada}
Sea $X\sim N_p(\mu,\Sigma)$ si $\displaystyle f(x)=|2\pi\Sigma|^{-1/2}e^{\left[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]}$\\
\begin{displaymath}
\operatorname{E}(X)=\mu \qquad \operatorname{Var}(X)=\Sigma
\end{displaymath}
Sea $X\sim N_p(\mu,\Sigma)$ si $y=\Sigma^{-1/2}(x-\mu)$, luego $Y\sim N_p(0,I)$ donde
\begin{align*}
I&=
\begin{pmatrix}
1 & \ldots & 0\\
\vdots & \ddots & \vdots\\
0 & \ldots & 1
\end{pmatrix}\\
\operatorname{E}(Y)&=\operatorname{E}\left(\Sigma^{-1}(X-\mu)\right)\\
&=\Sigma^{-1/2}[\operatorname{E}-\mu]\\
&=\Sigma^{-1/2}(\mu-\mu)\\
&=0\\
\operatorname{Var}(Y)&=\left(\Sigma^{-1/2}\right)^T\operatorname{Var}(X)\Sigma^{-1/2}\\
&=\Sigma^{-1/2} \Sigma \Sigma^{-1/2}\\
&=I\\
X&=\Sigma^{-1/2}Y+\mu \qquad I=\Sigma^{-1/2}\\
X-\mu&=\Sigma^{-1/2} Y\\
(x-\mu)^T\Sigma^{-1}(x-\mu)&=(\Sigma^{-1/2}y)^T \Sigma^{-1} (\Sigma^{-1/2}y)\\
&=y^T y
\end{align*}
$\displaystyle f(y)=(2\pi)^{-p/2} e^{-\frac{1}{2}y^T y}$, por lo tanto $Y\sim N_p(0,I) \qquad \diamondsuit$\\
Si $A_{p\times p} \qquad C\subset \mathbb{R}^p \qquad Y=AX+C$\\
$X\sim N_p(\mu,\Sigma)$ luego $Y\sim N_p(A\mu+C,A^T\Sigma A)$
\subsubsection*{Teorema 1}
Si $X\sim N_p(\mu,\Sigma)\Longrightarrow u=(X-\mu)^T\Sigma^{-1}(X-\mu)\sim \mathcal{X}^2_p$
\subsection*{Distribución de Wishart}
Sea $\mathcal{X}_{n\times p}$ matriz de datos de $X\sim N_p(0,\Sigma)$, luego $\mathcal{M}=\mathcal{X}^T \mathcal{X} \sim W_p(\Sigma,n)$
\subsubsection*{Nota 2}
Sea $\mathcal{X}_{n\times p}$ de $X\sim N_p(0,\Sigma)$, $\mathcal{S}$ matriz de covarianza muestral, entonces:
\begin{itemize}
\item [i.] $nS=\mathcal{X}^T \mathcal{H} \mathcal{X} \sim W_p(\Sigma,n-1)$
\item [ii.] $\bar{x}$, $\mathcal{S}$ son independientes
\end{itemize}
\subsection*{Distribución $T^2$ de Hotelling}
Sea $Y\sim N_p(0,I)$ independientes de $\mathcal{M}\sim W_p(I,n)$, luego
$ny^T\mathcal{M}^{-1}y\sim T^2(p,n)$
\subsubsection*{Teorema 3}
Sea $X\sim N_p(\mu,\Sigma)$ independientes de $\mathcal{M}\sim W_p(\Sigma,n)$ entonces
$$n(X-\mu)^T\mathcal{M}^{-1}(X-\mu)\sim T^2(p,n)$$
\subsubsection*{Corolario 4}
Sea $X\sim N_p(\mu,\Sigma)$ entonces
$(n-1)(\bar{x}-\mu)^T \mathcal{S}^{-1}(\bar{x}-\mu)=n(\bar{x}-\mu)^T \mathcal{S}^{-1}_u(\bar{x}-\mu)\sim T^2(p,n-1)$
donde $S_u=\dfrac{n}{n-1}\mathcal{S}$
\subsubsection*{Corolario 5}
Sea $\displaystyle T^2(p.n)=\dfrac{np}{n-p+1}F_{p,n-p+1}$
\subsection*{Análisis Factorial}
Sea $X=(X_1,X_2,\ldots,X_p)^T \sim (\mu,\Sigma)$ se tienen n-observaciones formando $\chi$.
\\El análisis factorial asume que hay un modelo que explica la covarianza de $X_1,X_2,\ldots,X_p$
mediante $k<p$ factores latentes.\\
Sea $X=QF+\mu$ con $X_{p\times1}$, $Q_{p\times k}$, $\mu_{p\times1}$ y $F_{k\times1}=(F_1,F_2,\ldots,F_k)^T$
$$E(F)=0 \qquad \operatorname{Var}(F)=I_k$$
En la práctica $X=QF+U+\mu$
\subsection*{Modelo Factorial Ortogonal}
Sea $X=QF+U+\mu$ con $Q_{p\times k}$, $F_{k\times1}$, $U_{p\times 1}$ y $\mu_{p\times1}$
\\Q es la matríz de cargas de los factores comunes F (no aleatorio)
\\U matríz (aleatoria) de factores especificos
\\Se asume que con $i\neq j$
\begin{align*}
\operatorname{E}(F)=0 \qquad
\operatorname{Var}(F)=I_k \qquad
\operatorname{E}(U)=0 \qquad
\operatorname{Cov}(U_i,U_j)=0 \qquad
\operatorname{Cov}(F,U)=0
\end{align*}
$\mu_j$ media de $X_j$ con $j=1,\ldots,p$\\
$U_j$ j-esimo factor especifico\\
$F_l$ l-esimo factor común $l=1,\dots,p$\\
$q_{jl}$ carga factorial de $X_j$ en $F_l$\\
Si $\operatorname{Var}(U)=\Psi$ donde $\Psi=diag(\psi_{11},\ldots,\psi_{1p})$
\begin{align*}
X_j&=\sum_{l=1}^k q_{jl}F_l+U_j+\mu_j\\
\sigma_{X_j X_j}&=\operatorname{Var}(X_j)\\
&=\sum_{l=1}^k q_{jl}^2+\Psi_{jj}\\
&=h_j^2+\Psi_{jj}
\end{align*}
donde a $h_j^2$ se le llama comunalidad, y $\Psi_{jj}$ es la varianza especifica.
\subsubsection*{Nota 6}
$\operatorname{Var}(X)=Q^T \operatorname{Var}(F) Q+ \operatorname{Var}(U)$\\
$\Sigma=Q^TQ+\Psi$ donde $\Sigma$ tiene $p$ variables y $Q$ tiene $k$ factores\\
Para interpretar factores $\Sigma_{XF}=Q$ y $\rho_{XF}=D^{-1/2}$ donde $D=\operatorname{diag}(\sigma_{x_1x_1,\ldots,x_px_p})$
\begin{align}
\Sigma_{XF}&=E[(X-\mu)(F-0)^T]\notag\\
&=E[(QF+U)F^T]\notag\\
&=QE(FF^T)+E(UF^T)\notag\\
&=QI_k+0\notag\\
&=Q\notag
\end{align}
\subsection*{Invarianza de Escala $X \sim (\mu,\Sigma)$}
Si $Y=CX$ donde $C=\operatorname{diag}(c_1,\dots,c_p)$ con $\Sigma=Q_X Q_X^T+\Psi_X$, luego
\begin{align}
\operatorname{Var}(Y)&=C \Sigma C^T\notag\\
&=C Q_X Q_X^T + C \Psi_X C^T\notag\\
&=(C Q_X)(C Q_X)^T + C \Psi_X C^T\notag
\end{align}
En particular $Y=D^{-1/2}(X-\mu)$, en este caso queremos encontrar $Q_X, \Psi_Y$ tal que
\begin{align}
\rho&=Q_Y Q_Y^T+\Psi_Y\notag\\
\rho_{XY}&=\rho_{YF}\notag\\
&=\rho_Y\notag
\end{align}
por invarianza $Q_X=D^{-1/2}Q_Y$ y $\Psi_X=D^{-1/2} \Psi D^{-1/2}$.
\subsection*{La No Unicidad de las Cargas Factoriales}
Si $X=QF+U+\mu$ es cierto, luego si G es ortogonal y $X=(QG)(G^TF)+U+\mu$ es cierto
$$X=Q^* F^*+U+\mu$$
\subsubsection*{Nota 7}
Sea $\Sigma=QQ^T+\Psi$ donde $Q$ tiene $pk$ parámetros y $\Psi$ tiene $p$ parámetros, además $\Sigma$ tiene $\displaystyle \frac{p(p+1)}{2}$ ecuaciones en el sistema.
$$\Sigma_{p\times p}=
\begin{pmatrix}
\sigma_{11} & \sigma_{12} & \cdots & \sigma_{1p} \\
\sigma_{21} & \sigma_{22} & \cdots & \sigma_{2p} \\
\vdots & \vdots & \ddots & \vdots \\
\sigma_{p1} & \sigma_{p2} & \cdots & \sigma_{pp}
\end{pmatrix}$$
se utilizan las siguientes restricciones:
\begin{enumerate}
\item $Q^T D^{-1} Q$ es diagonal
\item $Q^T \Psi^{-1} Q$ es diagonal
\end{enumerate}
d:grados de libertad del sistema, con cualquiera de las restricciones:
\begin{align}
d&=\frac{p(p+1)}{2}-\left[ (pk+p)-\frac{k(k-1)}{2} \right]\notag\\
&=\frac{1}{2}(p-k)^2-\frac{1}{2}(p+k)\notag
\end{align}
Si $d<0$ indeterminado (más ecuaciones que incognitas)\\
Si $d=0$ solución única (excepto por rotación)\\
Si $d>0$ podemos encontrar soluciones (común en la práctica)
\subsubsection*{Ejemplo 8}
Si $p=6$\\
$k=1 \Longrightarrow d=9>0$\\
$k=2 \Longrightarrow d=4>0$\\
$k=3 \Longrightarrow d=0$\\
$k=4 \Longrightarrow d=-3<0$\\
\begin{align}
\Sigma&=
\begin{pmatrix}
\sigma_{11} & \sigma_{12} & \sigma_{13} \\
\sigma_{21} & \sigma_{22} & \sigma_{23} \\
\sigma_{31} & \sigma_{32} & \sigma_{33}
\end{pmatrix}\notag\\
&=
\begin{pmatrix}
q_{11}\\
q_{21}\\
q_{31}
\end{pmatrix}
\begin{pmatrix}
q_{11} & q_{21} & q_{31}
\end{pmatrix}
\begin{pmatrix}
\Psi_{11} & 0 & 0 \\
0 & \Psi_{22} & 0 \\
0 & 0 & \Psi_{33}
\end{pmatrix}\notag\\
&=
\begin{pmatrix}
q^2_{11}+\Psi_{11} & q_{11}q_{21} & q_{11}q_{31} \\
q_{21}q_{11} & q^2_{21}+\Psi_{22} & q_{21}q_{31} \\
q_{31}q_{11} & q_{31}q_{21} & q^2_{31}+\Psi_{33}
\end{pmatrix}\notag
\end{align}
\begin{align*}
q^2_{11}&=\frac{\sigma_{12}\sigma_{13}}{\sigma_{23}} \qquad
q^2_{21}=\frac{\sigma_{12}\sigma_{23}}{\sigma_{13}} \qquad
q^2_{31}=\frac{\sigma_{13}\sigma_{23}}{\sigma_{12}} \qquad\\
\Psi_{11}&=\sigma_{11}-q^2_{11} \qquad
\Psi_{22}=\sigma_{22}-q^2_{21} \qquad
\Psi_{11}=\sigma_{33}-q^2_{31} \qquad
\end{align*}
\subsection*{Estimación del Modelo}
Con los datos $\mathcal{X}$ encontrar $\hat{Q}$ y $\hat{\Psi}$ tal que $S=\hat{Q}\hat{Q}^T+\hat{\Psi}$\\
Más facil cuando usamos $Y=\mathcal{H}\mathcal{X}D^{1/2}$\\
$S_Y=R$ matriz de correlaciones de $\mathcal{X}$\\
Queremos $R=\hat{Q}_Y\hat{Q}^T_Y+\hat{\Psi}_Y$
\subsection*{Método de Componentes Principales}
Se comienza con aproximación de $Q$, sea $\hat{Q}$\\
$S=\mathcal{G}\mathcal{L}\mathcal{G}^T$ S es simétrica, donde $\mathcal{L}=\operatorname{diag}(l_1,\ldots,l_p)$ y $l_1 \geq \ldots \geq l_p$ autovalores de $S$ con autovectores $g_1,\dots,g_p$ que forman $\mathcal{G}$.\\
Considerando solamente los primeros $k$ autovalores más grandes y que sean positivos, se aproxima
$$S=\mathcal{G}_1\mathcal{L}_1\mathcal{G}_1^T$$
$\mathcal{L}_1=\operatorname{diag}(l_1,\ldots,l_k)$ y $\mathcal{G}_1$ tiene los respectivos autovectores, luego
\begin{align}
\hat{Q}&=\mathcal{G}_1\mathcal{L}_1^{1/2}\notag\\
&=(\sqrt{l_1}g_1,\dots,\sqrt{l_k}g_k)\notag\\
\hat{\Psi}&=\operatorname{diag}(S-\hat{Q}\hat{Q}^T)\notag\\
\hat{\Psi}_{jj}&=s_{jj}-\sum_{l=1}^k \hat{q}^2_{jl}\notag
\end{align}
Para evaluar la estimación ver la matriz residual $S=\hat{Q}\hat{Q}^T+\hat{\Psi}$. Observemos que es diagonal
\begin{align}
\hat{Q}\hat{Q}^T&=(\mathcal{G}_1\mathcal{L}_1^{1/2})(\mathcal{G}_1\mathcal{L}_1^{1/2})^T \notag\\
&=\mathcal{G}_1\mathcal{L}_1^{1/2}\mathcal{L}_1^{1/2}\mathcal{G}_1^{T}\notag\\
&=\mathcal{G}_1\mathcal{L}_1\mathcal{G}_1^T\notag
\end{align}
\subsection*{Método del Factor Principal}
Se puede utilizar $S$(observado) o $R$(estimado).
\begin{enumerate}
\item Como estimar $\Psi$ en el método del factor principal:
\begin{itemize}
\item [i.] $h^2_j$=cuadrado de coeficiente de correlación múltiple en la regresión de $X_j$ sobre el resto de $X'$
\item [ii.] Con $\hat{\Psi}_{jj}=1-h^2_j$ se tiene que
$\displaystyle h^2_j=\max_{l \neq j} \{r_{jl}\}$
\end{itemize}
\item De $R=\hat{Q}\hat{Q}^T+\hat{\Psi}$ luego $R-\hat{\Psi}=\hat{Q}\hat{Q}^T$
\item $R-\hat{\Psi}$ es simétrica, $R-\hat{\Psi}=\mathcal{G}\mathcal{L}\mathcal{G}^T$ descomposición espectral.
\item De $\mathcal{L}$ tomar los $k$ autovalores mayores, digamos $l_1\geq\ldots\geq l_k>0$ y formamos $\mathcal{L}_1$ y $\mathcal{G}_1$ con los respectivos autovectores.\\
Luego $\hat{Q}=\mathcal{G}_1 \mathcal{L}_1^{1/2}$ i.e. $\hat{q}_l=\sqrt{l_l}g_l$ con $l=1,\ldots,k$
\item Construir $\hat{\Psi}$(nuevo)
$\displaystyle \hat{\Psi}_{jj}=1-\sum_{i=1}^k q^2_{jl} \longrightarrow \hat{\Psi}$
\item Se itera, comenzando en el paso 3 hasta que $\|\hat{Q}_{n+1}-\hat{Q}_n\|<\epsilon$ o $\hat{\Psi}_{jj}$ son estables
\end{enumerate}
\subsection*{Método de Máxima Verosimilitud}
Sea $\mathcal{X}_{n\times p}$ de $X\sim N_p(\mu,\Sigma)$. Recordar que
\begin{align}
(\mathcal{X};\mu,\Sigma)&=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{1}{2}\sum_{i=1}^n (x_i-\Sigma) \Sigma^{-1}(x_i-\mu)^T\notag\\
&=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{n}{2}\operatorname{tra}|\Sigma^{-1}S|-\frac{n}{2} (\bar{\mathcal{X}}-\mu) \Sigma^{-1}(\bar{\mathcal{X}}-\mu)^T\notag
\end{align}
$EMV$ de $\mu$ en $\bar{\mathcal{X}}$:
$\displaystyle l(\mathcal{X};\mu,\Sigma)=-\frac{n}{2}\ln |2\pi\Sigma|-\frac{n}{2}\operatorname{tra}|\Sigma^{-1}S|$
sustituyendo $\Sigma=QQ^T+\Psi$ tenemos que
\begin{equation}
l(\mathcal{X};\hat{\mu},Q,\Psi)=-\frac{n}{2}\{\ln |2\pi(QQ^T+\Psi)|+\operatorname{tra}[(QQ^T+\Psi)^{-1}]S\}
\end{equation}
Maximizando al derivar con respecto a $Q$ y $\Psi$, además con el supuesto de que $Q^T\Psi^{-1}Q=D$ es diagonal, se obtienen las siguientes ecuaciones:
\begin{displaymath}
\left\{ \begin{array}{ll}
\hat{\Psi}=\operatorname{diag}(S-\hat{Q}\hat{Q}^T)\\
(\hat{\Psi}^{-1/2}(S-I)\hat{\Psi}^{-1/2})(\hat{\Psi}^{-1/2}\hat{Q})=
(\hat{\Psi}^{-1/2}\hat{Q})D\\
\hat{Q}^T\Psi^{-1}\hat{Q}=D
\end{array} \right.
\end{displaymath}
\subsubsection*{Algortimo 9}
\begin{enumerate}
\item Partir de $\hat{Q}$ (puede usar factor principal), luego $\hat{\Psi}=diag(S-QQ^T)$
\item A (simétrica) donde:
\begin{align}
A&=\hat{\Psi}^{-1/2}(S-\hat{\Psi})\hat{\Psi}^{-1/2}\notag\\
&=\hat{\Psi}^{-1/2}S\hat{\Psi})\hat{\Psi}^{-1/2}-I\notag
\end{align}
\item Encontrar la descomposición espectral de A, $A=\mathcal{G}\mathcal{L}\mathcal{G}^T$\\
donde $\mathcal{L}=diag(l_1,\ldots,l_p)$ donde $l_1\geq l_2\geq \ldots \geq l_p$ con autovectores $g_1,\ldots,g_p$ de $\mathcal{G}$.\\
Tomar los $k$ autovalores más grandes y positivos, i.e. $l_1 \geq l_2 \geq \ldots \geq l_k>0$ y se tiene\\
$\mathcal{L}_1=diag(l_1,\ldots,l_k)$ y sus respectivos autovectores en $\mathcal{G}_1$
\item Tomar $\hat{Q}=\hat{\Psi}^{\frac{1}{2}}\mathcal{G}_1 \mathcal{L}^{-\frac{1}{2}}$ y sustituir $\hat{Q}$ en (1), maximizar para $\Psi$, iterar a partir de 2 hasta la convergencia.
\end{enumerate}
\subsection*{Prueba de Razón de Verosimilitud para el Número de Factores Comunes}
$H_0:\Sigma=QQ^T+\Psi$\\
$H_1$:no modelo factorial\\
Sean $\hat{\Psi}$ y $\hat{Q}$ estimador de máxima verosimilitud(EMV) con
$S\doteq \hat{Q}\hat{Q}^T+\hat{\Psi}$, luego
\begin{align}
-2\ln \left( \frac{MVH_0}{MVSR} \right)&=n\ln \left( \frac{|\hat{Q}\hat{Q}^T+\hat{\Psi}|}{|S|} \right)\notag\\
&\sim \chi^2_{\frac{1}{2}(p-k)^2+\frac{1}{2}(p+k)}\notag
\end{align}
donde $MVSR$ es la máxima verosimilitud sin restricción.\\
La corrección de $Bartletts$ reemplaza $n$ por $\displaystyle \frac{(n-1)-(2p+4k+5)}{6}$, además rechaza $H_0$ si
$$\left[ n-1-\left(\frac{2p+4k+5}{6}\right) \right] n \ln \left( \frac{|\hat{Q}\hat{Q}^T+\hat{\Psi}|}{|S|} \right)>\chi^2_{1-\alpha; \frac{1}{2}(p-k)^2-\frac{1}{2}(p+k)}$$
\subsection*{Método Varimax}
Estandarizar las cargas factoriales $\tilde{q}$:
$\displaystyle \tilde{q}_{jl}=\frac{\hat{q}^v_{jl}}{\hat{h}^v_j}$,
queremos que $V$ sea máxima
\begin{equation*}
V=\sum_{j=1}^k \left\{ \frac{1}{p} \sum_{j=1} (q^v_{jl})^4 - \left( \frac{1}{4} \sum_{j=1}^p \hat{q}^v_{jl}\right)^2 \right\}
\end{equation*}
\subsection*{Estimación de los Factores(Puntajes Factoriales)}
\begin{enumerate}
\item Sea $X-\mu=QF+U$ donde $U \sim N(0,\Psi)$ y $X-\mu \sim N(QF,\Psi)$
\begin{align}
\hat{F}&=(Q^T \Psi^{-1} Q)^{-1} Q^T \Psi^{-1}(X-\mu)\notag\\
\hat{f}_i&=(\hat{Q}^T \Psi^{-1} \hat{Q})^{-1} \hat{Q}^T \hat{\Psi}^{-1} (x_i-\mu)\notag
\end{align}
\item Sea $X-\mu=QF+U$ con $F$ variable aletoria
\begin{align}
\operatorname{E}(F|X=x)&=Q^T \Sigma^{-1}(X-\mu)\notag\\
\hat{f}_i&=Q^T S^{-1}(x_i-\mu)\notag
\end{align}
\end{enumerate}
\subsection*{Análisis de Conglomerados}
El objetivo es formar grupos que sean entre ellos (heterogéneos) y dentro de ellos (homogéneos).\\
Pasos para realizar el análisis de conglomerados.
\begin{enumerate}
\item Seleccionar una medida de proximidad (similaridad), así se conoce que tan cercanos son dos unidades si sus valores están cerca.\\
$i \rightarrow x^T_i=(x_{i1},x_{i2},\dots,x_{ip})$\\
$j \rightarrow x^T_j=(x_{j1},x_{j2},\dots,x_{jp})$
\item Seleccionar algoritmo de agrupación. Tal que las unidades dentro de los conglomerados sean lo más homogéneas posibles, y entre los grupos lo más heterogéneos posibles (basados en la medida de la proximidad seleccionada).
\end{enumerate}
\subsubsection*{Proximidad Entre Objetos}
$D=
\begin{pmatrix}
d_{11} & d_{12} & \ldots & d_{1n}\\
d_{21} & d_{22} & \ldots & d_{2n}\\
\vdots & \vdots & \ddots & \vdots\\
d_{n1} & d_{n2} & \ldots & d_{nn}\\
\end{pmatrix}$
\subsection*{Similaridad Entre Objetos en Estructura Binaria}
Sea $(x_i,x_j)$ donde $x^T_i=(x_{i1},x_{i2},\ldots,x_{ip})$ y
$x^T_j=(x_{j1},x_{j2},\ldots,x_{jp})$ con $x_{ik},x_{jk} \in (0,1)$
$$d_{ij}=\frac{a_1+\delta a_4}{a_1+\delta a_4+\lambda (a_2+a_3)}$$
donde
\begin{align*}
a_1&=\sum_{k=1}^p I_{x_{ik}=x_{jk}=1}\qquad
a_2&=\sum_{k=1}^p I_{x_{ik}=0,x_{jk}=1}\qquad
a_3&=\sum_{k=1}^p I_{x_{ik}=1,x_{jk}=0}\qquad
a_4&=\sum_{k=1}^p I_{x_{ik}=x_{jk}=0}
\end{align*}
La naturaleza de las variables determinar la medida de similaridad.
\subsubsection*{Ejemplo 10}
\begin{tabular}{l r r r r r r r r r r}
& $x_1$ & $x_2$ & $x_3$ & $x_4$ & $x_5$ & $x_6$ & $x_7$ & $x_8$ & $x_9$ & $x_{10}$\\
i & 1 & 0 & 1 & 1 & 0 & 0 & 0 & 0 & 0 & 0 \\
j & 0 & 1 & 1 & 1 & 1 & 0 & 1 & 0 & 0 & 0
\end{tabular}\\
$a_1=2$, $a_2=3$, $a_3=1$, $a_4=4$\\
usando Jaccard $d_{ij}=\frac{1}{3}$\\
\begin{tabular}{|l|r|r|r|}\hline
Nombre & $\delta$ & $\lambda$ & Definición \\\hline
Jaccard & 0 & 1 & $\displaystyle \frac{a_1}{a_1+a_2+a_3}$\\
Tanimoto & 1 & 2 & \\
Pareo Simple & 1 & 1 & \\\hline
\end{tabular}\\
\subsection*{Medidas de Distancia para Variables Continuas}
Norma $L_r$ con $r \geq 1$
\begin{align*}
d_{ij}&=\|x_i-x_j\|\\
&=\left( \sum_{k=1}^p |x_{ik}-x_{jk}|^r \right)^{1/r}\\
&=\sqrt{\sum_{k=1}^p (x_{ik}-x_{jk})^2}
\end{align*}
Al utilizar la norma $L_r$ es conveniente que las mediciones esten en la misma escala, si no entonces estandarizamos
\begin{align*}
d^2_{ij}&=(x_i-x-j)^T A(x_i-x_j)\\
&=\| x_i-x_j \|_A
\end{align*}
En particular si $\displaystyle A=\operatorname{diag}\left(\frac{1}{S_{x_1x_1}},\ldots,\frac{1}{S_{x_px_p}}\right)$ entonces
$\displaystyle d^2_ij=\sum_{k=1}^p \frac{(x_{ik}-x_{jk})^2}{S_{x_k x_k}}$
que no depende de la escala de medida.
\subsubsection*{Ejemplo 11}
$r=2$, norma $L_2$
\subsection*{Métrica $\chi^2$ para Comparar Filas o Columnas de una Tabla de Contingencia}
\begin{tabular}{l|r r r r r|r}
& 1 & \ldots & j & \ldots & p & \\\hline
1 & $x_{11}$ & \ldots & $x_{1j}$ & \ldots & $x_{1p}$ & $x_{1.}$\\
\vdots & \vdots & & \vdots & & \vdots & \vdots\\
i & $x_{i1}$ & \ldots & $x_{ij}$ & \ldots & $x_{ip}$ & $x_{i.}$\\
\vdots & \vdots & & \vdots & & \vdots & \vdots\\
n & $x_{n1}$ & \ldots & $x_{nj}$ & \ldots & $x_{np}$ & $x_{n.}$\\\hline
& $x_{.1}$ & \ldots & $x_{.j}$ & \ldots & $x_{.p}$ & $x_{..}$
\end{tabular}\\
Distribución marginal de fila $i$, $\frac{x_{i.}}{x_{..}}$ donde
$\displaystyle x_{i.}=\sum_{j=1}^p x_{ij}\qquad x_{..}=\sum_{i=1}^n \sum_{j=1}^p x_{ij}$\\
Para columna $j$: $\displaystyle \frac{x_{.j}}{x_{..}}$ con
$\displaystyle x_{.j}=\sum_{i=1}^n x_{ij}$\\
Distribución condicional de fila $i$:
$\displaystyle \frac{x_{.j}}{x_{..}} \longrightarrow \left( \frac{x_{i1}}{x_{i.}}, \ldots, \frac{x_{ij}}{x_{i.}}, \ldots, \frac{x_{ip}}{x_{i.}} \right)$\\
Para columna $j$:
$\displaystyle \frac{x_{ij}}{x_{.j}} \longrightarrow \left( \frac{x_{1j}}{x_{.j}}, \ldots, \frac{x_{ij}}{x_{.j}}, \ldots, \frac{x_{nj}}{x_{.j}} \right)$\\
Distancia entre la fila $i_1$ y la fila $i_2$:
$\displaystyle d^2(i_1,i_2)=\sum_{j=1}^p \frac{1} {\frac{x_{.j}}{x_{..}}}
\left( \frac{x_{i_1j}}{x_{i_1.}}-\frac{x_{i_2j}}{x_{i_2.}} \right)^2$\\
Distancia entre la columna $j_1$ y la columna $j_2$:
$\displaystyle d^2(j_1,j_2)=\sum_{i=1}^p \frac{1}{\frac{x_{i.}}{x_{..}}}
\left( \frac{x_{ij_1}}{x_{.j_1}}-\frac{x_{ij_2}}{x_{.j_2}} \right)^2$
\subsection*{Coeficiente de Correlación $Q$ como Medida de Similaridad}
Sean $x_i^T=(x_{i1},\ldots,x_{ip})$ y $x_j^T=(x_{j1},\ldots,x_{jp})$
$$\displaystyle d_{ij}=\frac{ \sum_{k=1}^p (x_{ik}-\bar{x}_i)(x_{jk}-\bar{x}_j)^2} { \sqrt{ \left[ \sum_{k=1}^p (x_{ik}-\bar{x}_i)^2 \right] - \left[ \sum_{k=1}^p (x_{jk}-\bar{x}_j)^2 \right]}} $$
\subsection*{Clasificación Automática}
\begin{enumerate}
\item Seleccionar medida de proximidad o distancia
\item Seleccionar algoritmo de conglomeración
\end{enumerate}
\subsection*{Algoritmos de Conglomeración}
De los algoritmos más usuales están los
\begin{enumerate}
\item Jerárquicos
\begin{itemize}
\item [a.] Jerárquicos conglomerativos (asociativos)
\item [b.] Jerárquicos divisivos (disasociativos)
\end{itemize}
\item De partición
\end{enumerate}
\subsection*{Jerárquicos Conglomerativos}
Parten con $n$ conglomerados (cada observación es un conglomerado).\\
Se unen los dos más cercanos para formar $(n-1)$ conglomerados, se une hasta formar un sólo conglomerado conformado por $\mathcal{X}$
\subsection*{Jerárquicos Divisivos}
Parte de un sólo conglomerado que es $\mathcal{X}$, se va dividiendo hasta tener $n$ conglomerados (conformados por cada observación)
\subsection*{De Partición}
Parte de un número preestablecido de conglomerados y se van intercambiando las observaciones hasta optimizar algún puntaje.
\subsection*{Algoritmo Aglomerativo}
\begin{enumerate}
\item Construir $n$ grupos cada con uno con una observación
\item Calcular la matriz de distancia $D$
\item Encontrar los conglomerados con la distancia más cercana
\item Unir en un sólo conglomerado los encontrados en 3
\item Calcular $D$ restringida entre los grupos nuevos
\end{enumerate}
Repetir $3,4,5$ hasta tener un sólo conglomerado formado por $\mathcal{X}$
\subsection*{Distancia Utilizada Entre Dos Grupos}
Sea $P+Q$ que resulta de unir $P$ y $Q$. $R$ otro grupo
$$d(R,P+Q=\delta_1 d(R,P)+\delta_2 d(R,Q)+\delta_3 d(P,Q)+\delta_4 |d(R,P)-d(R,Q)|$$
\begin{tabular}{l|r|r|r|r}
Nombre & $\delta_1$ & $\delta_2$ & $\delta_3$ & $\delta_4$\\\hline
Encadenamiento simple & 1/2 & 1/2 & 0 & -1/2\\
Encadenamiento completo & 1/2 & 1/2 & 0 & 1/2\\
Encadenamiento promedio & 1/2 & 1/2 & 0 & 0\\
Encadenamiento promedio ponderado & $\displaystyle\frac{n_P}{n_P+n_Q}$ & $\displaystyle\frac{n_Q}{n_P+n_Q}$ & 0 & 0\\
Centroide & $\displaystyle\frac{n_P}{n_P+n_Q}$ & $\displaystyle\frac{n_Q}{n_P+n_Q}$ & $-\displaystyle\frac{n_P n_Q}{(n_P+n_Q)^2}$ & 0\\
Mediana & 1/2 & 1/2 & 1/4 & 0\\
Ward & $\displaystyle\frac{n_R+n_P}{n_R+n_P+n_Q}$ & $\displaystyle\frac{n_R+n_Q}{n_R+n_P+n_Q}$ &
$-\displaystyle\frac{n_R}{n_R+n_P+n_Q}$ & 0
\end{tabular}\\
Ward $$n_P=\sum_{i=1}^n I(x_i \in P)$$
Encadanamiento simple modificado $d(R,P+Q)=\min\{d(P,R),d(Q,R)\}$\\
Encadanamiento completo modificado $d(R,P+Q)=\max\{d(P,R),d(Q,R)\}$
\subsubsection*{Ejemplo 12}
Sea
\begin{align*}
D&=
\begin{pmatrix}
0 & & & & \\
9 & 0 & & &\\
3 & 7 & 0 & &\\
6 & 5 & 9 & 0 &\\
11 & 10 & 2 & 8 & 0
\end{pmatrix}\\
&=
\begin{pmatrix}
0 & & &\\
3 & 0 & &\\
7 & 9 & 0 &\\
8 & 5 & 6 & 0
\end{pmatrix}
\end{align*}
\subsection*{Análisis de Discriminante}
\begin{itemize}
\item Descriptivo
\item Predictivo (el objetivo es clasificar observaciones en grupos ya conocidos)
\end{itemize}
\subsection*{Reglas de Clasificación para Distribuciones Conocidas}
Suponga que tenemos las poblaciones $\Pi_j$; $j=1,\ldots,J$ y se tiene que clasificar una observación con $x^ T=(x_1,\ldots,x_p)$ a una de estas poblaciones.
Regla discriminante es una separación del espacio muestral $\mathbf{R}^p$ en conjuntos $R_j$ tal que si $x\in R_j$ identificamos la observación como de la población $\Pi_j$
\subsection*{Regla Discriminante de Máxima Verosimilitud (RDML)}
Sea $f_i(x)$ la densidad de la población $\Pi_i$. La $RDML$ clasificara a $x$ en $\Pi_j$ si $f_j(x)$ es el máximo de la verosimilitud, i.e.
\begin{align*}
L_j&=f_j(x)\\
&=\max_i f_i(x)
\end{align*}
En caso de que hayan varias se clasifican en cualquiera $R_j=\{x:L_j(x)>L_i(x); i=1,\ldots,J; i\neq j\}$
\subsection*{Regla que Minimiza el Costo Esperado de la Mala Clasificacion (ECM)}
Suponga $J=2$
\begin{align*}
p_{21}&=\Pr(x\in R_2|\Pi_1)\\
&=\int_{R_2} f_1(x)dx\\
p_{12}&=\Pr(x\in R_1|\Pi_2)\\
&=\int_{R_1} f_2(x)dx\\
\end{align*}
Las observaciones mal clasificadas crean un costo $C(i|j)$: costo de asignarlos a $R_i$ dado que es de $\Pi_j$, tenemos\\
\begin{tabular}{l|r|r}
& $\Pi_1$ & $\Pi_2$\\\hline
$\Pi_1$ & 0 & $C(2|1)$\\\hline
$\Pi_2$ & $C(1|2)$ & 0
\end{tabular}\\
Suponga $\Pi_j$ la probabilidad a priori de que pertenece a $\Pi_j$\\
$$ECM=C(2|1)p_{21}\Pi_1+C(1|2)p_{12}\Pi_2$$
La regla que minimiza el ECM viene dado por
\begin{align*}
R_1&=\left\{ x:\frac{f_1(x)}{f_2(x)}\geq \left(\frac{C(1|2)}{C(2|1)}\right)
\left(\frac{\Pi_2}{\Pi_1}\right)\right\}\\
R_2&=\left\{ x:\frac{f_1(x)}{f_2(x)}< \left(\frac{C(1|2)}{C(2|1)}\right)
\left(\frac{\Pi_2}{\Pi_1}\right)\right\}
\end{align*}
\subsubsection*{Ejemplo 13}
Sea $\Pi_1=N(\mu_1, \sigma^2_1)$ y $\Pi_2=N(\mu_2, \sigma^2_2)$
$$f_i(x)=(2\pi \sigma^2_i)^{-1/2}e^{-1/2\left(\frac{x-\mu_i}{\sigma_i}\right)^2}$$
$x\in R_1$, luego
\begin{align*}
f_1(x)&\geq f_2(x)\\
\frac{f_1(x)}{f_2(x)}& \geq 1
\end{align*}
\begin{align*}
\frac{\sigma_2}{\sigma_1}e^{-1/2\left[ \left(\frac{x-\mu_1}{\sigma_1}\right)^2-
\left(\frac{x-\mu_2}{\sigma_2}\right)^2\right]}&\geq 1\\
-\frac{1}{2} \left[ \left( \frac{x-\mu_1}{\sigma_1} \right)^2- \left( \frac{x-\mu_2}{\sigma_2} \right)^2 \right]&\geq \ln\left(\frac{\sigma_2}{\sigma_1}\right)
\end{align*}
$\therefore x$ se clasifica en $\Pi_1$ si
$$x^2\left(\frac{1}{\sigma^2_1}-\frac{1}{\sigma^2_2}\right)
-2x\left( \frac{\mu_1}{\sigma^2_1}-\frac{\mu_2}{\sigma^2_2}\right)
+\left( \frac{\mu^1_1}{\sigma^2_1}-\frac{\mu^2_2}{\sigma^2_2}\right)
\leq \ln\left(\frac{\sigma_2}{\sigma_1}\right)$$
Si $\mu_1<\mu_2$ y $\sigma_1=\sigma_2=\sigma$. $x$ se clasifica en $\Pi_1$ si
\begin{align*}
\frac{3}{4}x^2+\frac{1}{2}x-\frac{1}{4}&\leq 2\ln 2=\ln 4\\
\frac{3}{4}x^2+\frac{1}{2}x-\left(\ln 4+\frac{1}{4}\right)&\leq 0\\
3x^2+2x-(\ln 256+1)&\leq 0\\
s&=4+4(3)(\ln 256+1)\\
&=4+12(\ln 256+1)\\
x&=\frac{-2\pm \sqrt{4+12(\ln 256+1)}}{6}\\
&=
\begin{cases}
-1.85\\
1.18
\end{cases}
\end{align*}
\subsubsection*{Teorema 14}
\begin{itemize}
\item [a.] La RDML clasifica $x$ a $\Pi_j$ con $j=1,\ldots,J$ cuando se minimiza la distancia al cuadrado de Mahalanoubis entre $x$ y $\mu_j$ con $i\neq j$ si
$\delta^2(x,\mu_j)\leq \delta^2(x,\mu_i)$
$$\delta^2(x,\mu_j)=(x-\mu)^T\Sigma^{-1}(x-\mu_j)$$
\item [b.] En el caso de $J=2$, $x\in R_1 \Longleftrightarrow \alpha^T(x-\mu)\geq 0$ donde $\displaystyle \alpha^T=(\mu_1-\mu_2)^T\Sigma^{-1} \quad \textrm{y} \quad \mu=\frac{1}{2}(\mu_1+\mu_2)$
\end{itemize}
\subsubsection*{Demostración}
b. $x\in R_1$ si $(x-\mu_1)^T\Sigma^{-1}(x-\mu_1)-(x-\mu_2)^T\Sigma^{-1}(x-\mu_2)\leq 0$
\begin{align*}
x^T \Sigma^{-1}x-x^T\Sigma^{-1}\mu_1-\mu^T_1\Sigma^{-1}x+\mu^T_1\Sigma^{-1}\mu_1-
x^T \Sigma^{-1}x+x^T\Sigma^{-1}\mu_2+\mu^T_2\Sigma^{-1}x-\mu^T_2\Sigma^{-1}\mu_2& \leq 0\\
-2\mu^T_1\Sigma^{-1}x+2\mu^T_2\Sigma^{-1}x+\mu^T_1\Sigma^{-1}\mu_1-\mu^T_2\Sigma^{-1}\mu_2& \leq 0\\
-2(\mu_1-\mu_2)^T\Sigma^{-1}x+(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)&\leq 0\\
(\mu_1-\mu_2)^T\Sigma^{-1}x-\frac{1}{2}(\mu_1-\mu_2)^T\Sigma^{-1}(\mu_1+\mu_2)&\geq 0\\
(\mu_1-\mu_2)^T\Sigma^{-1}\left(\frac{1}{2}(\mu_1-\mu_2)\right)\geq 0
\end{align*}
$\therefore \alpha^T(x-\mu)\geq 0 \qquad \diamondsuit$
\subsection*{Regla Discriminante de Bayes}
Sea $\Pi_i$ la probabilidad a priori de que $x$ pertenece a $\Pi_i$, $i=1,\ldots,J$.\\
Clasificamos $x$ como de $\Pi_j$ si $$\Pi_j f_j(x)=\max_i \{\Pi_i f_i(x)\}$$
\subsubsection*{Nota 15}
$\Pi_i=1/J$ luego la regla discriminante de Bayes es la RDML
\subsection*{Probabilidades de Mala Clasificación RML}
Sea $J=2$, recordar $\alpha^T=(\mu_1-\mu_2)^T \Sigma^{-1}$, $\mu=frac{1}{2}(\mu_1+\mu_2)$, $\Pi_1=N(\mu_1,\Sigma)$, $\Pi_2=N(\mu_2,\Sigma)$
\begin{align*}
p_{12}&=Pr{(x\in R_1|\Pi_2)}\\
&=\Pr{(\alpha^T(x-\mu)>0|\Pi_2)}\\
R_1&:(\mu_1-\mu_2)^T \Sigma^{-1} \left(x-\frac{1}{2}(\mu_1+\mu_2)\right)>0\\
&:y>\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)\\
R_2&:(\mu_1-\mu_2)^T \Sigma^{-1} \left(x-\frac{1}{2}(\mu_1+\mu_2)\right)\leq 0\\
&: y \leq \frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)\\
y&=(\mu_1-\mu_2)^T \Sigma^{-1} x\\
&=\alpha^Tx
\end{align*}
Como $y$ es combinación lineal de $x$, entonces $y\sim N$
\begin{align*}
\mu_{1y}&=\alpha^T \mu_1\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \mu_1\\
\mu_{2y}&=\alpha^T \mu_2\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \mu_2\\
\sigma^2_y&=\alpha^T \Sigma\alpha\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} \Sigma \Sigma^{-1}(\mu_1-\mu_2)\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1-\mu_2)\\
&=(\mu_1-\mu_2)^T \Sigma^{-1} (\mu_1+\mu_2)
\end{align*}
Donde $\delta^2$ es la distancia de Mahalanobis al cuadrado entre $\Pi_1$ y $\Pi_2$
\begin{align*}
p_{12}&=\Pr\left(y>\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1+\mu_2)|\Pi_2\right)\\
&=\left(z>\frac{\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1+\mu_2)-(\mu_1-\mu_2)^T \Sigma^{-1}\mu_2}{\delta}\right)\\
&=\Pr\left(z>\frac{\frac{1}{2}(\mu_1-\mu_2)^T \Sigma^{-1}(\mu_1-\mu_2)}{\delta}\right)\\
&=\Pr\left(z>\frac{\frac{1}{2}\delta^2}{\delta}\right)\\
&=\Pr\left(z\leq -\frac{\delta}{2}\right)\\
&=\Phi\left(-\frac{\delta}{2}\right)
\end{align*}
\subsection*{Clasificación con Matrices de Covarianza Distintas}
Suponga $J=2$, $\Pi_1=N(\mu_1,\Sigma_1)$, $\Pi_2=N(\mu_2,\Sigma_2)$, las regiones de clasificación son definidas por funciones cuadráticas
\subsection*{Reglas Discriminantes en la Práctica}
Suponga los datos que provienen de $\Pi_j=N(\mu_j,\Sigma)$ y tenemos $J$ grupos con $n_j$ observaciones cada uno.
$$\hat{\mu_j}=\bar{x_j} \qquad \hat{\Sigma}=S_j$$
\subsection*{Estimación de la Matriz de Covarianzas Común}
$$\displaystyle S_u=\sum_{j=1}^J n_j\frac{S_j}{n-J} \qquad n=\sum_{j=1}^J n_j$$
La regla empírica $ML$ clasifica $x$ a $\Pi_j$ si $j$ minimiza
$\displaystyle (x-\bar{x}_i)^T S^{-1}_u(x-\bar{x}_i)$
\subsection*{Estimación de la Probabilidad de Mala Clasificación}
Sea $\displaystyle \hat{p}_{12}=\hat{p}_{21}=\Phi\left(-\dfrac{\hat{\delta}}{2}\right)$ entonces
$\hat{\delta}^2=(\bar{x}_1-\bar{x}_2)^T S^{-1} (\bar{x}_1-\bar{x}_2)$\\
Se puede utilizar el método de resustitución para tener una aproximación de la calidad de la regla discriminante, estimando $p_{ij}$ con
$\displaystyle \hat{p}_{ij}=\frac{n_{ij}}{n_j}$\\
$n_j$: numero de observaciones en $\Pi_j$\\
$n_{ij}$: número de observaciones de $\Pi_j$ clasificado como de $\Pi_i$, la matriz $(\hat{p}_{ij})$ es llamada matriz de confusión.
\end{document}