Algèbre bilinéaire, séries de Fourier (Mat404-ex244)

2019

Table des matières

Index

  • absolument convergente, 2.1
  • antisymétrique, forme bilinéaire, 4.2

  • bilinéaire, forme, 4.2

  • chaleur, équation de la, 1.1
  • convergente, absolument, 2.1
  • critère de d’Alembert, 2.1
  • critère de Riemann, 2.1

  • d’Alembert, critère de, 2.1

  • equation de la chaleur, 1.1
  • equation des ondes, 1.2

  • Fourier, séries de, 6
  • forme quadratique, 4.2
  • forme bilinéaire, 4.2

  • général, terme, 2.1

  • image, 3.3

  • noyau, 3.3
  • ondes, équation des, 1.2

  • partielle, somme, 2.1
  • produit matriciel, 3.4
  • produit scalaire, 5

  • quadratique, forme, 4.2

  • Riemann, critère de, 2.1
  • rang (application linéaire), 3.3
  • rang (forme bilinéaire), 4.3
  • rang (matrice), 3.5

  • série, 2.1
  • séries de Fourier, 6
  • scalaire, produit, 5
  • somme partielle, 2.1
  • symétrique, forme bilinéaire, 4.2
  • symétrique, matrice, 3.4

  • terme général, 2.1
  • transposition, 3.4

Chapitre 1  Motivations

Dans cette section, nous allons considérer deux problèmes de physique dont la solution semble nécessiter des techniques mathématiques plus sophistiquées que celles que vous avez utilisées jusqu’à présent.

1.1  L’équation de la chaleur.

Supposons donnée une barre chauffée de façon inhomogène. Comment se diffuse la chaleur dans cette barre ?

On considère une barre d’un matériau homogène de longueur finie LL, la température initiale (au temps t=0t=0) étant donnée par une fonction φ:[0,L]\varphi:[0,L]\to \mathbb{R}, ou xφ(x).x\mapsto \varphi(x).

On suppose que les échanges de chaleur entre la barre et l’air sont négligeables et que les extremités de la barre sont au contact d’un parfait isolant, ce qui implique qu’il n’y a pas de flux de chaleur à travers ces extrémités. En particulier le gradient de la chaleur y est nul. On veut comprendre comment la chaleur se diffuse dans la barre avec le temps ; autrement dit, si T(x,t)T(x,t) est la température dans la barre au point xx en un temps tt, alors on veut comprendre l’évolution de la valeur de T(x,t)T(x,t) avec tt.

Des considérations physiques montrent que TT doit satisfaire à l’équation, dite équation de la chaleur : Tt=k 2T 2x\frac{\partial T}{\partial t}= k \frac{\partial^2 T}{\partial^2 x} kk est une constante positive (la conductivité thermique) qui dépend du matériau. Nous avons en plus les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t,\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t, qui traduisent l’absence de flux de chaleur à travers les extrémités, et la condition initiale T(x,0)=φ(x).T(x,0)= \varphi(x). Oublions d’abord la condition T(x,0)=φ(x)T(x,0)=\varphi(x). Autrement dit, on cherche les solutions vérifiant seulement les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t.\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t. L’équation étant beaucoup trop compliquée pour être résolue avec les méthodes dont nous disposons actuellement, nous allons commencer par simplement chercher des exemples de fonctions qui la satisfont. Les fonctions à variables séparés (c’est-à-dire s’écrivant dans la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t)) sont une source féconde d’exemples satisfaisant à des équations aux dérivées partielles, puisque de telles équations se simplifient souvent dans ce cas. Nous commencerons donc par chercher des solutions de la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t). On a alors que f(x)g(t)=kf(x)g(t),f(x)g'(t)=kf''(x)g(t), soit f(x)f(x)=g(t)kg(t),\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}, au moins sur la région ou ni ff ni gg ne s’annule. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)kg(t)=α.\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}=\alpha. Ainsi, on a f(x)αf(x)=0f''(x)-\alpha f(x)=0 et g(t)kαg(t)=0.g'(t)-k\alpha g(t)=0. On a donc g(t)=λe kαtg(t)=\lambda e^{k\alpha t} pour λ\lambda\in\mathbb{R}, et donc g(t)0g(t)\neq 0 pour tout t0t\geq 0 (car on cherche TT non identiquement nulle). La contrainte Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)=\frac{\partial T}{\partial x}(L,t) =0 entraîne alors f(0)=f(L)=0f'(0)=f'(L)=0. Pour résoudre l’équation en ff il nous faut maintenant distinguer 3 cas.

  1. Cas 1 : α=0\alpha=0. On a alors f(x)=0f''(x)=0, et donc f(x)=b 0x+a 0f(x)=b_0x+a_0. Les conditions f(0)=f(L)=0f'(0)=f'(L)=0 imposent alors facilement f(x)=a 0f(x)=a_0 pour tout xx. On a donc une première solution de base T 0(x,t)=1.T_0(x,t)=1.
  2. Cas 2 : α>0\alpha>0. On peut alors poser α=ω 2\alpha=\omega^2 et ff est de la forme f(x)=ae ωx+be ωxf(x)=a e^{\omega x}+ be^{-\omega x}. Les conditions que f(0)=0f'(0)=0 et f(L)=0f'(L)=0 impliquent alors a=b=0a=b=0, et ff est identiquement nulle, ce qui est exclu.
  3. Cas 3 : α<0\alpha&lt;0. On peut alors poser α=ω 2\alpha=-\omega^2 et f(x)=acos(ωx)+bsin(ωx),a,b,.f(x)=a\cos(\omega x)+b\sin(\omega x), a,b,\in\mathbb{R}. Puisque f(0)=0f'(0)=0 on a b=0b=0, et puisque f(L)=0f'(L)=0 on a asin(ωL)=0a\sin(\omega L)=0. Puisque l’on cherche TT non nulle, on a a0a\neq 0 et donc sin(ωL)=0\sin(\omega L)=0.

    Ainsi ωL=πn\omega L=\pi n pour n0n\geq 0, et donc pour chaque nn, on a une solution de la forme T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}.

Pour chaque entier positif n0n\geq 0 nous avons donc une solution de l’équation de la chaleur T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}. (Nous pouvons intégrer la solution T 0(x,t)=1T_0(x,t)=1 dans cette famille de solutions en considérant qu’il s’agit de T 0(x,t)=cos(0x)e 0tT_0(x,t)= \cos(0x)e^{-0t}.) La condition initiale φ n(x)\varphi_n(x) correspondant à la solution T n(x,t)T_n(x,t) est donnée par φ n(x)=T n(x,0)\varphi_n(x)= T_n(x,0), c’est à dire φ n(x)=cos(nπxL). \varphi_n(x)= \cos\left(\frac{n\pi x}{L}\right). Nous avons donc trouvé une solution à l’équation de la chaleur pour certaines conditions initiales bien particulières, c’est à dire certains cosinus. Est ce qu’on peut en construire d’autres solutions pour d’autres conditions initiales ?

Notons tout d’abord que l’équation de la chaleur à une propriété très utile :

Remarque 1 (Linéarité de l’équation de la chaleur.)   Si T 1(x,t)T_1(x,t) et T 2(x,t)T_2(x,t) sont deux solutions à l’équation de la chaleur alors pour tous réels λ,μ\lambda, \mu\in \mathbb{R} T(x,t)=λT 1(x,t)+μT 2(x,t) T(x,t)= \lambda T_1(x,t)+\mu T_2(x,t) est encore une solution de cette équation. (Une telle fonction est appellée une combinaison linéaire de T 1T_1 et T 2T_2). On dit alors que l’équation de la chaleur est une équation linéaire.

Exercice. Démontrer que l’équation de la chaleur est une équation linéaire.

En particulier, toute fonction qui est une combinaison linéaire finie T(x,t)=λ 0T 0(x,t)+λ 1T 1(x,t)+λ 2T 2(x,t)++λ nT n(x,t)T(x,t)=\lambda_0 T_0(x,t)+\lambda_1 T_1(x,t)+\lambda_2T_2(x,t)+\ldots +\lambda_n T_n(x,t) avec des nombres réels λ 0,,λ n\lambda_0, \ldots, \lambda_n est encore une solution de l’équation de la chaleur. Cette solution corresponde à la condition initiale φ(x)=T(x,0)\varphi(x)=T(x,0) c’est à dire φ(x)=λ 0+λ 1cos(πxL)+λ 2cos(2πxL)++λ ncos(nπxL).\varphi (x)= \lambda_0+ \lambda_1 \cos\left(\frac{\pi x}{L}\right)+\lambda_2\cos\left(\frac{2 \pi x}{L}\right) +\ldots + \lambda_n\cos\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution pour l’équation de la chaleur pour certaines conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de cosinus.

Et il vient assez naturellement l’idée : Peut-on résoudre cette équation de la même façon pour une condition initiale φ\varphi quelconque en l’écrivant comme une “somme infinie” de cosinus ?

1.2  L’équation des ondes.

Nous nous penchons maintenant sur un autre cas, en apparence différent. Un fil horizontal de longueur LL, soumis à une tension TT et de densité linéaire μ\mu, est tenu aux deux extremités. Au temps t=0t=0 il est relaché et se met à osciller librement dans un plan vertical.

Soit D(x,t)D(x,t) la fonction égale au déplacement vertical1 à l’instant tt de la partie du fil qui se trouve (à l’équilibre) à une distance xx d’une des extremités.
Nous avons cette fois les conditions aux bords D(0,t)=D(L,t)=0, D(0, t)= D(L,t)=0, qui traduisent le fait que le fil est attaché aux extrémités. Si le déplacement initial du fil est décrit par la fonction ϕ(x)\phi(x) alors nous avons aussi les conditions initiales D(x,0)=ϕ(x) et Dt(x,0)=0,D(x,0)= \phi(x)\ \mbox{ et }\ \frac{\partial D}{\partial t}(x,0)=0, cette dernière condition traduisant le fait que le fil est relâché à l’instant t=0t=0 et se trouve donc à ce moment-là au repos. Des considérations physiques montrent que l’évolution de DD est décrite par l’équation des ondes 2Dt 2=k 2Dx 2 \frac{\partial ^2 D}{\partial t^2}=k\frac{\partial^2 D}{\partial x^2} kk est la constante positive k=Tμk=\frac{T}{\mu}. Cherchons comme ci-dessus des solutions de la forme f(x)g(t)f(x)g(t). On a alors f(x)g(t)=kf(x)g(t),f(x)g''(t)=kf''(x)g(t), soit f(x)f(x)=g(t)kg(t).\frac{f''(x)}{f(x)}=\frac{g''(t)}{kg(t)}. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont deux variables indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)kg(t)=α.\frac{f''(x)}{f(x)}=\frac{g''(t)}{kg(t)}=\alpha. Ainsi, on a f(x)αf(x)=0 et g(t)kαg(t)=0.f''(x)-\alpha f(x)=0\ \mbox{ et }\ g''(t)-k\alpha g(t)=0. Le même raisonnement que ci-dessus nous montre que cette équation a une solution telle que D(0,t)=D(L,t)=0D(0,t)= D(L, t)=0 si et seulement si il existe un entier nn tel que α=n 2π 2L 2\alpha= \frac{n^2\pi^2}{L^2} et dans ce cas on a une solution donnée par D n(x,t)=sin(nπxL)cos(knπtL). D_n(x,t)= \sin\left(\frac{n\pi x}{L}\right)\cos\left(\frac{ \sqrt{k}n\pi t}{L}\right) . Ceci nous donne une solution au problème pour une condition initiale φ n(x)=sin(nπxL). \varphi_n(x)= \sin\left(\frac{n\pi x}{L}\right).

Remarque 1   L’équation des ondes est encore une équation linéaire,

Exercice Démontrer que l’équation des ondes est linéaire.

Puisque la fonction D n(x,t)D_n(x,t) est une solution pour chaque nn, toute combinaison linéaire finie D(x,t)=λ 1D 1(x,t)+λ 2D 2(x,t)++λ kD k(x,t)D(x,t)=\lambda_1 D_1(x,t)+\lambda_2D_2(x,t)+\ldots +\lambda_k D_k(x,t) ou les λ k\lambda_k sont des nombres réels est encore une solution de l’équation de la chaleur. Cette solution correspond à la condition initiale φ(x)=λ 1sin(πxL)+λ 2sin(2πxL)++λ nsin(nπxL).\varphi (x)= \lambda_1 \sin\left(\frac{\pi x}{L}\right)+\lambda_2\sin\left(\frac{2\pi x}{L}\right) +\ldots + \lambda_n\sin\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution à cette équation pour des conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de sinus.

Il vient la même idée que dans le cas de l’équation de la chaleur : Peut-on résoudre cette équation pour une condition initiale quelconque φ\varphi en écrivant φ\varphi comme une “somme infinie” de sinus ?

Avant de se lancer dans des spéculations sur les sommes infinies de fonctions, il faudrait déjà savoir ce que veut dire une somme infinie de nombres. Dans le prochain chapitre, nous allons étudier les séries2 numériques.


1
par rapport à l’équilibre
2
C’est le nom que les mathématiciens donnent aux sommes infinies.

Chapitre 2  Séries numériques.

Vous avez déjà rencontré au cours de vos études l’équation suivante 1+12+14+18+=2 1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots =2 ou le symbole “\ldots” se comprend comme “et ainsi de suite jusqu’à l’infini”. Quel sens donner à cette équation, et en particulier, quel sens donner à son membre de gauche 1+12+14+18+1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots ? Ca ne peut pas signifer “le résultat qu’on obtient en effectuant une infinité d’additions” puisqu’il est impossible de faire une infinité d’additions.

La somme infinie à gauche doit être comprise comme une limite. En écrivant cette équation, nous disons la chose suivante :

En prenant nn assez grand, nous pouvons rendre la somme finie 1+12+14++12 n1+\frac{1}{2}+ \frac{1}{4}+\ldots+\frac{1}{2^{n}} aussi proche qu’on veut de 22.

La somme infinie 1+12+14+18+,1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots, que l’on écrit aussi n=0 12 n\sum_{n=0}^\infty \frac{1}{2^n}, doit être compris comme la limite de la suite des sommes partielles s k= n=0 k12 ns_k=\sum_{n=0}^k \frac{1}{2^n}.

Représentation graphique des premières sommes partielles

2.1  Convergence des séries

Définition 1   Soit (u n)(u_n) une suite de nombres réels ou complexes. On définit la suite de sommes partielles (s k) k(s_k)_k (également notée ( n0u n)(\sum_{n\geq 0} u_n)) s k=u 0+u 1+u 2+u k= n0 ku n s_k = u_0+u_1+u_2+\ldots u_k = \sum_{n\geq 0}^k u_n Nous appelons cette suite la série de terme général u nu_n.

On peut adapter la définition lorsqu’on commence la somme à un rang m0m \neq 0, par exemple m=1m=1 si u 0u_0 n’est pas défini, ( nmu n)(\sum_{n\geq m} u_n) est la suite des sommes partielles s k=u m+u m+1+u k+ms_k= u_m+u_{m+1}+\ldots u_{k+m}.

Exemples

  1. Si on pose, comme ci-dessus, u n=12 nu_n=\frac{1}{2^n} et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors la somme partielle s k= n=0 ku ns_k= \sum_{n=0}^k u_n est donnée par s k=1+12++12 k=212 k. s_k=1+\frac{1}{2}+\ldots +\frac{1}{2^k}= 2-\frac{1}{2^k}. Si on considère la série ( n3u n)(\sum_{n\geq 3} u_n) alors la somme partielle s k= n=3 k+3u ns_k= \sum_{n=3}^{k+3} u_n est donnée par s k=18+116++12 k+3=1412 k+3. s_k= \frac{1}{8}+\frac{1}{16}+\ldots +\frac{1}{2^{k+3}}= \frac{1}{4}-\frac{1}{2^{k+3}}.
  2. Si on pose u n=1u_n=1 pour tout nn et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données pour tout kk par s k=1+1++1=k+1.s_k=1+1+\ldots +1=k+1.
  3. Si on pose1 u n=(1) nu_n=(-1)^n et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données par s 0=1 s_0=1 s 1=11=0s_1=1-1=0 s 2=11+1=1s_2= 1-1+1=1 et ainsi de suite, c’est à dire que pour tout kk paire nous avons que s k=1s_{k}=1 et pour tout kk impaire nous avons que s k=0s_{k}=0.
  4. Si on pose u n=1n 2u_n=\frac{1}{n^2} et on considère la série ( n1u n)(\sum_{n\geq 1} u_n) alors la somme partielle s ks_k est le nombre réel s k=1+14+19++1k 2. s_k=1+\frac{1}{4}+\frac{1}{9}+\ldots +\frac{1}{k^2}. Contrairement aux autres cas, nous ne disposons d’aucune formule générale pour cette somme partielle.

Lorsque cette suite de sommes partielles (s k) k0(s_k)_{k\geq 0} est convergente, on dit que sa limite est la valeur de la “somme infinie” n=0 u n=u 0+u 1+u 2+\sum_{n=0}^{\infty} u_n=u_0+u_1+u_2+\ldots

Définition 2   Soit (u n) nm(u_n)_{n\geq m} une suite infinie et considérons la série ( nmu n)(\sum_{n\geq m} u_n). Nous disons que la série ( nmu n)(\sum_{n\geq m} u_n) admet comme limite le nombre fini ll si la suite (s k) k0(s_k)_{k\geq 0} de sommes partielles converge vers ll, lim ks k=l. \lim_{k\rightarrow \infty} s_k=l. Dans ce contexte, nous disons que ll est la somme de la série ( nmu n)(\sum_{n\geq m} u_n) et nous écrivons nm u n=l. \sum_{n\geq m}^\infty u_n=l.

Attention ! Les deux notations ( nmu n) \left(\sum_{n\geq m} u_n \right) et n=m u n, \sum_{n=m}^\infty u_n, qui sont très proches, désignent quand même des choses différentes. Lorsque nous écrivons ( nmu n)(\sum_{n\geq m} u_n ) nous parlons de la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} alors que n=m u n\sum_{n=m}^\infty u_n désigne la limite de cette suite (en supposant, bien sur, qu’elle existe).

Proposition 3   Le terme général d’une série convergente tend vers 0.

En effet, soit ( nmu n)(\sum_{n\geq m} u_n) une série et soit (s k) k0(s_k)_{k\geq 0} ses sommes partielles. Si ( nmu n)(\sum_{n\geq m} u_n) converge vers ll alors on a que s k kl s_k\rightarrow_{k\rightarrow \infty} l s k1 kl s_{k-1}\rightarrow_{k\rightarrow\infty} l donc s ks k1 k0 s_{k}-s_{k-1}\rightarrow_{k\rightarrow \infty } 0 Or s ks k1=u k+ms_k-s_{k-1}=u_{k+m} donc u k k0u_k\rightarrow_{k\rightarrow \infty} 0.

Remarque 4  
  • Par contre-apposition, si le terme général d’une suite ne tend pas vers 0 alors la série diverge. Par exemple n0(1) n\sum_{n\geq 0} (-1)^n diverge parce que son terme général (1) n(-1)^n ne tend pas vers 0. De même une suite géométrique de raison λ\lambda diverge lorsque |λ|1|\lambda|\geq 1.
  • Attention! La réciproque est fausse. Il existe des séries divergentes dont le terme général ne tend pas vers 0, par exemple on montre que n>01n\sum_{n&gt;0} \frac{1}{n} diverge alors que son terme général 1n\frac{1}{n} tend vers 0 (cf. proposition 13 plus bas)

Exemples.

  1. Pour la série ( n012 n)(\sum_{n\geq 0} \frac{1}{2^n}) nous avons que la somme partielle s k=212 n k2.s_k=2-\frac{1}{2^n}\rightarrow_{k\rightarrow \infty} 2. On peut donc écrire n=0 12 n=2.\sum_{n=0}^\infty \frac{1}{2^n}=2.
  2. Soit maintenant λ\lambda un nombre réel ou complexe tel que |λ|<1|\lambda|&lt;1, et considérons la série ( n0λ n)(\sum_{n\geq 0} \lambda^n). La somme partielle s k=1+λ++λ ks_k=1+\lambda +\ldots +\lambda^k peut être calculée par l’astuce suivante : (1λ)s k=s kλs k (1-\lambda) s_k= s_k -\lambda s_k (1λ)s k=(1+λ++λ k)(λ+λ 2++λ k+1)(1-\lambda) s_k= (1+\lambda +\ldots +\lambda^k) -(\lambda+\lambda^2+\ldots +\lambda^{k+1}) (1λ)s k=1λ k+1 (1-\lambda) s_k= 1-\lambda^{k+1} s k=1λ k+11λ.s_k=\frac{1-\lambda^{k+1}}{1-\lambda}. Puisque |λ|<1|\lambda|&lt;1 nous avons que λ k k0\lambda^k\rightarrow_{k\rightarrow \infty} 0 donc s k k11λ. s_k\rightarrow_{k\rightarrow \infty}\frac{1}{1-\lambda}. Autrement dit, la série géométrique de raison |λ|<1|\lambda|&lt;1 converge et on a n=0 λ n=11λ. \sum_{n=0}^{\infty}\lambda^{n}=\frac{1}{1-\lambda}.

  3. La série ( n01)(\sum_{n\geq 0}1) a pour sommes partielles s k=k+1s_k=k+1. Cette suite n’est pas convergente : sa limite n’est pas finie. On dit alors que la série ( n01)(\sum_{n\geq 0} 1) est divergente2.
  4. La série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) a pour sommes partielles s k=1 si k paire, s k=0 si k impaire.s_k=1 \mbox{ si }\ k\ \mbox{ paire, }\ s_k=0 \ \mbox{ si }\ k\ \mbox{ impaire}. Cette suite de sommes partielles, bien que bornée (les sommes partielles n’approchent pas \infty) ne converge pas. On dit encore une fois que la série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) est divergente.3
  5. Même si nous ne disposons pas de formule pour les sommes partielles s k= n=1 k1n 2s_k=\sum_{n=1}^k \frac{1}{n^2} il est possible de montrer que cette suite converge vers une limite finie. Nous verrons à la fin du semestre que lim ks k=π 26 \lim_{k\rightarrow \infty} s_k=\frac{\pi^2}{6} que nous pouvons aussi écrire n=1 1n 2=π 26. \sum_{n=1}^\infty \frac{1}{n^2}= \frac{\pi^2}{6}.

La remarque suivante, qui suit des propriétés de linéarité des suites, est souvent utile dans l’étude des séries.

Proposition 5 (Linéarité de la convergence des séries)   Soient ( nmu n)(\sum_{n\geq m} u_n) et ( nmv n)(\sum_{n\geq m} v_n) deux séries convergentes réelles ou complexes, de limites uu et vv respectivement. Alors pour tout λ,μ\lambda, \mu\in \mathbb{C}, la série ( nmλu n+μv n)(\sum_{n\geq m} \lambda u_n+\mu v_n) est convergente, avec limite λu+μv\lambda u+ \mu v.

Le cas des séries réelles à termes positifs est assez simple.

Lemme 6   Soit ( nmu n)(\sum_{n\geq m} u_n) une série réelle dont toutes les termes u nu_n sont positifs. Pour tout kmk\geq m soit s ks_k la somme partielle s k= m k+mu n.s_k=\sum_m^{k+m} u_n. Il y a alors deux possibilités
  1. la suite (s k) k0(s_k)_{k\geq 0} converge vers une limite finie ll. Autrement dit, la série ( nmu n)(\sum_{n\geq m} u_n) est convergente
  2. la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} tend vers ++\infty.

En effet la différence entre deux sommes partielles consécutives est un terme de la suite u nu_n donc est positif (s ks k1=u k+m0s_{k}-s_{k-1}= u_{k+m}\geq 0) donc la suite s ks_k est croissante. Si elle est majorée, elle converge vers une limite finie (toute suite croissante majorée est convergente). Sinon, elle n’est pas majorée et tend donc vers ++\infty.

Pour appliquer ce lemme, il sera utile de se ramener à des séries à termes positifs. On introduit la notion de série absolument convergente.

Définition 7   Soit ( nmu n)(\sum_{n\geq m} u_n) une série. On dit que ( nmu n)(\sum_{n\geq m}u_n) est absolument convergente si la série ( nm|u n|)(\sum_{n\geq m}|u_n|) est convergente.

On a le résultat suivant.

Proposition 8   Toute série absolument convergente est convergente.

Idée de la preuve (hors programme) : cela résulte de l’inégalité triangulaire sur les sommes partielles | n=m Mu n| n=m M|u n||\sum_{n =m}^M u_n| \leq \sum_{n = m}^M |u_n| Comme n|u n|\sum_n |u_n| est convergente, le terme de droite peut être rendu aussi petit que l’on veut pourvu que l’on choisisse mm assez grand. Cela permet d’établir rigoureusement la convergence de la suite des sommes partielles de u nu_n (c’est ce qu’on appelle une suite de Cauchy).

Attention : la réciproque de cette proposition est fausse : il existe des séries réelles convergentes qui ne sont pas absolument convergentes. Leur comportement est parfois surprenant – par exemple, en permutant les termes d’une telle série on peut la rendre divergente, ou la faire converger vers n’importe quel nombre réel. De plus ces séries convergent lentement, il faut calculer des sommes partielles à des rangs d’indice élevé pour avoir une valeur approchée de la somme. Les séries absolument convergentes sont donc plus intéressantes! Mais on n’a pas toujours le choix (par exemple certaines séries de Fourier).

Remarque 9   Le comportement de la série de terme général u n=(1) nu_n=(-1)^n, qui diverge sans tendre vers ++\infty, n’est possible que parce que certains termes de cette série sont negatifs.

Le critère de d’Alembert traite le cas des séries qui se comportent comme des séries géométriques.

Proposition 10   Soit u k\sum u_k une série telle que u k+1u k kλ\frac{u_{k+1}}{u_k}\rightarrow_{k\rightarrow \infty} \lambda. Si |λ|<1|\lambda| &lt;1 alors la série u k\sum u_k est absolument convergente. Si |λ|>1|\lambda| &gt;1 alors la série u k\sum u_k diverge.

Preuve :
Si |λ|>1|\lambda|&gt;1, le terme général de la série ne tend pas vers 0, donc elle diverge. Si |λ|<1|\lambda|&lt;1, on choisit ε>0\epsilon&gt;0 tel que |λ|+ε<1|\lambda|+\epsilon&lt;1 (par exemple ε=1|λ|2\epsilon=\frac{1-|\lambda|}{2}). Puis on applique la définition de la convergence de la suite |u n+1/u n||u_{n+1}/u_n| vers |λ||\lambda|, il existe un rang ll tel que n>l,|u n+1|/|u n||λ|+ε\forall n&gt;l, \quad |u_{n+1}|/|u_n|\leq |\lambda|+\epsilon Donc pour tout mnm\geq n, on a : |u m|(|λ|+ε) mn|u n||u_{m}| \leq (|\lambda|+\epsilon)^{m-n} |u_n| . Comme |λ|+ε<1|\lambda|+\epsilon &lt;1 la série m|u n|(λ+ε) mn=|u n| m(λ+ε) mn\sum_m |u_n| (\lambda+\epsilon)^{m-n}=|u_n| \sum_m (\lambda+\epsilon)^{m-n} converge. Comme |u m||u_m| est positive, la série ml|u m|\sum_{m\geq l} |u_m| converge.

Les séries à convergence de type géométrique convergent assez rapidement, ces séries sont très utiles pour calculer des valeurs approchées de fonctions trigonométriques, exponentielles, logarithmes etc. (cf. la section 2.2). Mais toutes les séries ne convergent pas aussi rapidement, par exemple les séries de Fourier qui seront abordées en fin de cours. Pour déterminer leur nature, on va utiliser un critère plus fin, le critère des équivalents.

Le lemme 6 entraîne le corollaire suivant.

Corollaire 11   Soient ( nmu n)(\sum_{n\geq m}u_n), ( nmv n)(\sum_{n\geq m}v_n) des séries avec un nombre fini de termes négatifs. Alors :
  1. Si u nv nu_n\leq v_n pour tout nn et ( nmv n)(\sum_{n\geq m} v_n) converge alors ( nmu n)(\sum_{n\geq m} u_n) converge aussi.
  2. Si u n nu nu_n\sim_{n\rightarrow \infty} u'_n alors la série ( nmu n)(\sum_{n\geq m} u_n) converge si et seulement si la série ( nmv n)(\sum_{n\geq m} v_n) converge aussi.

Preuve : Quitte à commencer la somme à un indice m>0m&gt;0, on peut supposer que toutes les termes des deux suites sont positifs.

  1. Soit (s k) k0(s_k)_{k\geq 0} la suite de sommes partielles de la série ( nmu n)(\sum_{n\geq m} u_n). Soit (t k) k0(t_k)_{k\geq 0} la suite de sommes partielles de la série ( nmv n)(\sum_{n\geq m} v_n). Puisque ( nmv n)(\sum_{n\geq m} v_n) converge, i.e. la suite (t k) k0(t_k)_{k\geq 0} converge, donc est majorée. Puisque u nv nu_n\leq v_n pour tout nn, s kt ks_k\leq t_k pour tout kk, donc la suite s ks_k est majorée. Par Lemme 6 il suit que la série ( nmu n)(\sum_{n\geq m} u_n) converge.
  2. Puisque u n nv nu_n\sim_{n\rightarrow \infty} v_n et u n,v n>0u_n, v_n&gt;0 il existe des nombres réels strictement positifs α,β\alpha, \beta tels que, pour tout nn, αv nu n. \alpha v_n\geq u_n. βu nv n. \beta u_n\geq v_n. Nous avons donc par (1) que ( nmu n) converge ( nmβu n) converge ( nmv n) converge . (\sum_{n\geq m} u_n )\mbox{ converge } \Rightarrow (\sum_{n\geq m} \beta u_n) \mbox{ converge }\Rightarrow (\sum_{n\geq m} v_n) \mbox{ converge }. De même ( nmv n) converge ( nmαv n) converge ( nmu n) converge . (\sum_{n\geq m} v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} \alpha v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} u_n) \mbox{ converge }.

Ceci termine la démonstration du Corollaire 11.

Exercice. Montrer que le Corollaire 11 est toujours valable lorsque : les deux séries sont à termes négatifs,

Remarque 12   Si la suite u nu_n ne comprend qu’un nombre fini de termes negatifs et la suite v nv_n satisfait v nu nv_n\sim u_n alors la suite v nv_n ne comprend qu’un nombre fini de termes negatifs. Il suffit donc de vérifier cette condition sur une seule des deux suites.

Vous avez étudié en 1ère année les developpements limités. Utilisant ces développements, il est très souvent possible de montrer qu’une suite donnée est équivalente à une suite de la forme (1n s) n1(\frac{1}{n^s})_{n\geq 1}.

Exemples

  1. Considérons u n=sin(1n)u_n=\sin(\frac{1}{n}). Nous avons que sin(1n)= n1n+o(1n),\sin\left(\frac{1}{n}\right)=_{n\rightarrow \infty} \frac{1}{n}+o\left(\frac{1}{n}\right), c’est à dire que sin(1n) n1n.\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n}.

  2. Considérons u n=e 1/n1u_n=e^{1/n}-1. Nous avons que e 1/n= n1+1n+o(1n)e^{1/n}=_{n\rightarrow \infty} 1+ \frac{1}{n} +o(\frac{1}{n}) et donc (e 1/n1)= n1n+o(1n)(e^{1/n}-1)=_{n\rightarrow \infty} \frac{1}{n} +o(\frac{1}{n}), c’est à dire e 1/n n1ne^{1/n} \sim_{n\rightarrow \infty} \frac{1}{n}.

  3. Considérons u n=cos(1n)1nu_n=\frac{\cos(\frac{1}{n}) -1}{n}. Nous avons que cos(1n)= n112n 2+o(1n 2)\cos(\frac{1}{n})=_{n\rightarrow \infty} 1-\frac{1}{2n^2}+ o(\frac{1}{n^2}) et donc cos(1n)1 n12n 2\cos(\frac{1}{n})-1\sim_{n\rightarrow \infty} \frac{-1}{2n^2}, d’ou il vient que cos(1n)1n n12n 3. \frac{\cos(\frac{1}{n}) -1}{n}\sim_{n\rightarrow \infty} \frac{-1}{2n^3}.

  4. Considérons u n=cos(1n)1sin(1n) n12n 21n=12n.u_n= \frac{ \cos(\frac{1}{n}) -1}{ \sin(\frac{1}{n})}\sim_{n\rightarrow \infty} \frac{\frac{-1}{2n^2}}{\frac{1}{n}} = \frac{-1}{2n}.

La corollaire 11 sera donc un outil très puissant pour établir la convergence des séries, à condition de savoir quand la série ( n>01n s) \left(\sum_{n&gt;0} \frac{1}{n^s}\right) converge.

Proposition 13 (Critère de Riemann.)   Pour tout nombre réel positif s>0s&gt;0 la suite infinie ( n11n s) \left(\sum_{n\geq 1} \frac{1}{n^s}\right) diverge si s1s\leq 1 et converge si s>1s&gt;1.

Preuve
On doit déterminer quand la suite de sommes partielles s k= n=1 k1n s s_k=\sum_{n=1}^k \frac{1}{n^s} converge. Puisque la suite (u n)(u_n) est à termes positifs il suffit par le lemme 6 de savoir quand la suite s ks_k est majorée. Nous allons faire cela par une téchnique très puissante : comparaison d’une somme avec une intégrale. Il y a en effet un lien fort entre l’intégrale 1 kf(x)dx\int_1^k f(x) dx et la somme n=1 kf(n)\sum_{n=1}^k f(n).

Illustration graphique de la nature identique de la convergence d’une série ou de l’intégrale correspondante pour une fonction décroissante telle que f(x)=1/xf(x)=1/x. En noir la somme des rectangles dont l’aire est une somme partielle de la série (car chaque rectangle a pour dimension horizontale 1 et verticale un des f(n)f(n)). On compare avec l’aire sous la courbe représentative de ff (en rouge), de deux façons, en prenant les rectangles à gauche ou à droite.

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_gauche); 

onload
Si l’aire des rectangles gauches noirs tend vers une limite finie, alors l’aire sous la courbe aussi (puisqu’elle est majorée par l’aire des rectangles).

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_droit); 

onload
Réciproquement, si l’aire sous la courbe tend vers une limite, l’aire des rectangles droits aussi. On calcule ensuite 1 k1t sdt=11(s1)k s1,s1\int_1^k \frac{1}{t^s} \ dt = 1-\frac{1}{(s-1)k^{s-1}}, \quad s\neq 1 et on fait tendre kk vers ++\infty, il y a convergence lorsque s>1s&gt;1. Attention au cas particulier s=1s=1, on a alors un logarithme qui ne tend pas vers une limite finie.

Une autre preuve plus formelle. Puisque s>0s&gt;0 pour tout xx tel que x[n,n+1]x\in [n, n+1] nous avons que 1n s1x s1(n+1) s. \frac{1}{n^s}\geq \frac{1}{x^s}\geq \frac{1}{(n+1)^s}. Il en suit que n n+11n sdx n n+11x sdx n n+11(n+1) sdx. \int_{n}^{n+1} \frac{1}{n^s} dx \geq \int_{n}^{n+1} \frac{1}{x^s} dx \geq \int_{n}^{n+1} \frac{1}{(n+1)^s} dx. cest à dire que pour tout entier positif nn nous avons que 1n s n n+11x sdx1(n+1) s. \frac{1}{n^s} \geq \int_n^{n+1} \frac{1}{x^s} dx \geq \frac{1}{(n+1)^s}. En sommant ces inégalités, nous obtenons que 1+12 s++1n s 1 21x sdx+ 2 31x sdx++ n n+11x sdx12 s+13 s+1(n+1) s. 1+\frac{1}{2^s}+\ldots+\frac{1}{n^s} \geq \int_1^2 \frac{1}{x^s} dx+\int_2^3 \frac{1}{x^s} dx+\ldots+ \int_n^{n+1} \frac{1}{x^s} dx\geq \frac{1}{2^s}+\frac{1}{3^s}+\ldots \frac{1}{(n+1)^s}. Autrement écrit n=1 k1n s 1 k+11x sdx n=2 k+11n s, \sum_{n=1}^k \frac{1}{n^s} \geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq \sum_{n=2}^{k+1}\frac{1}{n^s}, c’est à dire s k 1 k+11x sdxs kkk+1. s_k\geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq s_k-\frac{k}{k+1}. Re-organisant ces équations, nous obtenons que 1 k1x sdxs k 1 k1x sdx+1. \int_1^k \frac{1}{x^s} dx \leq s_k\leq \int_1^k \frac{1}{x^s} dx+1. Nous allons maintenant distinguer 3 cas, selon que ss est plus grand que, égale à ou plus petit que 11.

  1. Cas 1 : s>1s&gt;1. Nous avons alors que 1 kx sdx=[x 1s1s] 1 k=1k 1ss11s1.\int_1^k x^{-s} dx= \left[ \frac{x^{1-s}}{1-s}\right]_1^k =\frac{1-k^{1-s}}{s-1}\leq \frac{1}{s-1}. On a donc que pour tout kk s k1s1+1. s_k\leq \frac{1}{s-1}+1. La suite s ks_k est donc majorée et la série ( n11n s)(\sum_{n\geq 1} \frac{1}{n^s}) converge.
  2. Cas 2 : s=1s=1. Nous avons alors que 1 kx 1dx=[log(x)] 1 k=log(k) k.\int_1^k x^{-1} dx=[ \log (x)]_1^k= \log(k)\rightarrow_{k\rightarrow \infty} \infty. Nous avons donc que s klog(k)s_k\geq \log(k) pour tout kk : la suite s ks_k ne peut donc pas être majorée et par le lemma 6 la suite ( nm1n)(\sum_{n\geq m}\frac{1}{n}) doit diverger.
  3. Cas 3 : s<1s&lt;1. Pour tout entier positif nn nous avons alors que 1n s1n>0\frac{1}{n^s}\geq \frac{1}{n}&gt;0. Comme ( n11n)(\sum_{n\geq 1} \frac{1}{n}) ne converge pas, il résulte du Lemma 6 que ( n11n s) (\sum_{n\geq 1} \frac{1}{n^s}) ne converge pas non plus.

Ceci termine démonstration de la proposition 13

Exemples:
Les exemples qui suivent montrent à quel point l’attelage du Corollaire 11 avec la Proposition 13 est un outil puissant pour déterminer si des séries positives convergent ou divergent.

  1. Soit u n=sin(1n)u_n=\sin(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n1n.u_n\sim_{n\rightarrow \infty} \frac{1}{n}. Puisque la séries ( n11n)(\sum_{n\geq 1} \frac{1}{n}) diverge par la proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) diverge aussi.
  2. Soit u n=1cos(1n)u_n=1-\cos(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n12n 2u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2}. Puisque la série ( n11n 2)(\sum_{n\geq 1} \frac{1}{n^2}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  3. Soit u n=1cos(1n)nu_n= \frac{1-\cos(\frac{1}{n})}{\sqrt{n}}. Nous avons que u n n12n 2n=2n 52. u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2\sqrt{n}}= 2n^{-\frac{5}{2}}.

    Puisque la séries ( n11n 5/2)(\sum_{n\geq 1} \frac{1}{n^{5/2}}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  4. Soit u n=sin(1n)(e 1n1)u_n= \sin\left(\frac{1}{n}\right)\left(e^{\frac{1}{\sqrt{n}}}-1\right). Par les developpements limités, on a que sin(1n) n1n\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n} et e 1n1 nn 1/2.e^{\frac{1}{\sqrt{n}}}-1\sim_{n\rightarrow\infty} n^{-1/2}. Il en suit que u n n1n*n 1/2=n 3/2.u_n\sim_{n\rightarrow \infty} \frac{1}{n*n^{1/2}}= n^{-3/2}.

    Puisque la série ( n11n 3/2)(\sum_{n\geq 1} \frac{1}{n^{3/2}}) converge par la Proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.

2.2  Les séries et le calcul sur machine.

Les séries peuvent être utilisées dans les logiciels de calcul pour calculer des fonctions transcendantes (sinus, cosinus, exponentielle, logarithme...) ou spéciales que vous verrez peut-etre dans vos études (error function, fonctions de Bessel, de Airy, W de Lambert, etc.).

Un processeur est capable de faire des opérations arithmétiques de base4:

  1. addition, soustraction de deux nombres
  2. multiplication, division de deux nombres.

A l’aide de ces opérations, il s’agit de coder des fonctions plus avancées citées ci-dessus. Mais la plupart des fonctions qu’on souhaite calculer - cos, sin, exp, log et ainsi de suite - ne s’expriment pas exactement à l’aide de opérations de base + - * / d’ailleurs. Les seules fonctions qui peuvent ètre calculées exactement utilisant seulement ces opérations sont les fractions de polynomes : P(x)=a 0+a 1x+a 2x 2++a nx n P(x)= a_0+a_1 x+a_2x^2+\ldots +a_n x^n xx est une variable et a 0,,a na_0,\ldots, a_n sont des nombres.

Alors, comment faire pour faire calculer sin(x)\sin(x) (par exemple) à un ordinateur ? Il y a plusieurs méthodes : l’une d’elle utilise les séries de Taylor5. Voilà comment cela se passe dans le cas de la fonction sin(x)\sin(x).

  1. On applique la théorie de la série de Taylor pour écrire sin(x)\sin(x) comme une somme infinie de puissances de xx. En l’occurence, nous savons que sin(x)=xx 33!+x 55!x 77!+= n=0 (1) nx 2n+1(2n+1)!. \sin(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}-\frac{x^7}{7!}+\ldots= \sum_{n=0}^\infty \frac{(-1)^n x^{2n+1}}{(2n+1)!}. (Le lecteur pourra vérifier que la série converge en appliquant le critère de d’Alembert).
  2. Les sommes partielles s k(x)s_k(x) de cette séries de Taylor sont des polynômes et peuvent être calculées en utilisant seulement les opérations d’addition, multiplication, division. Dans le cas de sin(x)\sin(x) nous avons que s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!. s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!}.
  3. Pour kk assez grand le polynôme s k(x)s_k(x) sera une approximation acceptable pour sin(x)\sin(x). Attention : ici le kk “assez grand” dépendra de xx : plus xx sera petit, plus on pourra utiliser une valeur basse pour kk. On le voit sur la représentation graphique ci-dessous de la fonction sinus et des sommes partielles de la série de Taylor en 0.
S(n,x):=sum((-1)^k*x^(2*k+1)/(2*k+1)!,k,0,n);
plot([sin(x),S(1,x),S(2,x),S(3,x)],x,-2,2,color=[black,red,green,blue])

onload

La question plus difficile à laquelle il faudrait répondre est la suivante : si je cherche (par exemple) à calculer sin(2)\sin(2) à 10 310^{-3} près, quelle valeur de kk dois-je utiliser ? Pour minimiser le temps de calcul de la machine, il est souhaitable de prendre kk le plus petit possible.

L’erreur E k(x)E_k(x) que je commets lorsque j’approche sin(x)\sin(x) par s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!} est donnée par le formule6 E k(x)=(1) kx 2k+1(2k+1)!+. E_k(x)= \frac{(-1)^k x^{2k+1}}{(2k+1)!}+\ldots. On peut démontrer que des lors que x 2<(2k+2)(2k+3)x^2&lt; (2k+2)(2k+3) nous avons que |E k(x)||x 2k+3|(2k+3)! |E_k(x)|\leq \frac{|x^{2k+3}|}{(2k+3)!} Pour garantir que E k(x)E_k(x) est petit il suffit donc de s’assurer que |x| 2k+3/|(2k+3)!|x|^{2k+3}/|(2k+3)! est petit. Ici, comme on voudrait calculer sin(2)\sin(2) à 10 310^{-3} près, il suffit de trouver kk tel que 2 2k+3/(2k+3)!<10 32^{2k+3}/(2k+3)!&lt;10^{-3}. Des calculs nous donnent que 2 3/3!=4/3 2^3/3!=4/3 2 5/5!=4/15 2^5/5!= 4/15 2 7/7!=8/315 2^7/ 7!= 8/315 2 9/9!=4/2835 2^9/9!= 4/2835 2 11/11!=8/155925<10 3. 2^{11}/11!=8/ 155925&lt;10^{-3}.

Nous savons donc que les deux expressions sin(2),et22 3/3!+2 5/5!2 7/7!+2 9/9! \sin(2), \quad \mbox{et} \quad 2- 2^3/3!+2^5/5!-2^7/7!+2^9/9! diffèrent par moins de 10 310^{-3}.



Dans la pratique, on peut optimiser en utilisant les propriétés de la fonction sinus (périodicité, règles telles que sin(x)=cos(π2x)\sin(x)=\cos(\frac{\pi}{2}-x)) et se ramener à un argument plus proche de 0.


1
c’est à dire u 0=1u_0=1, u 1=1u_1=-1, u 2=1u_2=1, u 3=1u_3=-1 et ainsi de suite.
2
On aurait pu aussi remarquer que u n¬ n0u_n \not\rightarrow_{n\rightarrow \infty} 0 et donc cette série, par Remarque 3, ne converge pas.
3
De même, cette série ne peut pas converger par Remarque 3.
4
Aujourd’hui, les coprocesseurs arithmétiques sont capables de calculer les fonctions sinus, cosinus, exponentielles, etc. en décomposant le calcul en opérations arithmétiques de base
5
Une autre méthode populaire est l’algorithme CORDIC
6
La terme générale de la séries E k(x)E_k(x) a un coefficient 1(2k+1)!\frac{1}{(2k+1)!} qui devient très petit très vite, ce qui fait qu’il est typiquement possible de calculer sin(x)\sin(x) avec relativement peu de termes.

Chapitre 3  Rappels d’algèbre linéaire.

Nous avons vu dans le chapitre précedent comment on peut donner un sens à une somme infinie de nombres – mais notre but initial ne concernait pas les nombres, mais les fonctions. Nous voudrions prendre une fonction ϕ(x)\phi(x), définie sur une intervalle [0,L][0,L], et l’écrire comme une somme infinie de fonctions trigonométriques, dans l’espoir que cela nous permettra de résoudre l’équation de la chaleur avec condition initiale ϕ\phi.

Notons tout d’abord que la définition que nous avons donnée d’une somme infinie de nombres ne s’applique pas naturellement aux fonctions. En effet, la valeur d’une somme infinie s’exprime comme une limite d’une suite, et pouvoir parler de la limite d’une suite on a besoin d’une notion de distance - il faut pouvoir dire quand deux objets sont “proches”. Or, si cette notion est intuitive pour des nombres réels ou complexes, c’est beaucoup plus délicat de dire quand deux fonctions sont “proches” ou de définir une “distance” entre deux fonctions.

Mettons brièvement de côté cette difficulté. Si on nous donne une fonction ϕ\phi sur une intervalle [0,L][0,L], comment pourrait-on essayer d’écrire ϕ\phi comme une somme infinie de fonctions trigonométriques ? Une première idée pourrait être de calculer cette somme par approximations successives : pour chaque entier kk, on pourrait essayer de calculer S k(ϕ)S_k(\phi), qui serait le “meilleur approximant” de ϕ\phi, sous la forme a 0+a 1cos(πx/L)+a 2cos(2πx/L)++a kcos(kπx/L). a_0+ a_1\cos(\pi x/L)+a_2\cos(2\pi x/L)+\ldots + a_k\cos(k\pi x/L). Peut être qu’en prenant des valeurs de kk de plus en plus grandes, on trouvera des S k(ϕ)S_k(\phi), sommes trigonométriques finies, de plus en plus proches de ϕ\phi ? Peut être que lorsque kk tend vers \infty, les S k(ϕ)S_k(\phi) convergeront vers une somme infinie de fonctions trigonométriques dont le résultat est ϕ\phi ?

Cette idée d’écrire ϕ\phi comme une somme infinie de fonctions trigonométriques par approximations successives est séduisante, mais pose beaucoup de questions :

  1. Quel sens donner à une somme infinie de fonctions ?
  2. Qu’est ce que ça veut dire, quand on dit que deux fonctions sont “proches” ?
    Comment quantifier la “distance” entre deux fonctions ?
  3. Comment calculer effectivement cette “meilleure approximation” S k(ϕ)S_k(\phi) ?
  4. Qu’est ce que cela signifie quand on dit qu’une suite de fonctions converge vers une autre fonction ?

Nous avons déjà commencé dans le chapitre précedent à répondre à la question 1), au moins dans le cas simple qui est celui d’une somme infinie de nombres. Nous chercherons maintenant à comprendre ce que peut vouloir dire une “bonne approximation” pour des fonctions. En effet, le premier problème que l’on rencontre lorsqu’on essaie de résoudre ces deux équations par une méthode d’approximations successives est celui de définir ce qu’on veut dire par une “bonne approximation”, ou une “distance” entre deux fonctions.1

Nous allons en particulier regarder de près la question suivante :
Supposons donnée sur un intervalle [0,L][0,L] une fonction ff. Comment faire pour trouver la meilleure approximation pour ff de la forme S n(f)=a 0+ j=1 na jcos(jπx/L)+b jsin(jπx/L)? S_n(f)= a_0+ \sum_{j=1}^n a_j \cos{(j \pi x/L)}+b_j\sin{(j\pi x/L)}\; ? Si nous ne disposons pas actuellement d’une bonne notion de distance entre des fonctions2 il existe bien des espaces pour lesquels on connait une définition de distance. Ce sont les espace géométriques 2\mathbb{R}^2 et 3\mathbb{R}^3. De plus, dans ces espaces, il existe des algorithmes efficaces qui permettent, étant donnés un point xx et un plan ou droite SS, de calculer le point de SS le plus proche de xx.

Nous allons nous baser sur ce que nous savons sur 2\mathbb{R}^2 et 3\mathbb{R}^3 pour définir des distances entre fonctions (et plein d’autres choses). Dans ce chapitre, nous allons étudier la notion d’espace vectoriel, qui réunit (entre autres) les espaces géométriques et les espaces de fonctions.

3.1  Espaces vectoriels : définitions et exemples.

Définition 1   Un \mathbb{R}-espace vectoriel est un ensemble VV tel que la somme de deux éléments de VV est encore un élément de VV, le produit d’un réel (appelé scalaire réel) par un élément de VV est encore un élément de VV, et qui vérifie les propriétés habituelles des sommes et produits (x+y=y+xx+y=y+x, existence d’un élément nul, d’un opposé, distributivité du produit par rapport à la somme...).

Plus précisément, VV doit être muni d’une loi interne V×VV,(x,y)x+y,V\times V\to V,(x,y)\mapsto x+y, et d’une loi externe ×VV,(λ,x)λx,\mathbb{R}\times V\to V,(\lambda,x)\mapsto \lambda\cdot x, appelée parfois multiplication par un scalaire, satisfaisant aux propriétés suivantes:

  1. Il existe un élément 0 VV0_V\in V tel que 0 V+x=x+0 V=x0_V+x=x+0_V=x pour tout xVx\in V.
  2. x+(y+z)=(x+y)+zx+(y+z)=(x+y)+z pour tout x,yVx,y\in V
  3. x+y=y+xx+y=y+x pour tout x,yVx,y\in V
  4. Pour tout xVx\in V, il existe un élément xVx'\in V tel que x+x=x+x=0 Vx+x'=x'+x=0_V. Cet élément xx' est alors unique, et est noté x-x.
  5. 1x=x1\cdot x=x pour tout xMx\in M
  6. (λμ)x=λ(μx)(\lambda\mu)\cdot x=\lambda\cdot(\mu\cdot x) pour tout λ,μ,xV\lambda,\mu\in \mathbb{R},x\in V
  7. λ(x+y)=λx+λy\lambda\cdot (x+y)=\lambda\cdot x+\lambda\cdot y pour tout x,yV,λx,y\in V,\lambda\in \mathbb{R}
  8. (λ+μ)x=λx+μx(\lambda+\mu)\cdot x=\lambda\cdot x+\mu\cdot x pour tout xV,λ,μx\in V,\lambda,\mu\in \mathbb{R}.

Un \mathbb{C}-espace vectoriel est défini de manière analogue en remplaçant \mathbb{R} par \mathbb{C}, on peut donc multiplier un élément de VV par un complexe (un scalaire complexe).

Remarque 2   On écrira λx\lambda x pour λx\lambda \cdot x.

Exemples :

  1. n\mathbb{R}^n, l’espace de vecteurs colonnes X̲=(x 1 x 2 x n)\underline{X}=\begin{pmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{pmatrix} avec x ix_i\in \mathbb{R}, est un espace vectoriel réel. L’espace n\mathbb{C}^n de vecteurs colonnes complexes est un espace vectoriel complexe.
  2. [X]\mathbb{R}[X], l’espace de polynômes réels en une variable XX, est un espace vectoriel réel. De même, [Y]\mathbb{C}[Y], l’espace de polynômes complexes en une variable YY est une espace vectoriel complexe.
  3. n[X]\mathbb{R}_n[X], l’espace de polynômes réels en une variable XX de degré n\leq n, est un espace vectoriel réel. De même, n[Y]\mathbb{C}_n[Y], l’espace de polynômes complexes en une variable YY de degré n\leq n, est une espace vectoriel complexe.
  4. M n()\mbox{M}_n(\mathbb{R}), l’espace de matrices n×nn\times n à coefficients réels, est un espace vectoriel réel,
  5. Pour tout a<ba&lt;b\in \mathbb{R} l’espace C 0([a,b],)C^0([a,b],\mathbb{R}) de toutes les fonctions continues réelles sur l’intervalle [a,b][a,b], est un espace vectoriel réel.
  6. Pour tout a<ba&lt;b\in \mathbb{R} et tout entier i>0i&gt;0 l’espace C i([a,b],)C^i([a,b],\mathbb{C}) de toutes les fonctions ii-fois continument dérivables à valeurs dans les complexes sur l’intervalle [a,b][a,b], est un espace vectoriel complexe.

Dans la pratique, nous travaillerons souvent avec des espaces vectoriels qui sont inclus dans d’autres.

Définition 3   Soit VV un \mathbb{R}-espace vectoriel. Un sous-espace vectoriel WW de VV est un sous-ensemble de WVW\subset V contenant le vecteur nul de VV, tel que
  1. pour tout w 1,w 2Ww_1, w_2\in W nous avons que w 1+w 2Ww_1+w_2\in W
  2. pour tout w 1Ww_1\in W et λ\lambda\in \mathbb{R} nous avons que λw 1W\lambda w_1\in W

On montre que l’ensemble WW est bien un espace vectoriel avec l’addition et la multiplication héritées de VV.

Exercice 4   Montrer que les sous-ensembles suivants sont tous des sous-espaces vectoriels.
  1. L’ensemble de tous les (x,y) 2(x,y)\in \mathbb{C}^2 tels que x+y=0x+y=0.
  2. Un plan d’équation ax+by+cz=0ax+by+cz=0 (a,b,c)a,b,c\in\mathbb{R}) dans 3\mathbb{R}^3.
  3. L’ensemble {P[X]|P(1)=0}\{ P\in \mathbb{R}[X]| P(1)=0\} des polynômes qui s’annulent en 1 dans [X]\mathbb{R}[X].
  4. L’ensemble {MM n()| tM=M}\{ M\in M_n(\mathbb{C})| {}^tM= M\} des matrices symétriques dans M n()M_n(\mathbb{C}).
  5. L’ensemble de toutes les fonctions deux fois dérivables fC 2(,)f\in C^2(\mathbb{R},\mathbb{R}) telles que f=2ff''= -2f dans C 2(,)C^2(\mathbb{R},\mathbb{R}).

3.2  Bases et coordonnées.

Une notion clé dans ce qui suit sera la notion de base, qui permet de représenter un élément d’un espace vectoriel par un vecteur colonne.

Définition 1   Soit VV un espace vectoriel réel. Une famille ordonnée d’éléments de VV, e=(e 1,,e n){\bf e}=(e_1, \ldots, e_n) est une base (finie) pour VV si pour tout élément vVv\in V il existe un unique n-uplet de scalaires λ 1,λ 2,,λ n\lambda_1, \lambda_2, \ldots, \lambda_n tels que v=λ 1e 1+λ 2e 2++λ ne n. v= \lambda_1e_1+\lambda_2e_2+\ldots +\lambda_n e_n.
Définition 2   Avec les notations de la définition 1, nous dirons que le vecteur colonne (λ 1 λ 2 λ n) \begin{pmatrix}\lambda_1\\ \lambda_2 \\ \vdots \\ \lambda_n\end{pmatrix} est le vecteur des coordonnées de vv dans la base e{\bf e}.
Remarque 3 (Attention !)   Le vecteur de coordonnées de vv dans une base e{\bf e} dépend autant de la base e{\bf e} que du vecteur vv.
Remarque 4 (Notation)  Dans ce qui suit il sera très important de distinguer l’élément vv dans un espace vectoriel VV de dimension finie nn (qui peut être un vecteur colonne, ou une matrice, ou une fonction, ou un polynôme, ou plein d’autres choses) et le vecteur colonne V̲ n\underline{V}\in \mathbb{R}^n qui le représente dans une base donnée.

Pour bien distinguer ces deux objets, nous soulignerons systématiquement les noms des variables qui sont des vecteurs colonnes, et ne soulignerons pas ceux qui ne le sont pas.
Exemples 5  

  1. Les vecteurs (1 0 0),,(0 0 1)\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) ,\cdots,\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) forment une base de n\mathbb{R}^n, appelée la base canonique.

    Si
    (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) est un élément de n\mathbb{R}^n alors on peut écrire (x 1 x 2 x n)=x 1(1 0 0)++x n(0 0 1); \left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right)= x_1\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) +\cdots+ x_n\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) ; autrement dit, le vecteur de coordonnées de (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) dans la base canonique est (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right). Ceci est une source importante de confusion.
  2. Montrons que B=((1 1),(1 2))B=\left(\left(\begin{array}{c} 1\\ 1\end{array}\right), \left(\begin{array}{c} 1\\ 2\end{array}\right)\right) est une base de 2\mathbb{C}^2. Nous considérons pour un vecteur arbitraire (x y)\left(\begin{array}{c} x\\ y\end{array}\right) l’équation (x y)=λ 1(1 1)+λ 2(1 2) \left(\begin{array}{c} x\\ y\end{array}\right)= \lambda_1 \left(\begin{array}{c} 1\\ 1\end{array}\right)+ \lambda_2\left(\begin{array}{c} 1\\ 2\end{array}\right) c’est-à-dire x=λ 1+λ 2 x= \lambda_1+ \lambda_2 y=λ 1+2λ 2 y= \lambda _1+ 2\lambda_2 ce qui (après pivot de Gauss) nous donne l’unique solution λ 1=2xy,\lambda_1= 2x-y, λ 2=yx.\lambda_2= y-x. Cette famille est donc une base et le vecteur de coordonnées de (x y)\left(\begin{array}{c} x\\ y\end{array}\right) dans la base BB est (2xy yx). \left(\begin{array}{c} 2x-y\\ y-x\end{array}\right).
  3. La famille B=(1,X,,X n)B=(1,X,\ldots,X^n) forme une base de l’espace vectoriel [X] n\mathbb{R}[X]_n des polynômes à coefficients dans \mathbb{R} de degré au plus nn. Si P=a 0+a 1X+a nX nP= a_0+a_1X+\ldots a_n X^n est un élément de n[X]\mathbb{R}_n[X] alors son vecteur de coefficients dans la base BB est (a 0 a 1 a n). \left(\begin{array}{c} a_0\\ a_1\\ \vdots \\ a_n \end{array}\right).
  4. On considère M 2()M_2(\mathbb{C}), l’espace de matrices carrées complexes 2×22\times 2. Elle a une base B=((1 0 0 0),(0 1 0 0),(0 0 1 0),(0 0 0 1),)B=\left(\begin{pmatrix} 1 & 0\\ 0& 0 \end{pmatrix}, \begin{pmatrix} 0& 1\\ 0& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 1& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 0& 1\end{pmatrix}, \right) et dans cette base la matrice M=(a b c d)M=\begin{pmatrix}a & b\\ c& d\end{pmatrix} a pour vecteur de coefficients (a b c d)\begin{pmatrix}a \\ b\\ c\\ d\end{pmatrix}.
  5. On considère l’espace de fonctions réelles deux fois dérivables sur \mathbb{R} qui satisfont l’équation f=2ff''= -2f. Vous avez vu en L1 que cette espace est de dimension 2 et la famille (cos(2x),sin(2x))(\cos(\sqrt{2}x), \sin(\sqrt{2} x)) en est une base. Le vecteur de coordonnées de la fonction f=acos(2x)+bsin(2x)f=a\cos(\sqrt{2} x)+ b\sin(\sqrt{2}x) dans cette base est (a b)\begin{pmatrix}a\\ b\end{pmatrix}.
Définition 6   Lorsqu’un espace vectoriel VV possède une base finie on dit que VV est de dimension finie. Toutes les bases de VV ont alors le même nombre d’éléments (nous admettrons ce théorème) : ce nombre s’appelle la dimension de VV.
Exemples 7  
  1. L’espace n\mathbb{R}^n est de dimension nn.
  2. L’espace n[X]\mathbb{R}_n[X] est de dimension n+1n+1.
  3. L’espace M 2()M_2(\mathbb{R}) est de dimension 44.
Remarque 8   Tout sous-espace d’un espace de dimension finie est de dimension finie.

Le résultat suivant, que nous rappelons sans démonstration, sera souvent utilisé pour vérifier qu’une famille de vecteurs est une base.

Définition 9   Une famille de vecteurs (e 1,,e n)(e_1,\ldots, e_n) est libre si l’équation λ ie i=0 V\sum \lambda_i e_i=0_V d’inconnues λ 1,...,λ n\lambda_1,...,\lambda_n a pour unique solution λ 1=...=λ n=0\lambda_1=...=\lambda_n=0)
Lemme 10   Soit VV un espace vectoriel de dimension nn et soit (e 1,,e n)(e_1,\ldots, e_n) une famille de nn vecteurs dans VV. Si la famille (e 1,,e n)(e_1,\ldots, e_n) est libre alors elle est une base.

Les coordonnées d’un élément vVv\in V dans une base seront essentielles dans la suite, car elles nous permettront de ramener tous nos calculs à de simples multiplications de matrices. Il nous sera, d’ailleurs, souvent utile de simplifier nos calculs au maximum en choississant une base bien adaptée. Pour faire cela, il nous faut comprendre comment le vecteur V̲\underline{V} des coordonnées d’un élément vVv\in V dans une base e{\bf e} se transforme lorsqu’on change de base.

Définition 11   Soit VV un espace vectoriel de dimension nn et soient E=(e 1,,e n){\bf E}=(e_1, \ldots, e_n) et F=(f 1,,f n) {\bf F}=(f_1,\ldots, f_n) des bases de VV. Soit V̲ i\underline{V}_i le vecteur de coordonnés de f if_i dans la base E=(e 1,,e d){\bf E}=(e_1,\ldots, e_d). Alors, la matrice de passage de E{\bf E} vers F{\bf F} est la matrice P=(V̲ 1,,V̲ n).P=(\underline{V}_1,\ldots, \underline{V}_n).
Remarque 12   Cas particulier
Si
E{\bf E} est la base canonique de n\mathbb{R}^n, la matrice de passage PP est donnée par P=(f̲ 1,,f̲ n). P= (\underline{f}_1,\ldots, \underline{f}_n). C’est-à-dire que la première colonne de PP est formée par les composantes de f 1f_1, la deuxième colonne de PP par les composantes de f 2f_2, etc.

L’importance de la matrice de passage vient du théorème fondamental suivant, que nous rappelons :

Théorème 13   Soient B 1{\bf B_1} et B 2{\bf B_2} des bases de VV et soit vv un élément de VV. Soient V̲ 1\underline{V}_1 et V̲ 2\underline{V}_2 les vecteurs de coordonnés de vv dans les bases B 1{\bf B}_1 et B 2{\bf B}_2. Soit PP la matrice de passage de B 1B_1 vers B 2B_2. Alors V̲ 1=PV̲ 2 \underline{V}_1= P \underline{V}_2 ou, de façon équivalente V̲ 2=P 1V̲ 1 \underline{V}_2= P^{-1} \underline{V}_1
Remarque 14   Attention il faut multiplier par P 1P^{-1} (et pas PP) le vecteur colonne des composantes de vv dans la base B 1{\bf B_1} pour obtenir le vecteur colonnes des composantes de vv dans la base B 2{\bf B_2}.

Il y a une généralisation de la notion de base qui sera utile dans la démonstration d’un théorème ultérieur.

Définition 15   Soient V 1,,V mV_1,\ldots,V_m des sous-espaces vectoriels de VV. On dit que VV est la somme directe des sous-espaces V 1,,V mV_1,\ldots,V_m, et on écrit V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m, si et seulement si pour tout vVv\in V il existe des uniques éléments v 1V 1,,v mV mv_1\in V_1, \ldots, v_m\in V_m tels que v=v 1++v m.v=v_1+\ldots+v_m.

Le résultat suivant, que nous admettrons, sera aussi utile dans un résultat ultérieur:

Proposition 16   Si V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m et pour chaque ii nous avons que e i{\bf e}_i est une base de V iV_i alors la concatenation (e 1,e 2,,e m)({\bf e}_1, {\bf e}_2,\ldots, {\bf e}_m) est une base de VV.

3.3  Applications linéaires.

Considérons maintenant la classe des applications qui préservent la structure d’un espace vectoriel.

Définition 1   Soient VV et VV' deux \mathbb{R}-espaces vectoriels.

Une application linéaire de VV dans VV' est une application f:VVf: V\to V' vérifiant

  1. f(v 1+v 2)=f(v 1)+f(v 2)f(v_1+v_2)=f(v_1)+f(v_2) pour tous v 1,v 2Vv_1,v_2\in V (l’image de la somme est la somme des images)
  2. f(λv)=λf(v)f(\lambda v)=\lambda f(v) pour tous λ,vV\lambda\in \mathbb{R},v\in V (l’image du produit par λ\lambda est le produit par λ\lambda de l’image)

Dans le cas ou l’espace d’arrivée est \mathbb{R} on dira que ff est une forme linéaire.

Remarque 2  Pour toute application linéaire ff on a nécessairement f(0)=0f(0)=0.

Exemples :

  1. L’application 3 2\mathbb{R}^3\rightarrow \mathbb{R}^2 donnée par (x y z)(x y)\begin{pmatrix}x\\y\\z\end{pmatrix} \mapsto \begin{pmatrix}x\\y \end{pmatrix} est linéaire.
  2. L’application 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2 donnée par (x y z)(x y+1)\begin{pmatrix}x\\y\\z\end{pmatrix}\mapsto \begin{pmatrix}x\\y+1 \end{pmatrix} n’est pas linéaire.
  3. L’application C 1(,)C 0()C^1(\mathbb{R}, \mathbb{R})\mapsto C^0(\mathbb{R}\mathbb{R}), ff2ff\mapsto f'-2f est linéaire.
  4. L’application M n()M n()M_n(\mathbb{C}) \mapsto M_n(\mathbb{C}) donnée par M tMM\mapsto {}^tM est linéaire.
  5. L’application 3[X] 1[X]\mathbb{R}_3[X] \mapsto \mathbb{R}_1[X], PPP\mapsto P'', est une application linéaire.
Exercice 3   Démontrer que les applications 1, 3, 4, 5 sont bien linéaires et que 2 ne l’est pas.
Définition 4   Le noyau de ff, noté Ker(f)\mbox{Ker}(f), est l’ensemble Ker(f)={vVf(v)=0}(V).\mbox{Ker}(f)=\{ v\in V \mid f(v)=0\}(\subseteq V). C’est un sous-espace vectoriel de VV.
Définition 5   L’image de ff, notée Im(f)\mbox{Im}(f), est l’ensemble Im(f)={f(v),vV}V.\mbox{Im}(f)=\{ f(v), v\in V\}\subseteq V'. C’est un sous-espace vectoriel de VV'.

Exercices

  1. Montrer que le noyau et l’image d’une application linéaire sont des sous-espaces vectoriels.
  2. Calculer l’image et le noyau des applications linéaires données en exemple.
Définition 6   On appelle rang d’une application linéaire ff la dimension de son image Im(f)(f).

On rappelle le théorème du rang, dont nous aurons besoin dans une démonstration ultérieure.

Théorème 7   Soit f:VWf:V\rightarrow W une application linéaire. On suppose que VV est de dimension finie. Alors Im(f)\mbox{Im}(f) est de dimension finie et dim(V)=dim(Ker(f))+dim(Im(f)). \mbox{dim}(V)= \mbox{dim}(\mbox{Ker}(f))+\mbox{dim}(\mbox{Im}(f)).

3.4  Calcul Matriciel.

Dans cette section nous ferons des rappels sur les matrices et leurs manipulations. Celles-ci seront un élément clé de notre travail ce semestre.

Définition 1   Etant donnés deux entiers mm et nn strictement positifs, une matrice à mm lignes et nn colonnes est un tableau rectangulaire de réels A=(a i,j)A=(a_{i,j}). L’indice de ligne ii va de 11 à mm, l’indice de colonne jj va de 11 à nn. A=(a i,j)=(a 1,1 a 1,j a 1,n a i,1 a i,j a i,n a m,1 a m,j a m,n).A=(a_{i,j}) = \left( \begin{array}{ccccc} a_{1,1}&\cdots&a_{1,j}&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&a_{m,j}&\cdots&a_{m,n} \end{array} \right) \;. Les entiers mm et nn sont les dimensions de la matrice, a i,ja_{i,j} est son coefficient d’ordre (i,j)(i,j).

Notons qu’une matrice AA peut être précisée en donnant une expression pour ses coefficients a i,ja_{i,j} Par exemple, la matrice AA de taille 2×22\times 2 donnée par le formule a i,j=i+ja_{i,j}= i+j est la matrice A=(1+1 1+2 2+1 2+2)=(2 3 3 4).A= \begin{pmatrix} 1+1 & 1+2 \\ 2+1 & 2+2\end{pmatrix}= \begin{pmatrix} 2 & 3 \\ 3 & 4\end{pmatrix}.

L’ensemble des matrices à mm lignes et nn colonnes et à coefficients réels est noté m,n()\mathcal{M}_{m,n}(\mathbb{R}). Ce qui suit s’applique aussi, si on remplace \mathbb{R} par \mathbb{C}, à l’ensemble des matrices à coefficients complexes.

Notons trois cas spéciaux :

  1. Un vecteur de nn éléments peut s’écrire comme une vecteur colonne (x 1 x 2 x n)\begin{pmatrix}x_1\\x_2\\ \vdots \\ x_n\end{pmatrix} (matrice n×1n\times 1).
  2. Un vecteur de nn éléments peut s’écrire comme un vecteur ligne (x 1, x 2, , x n)\begin{pmatrix}x_1,&x_2,&\ldots, &x_n\end{pmatrix} (matrice 1×n1\times n).
  3. Un nombre réel xx peut être vu comme une matrice 1×11\times 1.

Du point de vue du calcul matriciel - en particulier lorsqu’il s’agit de faire des multiplications - un vecteur ligne ne se comporte pas comme un vecteur colonne. Nous ferons cette distinction en considérant, par exemple, que les vecteurs (1 2 3)et(1 2 3) \begin{pmatrix}1&2&3\end{pmatrix}\ \mbox{et}\ \begin{pmatrix}1\\ 2\\ 3\end{pmatrix} sont différents, même s’ils contiennent les mêmes nombres dans le même ordre. Toutefois certains logiciels, notamment Xcas, permettent de multiplier une matrice par un vecteur ligne, qui est alors remplacé par le vecteur colonne ayant les mêmes composantes.

Notation. Si X̲\underline{X} est un vecteur colonne à nn éléments, on notera le coefficient X̲ 1,i\underline{X}_{1,i} par X̲ i\underline{X}_i.

L’ensemble m,n()\mathcal{M}_{m,n}(\mathbb{R}) est naturellement muni d’une addition (on peut ajouter deux matrices de mêmes dimensions terme à terme) et de multiplication par des scalaires (on peut multiplier une matrice par un réel terme à terme).

  1. Addition : Si A=(a i,j)A=(a_{i,j}) et B=(b i,j)B=(b_{i,j}) sont deux matrices de m,n()\mathcal{M}_{m,n}(\mathbb{R}), leur somme A+BA+B est la matrice (a i,j+b i,j)(a_{i,j}+b_{i,j}). Par exemple : (1 1 2 3 1 1)+(3 1 5 3 0 2)=(2 2 7 0 1 1)\left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) + \left( \begin{array}{rr} -3&1\\ 5&-3\\ 0&2 \end{array} \right) = \left( \begin{array}{rr} -2&2\\ 7&0\\ 1&1 \end{array} \right)
  2. Multiplication par un scalaire : Si A=(a i,j)A=(a_{i,j}) est une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}), et λ\lambda est un réel, le produit λA\lambda A est la matrice (λa i,j)(\lambda a_{i,j}). Par exemple : 2(1 1 2 3 1 1)=(2 2 4 6 2 2)-2\, \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) = \left( \begin{array}{rr} -2&-2\\ -4&-6\\ -2&2 \end{array} \right)

Observons que ces opérations auraient le même effet si les matrices étaient disposées comme des mnmn-uplets de réels (toutes les lignes étant concaténées, par exemple)

Définition 2   (Matrice d’une application linéaire)
Soit
φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1=(e 1,...,e n)B_1=(e_1,...,e_n) dans un espace vectoriel V 2V_2 de base B 2=(f 1,..,f n)B_2=(f_1,..,f_n). On appelle matrice de φ\varphi dans les bases B 1B_1 et B 2B_2 la matrice dont les colonnes sont les composantes des images des vecteurs e 1,...,e ne_1,...,e_n de la base B 1B_1 dans la base B 2B_2.

Si V 1=V 2V_1=V_2 on choisit (presque toujours) B 1=B 2B_1=B_2.

Exemple
Soit l’application linéaire de 3\mathbb{R}^3 dans 2\mathbb{R}^2 qui a un vecteur x=(x 1,x 2,x 3)x=(x_1,x_2,x_3) associe le vecteur y=(x 1+2x 2x 3,3x 12x 3)y=(x_1+2x_2-x_3,3x_1-2x_3). Sa matrice dans les bases canoniques de 3\mathbb{R}^3 et 2\mathbb{R}^2 a pour première colonne les composantes de φ((1,0,0))=(1,3)\varphi((1,0,0))=(1,3), pour deuxième colonne les composantes de φ((0,1,0))=(2,0)\varphi((0,1,0))=(2,0) et pour troisième colonne les composantes de φ((0,0,1))=(1,2)\varphi((0,0,1))=(-1,-2) donc M=(1 2 1 3 0 2)M=\left(\begin{array}{ccc} 1 & 2 &-1\\ 3 & 0 & -2 \end{array}\right) On observe qu’on a en ligne les coefficients des coordonnées du vecteur image.

Applications : Noyau et image d’une application linéaire de matrice MM
Soit f:VVf: V \mapsto V' a pour matrice MM relativement à des bases BB et BB'. Pour calculer le noyau de ff, il faut résoudre le système linéaire de matrice MM. On réduit donc MM (en lignes) par l’algorithme du pivot de Gauss pour se ramener à une matrice triangulaire. Dans l’exemple ci-dessus, on remplace L 2L_2 par L 23L 1L_2-3L_1 ce qui donne la matrice M=(1 2 1 0 6 1)M=\left(\begin{array}{ccc} 1 & 2 &-1\\ 0 & -6 & 1 \end{array}\right) La deuxième équation donne 6y+z=0-6y+z=0 soit y=z/6y=z/6. Ensuite la première équation donne x+2yz=0x+2y-z=0 soit x=2y+z=2z/3x=-2y+z=2z/3. Donc (x,y,z)=z(2/3,1/6,1)(x,y,z)=z(2/3,1/6,1) et Ker(f)(f) est de dimension 1. Le théorème du rang donne alors que Im(f)(f) est de dimension 3-1=2, c’est donc 2\mathbb{R}^2 tout entier. Dans le cas général, les vecteurs colonnes de MM forment une famille génératrice de Im(f)(f). Il suffit de réduire MM en colonnes par l’algorithme du pivot de Gauss pour en extraire une base. N.B : La commande rref de Xcas permet de réduire une matrice de vecteurs lignes, il faut donc transposer la matrice MM, la réduire avec rref puis extraire les vecteurs lignes non nuls.

Les matrices de taille m×nm\times n peuvent agir sur des vecteurs colonnes de taille nn pour produire un vecteur de taille mm, par la formule suivante : (MX̲) i= j=1 nM i,jX̲ j. (M\underline{X})_i= \sum_{j=1}^n M_{i,j} \underline{X}_j. On peut vérifier la :

Proposition 3   Soit φ\varphi une application linéaire de V 1V_1 muni de la base B 1B_1 vers V 2V_2 muni de la base V 2V_2. Soit v 1V 1v_1 \in V_1 un vecteur de composantes X̲\underline{X} dans la base B 1B_1.

Alors les composantes de φ(V 1)\varphi(V_1) dans la base B 2B_2 sont données par MX̲M\underline{X}

Soit φ\varphi une application linéaire de V 1V_1 de base B 1B_1 dans V 2V_2 de base B 2B_2 et ψ\psi une autre application linéaire de V 2V_2 dans V 3V_3 de base B 3B_3. On peut montrer que la composée ψ(φ(.))\psi(\varphi(.)) est une application linéaire de V 1V_1 dans V 3V_3. Que se passe-t-il pour les matrices représentant ψ\psi, φ\varphi et la matrice de la composée ? On vérifie que la matrice de la composée s’obtient en faisant le produit matriciel des matrices de ψ\psi et φ\varphi

Définition 4   Soient m,n,pm,n,p trois entiers strictement positifs. Soit A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et soit B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). On appelle produit matriciel de AA par BB la matrice C m,p()C\in \mathcal{M}_{m,p}(\mathbb{R}) dont le terme général c i,kc_{i,k} est défini, pour tout i=1,,mi=1,\ldots,m et pour tout k1,,pk\in 1,\ldots,p par : c i,k= j=1 na i,jb j,k.c_{i,k} = \sum_{j=1}^n a_{i,j}\,b_{j,k}\;.

Nous insistons sur le fait que le produit ABAB de deux matrices n’est défini que si le nombre de colonnes de AA et le nombre de lignes de BB sont les mêmes (pour la composition des applications linéaires, ceci correspond au fait que l’espace vectoriel de départ de la deuxième application ψ\psi est le même que l’espace vectoriel d’arrivée de la première application φ\varphi, ils ont donc même dimension). Dans le cas particulier ou BB est un vecteur colonne de taille n×1n\times 1 cette opération nous fournit un vecteur colonne de taille m×1m\times 1. (b 1,1 b 1,k b 1,n b j,k b n,1 b n,k b n,p) (a 1,1 a 1,n a i,1 a i,j a i,n a m,1 a m,n) (c 1,1 c 1,p c i,k c m,1 c m,p)\begin{array}{cc} & \left( \begin{array}{ccccc} b_{1,1}&\cdots&b_{1,k}&\cdots&b_{1,n}\\ \vdots&&\vdots&&\vdots\\ &\cdots&b_{j,k}&\cdots&\\ \vdots&&\vdots&&\vdots\\ b_{n,1}&\cdots&b_{n,k}&\cdots&b_{n,p} \end{array} \right) \\ \left( \begin{array}{ccccc} a_{1,1}&\cdots&&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&&\cdots&a_{m,n} \end{array} \right) & \left( \begin{array}{ccccc} c_{1,1}&&\vdots&&c_{1,p}\\ &&\vdots&&\\ \cdots&\cdots&c_{i,k}&\ &\\ &&&&\\ c_{m,1}&&&&c_{m,p} \end{array} \right) \end{array} Posons par exemple : A=(1 1 2 3 1 1)etB=(0 1 1 2 3 2 0 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad\mbox{et}\quad B= \left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right)\;. La matrice AA a 3 lignes et 2 colonnes, la matrice BB a 2 lignes et 4 colonnes. Le produit ABAB a donc un sens : c’est une matrice à 3 lignes et 4 colonnes. (0 1 1 2 3 2 0 1)(1 1 2 3 1 1)=(3 1 1 1 9 4 2 1 3 3 1 3)\left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right) \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \ = \ \left( \begin{array}{rrrr} -3&-1&-1&-1\\ -9&-4&-2&-1\\ 3&3&-1&-3 \end{array} \right) Le produit matriciel a les propriétés habituelles d’un produit, à une exception notable près : il n’est pas commutatif

Proposition 5   Le produit matriciel possède les propriétés suivantes.
  1. Associativité : Si les produits ABAB et BCBC sont définis, alors les produits A(BC)A(BC) et (AB)C(AB)C le sont aussi et ils sont égaux. A(BC)=(AB)C.A(BC)=(AB)C\;.
  2. Linéarité à droite : Si BB et CC sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si AA a autant de colonnes que BB et CC ont de lignes, alors A(λB+μC)=λAB+μAC.A(\lambda B+\mu C) = \lambda AB+\mu AC\;.
  3. Linéarité à gauche : Si AA et BB sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si CC a autant de lignes que AA et BB ont de colonnes, alors (λA+μB)C=λAC+μBC.(\lambda A+\mu B)C = \lambda AC+\mu BC\;.

Ces propriétés se démontrent par le calcul à partir de la définition 4 ou en interprétant le produit comme une composition d’applications linéaires.

La transposition est une notion importante, dont la justification provient de la dualité, qui dépasse le cadre de ce cours.

Définition 6   Étant donnée une matrice A=(a i,j)A=(a_{i,j}) de m,n()\mathcal{M}_{m,n}(\mathbb{R}), sa transposée est la matrice de n,m()\mathcal{M}_{n,m}(\mathbb{R}) dont le coefficient d’ordre (j,i)(j,i) est a i,ja_{i,j}.

Pour écrire la transposée d’une matrice, il suffit de transformer ses lignes en colonnes. Par exemple : A=(1 1 2 3 1 1),tA=(1 2 1 1 3 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad,\quad {^t\!A}= \left( \begin{array}{rrr} 1&2&1\\ 1&3&-1 \end{array} \right)\;. Observons que la transposée de la transposée est la matrice initiale. t(tA)=A.{^t({^t\!A})} = A\;. La transposée d’un produit est le produit des transposées, mais il faut inverser l’ordre des facteurs.

Proposition 7   Soient m,n,pm,n,p trois entiers strictement positifs. Soient A=(a i,j)A=(a_{i,j}) une matrice de calM m,n(){\cal M}_{m,n}(\mathbb{R}) et B=(b j,k)B=(b_{j,k}) une matrice de calM n,p(){\cal M}_{n,p}(\mathbb{R}). La transposée du produit de AA par BB est le produit de la transposée de BB par la transposée de AA. t(AB)=tBtA.{^t(AB)} = {^t\!B}\,{^t\!A}\;.

Par exemple, en reprenant les matrices AA et BB définies ci-dessus : (1 2 1 1 3 1)(0 3 1 2 1 0 2 1)=(3 9 3 1 4 3 1 2 1 1 1 3)\left( \begin{array}{rrr} \;1&\quad2&1\\ \; 1&\quad 3&-1 \end{array} \right) \left( \begin{array}{rr} 0&-3\\ 1&-2\\ -1&0\\ -2&1 \end{array} \right) \ = \ \left( \begin{array}{rrr} -3&-9&3\\ -1&-4&3\\ -1&-2&-1\\ -1&-1&-3 \end{array} \right)

Définition 8  

Soit nn un entier strictement positif et AA une matrice carrée à nn lignes et nn colonnes. On dit que AA est symétrique si pour tous i,j=1,,ni,j=1,\ldots,n, ses coefficients d’ordre a i,ja_{i,j} et a j,ia_{j,i} sont égaux, ce qui est équivalent à dire que AA est égale à sa transposée.

Le produit d’une matrice par sa transposée est toujours une matrice symétrique. En effet : t(AtA)=t(tA)tA=AtA.{^t(A\,{^t\!A})} = {^t({^t\!A})}\,{^t\!A}=A\,{^t\!A}\;.

3.5  Matrices carrées

En général si le produit ABAB est défini, le produit BABA n’a aucune raison de l’être. Le produit d’une matrice par sa transposée est une exception, les matrices carrées en sont une autre : si AA et BB sont deux matrices à nn lignes et nn colonnes, les produits ABAB et BABA sont tous deux définis et ils ont les mêmes dimensions que AA et BB. En général ils ne sont pas égaux. Par exemple, (0 1 1 0)(0 1 1 0)=(1 0 0 1)(0 1 1 0)(0 1 1 0)=(1 0 0 1)\left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} 1&0\\ 0&-1 \end{array} \right) \qquad \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} -1&0\\ 0&1 \end{array} \right) Nous noterons simplement n()\mathcal{M}_n(\mathbb{R}) l’ensemble n,n()\mathcal{M}_{n,n}(\mathbb{R}) des matrices carrées à nn lignes et nn colonnes, à coefficients réels. Parmi elles la matrice identité, notée I nI_n, joue un rôle particulier. I n=(1 0 0 0 1 1 0 0 0 1)I_n= \left( \begin{array}{ccccc} 1&0&\cdots&\cdots&0\\ 0&1&\ddots&&\vdots\\ \vdots&\ddots&\ddots&\ddots&\vdots\\ \vdots&&\ddots&1&0\\ 0&\cdots&\cdots&0&1 \end{array} \right) En effet, elle est l’élément neutre du produit matriciel : pour toute matrice A n,m()A\in\mathcal{M}_{n,m}(\mathbb{R}), AI n=I mA=A.A\,I_n = I_m\,A = A\;. On le vérifie facilement à partir de la définition 4.

Définition 1   Soit AA une matrice de n\mathcal{M}_n. On dit que AA est inversible s’il existe une matrice de n\mathcal{M}_n, notée A 1A^{-1}, telle que AA 1=A 1A=I n.A\,A^{-1} = A^{-1}\,A = I_n\;.

Par exemple : (1 0 1 1 1 0 1 1 1)(1 1 1 1 2 1 0 1 1)=(1 1 1 1 2 1 0 1 1)(1 0 1 1 1 0 1 1 1)=(1 0 0 0 1 0 0 0 1)\left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&0&0\\ 0&1&0\\ 0&0&1 \end{array} \right) Observons que l’inverse, s’il existe, est nécessairement unique. En effet, soient B 1B_1 et B 2B_2 deux matrices telles que AB 1=B 1A=I nA\,B_1=B_1\,A=I_n et AB 2=B 2A=I nA\,B_2=B_2\,A=I_n. En utilisant l’associativité, le produit B 1AB 2B_1\,A\,B_2 vaut B 1(AB 2)=B 1I n=B 1B_1\,(A\,B_2)=B_1\,I_n=B_1, mais aussi (B 1A)B 2=I nB 2=B 2(B_1\,A)\,B_2=I_n\,B_2=B_2. Donc B 1=B 2B_1=B_2.

Nous rappelons la proposition suivante, qui nous dit qu’il suffit de trouver une matrice BB telle que AB=I nA\,B=I_n pour être sûr que AA est inversible et que son inverse est BB.

Proposition 2   Soit AA une matrice de n\mathcal{M}_n. Supposons qu’il existe une matrice BB telle que AB=I nA\,B=I_n ou bien BA=I nB\,A=I_n. Alors AA est inversible et B=A 1B=A^{-1}.

Si AA et BB sont deux matrices inversibles de n\mathcal{M}_n, leur produit est inversible.

Proposition 3   Soient AA et BB deux matrices inversibles de n()\mathcal{M}_n(\mathbb{R}). Le produit ABAB est inversible et son inverse est B 1A 1B^{-1}A^{-1}.

Preuve : Nous utilisons le théorème 2, ainsi que l’associativité du produit : (B 1A 1)(AB)=B 1(A 1A)B=B 1I nB=B 1B=I n.(B^{-1}A^{-1})(AB)=B^{-1}(A^{-1}A)B=B^{-1}I_nB=B^{-1}B=I_n\;.

L’inverse d’une matrice et la proposition 5 permettent de donner une formule de changement de base pour une application linéaire.

Proposition 4   Soit φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1B_1 vers un espace vectoriel V 2V_2 de base B 2B_2, de matrice MM relativement à ces bases B 1B_1 et B 2B_2. Soit B 1B_1' une autre base de V 1V_1 de matrice de passage P 1P_1 dans la base B 1B_1, et B 2B_2' une autre base de V 2V_2 de matrice de passage P 2P_2 dans la base B 2B_2. Alors la matrice MM' de φ\varphi relativement aux bases B 1B_1' et B 2B_2' est donnée par M=P 2 1MP 1M'=P_2^{-1} M P_1 Si V 1=V 2V_1=V_2 on prend B 1=B 2B_1=B_2 et B 1=B 2B_1'=B_2' donc P 1=P 2=pP_1=P_2=p et on a M=P 1MPM'=P^{-1}MP

Exemple
Dans 2\mathbb{R}^2, on considère la projection orthogonale sur la droite vectorielle engendrée par le vecteur v(1,1)v(1,1). On prend pour B 1=B 2B_1=B_2 la base canonique (e 1,e 2)(e_1,e_2) et pour B 1=B 2B_1'=B_2' la base formée par vv et un vecteur orthogonal w(1,1)w(1,-1).

gl_ortho=1;
e1:=vecteur(1,0); e2:=vecteur(0,1);
v:=vecteur(1,1,color=red); w:=vecteur(1,-1,color=green);
display(1/2*v,magenta); 
segment(1,i,color=cyan);

onload
L’image de vv est lui-même i.e. 1v+0w1v+0w, donc la première colonne de MM' est (1,0)(1,0). L’image de ww est le vecteur nul, donc M=(1 0 0 0)M'= \left(\begin{array}{cc} 1 & 0\\ 0 & 0 \end{array}\right) L’image du vecteur (1,0)(1,0) par la projection est 12v=(12,12)\frac{1}{2} v =(\frac{1}{2},\frac{1}{2}) de même pour (0,1)(0,1) donc les 2 colonnes de MM ont pour coordonnées (12,12)(\frac{1}{2},\frac{1}{2}) M=(12 12 12 12)M=\left(\begin{array}{cc} \frac{1}{2} & \frac{1}{2}\\ \frac{1}{2} & \frac{1}{2} \end{array}\right) La matrice de passage de B 1B_1' est (coordonnées de vv et ww en colonnes) P=(1 1 1 1)P=\left(\begin{array}{cc} 1 & 1\\ 1 & -1 \end{array}\right) Vérifions que M=P 1MPM'=P^{-1}MP.

Définition 5   On définit le rang d’une matrice MM comme étant la dimension du sous-espace vectoriel engendré par ses vecteurs colonnes. Il s’agit donc du rang de toute application linéaire ayant MM comme matrice.
Proposition 6   Multiplier une matrice à droite ou/et à gauche par une matrice inversible ne change pas son rang.

Cela résulte du fait que le produit de matrices correspond à la composition de deux applications linéaires et que composer avec une application linéaire inversible ne change pas le rang. En effet

Enfin, nous aurons parfois besoin du lemme suivant:

Lemme 7   Soit MM n()M\in M_n(\mathbb{R}) une matrice carrée n×nn\times n. Si pour tout X̲,Y̲ n\underline{X}, \underline Y\in \mathbb{R}^n nous avons que tX̲MY̲=0{}^t\underline{X} M \underline{Y}=0 alors M=0M=0.

Preuve : Soit pour tout ii le vecteur colonne e̲ i n\underline{e}_i\in \mathbb{R}^n défini par (e̲ i) j=1sii=j,0siij. (\underline{e}_i)_j= 1\ \mbox{si}\ i=j,\; 0\ \mbox{si}\ i\neq j. Alors pour tout 1i,jn1\leq i,j\leq n on a que te̲ iMe̲ j=M i,j=0{}^t\underline{e}_i M \underline{e}_j=M_{i,j}=0 et donc M=0M=0. Récrivons maintenant notre problème initial dans le language des espaces vectoriels. Nous considérons une fonction réelle continue ff, définie sur une intervalle [0,L][0,L]. Autrement dit, ff est un élément de l’espace vectoriel réel C 0([0,L],)=VC^0([0,L], \mathbb{R})=V. Nous voulons chercher une fonction g ng_n qui est de la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL) g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right) et qui doit être “aussi proche que possible” de ff.

Dans le langage des espaces vectoriels on pourrait écrire la chose suivante :

Soit WW le sous-espace de tous les éléments gVg\in V qui peuvent s’écrire sous la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right). WW est alors un sous-espace vectoriel de VV (exercice : démontrez-le !): de plus, WW est de dimension finie et admet pour base finie la famille e=(1,cosπxL,sinπxL,,cosnπxL,sinnπxL). {\bf e}=( 1, \cos{\frac{\pi x}{L}},\sin{\frac{\pi x}{L}}, \ldots, \cos{ \frac{n\pi x}{L}}, \sin{\frac{n\pi x}{L}}). Nous cherchons à identifier un élément gWg\in W qui est “le plus proche que possible” de fVf\in V.

Notre problème initial est donc un exemple particulier du problème suivant :

Question. J’ai un espace vectoriel VV et un élément vVv\in V. Il y a dans VV un sous-espace spécial de dimension finie WVW\subset V. Je veux approcher au mieux vv par un élément wWw\in W. Comment faire ? Et tout d’abord, qu’est ce que ça veut dire “approcher au mieux” ?

Dans les deux prochains chapitres, nous aborderons surtout la question : qu’est ce que ça veut dire “approcher au mieux” ?


1
Nous serons particulièrement attentifs à la question de l’approximation d’une fonction quelconque par des sommes de fonctions trigonométriques sin(nπx)\sin(n\pi x) et cos(nπx)\cos(n\pi x), puisque ces fonctions, qui représentent mathématiquement les phénomènes physiques ondulatoires, occupent une place très importante dans les mathématiques au service de la physique.
2
Et encore moins d’un algorithme permettant de calculer ce “meilleur approximant” pour une fonction donnée...

Chapitre 4  Formes bilinéaires.

4.1  Le produit scalaire canonique sur 3\mathbb{R}^3.

Dans le chapitre précedent, nous avons étudié la notion d’espace vectoriel. Cette notion est utile parce qu’elle englobe à la fois des espaces géométriques tels que 2\mathbb{R}^2 et 3\mathbb{R}^3 et des espaces de fonctions tels que n[X]\mathbb{R}_n[X] et C 0([0,1],)C^0([0,1], \mathbb{R}). Notre but est maintenant d’utiliser cette notion pour étendre des idées géométriques (distance et angle, par exemple) à des espaces de fonctions. Pour faire cela, il nous sera nécessaire d’identifier une formule purement algébrique qui permet de calculer distances et angles dans 3\mathbb{R}^3, faisant intervenir le produit scalaire canonique sur 3\mathbb{R}^3.

Définition 1   Le produit scalaire canonique sur 3\mathbb{R}^3 est la fonction de deux vecteurs X̲=(x 1 x 2 x 3)\underline{X}=\begin{pmatrix} x_1\\x_2\\x_3\end{pmatrix} et Y̲=(y 1 y 2 y 3)\underline{Y}=\begin{pmatrix} y_1\\y_2\\y_3\end{pmatrix} X̲,Y̲X̲,Y̲ \underline{X}, \underline{Y} \rightarrow \langle \underline{X}, \underline{Y}\rangle donnée par X̲,Y̲=x 1y 1+x 2y 2+x 3y 3\langle \underline{X}, \underline {Y}\rangle= x_1y_1+x_2y_2+x_3y_3.

Le produit scalaire canonique est donc une fonction de deux vecteurs donnée par une formule simple sur les coordonnées des vecteurs. Il tire son intérêt du fait qu’il encode la géométrie de l’espace 3\mathbb{R}^3.

Théorème 2   Soient X̲\underline{X} et Y̲\underline{Y} deux vecteurs dans 3\mathbb{R}^3, soit dd la distance entre elles et soit θ\theta l’angle entre ces deux vecteurs. On a : d=X̲Y̲,X̲Y̲,θ=arccos(X̲,Y̲X̲,X̲Y̲,Y̲). d= \sqrt{\langle \underline{X}-\underline{Y}, \underline{X}-\underline{Y}\rangle}, \quad \theta= \arccos\left(\frac{\langle\underline{X},\underline{Y}\rangle} {\sqrt{\langle\underline{X},\underline{X}\rangle\langle\underline{Y},\underline{Y}\rangle}}\right).

Il existe donc une formule qui permet de calculer la distance et l’angle entre deux vecteurs utilisant seulement le produit scalaire. Nous allons donc essayer de définir des classes de fonctions sur des espaces vectoriels qui ressemblent au produit scalaire sur 3\mathbb{R}^3 dans l’espoir qu’elles nous livront une bonne notion de “distance”.

Une des propriétés clés du produit scalaire est qu’il se comporte effectivement comme un produit sous les opérations algèbriques de base sur les vecteurs, c’est-à-dire qu’on a, pour tout X̲,Y̲,Z̲ 3\underline{X}, \underline{Y},\underline{Z}\in \mathbb{R}^3 et pour tout λ\lambda\in \mathbb{R}

  1. X̲+Y̲,Z̲=X̲,Z̲+Y̲,Z̲\langle\underline{X}+\underline{Y}, \underline{Z} \rangle=\langle\underline{X},\underline{Z}\rangle+\langle\underline{Y},\underline{Z}\rangle
  2. X̲,Y̲+Z̲=X̲,Y̲+X̲,Z̲\langle\underline{X},\underline{Y}+\underline{Z}\rangle=\langle\underline{X},\underline{Y}\rangle+\langle\underline{X},\underline{Z}\rangle
  3. X̲,λY̲=λX̲,Y̲=λX̲,Y̲\langle\underline{X},\lambda \underline{Y}\rangle=\langle\lambda \underline{X},\underline{Y}\rangle= \lambda \langle\underline{X},\underline{Y}\rangle

Nous allons donc commencer par étudier les fonctions de deux vecteurs qui respectent ces conditions.

4.2  Formes bilinéaires : définitions et exemples.

Dans cette section, de nouveau, nous présenterons la théorie des formes bilinéaires réelles, mais tous nos résultats seront valables pour des formes complexes.

Définition 1   Soient VV un \mathbb{R}-espace vectoriel, et soit φ\varphi une fonction de 2 variables de VV à valeur dans \mathbb{R}.

On dit que φ:V×V\varphi :V\times V\to \mathbb{R} est une forme bilinéaires’il se comporte comme un produit, i.e. :

  1. pour tout v 1,v 2Vv_1, v_2\in V et vVv\in V nous avons que φ(v 1+v 2,v)=φ(v 1,v)+φ(v 2,v)\varphi(v_1+v_2, v)= \varphi(v_1, v)+\varphi(v_2,v)
  2. pour tout vVv\in V et v 1,v 2Vv_1, v_2 \in V nous avons que φ(v,v 1+v 2)=φ(v,v 1)+φ(v,v 2)\varphi(v, v_1+v_2)= \varphi(v, v_1)+\varphi(v,v_2)
  3. pour tout vVv\in V, vVv'\in V et λ\lambda\in \mathbb{R} nous avons que φ(λv,v)=φ(v,λv)=λφ(v,v)\varphi(\lambda v, v')= \varphi(v, \lambda v') =\lambda \varphi(v,v').

On dit que φ\varphi est symétrique si φ(y,x)=φ(x,y)\varphi(y,x)=\varphi(x,y) pour tout x,yVx,y\in V,
On dit que
φ:V×V\varphi:V\times V\to \mathbb{R} est antisymétrique si φ(y,x)=φ(x,y)\varphi(y,x)=-\varphi(x,y) pour tout x,yVx,y\in V.

Remarque :
On utilise le terme forme parce que la valeur de φ\varphi est un réel. Le terme bilinéraire vient du fait que si on fixe un des arguments, on a une application linéaire par rapport à l’autre argument.

Exemples :

  1. L’application φ:{× (x,y) xy\varphi: \ \left\{ \begin{array}{ccc} \mathbb{R}\times \mathbb{R} & \to & \mathbb{R}\\ (x,y) & \mapsto & xy \end{array} \right. est une forme bilinéaire symétrique.
  2. Le produit scalaire φ: n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\varphi: \ \mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \quad \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n \end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i est une forme bilinéaire symétrique. Lorsque n=2n=2 ou 33, on retrouve le produit scalaire étudié ci-dessus. Nous appelons cette forme le produit scalaire canonique sur n\mathbb{R}^n.
  3. L’application qui à deux polynômes PP et QQ associe le produit P(0)Q(1)P(0)Q(1) φ:{[X]×[X] (P,Q) P(0)Q(1)\varphi: \ \left\{ \begin{array}{ccc} \mathbb{C}[X]\times\mathbb{C}[X] & \to &\mathbb{C}\\ (P,Q) &\mapsto & P(0)Q(1) \end{array} \right. est une forme bilinéaire. Elle n’est pas symétrique et n’est pas antisymétrique.
  4. L’application qui à deux matrices carrées MM et NN associe la trace du produit des deux matrices φ:{M n()×M n() (M,N) tr(MN)\varphi: \ \left\{ \begin{array}{ccc} \M_n(\mathbb{R})\times \M_n(\mathbb{R}) &\to &\mathbb{R} \\ (M,N) &\mapsto & \mbox{tr}(MN) \end{array} \right. est une forme bilinéaire symétrique.
  5. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to \mathbb{R}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_2-x_2y_1 est bilinéaire et antisymétrique.
  6. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1x 2+2x 1y 2\varphi:\mathbb{C}^2\times \mathbb{C}^2\to \mathbb{C}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1x_2+2x_1y_2 n’est pas bilinéaire.
    En effet, posons U̲=(x 1 x 2),V̲=(y 1 y 2)\underline{U}=\left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \underline{V}=\left(\begin{array}{c}y_1 \\ y_2\end{array}\right). On a φ(λU̲,V̲)=(λx 1)(λx 2)+2(λx 1)y 2=λ 2x 1x 2+2λx 1y 2λφ(U̲,V̲).\varphi(\lambda \underline{U}, \underline{V})=(\lambda x_1)(\lambda x_2)+2(\lambda x_1)y_2= \lambda^2 x_1x_2+2\lambda x_1y_2\neq \lambda \varphi(\underline{U},\underline{V}).
  7. L’application qui associe à deux fonctions continues ff et gg l’intégrale de leur produit sur [0,1][0,1] φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow & \mathbb{R} \\ (f,g) & \rightarrow & \int_0^1 f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.
  8. Pour toute fonction continue p:[0,1]p:[0,1]\rightarrow\mathbb{R}, l’application φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1p(x)f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow &\mathbb{R}\\ (f,g) & \rightarrow & \int_0^1 p(x) f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.

Un cas particulier intéressant est celui ou on applique une forme bilinéaire à deux vecteurs identiques.

Définition 2   Soit VV un espace vectoriel sur \mathbb{R} et soit φ\varphi une forme bilinéaire symétrique sur VV. Alors la forme quadratique associée à φ\varphi, notée q φq_\varphi, est la fonction définie sur VV par q φ(v)=φ(v,v)q_\varphi(v)=\varphi(v,v)

La forme quadratique associée à une forme bilinéaire est un analogue de la fonction carrée d’un nombre réel, ou de la norme de vv au carré (v 2\|v\|^2) quand vv est un vecteur dans 2\mathbb{R}^2 ou 3\mathbb{R}^3. Les formules suivantes (dites “formule de polarisation” et “formule du parallélogramme”) permettent de rétrouver une forme bilinéaire symétrique à partir de la forme quadratique associée.

Lemme 3   Soit VV un espace vectoriel, φ\varphi une forme bilinéaire sur V×VV\times V et q φq_\varphi la forme quadratique associée. Alors pour tout v,wVv,w\in V on a φ(v,w)=12(q φ(v+w)q φ(v)q φ(w))\varphi(v,w)= \frac{1}{2}(q_\varphi(v+w)-q_\varphi(v)-q_\varphi(w)) q φ(v+w)+q φ(vw)=2(q φ(v)+q φ(w)).q_\varphi(v+w)+q_\varphi(v-w)= 2(q_\varphi(v)+q_\varphi(w)).

La démonstration de ce lemme est laissée en exercice.

Remarque :
Ces formules sont les généralisations des relations suivantes sur \mathbb{R} : xy=12((x+y) 2x 2y 2). xy= \frac{1}{2}((x+y)^2-x^2-y^2). (x+y) 2+(xy) 2=2(x 2+y 2). (x+y)^2+ (x-y)^2= 2(x^2+y^2).

4.3  Formes bilinéaires : représentation matricielle.

Nous allons maintenant définir la matrice d’une forme bilinéaire dans une base, qui va nous permettre, modulo le choix d’une base, de réduire les calculs faisant intervenir des formes bilinéaires sur des espaces de dimension finie à des multiplications de matrices.

Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. La matrice de φ\varphi dans la base e est la matrice n×nn\times n, MM, dont les coefficients sont donnés par M i,j=(φ(e i,e j)) 1i,jn.M_{i,j}=(\varphi(e_i,e_j))_{1\leq i,j\leq n}.
Lemme 2   Soit VV un espace vectoriel de dimension finie nn, soient x,yVx,y\in V, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, notons X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix} et Y=(y 1 y n)Y= \begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix} les vecteurs coordonnées de xx et yy dans la base e (autrement dit x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit MM la matrice de φ\varphi dans la base e{\bf e}. Alors on a φ(x,y)= tX̲MY̲= i,jφ(e i,e j)x iy j.\varphi(x,y)={}^t\underline{X}M\underline{Y}=\sum_{i,j}\varphi(e_i,e_j)x_iy_j.

Preuve : On a φ(x,y)=φ( i=1 nx ie i, j=1 ny je j)= j=1φ( i=1 nx ie i,y je j)= j=1y jφ( i=1 nx ie i,e j),\varphi(x,y)=\varphi(\sum_{i=1}^n x_i e_i,\sum_{j=1}^n y_j e_j)=\sum_{j=1}\varphi(\sum_{i=1}^n x_i e_i,y_j e_j)=\sum_{j=1}y_j \varphi(\sum_{i=1}^n x_i e_i,e_j), puisque φ\varphi est linéaire en yy. Or on a aussi φ( i=1 nx ie i,e j)= i=1 nφ(x ie i,e j)= i=1 nx iφ(e i,e j).\varphi(\sum_{i=1}^n x_i e_i,e_j)=\sum_{i=1}^n \varphi(x_i e_i,e_j)=\sum_{i=1}^n x_i\varphi(e_i,e_j). Ainsi, on obtient φ(x,y)= j=1 ny j( i=1 nx iφ(e i,e j))= i,jφ(e i,e j)x iy j.\varphi(x,y)=\sum_{j=1}^n y_j(\sum_{i=1}^n x_i\varphi(e_i,e_j))=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

On a aussi MY̲=( j=1 nφ(e i,e j)y j ),M\underline{Y}=\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right), et donc tX̲BY̲=( x i )( j=1 nφ(e i,e j)y j )= i,jx iφ(e i,e j)y j= i,jφ(e i,e j)x iy j.{}^t\underline{X}B\underline{Y}=\left(\begin{array}{ccc}\cdots & x_i& \cdots \end{array}\right)\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right)=\sum_{i,j} x_i\varphi(e_i,e_j)y_j=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

Corollaire 3   Soit VV un espace vectoriel de dimension finie nn. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Les propositions suivantes sont équivalentes.
  1. φ\varphi est symétrique
  2. Pour tout base e de VV, la matrice MM de φ\varphi dans la base e est symétrique.
  3. Il existe une base e de VV telle que la matrice MM de φ\varphi dans la base e est symétrique.

Preuve : Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit e une base de VV.

Si φ\varphi est symétrique, alors on a φ(e i,e j)=φ(e j,e i)pour touti,j,\varphi(e_i,e_j)=\varphi(e_j,e_i)\ \mbox{pour tout}\ i,j, et ceci s’écrit matriciellement tM=M{}^tM=M, par définition de la matrice de φ\varphi. On a donc (1)(2)(1)\Rightarrow (2). L’implication (2)(3)(2)\Rightarrow (3) étant claire, il reste à montrer (3)(1)(3)\Rightarrow (1).

Supposons qu’il existe une base e de VV telle que MM est symétrique. Soient x,yVx,y\in V, et soient X̲,Y̲\underline{X}, \underline{Y} leurs vecteurs de coordonnées dans la base e{\bf e}. On a alors que φ(x,y)= tX̲MY̲ \varphi(x,y)= {}^t\underline{X} M \underline{Y} Le membre de droit est une matrice 1×11\times 1 : elle est donc égale à sa propre transposée et on a φ(x,y)= tX̲MY̲= t( tX̲MY̲)= tY̲ tMX̲= tY̲MX̲=φ(y,x) \varphi(x,y)= {}^t\underline{X} M \underline{Y}= {}^t({}^t\underline{X} M \underline{Y})= {}^t \underline{Y}{}^t M \underline{X}= {}^t\underline{Y}M \underline{X}= \varphi(y,x) CQFD.

Le lemme précédent admet une réciproque, bien utile pour démontrer qu’une application est bilinéaire et donner sa matrice représentative dans une base fixée.

Lemme 4   Soit VV un \mathbb{R}-espace vectoriel de dimension finie, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Pour tout a ij,1i,jna_{ij}\in \mathbb{R}, 1\leq i,j\leq n, l’application φ:{V×V ( i=1 nx ie i, j=1 ny je j) 1i,jna ijx iy j\varphi:\ \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R} \\ (\sum_{i=1}^n x_ie_i,\sum_{j=1}^n y_je_j) & \mapsto & \sum_{1\leq i,j\leq n} a_{ij}x_iy_j \end{array}\right. est une forme bilinéaire, dont la matrice AA dans la base e est donnée par A ij=(a ij).A_{ij}=(a_{ij}).

Exemples

  1. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 1+x 2y 2+3x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \left(\left(\begin{array}{cc}x_1 \\ x_2\end{array}\right),\left(\begin{array}{cc}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_1+x_2y_2+3x_1y_2-x_2y_1 est bilinéaire, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est M=(1 3 1 1).M=\left(\begin{array}{cc} 1 & 3 \\ -1 & 1\end{array}\right).
  2. Considérons l’application qui à deux polynomes de degré inférieurs ou égaux à 2 associe le produit de leur valeur en 1 et 0 φ: 2[X]× 2[X],(P,Q)P(1)Q(0).\varphi: \mathbb{R}_2[X]\times \mathbb{R}_2[X]\to \mathbb{R}, (P,Q)\mapsto P(1)Q(0). On peut vérifier directement que φ\varphi est bilinéaire, mais on peut aussi utiliser la remarque précédente. Pour cela, considérons la base 1,X,X 21,X,X^2 de 2[X]\mathbb{R}_2[X]. On écrit P=x 1+x 2X+x 3X 2,Q=y 1+y 2X+y 3X 2.P=x_1+x_2X+x_3 X^2, Q=y_1+y_2X+y_3X^2. On vérifie alors que φ(P,Q)=x 1y 1+x 2y 1+x 3y 1\varphi(P,Q)=x_1y_1+x_2y_1+x_3y_1. Donc φ\varphi est bilinéaire et sa matrice représentative dans la base 1,X,X 21,X,X^2 est M=(1 0 0 1 0 0 1 0 0).M=\left(\begin{array}{ccc} 1 & 0& 0 \\ 1 & 0& 0\\ 1& 0& 0\end{array}\right).

Regardons maintenant ce qui se passe lorsque l’on effectue un changement de base.

Proposition 5   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soient e{\bf e} et e{\bf e'} deux bases de VV, et soit PP la matrice de passage de la base e{\bf e} à la base e{\bf e}' (c’est-à-dire colonne par colonne la matrice des coordonnées des vecteurs de e{\bf e'} dans la base e). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, soit MM sa matrice dans la base e{\bf e} et soit NN sa matrice dans la base e{\bf e'}. Alors on a N= tPMP.N={}^tPMP.

Preuve : Soient x,yVx,y\in V, soient X̲,Y̲\underline{X}, \underline{Y} leur vecteurs de coordonnées dans la base e{\bf e} et soient X̲,Y̲\underline{X}', \underline{Y}' leurs coordonnées dans la base e{\bf e'}. On a alors X̲=PX̲\underline{X}= P\underline{X}' et Y̲=PY̲ \underline{Y}= P\underline{Y}' pour tout x,yx,y et donc φ(x,y)= tX̲MY̲= t(PX̲)MPY̲= tX̲ tPMPY̲= tX̲NY̲. \varphi(x,y)= {}^t \underline{X}M \underline Y= {}^t(P\underline{X}') M P\underline{Y}'= {}^t\underline{X}'{}^tP MP \underline{Y}'={}^t\underline{X}'N\underline{Y}'. c’est à dire que N= tPMPN= {}^t P MP par 7.

Nous sommes prêts à définir la notion de rang.

Définition 6   Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Le rang de φ\varphi est le rang de n’importe quelle matrice représentative de φ\varphi dans une base de VV.

Le rang est bien défini et ne dépend pas de la base choisie d’après la proposition précédente et la proposition 6.

4.4  Orthogonalité.

Les expressions permettant de calculer φ(x,y)\varphi(x,y) peuvent se simplifier grandement lorsque la base e est adaptée. Par exemple, il est souvent utile de se débarasser des termes croisés lorsque c’est possible. On introduit pour cela la notion d’orthogonalité.

Définition 1   Soit VV un espace vectoriel de dimension nn sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique.

On dit que deux vecteurs x,yVx,y\in V sont φ\varphi-orthogonaux si φ(x,y)=0\varphi(x,y)=0.

On le note xφyx\underset{\varphi}{\perp} y, ou xyx\perp y s’il n’y a pas de confusion possible.

On dit que la base e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est φ\varphi-orthogonale si les vecteurs de la base sont φ\varphi-orthogonaux deux à deux, c’est-à-dire si on a φ(e i,e j)=0 pour tout ij.\varphi(e_i,e_j)=0\mbox{ pour tout }i\neq j.

Lemme 2   La base e{\bf e} est φ\varphi-orthogonale si et seulement si MM, la matrice de φ\varphi dans la base e{\bf e}, est diagonale.

Preuve : La base e{\bf e} est φ\varphi-orthogonale \Leftrightarrow φ(e i,e j)=0\varphi(e_i, e_j)=0 si iji\neq j \Leftrightarrow M i,j=0M_{i,j}=0 si iji\neq j \Leftrightarrow MM est diagonale.

On dit que e est φ\varphi-orthonormée si on a φ(e i,e j)={0 si ij 1 si i=j\varphi(e_i,e_j)=\left\lbrace\begin{array}{l}0 \mbox{ si }i\neq j \\ 1 \mbox{ si }i=j\end{array}\right.

Lemme 3   La base e{\bf e} est φ\varphi-orthonormée si et seulement si Mat(φ,e)\Mat(\varphi, {\bf e}) est la matrice identité.

Preuve : Laissée en exercice.

Définition 4   On dit que deux sous-espaces W,WW,W' de VV sont orthogonaux si on a φ(w,w)=0 pour tout wW,wW.\varphi(w,w')=0\mbox{ pour tout }w\in W,w'\in W'.

On dit que VV est la somme directe orthogonale des sous-espaces V 1,,V mV_1,\ldots,V_m si V=V 1V mV=V_1\oplus\ldots\oplus V_m et les sous-espaces V 1,,V mV_1,\ldots,V_m sont orthogonaux deux à deux. On note alors V=V 1V m.V=V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_m.

Nous aurons besoin du résultat suivant, que nous admettrons :

Lemme 5   Soit VV un espace vectoriel et soit φ\varphi une forme bilinéaire sur VV. Soient V 1,V kV_1,\ldots V_k des sous-espaces de VV tels que V= iV iV= \underset{\perp}{\oplus}_i V_i. Si pour chaque ii on a que v i{\bf v_i} est une base orthonormée de V iV_i alors la concatenation (v 1,v 2,,v k)({\bf v}_1, {\bf v}_2, \ldots, {\bf v}_k) est une base orthonormée de VV
Exemples 6  

(2)(2) L’application φ: 2[X]× 2[X],(P,Q) 1 1P(t)Q(t)dt\varphi:\mathbb{R}_2[X]\times \mathbb{R}_2[X]\to\mathbb{R}, (P,Q)\mapsto \int_{-1}^1 P(t)Q(t)\mbox{d}t

est bilinéaire symétrique. De plus, 1φX1\underset{\varphi}{\perp}X et XφX 2X\underset{\varphi}{\perp} X^2. Par contre, 11 et X 2X^2 ne sont pas φ\varphi-orthogonaux, puisque l’on a φ(1,X 2)=ds23\varphi(1,X^2)=\ds\frac{2}{3}; la base 1,X,X 21,X,X^2 n’est donc pas φ\varphi-orthogonale. Par contre, on peut vérifier que la base 1,X,X 2131,X,X^2-\frac{1}{3} est φ\varphi-orthogonale. Elle n’est pas φ\varphi-orthonormée puisque φ(1,1)=2,φ(X,X)=2/3,φ(X 213,X 213)=8/45.\varphi(1,1)=2,\; \varphi(X, X)= 2/3,\; \varphi(X^2-\frac{1}{3}, X^2-\frac{1}{3})= 8/45. Par contre, on peut la rendre φ\varphi-orthonormée en multipliant chaque élément de la base par une constante bien choisie. Plus précisement, la base 1232X458(X 213)\frac{1}{\sqrt{2}}\; \sqrt{\frac{3}{2}} X\; \sqrt{\frac{45}{8}} (X^2-\frac{1}{3}) est une base φ\varphi-orthonormée.

(3)(3) La base canonique de n\mathbb{R}^n est φ\varphi-orthonormée pour la forme bilinéaire symétrique φ: n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\varphi:\mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i

(4)(4) Soit V=C 0([1,1],)V=C^0([-1,1],\mathbb{R}), et soient 𝒫\mathcal{P} et \mathcal{I} le sous-espace des fonctions paires et impaires respectivement. On sait que l’on a V=𝒫.V=\mathcal{P}\oplus\mathcal{I}. Considérons l’application φ:V×V,(f,g) 1 1f(t)g(t)dt\varphi:V\times V\to\mathbb{R}, (f,g)\mapsto \int_{-1}^1 f(t)g(t)\mbox{d}t Alors, on a φ(f,g)=0 pour tout f𝒫,g.\varphi(f,g)=0\mbox{ pour tout }f\in\mathcal{P},g\in\mathcal{I}. On a donc V=𝒫.V=\mathcal{P}\underset{\perp}{\oplus}\mathcal{I}.

Le lemme 2 entraîne immédiatement:

Lemme 7   Soit VV un espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soient x=ds i=1 nx ie i,y= i=1 ny ie ix=\ds\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i deux vecteurs de VV. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Si e{\bf e} est φ\varphi-orthogonale, on a φ(x,y)= i=1 nφ(e i,e i)x iy i.\varphi(x,y)=\sum_{i=1}^n \varphi(e_i,e_i)x_iy_i. En particulier, si e{\bf e} est φ\varphi-orthonormée, on a φ(x,y)= i=1 nx iy i.\varphi(x,y)=\sum_{i=1}^n x_iy_i.

Une base φ\varphi-orthonormée n’existe pas toujours. En effet, si φ:V×V\varphi:V\times V\to \mathbb{R} est bilinéaire symétrique et il existe une base φ\varphi-orthonormée alors le lemme précédent montre que φ(x,x)>0\varphi(x,x)&gt;0 pour tout x0x\neq 0.

Par exemple, la forme bilinéaire symétrique φ: 2× 2,((x 1,x 2),(y 1,y 2))x 1y 1x 2y 2.\varphi:\mathbb{R}^2\times \mathbb{R}^2\to \mathbb{R}, ((x_1,x_2),(y_1,y_2))\mapsto x_1y_1-x_2y_2. n’admet pas de base φ\varphi-orthonormée, puisque φ((0,1),(0,1))=1<0\varphi((0,1),(0,1))=-1&lt;0.

En revanche, on a le théorème suivant:

Théorème 8   Soit VV un espace vectoriel de dimension finie sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base de VV qui est φ\varphi-orthogonale.

Preuve : On démontre l’existence d’une base φ\varphi-orthogonale par récurrence sur n=dim(V)n=\dim(V).

Soit (P n)(P_n) la propriété:

(P n)(P_n) Pour tout \mathbb{R}-espace vectoriel de dimension nn et tout φ:V×V\varphi:V\times V\to \mathbb{R}, il existe une base φ\varphi-orthogonale.

Si n=1n=1, il n’y a rien à démontrer.

Supposons que (P n)(P_n) soit vraie, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique avec dim(V)=n+1\dim(V)=n+1.

Si φ=0\varphi=0, toute base est φ\varphi-orthogonale, et on a fini. On suppose donc que φ0\varphi\neq 0. Soit qq la forme quadratique associée. Par le formule de polarisation, si q=0q=0 alors φ=0\varphi=0, ce qui n’est pas le cas. Il existe donc un e 0e_0 tel que q(e 0)0q(e_0)\neq 0, c’est à dire, φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0.

L’application f:Vyφ(e 0,y)f:V\to \mathbb{R}\; y\mapsto \varphi(e_0,y) est alors une application linéaire non nulle, puisque f(e 0)=φ(e 0,e 0)0f(e_0)=\varphi(e_0,e_0)\neq 0 et son image est donc ==\mathbb{R}. Par le théorème du rang, dimKer(f)=n+11=n.\dim\mbox{Ker}(f)=n+1-1=n.

Par hypothèse de récurrence, il existe une base (e 1,,e n)(e_1,\ldots,e_n) de Ker(f)\mbox{Ker}(f) qui est orthogonale pour la forme φ:Ker(f)×Ker(f),(x,y)φ(x,y)\varphi':\mbox{Ker}(f)\times \mbox{Ker}(f)\to \mathbb{R}, (x,y)\mapsto \varphi(x,y)

Montrons que e=(e 0,e 1,,e n){\bf e}=(e_0,e_1,\ldots,e_n) est une base de VV. Puisque dim(V)=n+1\dim(V)=n+1, il suffit de montrer que la famille (e 0,,e n)(e_0,\ldots,e_n) est libre. Soient λ 0,,λ n\lambda_0,\ldots,\lambda_n\in \mathbb{R} tels que λ 0e 0+λ 1e 1++λ ne n=0.\lambda_0 e_0+\lambda_1 e_1+\ldots+\lambda_n e_n=0. En appliquant ff à cette égalité et en utilisant la linéarité, on obtient λ 0f(e 0)+λ 1f(e 1)++λ nf(e n)=0.\lambda_0 f(e_0)+\lambda_1 f(e_1)+\ldots+\lambda_n f(e_n)=0.

Puisque e 1,,e nKer(f)e_1,\ldots,e_n\in\mbox{Ker}(f), on obtient λ 0f(e 0)=0\lambda_0 f(e_0)=0. Comme f(e 0)0f(e_0)\neq 0, on obtient λ 0=0\lambda_0=0. On a donc λ 1e 1++λ ne n=0.\lambda_1 e_1+\ldots+\lambda_n e_n=0. Comme (e 1,,e n)(e_1,\ldots,e_n) est une base de Ker(f)\mbox{Ker}(f), ils sont linéairement indépendants, et on obtient donc λ 1==λ n=0.\lambda_1=\cdots=\lambda_n=0.

Ceci prouve que e est une base de VV. Il reste à vérifier que cette base est φ\varphi-orthogonale.

Par choix des e ie_i, on a φ(e i,e j)=φ(e i,e j)=0 pour tout ij,1i,jn\varphi(e_i,e_j)=\varphi'(e_i,e_j)=0\mbox{ pour tout }i\neq j,1\leq i,j\leq n et aussi φ(e 0,e j)=f(e j)=0 pour tout j>0\varphi(e_0,e_j)=f(e_j)=0\mbox{ pour tout }j&gt;0 parce que e jKer(f)e_j\in \mbox{Ker}(f). On a donc que φ(e i,e j)=0 pour tout 0ijn.\varphi(e_i,e_j)=0\mbox{ pour tout }0\leq i\neq j\leq n. Ainsi, (e 0,e 1,,e n)(e_0,e_1,\ldots,e_n) est une base φ\varphi-orthogonale. Ceci achève la récurrence.

Remarques 9  

Le résultat précédent peut être faux si φ\varphi n’est pas bilinéaire symétrique. Par exemple, si φ:V×V\varphi: V\times V\to \mathbb{R} est antisymétrique, c’est-à-dire si on a φ(y,x)=φ(x,y) pour tout x,yV,\varphi(y,x)=-\varphi(x,y)\mbox{ pour tout }x,y\in V, et si φ\varphi est non nulle, alors il n’existe pas de base de VV qui est φ\varphi-orthogonale.

En effet, si φ\varphi est une telle forme, alors on a φ(x,x)=φ(x,x) pour tout xV.\varphi(x,x)=-\varphi(x,x)\mbox{ pour tout }x\in V. On a donc φ(x,x)=0 pour tout xV.\varphi(x,x)=0\mbox{ pour tout }x\in V. Supposons maintenant que e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est une base φ\varphi-orthogonale. On a donc φ(e i,e i)=0 pour tout i=1,,n.\varphi(e_i,e_i)=0\mbox{ pour tout }i=1,\ldots,n. Comme φ(e i,e j)=0\varphi(e_i,e_j)=0 pour tout iji\neq j puisque e est φ\varphi-orthogonale, on en déduit que si MM est la matrice de φ\varphi dans e{\bf e} alors M=0.M=0.

Le Lemme 2 entraîne alors que l’on a φ(x,y)=0 pour tout x,yV,\varphi(x,y)=0\mbox{ pour tout }x,y\in V, ce qui contredit le fait que φ\varphi est non nulle.

Un exemple d’une telle forme bilinéaire φ\varphi est donné par exemple par φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 2x 2y 1.\varphi:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \left(\left(\begin{array}{c}x_1\\ x_2\end{array}\right),\left(\begin{array}{c}y_1\\ y_2\end{array}\right)\right)\mapsto x_1y_2-x_2y_1.

4.5  Calcul effectif d’une base φ\varphi-orthogonale.

Nous allons calculer une base φ\varphi-orthogonale en exploitant la forme quadratique qq qui lui est associée. Rappelons que la forme bilinéaire symétrique φ\varphi peut être reconstruite de la forme quadratique ss via la formule de polarisation φ(x,y)=12(q(x+y)q(x)q(y)). \varphi(x,y)= \frac{1}{2} (q(x+y)-q(x)-q(y)). Nous disons alors que φ\varphi est la forme polaire de qq, que nous noterons parfois φ q\varphi_q.

Exemples 1  

(1)(1) L’application q: n,x=(x 1 x n)x 1 2++x n 2q:\mathbb{R}^n\to \mathbb{R}, x=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix} \mapsto x_1^2+\ldots+x_n^2 est une forme quadratique, de forme polaire φ q: n× n,((x 1 x n),(y 1 y n))x 1y 1++x ny n.\varphi_q: \mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}, \left( \begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix},\begin{pmatrix}y_1\\ \vdots \\ y_n\end{pmatrix}\right)\mapsto x_1y_1+\ldots+x_ny_n.

En effet, l’application φ: n× n,((x 1 x n),(y 1 y n))x 1y 1++x ny n\varphi:\mathbb{R}^n\times \mathbb{R}^n\to \mathbb{R}, \left( \begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix},\begin{pmatrix}y_1\\ \vdots \\ y_n\end{pmatrix}\right)\mapsto x_1y_1+\ldots+x_ny_n est bilinéaire symétrique et on a clairement φ(x,x)=q(x)\varphi(x,x)=q(x).

Vérifions la formule de polarisation. On a que q(x+y)= i=1 n(x i+y i) 2= i=1 nx i 2+2x iy i+y i 2=q(x)+q(y)+2φ(x,y).q(x+y)=\sum_{i=1}^n (x_i+y_i)^2=\sum_{i=1}^n x_i^2+2x_iy_i+y_i^2=q(x)+q(y)+2 \varphi(x,y).

(2)(2) L’application q:C 0([0,1],),f 0 1f(t) 2dtq:C^0([0,1],\mathbb{R})\to\mathbb{R}, f\mapsto \int_0^1 f(t)^2\mbox{d}t est une forme quadratique, de forme polaire φ q:C 0([0,1],)×C 0([0,1],),(f,g) 0 1f(t)g(t)dt.\varphi_q:C^0([0,1],\mathbb{R})\times C^0([0,1],\mathbb{R})\to\mathbb{R}, (f,g)\mapsto \int_0^1 f(t)g(t)\mbox{d}t.

En effet, l’application φ:C 0([0,1],)×C 0([0,1],),(f,g) 0 1f(t)g(t)dt\varphi:C^0([0,1],\mathbb{R})\times C^0([0,1],\mathbb{R})\to\mathbb{R}, (f,g)\mapsto \int_0^1 f(t)g(t)\mbox{d}t est bilinéaire symétrique et on a clairement φ(f,f)=q(f)\varphi(f,f)=q(f).

Vérifions de nouveau la formule de polarisation.
q(f+g)= 0 1(f(t)+g(t)) 2dt= 0 1f(t) 2+2f(t)g(t)+g(t) 2q(f+g)=\int_0^1 (f(t)+g(t))^2\mbox{d}t=\int_0^1 f(t)^2+2f(t)g(t)+g(t)^2 dt=q(f)+q(g)+2 0 1f(t)g(t)dt.\mbox{d}t=q(f)+q(g)+2\int_0^1 f(t)g(t)\mbox{d}t.

Définition 2   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e une base de VV. La matrice MM de qq dans la base e est la matrice de la forme polaire φ q\varphi_q dans la base e{\bf e}. C’est une matrice symétrique par le Corollaire 3.

Le rang de qq, noté rg(q)\mbox{rg}(q), est le rang de sa forme polaire.

On dit que e est qq-orthogonale (resp. qq-orthonormée) si elle est φ q\varphi_q-orthogonale (resp. φ q\varphi_q-orthonormée).

L’égalité q(x)=φ q(x,x)q(x)=\varphi_q(x,x) et le Lemme 2 donnent immédiatement:

Lemme 3   Soit VV un espace vectoriel de dimension finie nn et e{\bf e} une base pour VV. Soit xVx\in V, et soit X̲\underline{X} le vecteur coordonnées de xx dans la base e.

Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit MM sa matrice dans la base e{\bf e}. Alors on a q(x)= tX̲MX̲.q(x)={}^t\underline{X} M \underline{X}. En particulier, si e est qq-orthogonale, c’est à dire si MM est symétrique, alors on a q(x)= i=1 nq(e i)x i 2.q(x)=\sum_{i=1}^n q(e_i)x_i^2.

Le lemme suivant nous permet de passer directement de la forme quadratique qq a sa matrice MM sans calculer le forme polaire φ\varphi.

Lemme 4   Soit VV un espace vectoriel de dimension finie nn. Soient x,yVx,y\in V, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Alors pour tout a ij,1ijna_{ij}\in \mathbb{R}, 1\leq i\leq j\leq n, l’application q:V, i=1 nx ie i i=1 na iix i 2+2 1i<jna ijx ix jq: V\to \mathbb{R}, \sum_{i=1}^n x_ie_i\mapsto \sum_{i=1}^n a_{ii}x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j est une forme quadratique, et sa matrice AA dans la base e{\bf e} est donnée par A=(a ij).A=(a_{ij}).

La démonstration est laissée en exercice au lecteur. Attention au facteur 2 !

Exemple 5   L’application q: 2× 2,(x 1 x 2)3x 1 2+4x 1x 2+5x 2 2q:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \begin{pmatrix} x_1 \\ x_2\end{pmatrix}\mapsto 3x_1^2+ 4x_1x_2+5x_2^2 est une forme quadratique, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est donnée par (3 2 2 5).\begin{pmatrix}3 & 2 \\ 2 & 5\end{pmatrix}.

Soient maintenant φ\varphi une forme bilinéaire sur un espace VV, qq sa forme polaire, e{\bf e} une base pour VV. Soit xVx\in V un élément arbitraire et X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix} son vecteur de coordonnées dans la base e{\bf e}. Alors e est $\varphi$-orthogonale {\bf e}\mbox{ est &#36;\varphi&#36;-orthogonale } \Updownarrow syntax error at token } \mbox{ la matrice de &#36;\varphi&#36; dans la base &#36;{\bf e}&#36; est diagonale } \Updownarrow syntax error at token } \mbox{ la matrice de &#36;q&#36; dans la base &#36;{\bf e}&#36; est diagonale } \Updownarrow a i tel que q(x)= i=1 na ix i 2. \exists a_i\in\mathbb{R} \mbox{ tel que } q(x)=\sum_{i=1}^n a_i x_i^2.

Nous allons maintenant décrire un algorithme, dit algorithme de Gauss, qui permet de trouver une base qq-orthogonale. Nous ne justifierons pas complètement toutes les étapes de cet algorithme. L’idée de base sera la suivante : on cherche des coordonnées x i(v)x_i(v) telles que q(v)= i=1 na i(x i(v)) 2q(v)=\sum_{i=1}^n a_i (x_i(v))^2 et une fois trouvée les coordonnées x i(v)x_i(v) on cherchera la base orthogonale e ie_i correspondante, c-a-d, telle que v= ix i(v)e i. v=\sum_i x_i(v)e_i.

Algorithme de Gauss

Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit e une base de VV. Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit M=(a ij) 1i,jnM=(a_{ij})_{1\leq i,j\leq n} sa matrice représentative dans la base e. Si x=ds i=1 nx ie ix=\ds\sum_{i=1}^n x_i e_i, on a donc q(x)= i=1 na iix i 2+2 1i<jna ijx ix j=:P(x 1,,x n).q(x)=\sum_{i=1}^n a_{ii} x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j=:P(x_1,\ldots,x_n).

On procède par récurrence sur le nombre de variables. A chaque étape, il y a deux cas.

(1)(1) S’il existe un indice kk tel que a kk0a_{kk}\neq 0, on regroupe tous les termes faisant intervenir la variable x kx_k, et on complète le carré. On écrit

P(x 1,,x n)=a kkx k 2+2f kx k+P 0,P(x_1,\ldots,x_n)=a_{kk}x_k^2+2f_k x_k+P_0, f kf_k est une forme linéaire en les variables x i,ikx_i,i\neq k, et P 0P_0 est une forme quadratique en les variables x i,ikx_i,i\neq k.

On a alors

P(x 1,,x n) = a kk(x k 2+2a kkf kx k)+P 0 = a kk((x k+f ka kk) 2f k 2a kk 2)+P 0.\begin{array}{lll}P(x_1,\ldots,x_n)&=&a_{kk}(x_k^2+\frac{2}{a_{kk}}f_k x_k)+P_0\\ &=&a_{kk}((x_k+\frac{f_k}{a_{kk}})^2-\frac{f_k^2}{a_{kk}^2})+P_0\end{array}.

On peut donc écrire P(x 1,,x n)=a kk(x k+f ka kk) 2+P 1,P(x_1,\ldots,x_n)=a_{kk}(x_k+\frac{f_k}{a_{kk}})^2+P_1, P 1P_1 est une forme quadratique en les variables x i,ikx_i,i\neq k.

(2)(2) Si a kk=0a_{kk}=0 pour tout kk, mais qu’il existe kk et \ell tels que k<k&lt;\ell et a k0a_{k\ell}\neq 0. C’est le cas pénible.

On écrit P(x 1,,x n)=2a kx kx +2f kx k+2f x +P 0,P(x_1,\ldots,x_n)=2a_{k\ell}x_k x_\ell+2f_{k}x_{k}+2f_\ell x_\ell+P_0, f kf_k et f f_\ell sont des formes linéaires en les variables x i,ik,x_i,i\neq k,\ell, et P 0P_0 est une forme quadratique en les variables x i,ik,x_i,i\neq k,\ell.

On a ainsi

P(x 1,,x n)=2a k(x k+1a kf )(x +1a kf k)2a kf kf +P 0.P(x_1,\ldots,x_n)=2a_{k\ell }(x_{k}+\frac{1}{a_{k\ell}}f_\ell)(x_{\ell}+\frac{1}{a_{k\ell}}f_k) -\frac{2}{a_{k\ell}}f_kf_\ell+P_0.

On a donc P(x 1,,x n)=2a kAB+P 1,P(x_1,\ldots,x_n)=2a_{k\ell}AB+P_1, avec A=dsx k+1a kf ,B=dsx n+1a kf kA=\ds x_{k}+\frac{1}{a_{k\ell}}f_\ell, B=\ds x_{n}+\frac{1}{a_{k\ell}}f_k, et P 1P_1 est une forme quadratique en les variables x i,ik,x_i,i\neq k,\ell. Pour la suite de al récurrence : si P 1=0P_1=0 on arrête, sinon on recommence le procédé avec P 1P_1.

On a alors P(x 1,,x n)=a k2((A+B) 2(AB) 2)+P 1.P(x_1,\ldots,x_n)=\frac{a_{k\ell}}{2}((A+B)^2-(A-B)^2)+P_1.

* Si P 1=0P_1=0, on arrête. Sinon, on recommence le procédé avec P 1P_1.

On peut montrer que l’on obtient alors une écriture de la forme q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2,q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2, où:

  1. chaque α i *\alpha_i\in \mathbb{R}^*
  2. chaque L iL_i est une forme linéaire sur VV
  3. la famille de formes (L 1,,L r)(L_1,\ldots, L_r) est indépendante.

* Ensuite, on choisit des formes linéaires L r+1,L r+2,,L nL_{r+1}, L_{r+2},\ldots, L_n de telle façon à ce que la famille (L 1,,L n)(L_1, \ldots, L_n) soit libre et on écrit q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2+0(L r+1) 2++0(L n(x))) 2.q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2+ 0 (L_{r+1})^2+ \ldots + 0(L_n(x)))^2.

*Enfin, on cherche une base e=(e 1,e 2,,e n){\bf e}'=(e'_1,e'_2,\ldots, e'_n) telle que pour tout xVx\in V le vecteur de coordonnées de xx dans la base e{\bf e}' soit X̲=(L 1(x) L 2(x) L n(x)). \underline{X}=\begin{pmatrix}L_1(x)\\ L_2(x) \\ \vdots \\ L_n(x) \end{pmatrix}. Autrement dit, on doit avoir que x=L 1(x)e 1+L 2(x)e 2+L n(x)e n, x= L_1(x) e'_1+ L_2(x) e'_2+\ldots L_n(x) e'_n, ce qui est un système d’équations qu’on peut résoudre par le pivot de Gauss pour trouver e 1,,e ne'_1,\ldots, e'_n.

Si x 1,,x nx'_1,\ldots,x'_n sont les coordonnées de xVx\in V dans cette nouvelle base, on a q(x)=α 1x 1 2++α rx r 2.q(x)=\alpha_1x_1^{'2}+\ldots+\alpha_r x_r^{'2}. par définition.

Remarque 6   En particulier, r=rg(q)r=\mbox{rg}(q).

il résulte du lemme 4 que la matrice de qq dans la base e{\bf e}' est la matrice M=diag(α 1,α 2,,α r,0,,0)M=\mbox{diag}(\alpha_1,\alpha_2, \ldots, \alpha_r,0,\ldots, 0)

Remarque 7   Si ϕ:V×V\phi:V\times V\to \mathbb{R} est bilinéaire symétrique, alors en appliquant l’algorithme de Gauss à la forme quadratique q b:V,xφ(x,x),q_b:V\to \mathbb{R}, x\mapsto \varphi(x,x), on trouve une base v qui est q φq_\varphi-orthogonale. Mais par définition, v est donc orthogonale pour la forme polaire de q φq_\varphi, qui est φ\varphi.

Cet algorithme permet donc de trouver une base φ\varphi-orthogonale pour n’importe quelle forme bilinéaire symétrique φ\varphi, ainsi que son rang.

Exemple 8   Soit q: 4q:\mathbb{R}^4\to \mathbb{R} l’application qui a u=(x y z t){\bf u}=\begin{pmatrix} x\\ y \\ z\\ t\end{pmatrix} associe q(u)=x 2+2xy+2xz+2xt+y 2+6yz2yt+z 2+10zt+t 2.q({\bf u})=x^2+2xy+2xz+2xt+y^2+6yz-2yt+z^2+10zt+t^2. L’application qq est une forme quadratique can c’est un polynôme de degré 22 homogène.

Appliquons l’algorithme de Gauss à qq pour trouver une base qq-orthogonale.

On a q(u) = x 2+2(y+z+t)x+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2(y+z+t) 2+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2+4yz4yt+8zt.\begin{array}{lll}q({\bf u})&=&x^2+2(y+z+t)x+y^2+6yz-2yt+z^2+10zt+t^2 \\ &=& (x+y+z+t)^2-(y+z+t)^2+y^2+6yz-2yt+z^2+10zt+t^2\\ &=& (x+y+z+t)^2+4yz-4yt+8zt .\end{array}

On a maintenant 4yz4yt+8zt = 4(yz+(t)y+(2t)z) = 4((y+2t)(zt)+2t 2) = 4(y+2t)(zt)+8t 2 = (y+z+t) 2(yz+3t) 2+8t 2.\begin{array}{lll} 4yz-4yt+8zt&=& 4(yz +(-t)y +(2t)z)\\ &=&4((y+2t)(z-t)+2t^2)\\ &=& 4(y+2t)(z-t)+8t^2\\ &=& (y+z+t)^2-(y-z+3t)^2+8t^2\end{array}. Finalement, on obtient q(u)=(x+y+z+t) 2+(y+z+t) 2(yz+3t) 2+8t 2.q({\bf u})=(x+y+z+t)^2 +(y+z+t)^2-(y-z+3t)^2+8t^2.

On a donc rg(q)=4\mbox{rg}(q)=4. On a L 1(u)=x+y+z+t;L 2(u)=y+z+t;L 3(u)=yz+t;L 4(u)=t L_1(u)= x+y+z+t; L_2(u)= y+z+t; L_3(u)= y-z+t; L_4(u)= t Nous cherchons e 1,,e 4{e}_1',\ldots, e'_4 tels que pour tout (x y z t)R 4\begin{pmatrix}x\\y\\z\\t\end{pmatrix}\in \R^4 (x+y+z+t)e 1+(y+z+t)e 2+(yz+t)e 3+te 4=(x y z t) (x+y+z+t) e'_1+ (y+z+t) e'_2+ (y-z+t) e'_3+ te'_4= \begin{pmatrix}x\\y\\z\\t\end{pmatrix} ce qui donne, en isolant chaque variable x,y,z,tx,y,z,t e 1=(1 0 0 0)e 1+e 2+e 3=(0 1 0 0),e 1+e 2e 3=(0 0 1 0),e 1+e 2+e 3+e 4=(0 0 0 1). e'_1= \begin{pmatrix}1\\0\\0\\0\end{pmatrix}\; e'_1+e'_2+e'_3= \begin{pmatrix}0\\1\\0\\0\end{pmatrix}, e'_1+e'_2-e'_3= \begin{pmatrix}0\\0 \\1\\0\end{pmatrix}, e'_1+e'_2+e'_3+e'_4= \begin{pmatrix}0\\0\\0\\1\end{pmatrix}. et donc après résolution par le pivot de Gauss on trouve que e 1=(1 0 0 0),e 2=(1 1/2 1/2 0),e 3=(0 1/2 1/2 0),e 4=(0 1 0 1)e_1'=\begin{pmatrix}1\\0\\0\\0\end{pmatrix},\; e_2'=\begin{pmatrix}-1\\1/2\\1/2\\0\end{pmatrix},\; e_3'= \begin{pmatrix}0\\1/2\\-1/2\\0\end{pmatrix},\; e_4'=\begin{pmatrix}0\\-1\\0\\1\end{pmatrix}

Ces vecteurs (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4') forment donc une base qq-orthogonale.

Le théorème suivant n’est valable que pour des formes réelles.

Théorème 9 (Théorème d’inertie de Sylvester)   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e{\bf e} une base qq-orthogonale. Soit r +=card{i|q(e i)>0} et r =card{i|q(e i)<0}.r_+=\mbox{card}\{ i \vert q(e_i)&gt;0\}\mbox{ et }r_-=\mbox{card}\{ i \vert q(e_i)&lt;0\}.

Alors le couple (r +,r )(r_+,r_-) ne dépend pas de la base qq-orthogonale choisie. De plus, r ++r =rg(q)r_++r_-=\mbox{rg}(q).

Preuve : Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base qq-orthogonale. Posons α i=q(e i)=φ q(e i,e i)\alpha_i=q(e_i)=\varphi_q(e_i,e_i) et r=r ++r r=r_++r_-. Changer l’ordre des vecteurs de e{\bf e} ne change pas r +r_+ et r r_-, ni le fait que la base soit qq-orthogonale. On peut donc supposer sans perte de généralité que l’on a q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e_i)&gt;0, i=1,\ldots, r_+, q(e_i)&lt;0, i=r_++1,\ldots, r,q(e_i)=0, i=r+1,\ldots,n.

Puisque e{\bf e} est qq-orthogonale (c’est-à-dire φ q\varphi_q-orthogonale), on obtient que MM, la matrice de qq dans la base e{\bf e}, s’écrit

M=(q(e 1) q(e n)).M=\begin{pmatrix}q(e_1) & & \\ & \ddots & \\ & & q(e_n) \end{pmatrix}. Or, seuls les réels q(e 1),,q(e r)q(e_1),\ldots,q(e_r) sont non nuls. Le rang d’une matrice diagonale étant le nombre de termes diagonaux non nuls, on a bien rg(q)=r=r ++r rg(q)=r=r_++r_-.

Soit maintenant e{\bf e'} une autre base qq-orthogonale. Soient (r +,r )(r'_+,r'_-) le couple d’entiers correspondant. Remarquons que l’on a r ++r =rg(q)=rr'_++r'_-=rg(q)=r par le point précédent. Comme précédemment, quitte à changer l’ordre des vecteurs, on peut supposer que

q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e'_i)&gt;0, i=1,\ldots, r'_+, q(e_i)&lt;0, i=r'_++1,\ldots, r,q(e'_i)=0,i=r+1,\ldots,n.

Montrons que e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont linéairement indépendants. Supposons que l’on ait une relation λ 1e 1++λ r +e r ++λ r ++1e r ++1++λ ne n=0.\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}+\lambda_{r'_++1}e'_{r'_+ +1}+\ldots+\lambda_ne'_n=0. On a donc λ 1e 1++λ r +e r +=(λ r ++1e r ++1+λ ne n).\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}=-(\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n). En appliquant qq des deux côtés, et en utilisant le fait que les bases e et e{\bf e'} sont qq-orthogonales, on obtient i=1 r +q(e i)λ i 2= i=r ++1 nq(e i)λ i 2.\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=\sum_{i=r'_++1}^{n}q(e'_i)\lambda_i^2. Par choix de e{\bf e} et de e{\bf e'}, le membre de gauche est 0\geq 0 et le membre de droite est 0\leq 0.

On en déduit que l’on a i=1 r +q(e i)λ i 2=0,\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=0, et puisque q(e i)>0q(e_i)&gt;0 pour i=1,,r +i=1,\ldots,r_+, on en déduit λ 1==λ r +=0.\lambda_1=\ldots=\lambda_{r_+}=0. Mais alors, on a λ r ++1e r ++1+λ ne n=0,\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n=0, et comme e{\bf e'} est une base, on en déduit λ r ++1==λ n=0.\lambda_{r'_++1}=\ldots=\lambda_n=0.

Ainsi, e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont r ++(nr +)r_++(n-r'_+) vecteurs linéairement indépendants dans un espace vectoriel de dimension nn. On a donc r ++(nr +)n,r_++(n-r'_+)\leq n, et donc r +r +r_+\leq r'_+. En échangeant les rôles de e{\bf e} et e{\bf e'}, on a de même r +r +r'_+\leq r_+.

On a donc r +=r +r_+=r'_+, et comme on a rg(q)=r ++r =r ++r \mbox{rg}(q)=r_++r_-=r'_++r'_-, on en déduit r =r r_-=r'_-. Ceci achève la démonstration.

Cela conduit à la définition suivante.

Définition 10   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Le couple (r +,r )(r_+,r_-) est appelé la signature de qq.
Remarque 11   Pour calculer la signature d’une forme quadratique qq, il suffit d’utiliser l’algorithme de Gauss pour écrire q(x)q(x) sous la forme α 1(u 11x 1++u 1nx n) 2++α r(u r1x 1++u rnx n) 2,\alpha_1(u_{11}x_1+\ldots+u_{1n}x_n)^2+\ldots+\alpha_r (u_{r1}x_1+\ldots+u_{rn}x_n)^2, et de compter le nombre de coefficients α i\alpha_i qui sont strictement plus grand que 00 et strictement plus petit que 00.

En effet, on a vu que si v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est la base qq-orthogonale obtenue à la fin de l’algorithme de Gauss, et MM est la matrice de qq dans cette base, alors M=diag(α 1,,α r,0,,0).M=diag(\alpha_1,\ldots,\alpha_r,0,\ldots,0). Mais les coefficients diagonaux de MM sont exactement les réels q(v i)q(v_i), et on conclut en utilisant la définition de r +r_+ et r r_-.

Exemple 12   La signature de la forme quadratique qq de l’exemple précédent est (3,1)(3,1).

Chapitre 5  Produits scalaires.

Contrairement aux premiers chapitres, cette section n’est valable que pour les espaces vectoriels réels. Nous survolerons en fin de chapitre sa généralisation à des espaces complexes.

5.1  Produit scalaires, définitions et exemples.

Nous voulons maintenant généraliser la notion de produit scalaire - et donc de longueur, de distance et d’angle - à un espace vectoriel réel arbitraire. Sur 2\mathbb{R}^2 ou 3\mathbb{R}^3, et plus généralement n\mathbb{R}^n, l’application produit scalaire canonique n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \left (\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i est bilinéaire et symétrique. Notons que la longeur d’un vecteur x 3x\in\mathbb{R}^3 peut être calculée par ||x||=xx\vert\vert x\vert\vert=\sqrt{x\cdot x} : nous aurions donc envie d’associer une notion de longueur à une forme bilinéaire φ\varphi en posant ||x||=φ(x,x)||x|| =\sqrt{\varphi(x,x)}. Malheureusement, il n’est pas sûr que cette quantité existe (si φ(x,x)<0\varphi(x,x)&lt;0 elle n’existe pas) ni qu’elle soit strictement positive pour un xx non-nul (or nous ne voulons pas une distance 00 entre deux vecteurs distincts).

Ces considérations inspirent les définitions suivantes:

Définition 1   Soit VV un espace vectoriel réel. On dit qu’une forme bilinéaire symétrique φ:V×V\varphi:V\times V\to \mathbb{R} est positive si φ(x,x)0\varphi(x,x)\geq 0 pour tout xVx\in V, et définie positive si φ(x,x)>0\varphi(x,x)&gt;0 pour tout xV,x0x\in V,x\neq 0.

Remarquons que φ\varphi est définie positive si et seulement si

(i)(i) φ\varphi est positive et

(ii)(ii) φ(x,x)=0x=0 V.\varphi(x,x)=0\Rightarrow x=0_V.

C’est en général cette reformulation de la définition que l’on utilise en pratique pour vérifier si oui ou non une forme bilinéaire donnée est définie positive.

Définition 2   Soit VV un \mathbb{R}-espace vectoriel (non nécessairement de dimension finie). Un produit scalaire sur VV est une forme bilinéaire ,:V×V,(x,y)x,y\langle\, , \, \rangle:V\times V\to \mathbb{R}, (x,y)\mapsto \langle x,y\rangle symétrique et définie positive.

On dit alors que le couple (V,,)(V,\langle\, , \, \rangle) est un espace prehilbertien.

Exemples 3  

(1)(1) L’application n× n,((x 1 x n),(y 1 y n)) i=1 nx iy i\mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto \sum_{i=1}^n x_iy_i

est un produit scalaire.

(2)(2) L’application ,:C 0([a,b],)×C 0([a,b],),(f,g)f,g= a bf(t)g(t)dt\langle \, , \rangle: C^0([a,b], \mathbb{R})\times C^0([a,b], \mathbb{R})\to \mathbb{R}, (f,g)\mapsto\langle f,g\rangle=\int_a^b f(t)g(t)\mbox{d}t est un produit scalaire.

Nous allons traiter cet exemple en détail.

(a)(a) Montrons que ,\langle \, , \rangle est symétrique. En effet, pour tout f,gC 0([a,b],)f,g\in C^0([a,b], \mathbb{R}), on a g,f= a bg(t)f(t)dt= a bf(t)g(t)dt=f,g.\langle g,f\rangle=\int_a^b g(t)f(t)\mbox{d}t=\int_a^b f(t)g(t)\mbox{d}t=\langle f,g\rangle.

(b)(b) Montrons que ,\langle \, , \rangle est bilinéaire. Pour tout f 1,f 2,f,gC 0([a,b],),λf_1,f_2,f,g\in C^0([a,b], \mathbb{R}),\lambda\in\mathbb{R}, on a f 1+f 2,g = ds a b(f 1+f 2)(t)g(t)dt = ds a b(f 1(t)+f 2(t))g(t)dt = ds a bf 1(t)g(t)dt+ a bf 2(t)g(t)dt = f 1,g+f 2,g\begin{array}{lll}\langle f_1+f_2,g\rangle &=&\ds\int_a^b (f_1+f_2)(t)g(t)\mbox{d}t \\ &=& \ds\int_a^b (f_1(t)+f_2(t))g(t)\mbox{d}t \\ &=& \ds\int_a^b f_1(t)g(t)\mbox{d}t + \int_a^b f_2(t)g(t)\mbox{d}t \\ &=& \langle f_1,g\rangle +\langle f_2,g\rangle \end{array}

et aussi

λf,g = ds a b(λf)(t)g(t)dt = ds a bλf(t)g(t)dt = dsλ a bf(t)g(t)dt = λf,g.\begin{array}{lll}\langle \lambda f,g\rangle &=&\ds \int_a^b (\lambda f)(t)g(t)\mbox{d}t \\ &=&\ds \int_a^b \lambda f(t)g(t)\mbox{d}t\\ &=&\ds \lambda\int_a^b f(t)g(t)\mbox{d}t\\ &=& \lambda \langle f,g\rangle\end{array}.

Par (a)(a) il découle que f,g 1+g 2=f,g 1+f,g 2 et f,λg=λf,g\langle f,g_1+g_2\rangle=\langle f,g_1\rangle+\langle f,g_2\rangle \mbox{ et }\langle f,\lambda g\rangle=\lambda \langle f,g\rangle pour tout f,g,g 1,g 2[X],λf,g,g_1,g_2\in \mathbb{R}[X],\lambda\in\mathbb{R} (Vérifiez-le vous-même !!!).

Ainsi, ,\langle \, ,\rangle est bilinéaire.

(b)(b) Montrons que ,\langle \, , \rangle est symétrique. En effet, pour tout f,g[X]f,g\in\mathbb{R}[X], on a g,f= a bg(t)f(t)dt= a bf(t)g(t)dt=f,g.\langle g,f\rangle=\int_a^b g(t)f(t)\mbox{d}t=\int_a^b f(t)g(t)\mbox{d}t=\langle f,g\rangle.

(c)(c) Montrons enfin que ,\langle, \rangle est définie positive. On va utiliser pour cela la reformulation de la définition 1.

Pour tout fC 0([a,b],)f\in C^0([a,b], \mathbb{R}), on a f,f= a bf(t) 2dt.\langle f,f\rangle=\int_a^b f(t)^2\mbox{d}t. Or, l’intégrale d’une fonction positive est positive.

Comme la fonction f 2(t)f^2(t) est positive, on en déduit que f,f0 pour tout fC 0([a,b],).\langle f,f\rangle\geq 0\mbox{ pour tout }f\in C^0([a,b], \mathbb{R}). Supposons maintenant que l’on a f,f=0,\langle f,f\rangle=0, c’est à dire que a bPf(t) 2dt=0.\int_a^b Pf(t)^2\mbox{d}t=0. Or l’intégrale d’une fonction positive et continue f:[a,b]f:[a,b]\to\mathbb{R} est nulle si et seulement si ff est identiquement nulle. Exercice : démontrez-le vous même.) Comme la fonction [a,b],tf(t) 2[a,b]\to \mathbb{R}, t\mapsto f(t)^2 est positive et continue, on en déduit f(t) 2=0 pour tout t[a,b],f(t)^2=0\mbox{ pour tout }t\in [a,b], c’est-à-dire f=0f=0 : CQFD.

(3)(3). Pour tout fonction continue et strictement positive sur [a,b][a,b], p:[a,b]p:[a,b]\rightarrow \mathbb{R}, la fonction ,:C 0([a,b],)×C 0([a,b],),(f,g)f,g= a bp(t)f(t)g(t)dt\langle \, , \rangle: C^0([a,b], \mathbb{R})\times C^0([a,b], \mathbb{R})\to \mathbb{R}, (f,g)\mapsto\langle f,g\rangle=\int_a^b p(t) f(t)g(t)\mbox{d}t est un produit scalaire.

(4)(4) L’application M n()×M n()M_{n}(\mathbb{R})\times M_n(\mathbb{R})\rightarrow \mathbb{R}, (M,N)Tr( tMN)(M,N)\mapsto \mbox{Tr}({}^tMN) est un produit scalaire sur M n()M_n(\mathbb{R}).

(5)(5) L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 1x 2y 2\varphi : \mathbb{R}^2\times\mathbb{R}^2\to \mathbb{R}, \left(\left(\begin{array}{c}x_1\\ x_2\end{array}\right),\left(\begin{array}{c}y_1\\ y_2\end{array}\right)\right)\mapsto x_1y_1-x_2y_2

n’est pas un produit scalaire. Elle est bien bilinéaire symétrique, mais elle n’est pas positive, comme on l’a vu précédemment.

(6)(6) L’application φ:[X]×[X],(P,Q)P(0)Q(0)\varphi:\mathbb{R}[X]\times\mathbb{R}[X]\to\mathbb{R}, (P,Q)\mapsto P(0)Q(0) n’est pas un produit scalaire. Elle est bien bilinéaire, symétrique, positive, mais pas définie positive. Par exemple, on a φ(X,X)=0\varphi(X,X)=0, mais X0X\neq 0.

5.2  Produits scalaires : géométrie.

Les propriétés du produit scalaire permettent alors, comme dans le cas classique, de définir la “longueur”, ou norme d’un vecteur de VV.

Définition 1   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien Pour tout xVx\in V, on définit la norme de xx, notée ||x||\vert\vert x\vert\vert, par ||x||=x,x.\vert\vert x\vert\vert=\sqrt{\langle x,x\rangle}.

Notons que par définition d’un produit scalaire, ||x||0||x||\geq 0, et ||x||=0||x||=0 si et seulement si x=0x=0.

Définition 2   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V. On définit la distance entre vv et ww par d(v,w)=||vw||. d(v,w)= || v-w||.

Encore une fois, la distance entre vv et ww est positive et n’est 00 que si v=wv=w. Nous aurions envie de poser la définition suivante :

Définition 3   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V avec v,w0v,w\neq 0. On définit l’angle entre vv et ww par θ=arccos(v,w||v||×||w||). \theta= \arccos\left(\frac{\langle v,w\rangle}{||v||\times ||w||}\right).
Remarque 4   Avec cette définition de θ\theta, l’angle entre vv et ww, nous avons automatiquement θ[0,π]\theta\in [0, \pi]. Par ailleurs, il s’agit d’une angle non-orienté : θ\theta ne dépend pas de l’ordre de vv et ww.

Malheureusement, ce n’est pas évident que cette définition soit bien posée. En effet, la fonction arccos n’est définie que pour des nombres réels xx satisfaisant la condition 1x1-1\leq x\leq 1 ou autrement dit |x|1|x|\leq 1. Nous devons donc vérifier la proposition suivante :

Proposition 5 (Inégalité de Cauchy-Schwarz)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Alors pour tout x,yVx,y\in V, on a |x,y|||x||×||y||,|\langle x,y\rangle|\leq \vert\vert x\vert\vert\times \vert\vert y\vert\vert, et on a égalité dans cette expression si et seulement si la famille x,yx,y est liée sur \mathbb{R}, c’est-à-dire s’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0.

Preuve : Le résultat étant immédiat si xx ou yy est égal à 00, on peut supposer x,y0x,y\neq 0 : si x,y0x,y\neq 0 nous avons qu’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0 si et seulement si il existe tt\in \mathbb{R} tel que x+ty=0x+ty=0. Considèrons la fonction de tt f(t)=x+ty,x+ty=t 2||y|| 2+2tx,y+||x|| 2.f(t)=\langle x+ ty, x+ty\rangle= t^2 ||y||^2+2t\langle x,y\rangle + ||x||^2. Ceci est une fonction quadratique de tt qui ne prend pas de valeurs négatives : elle a donc un discriminant Δ0\Delta\leq 0, c’est à dire Δ=4(x,y) 24||x|| 2||y|| 20. \Delta= 4(\langle x,y\rangle)^2 - 4||x||^2||y||^2\leq 0. On a donc que (x,y) 2||x|| 2||y|| 2 (\langle x,y\rangle)^2 \leq ||x||^2||y||^2 et |x,y|||x||||y||. |\langle x,y\rangle| \leq ||x||||y||. De plus, on a ǵalité dans cette expression si et seulement si Δ=0\Delta =0, c’est-à-dire si et seulement si il existe tt tel que f(t)=0f(t)=0. Par définition de f(t)f(t), nous avons égalité dans cette expression si et seulement si il existe tt tel que x+ty=0x+ty=0. CQFD. L’inégalité de Cauchy-Schwarz est donc valable et notre définition de θ\theta est bien posée.

Un certain nombre de formules de la géométrie dans l’espace sont toujours valables dans ce contexte :

Lemme 6 (Théorème de Pythagore)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in Vavec v,w0 Vv,w \neq 0_V. Soit θ\theta l’angle entre vv et ww. Alors on a d(v,w) 2=d(0 V,v) 2+d(0 V,w) 2θ=π/2. d(v,w)^2= d(0_V,v)^2+d(0_V,w)^2\Leftrightarrow \theta= \pi/2.

Preuve : On note tout d’abord que par définition θ=π/2\theta=\pi/2 si et seulement si v,w=0\langle v,w \rangle =0. Par définition, d(v,w) 2=vw,vwd(v,w)^2= \langle v-w, v-w\rangle =v,v+w,w2v,w = \langle v,v\rangle + \langle w,w\rangle -2\langle v,w\rangle =d(v,0 V) 2+d(w,0 V) 22v,w= d(v,0_V)^2+ d(w,0_V)^2- 2 \langle v,w\rangle et donc d(v,w) 2=d(0,v) 2+d(0,w) 2v,w=0θ=π/2. d(v,w)^2= d(0,v)^2+d(0,w)^2\Leftrightarrow \langle v,w \rangle =0 \Leftrightarrow \theta= \pi/2.

Lemme 7 (Identité du parallélogramme)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors ||v+w|| 2+||vw|| 2=2(||v|| 2+||w|| 2). ||v+w||^2+||v-w||^2=2(||v||^2+ ||w||^2).

Preuve : Exercice pour le lecteur.

Lemme 8 (Inégalité triangulaire)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors ||v+w||||v||+||w||. ||v+w||\leq ||v||+||w||.

Preuve : On a que ||v+w|| 2=||v|| 2+||w|| 2+2v,w. || v+w||^2= ||v||^2+ ||w||^2+2\langle v,w \rangle. Par l’inégalité de Cauchy-Schwarz on a que ||v+w|| 2||v|| 2+||w|| 2+2||v||×||w||=(||v||+||w||) 2. ||v+w||^2\leq ||v||^2+||w||^2+2||v||\times ||w||= (||v||+||w||)^2. Puisque ||v+w||||v+w|| et ||v||+||w||||v||+||w|| sont positifs, on peut prend la racine carrée des deux membres pour déduire que ||v+w||||v||+||w||.|| v+w||\leq ||v||+||w||. Les deux lemmes suivants sont souvent très utiles.

Lemme 9   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V une famille de vecteurs deux à deux orthogonaux. Alors on a ||x 1++x k|| 2=||x 1|| 2++||x k|| 2.\vert\vert x_1+\ldots+x_k\vert\vert^2=\vert\vert x_1\vert\vert^2+\ldots+\vert\vert x_k\vert\vert^2.

Preuve : Supposons x 1,,x kVx_1,\ldots,x_k\in V deux à deux orthogonaux. On a donc x i,x j=0 pour tout ij.\langle x_i,x_j\rangle=0\mbox{ pour tout }i\neq j. Par ailleurs, on a que ||x 1++x k|| 2=x 1++x k,x 1++x k= i,j=1 kx i,x j.\vert\vert x_1+\ldots+x_k\vert\vert^2=\langle x_1+\ldots+x_k,x_1+\ldots+x_k\rangle=\sum_{i,j=1}^k\langle x_i,x_j\rangle. Mais puisque x i,x j=0\langle x_i,x_j\rangle=0 pour tout iji\neq j, on obtient ||x 1++x k|| 2= i=1 kx i,x i= i=1 k||x i|| 2,\vert\vert x_1+\ldots+x_k\vert\vert^2=\sum_{i=1}^k \langle x_i,x_i\rangle=\sum_{i=1}^k \vert\vert x_i\vert\vert^2, ce que l’on voulait démontrer.

Lemme 10   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V des vecteurs non nuls deux à deux orthogonaux. Alors (x 1,,x k)(x_1,\ldots,x_k) est une famille libre.

Preuve : Soient λ 1,,λ k\lambda_1,\ldots,\lambda_k\in \mathbb{R} tels que λ 1x 1++λ kx k=0 V.\lambda_1x_1+\ldots+\lambda_k x_k=0_V. Soit j{1,,k}j\in \{1,\ldots, k\}. On a x j,λ 1x 1++λ kx k=x j,0 V=0,\langle x_j, \lambda_1x_1+\ldots+\lambda_k x_k\rangle=\langle x_j, 0_V\rangle=0, et donc i=1 kλ ix j,x i=0.\sum_{i=1}^k\lambda_i \langle x_j,x_i\rangle=0. Puisque les x ix_i sont deux à deux orthogonaux, cela s’écrit λ jx j,x j=0.\lambda_j \langle x_j,x_j\rangle=0. Puisque par hypothèse x j0x_j\neq 0, on a x j,x j>0\langle x_j,x_j\rangle &gt;0, et donc λ j=0\lambda_j=0. Ceci achève la démonstration.

Revenons maintenant à l’existence de bases orthonormées.

Proposition 11   Soit (V,,)(V,\langle \, ,\, \rangle) un espace prehilbertien de dimension finie. Alors VV possède une base (v 1,,v n)(v_1,\ldots,v_n) orthonormée pour le produit scalaire.

De plus, si (v 1,,v n)(v_1,\ldots,v_n) est une base orthonormée, alors pour tout xVx\in V, on a x=v 1,xv 1++v n,xv n.x=\langle v_1,x\rangle v_1+\ldots+\langle v_n,x\rangle v_n.

Preuve : D’après le Théorème 8, il existe une base e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) de VV qui est orthogonale pour le produit scalaire. Puisque e{\bf e} est une base, e i0e_i\neq 0 pour tout ii, et on a donc ||e i||0\vert\vert e_i\vert\vert\neq 0.

Pour tout i=1,,ni=1,\ldots,n, on pose v i=1||e i||e i.v_i=\frac{1}{\vert\vert e_i\vert\vert}e_i. Il est clair que (v 1,,v n)(v_1,\ldots,v_n) est une base de VV.

De plus, on a v i,v j=1||e i||e i,1||e j||e j=1||e i||×||e j||e i,e j pour tout i,j.\langle v_i,v_j\rangle=\langle \frac{1}{\vert\vert e_i\vert\vert}e_i,\frac{1}{\vert\vert e_j\vert\vert}e_j\rangle=\frac{1}{\vert\vert e_i\vert\vert\times \vert\vert e_j\vert\vert}\langle e_i,e_j\rangle\mbox{ pour tout }i, j.

Puisque e est une base orthogonale, on obtient v i,v j=0 pour tout ij.\langle v_i,v_j\rangle=0\mbox{ pour tout }i\neq j. De plus, pour tout ii, on a v i,v i=1||e i|| 2e i,e i=e i,e ie i,e i=1.\langle v_i,v_i\rangle=\frac{1}{\vert\vert e_i\vert\vert^2}\langle e_i,e_i\rangle=\frac{\langle e_i,e_i\rangle}{\langle e_i,e_i\rangle}=1. Ainsi, (v 1,,v n)(v_1,\ldots,v_n) est une base orthonormée.

Soit maintenant (v 1,,v n)(v_1,\ldots,v_n) une base orthonormée, et soit xVx\in V. Puisque v 1,,v nv_1,\ldots,v_n est une base, on peut écrire x=λ 1v 1++λ nv n.x=\lambda_1 v_1+\ldots+\lambda_n v_n. Pour tout jj, on a alors v j,x= i=1 nλ iv j,v i=λ j,\langle v_j,x\rangle=\sum_{i=1}^n \lambda _i \langle v_j,v_i\rangle=\lambda_j, la dernière égalité provenant du fait que v 1,,v nv_1,\ldots,v_n est une base orthonormée. On a donc bien l’égalité annoncée.

Nous avons donc maintenant une notion satisfaisante de la distance entre deux éléments d’un espace vectoriel muni d’un produit scalaire. Rappelons que la question qui a motivé ce travail est la suivante : je veux construire dans un espace vectoriel VV un “bon approximant” ww pour un élément vv sous la contrainte que ww doit être contenu dans un sous-espace WW. Nous savons maintenant ce qu’on veut dire exactement par un “bon approximant” : on veut que la distance d(v,w)d(v,w) entre vv et ww soit la plus petite possible. Le lemme suivant nous donne un critère numérique pour que wWw\in W soit le “meilleur approximant” pour vv.

Lemme 12   Soit VV un espace prehilbertien, WW un sous espace de VV et vv un élément de VV. Si wWw\in W a la propriété que vw,w=0\langle v-w,w'\rangle =0 pour tout wWw'\in W alors pour tout wWw'\in W on a que d(v,w)d(v,w)d(v,w)\leq d(v,w'), avec égalité si et seulement si w=ww'=w.

Autrement dit, si la droite qui relie vv à wWw\in W est perpendiculaire à WW alors ww est le point de WW le plus proche de vv. Ce résultat vous est familier depuis le lycée pour le cas ou v 3v\in \mathbb{R}^3 et WW est un plan dans 3\mathbb{R}^3. Preuve : On a que d(v,w)=||vw||=||(vw)+(ww)||. d(v,w')= || v-w'|| =|| (v- w) + (w-w')||. Maintenant, wwWw-w'\in W donc par hypothèse (vw)(ww)(v-w) \perp (w-w') et par le théorème de Pythagore d(v,w) 2=||(vw)|| 2+||(ww)|| 2d(v,w) 2 d(v,w')^2= ||(v-w)||^2+ ||(w-w')||^2 \geq d(v,w)^2 avec égalité si et seulement si ||ww||=0||w-w'||=0, c’est-à-dire w=ww=w'.

Notre critère est que (vw)(v-w) doit être orthogonal à tous les éléments de WW. Etudions donc l’ensemble constitué de tels éléments.

Définition 13   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien et soit SS un sous-ensemble de VV. L’orthogonal de SS, noté S S^\perp, est le sous-ensemble de VV défini par S ={xVs,x=0 pour tout sS}.S^\perp=\{ x\in V \mid \langle s,x\rangle=0 \mbox{ pour tout }s\in S \}.

Exercice. Démontrer que S S^\perp est toujours un sous-espace vectoriel de WW.

Théorème 14   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien et soit WW un sous-espace vectoriel de VV. Alors:
  1. Pour tout wWw\in W et tout wW w'\in W^\perp, on a www\perp w'. De plus, WW ={0 V}W\cap W^\perp=\{0_V\}.
  2. Si WW est de dimension finie, on a V=WW V=W{\oplus} W^\perp. Autrement dit, tout xVx\in V s’écrit de manière unique sous la forme x=w+w,wW,wW .x=w+w', w\in W,w'\in W^\perp. De plus, si (v 1,,v k)(v_1,\ldots, v_k) est une base orthonormée pour WW alors on a w= i=1 kx,v iv iw= \sum_{i=1}^k \langle x, v_i\rangle v_i.

Preuve :


(1)(1) Si wWw\in W et wW w'\in W^\perp, alors on a w,w=0\langle w,w'\rangle=0 par définition de W W^\perp. On a donc www\perp w'. Soit maintenant wWW w\in W\cap W^\perp. Puisque wW w\in W^\perp et wWw\in W on a que w,w=0\langle w,w\rangle=0 et donc w=0w=0 d’après les propriétés du produit scalaire.

Ainsi, on a WW ={0}W\cap W^\perp=\{ 0 \}, ce qu’il fallait vérifier.

(2)(2) D’après (1)(1), il reste à démontrer que V=W+W V=W+W^\perp, c’est-à-dire que tout vecteur vVv\in V peut s’écrire v=w+wv=w+w' avec wWw\in W et wW w'\in W^\perp.

Si W={0}W=\{0\}, on a W =VW^\perp=V, et il n’y a rien à faire. On peut donc supposer que WW n’est pas l’espace trivial {0 V}\{ 0_V \}. La restriction à WW du produit scalaire sur VV est encore un produit scalaire. Puisque WW est de dimension finie, WW possède une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) d’après la proposition précédente.

Soit vVv\in V. On pose w= i=1 kv i,vv i.w=\sum_{i=1}^k \langle v_i, v\rangle v_i. Alors wWw\in W. D’autre part, on a v j,vw = v j,vv j,w = v j,vv j, i=1 nv i,vv i = v j,v i=1 kv i,vv j,v i.\begin{array}{lll}\langle v_j,v-w\rangle &=& \langle v_j,v\rangle-\langle v_j,w\rangle\\ &=& \langle v_j,v\rangle- \langle v_j,\displaystyle\sum_{i=1}^n \langle v_i,v\rangle v_i\rangle \\ &=& \langle v_j,v\rangle-\displaystyle\sum_{i=1}^k \langle v_i,v\rangle \langle v_j,v_i\rangle.\end{array} Puisque v 1,,v kv_1,\ldots,v_k est orthonormée, on en déduit: v j,vw=v j,vv j,v=0,\langle v_j,v-w\rangle=\langle v_j,v\rangle-\langle v_j,v\rangle=0, et ceci pour tout j=1,,kj=1,\ldots,k.

Soit sWs\in W. Alors on peut écrire s=s 1v 1++s kv ks=s_1v_1+\ldots+s_k v_k, et donc s,vw= i=j ks jv j,vw=0.\langle s, v-w\rangle=\sum_{i=j}^k {s}_j\langle v_j,v-w\rangle=0. Ainsi, vwW v-w\in W^\perp, et donc on a la décomposition voulue en posant w=vww'=v-w. Si maintenant on a deux décompositions v=w 1+w 1=w 2+w 2,w iW,w iW ,v=w_1+w'_1=w_2+w'_2,w_i\in W,w'_i\in W^\perp, on a w 1w 2=w 2w 1WW ,w_1-w_2=w'_2-w'_1\in W\cap W^\perp, car WW et W W^\perp sont des sous-espaces vectoriels de VV. Par le premier point, on en déduit w 1w 2=w 2w 1=0 Vw_1-w_2=w'_2-w'_1=0_V, et donc w 1=w 2,w 1=w 2w_1=w_2, w'_1=w'_2, CQFD.

Remarque 15   Le point (2)(2) est faux sans hypothèse de finitude de la dimension de WW.

D’après le deuxième point du théorème, lorsque WW est de dimension finie, tout xVx\in V se décompose de manière unique sous la forme x=w+w,wW,wW .x=w+w',w\in W,w'\in W^\perp.

Cela conduit à la définition suivante:

Définition 16   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien, et soit WW un sous-espace de VV de dimension finie. Pour tout x=w+wVx=w+w'\in V avec wWw\in W et wW w'\in W^\perp on pose p W(x)=w.p_W(x)=w. Le vecteur p W(x)Wp_W(x)\in W est appelé la projection orthogonale de xx sur WW. Si (v 1,v k)(v_1,\ldots v_k) est une base orthonormée de WW alors on a p W(x)= i=1 kx,v iv i.p_W(x)= \sum_{i=1}^k \langle x, v_i\rangle v_i.

Le lecteur vérifiera à titre d’exercice les propriétés suivantes:

  1. L’application p W:VVp_W:V\to V est linéaire.
  2. Pour tout xVx\in V, on a et p W(x)W,p_W(x)\in W, (xp W(x))W (x-p_W(x))\in W^\perp.

Notons que la projection orthogonale a surtout la propriété intéressante suivante : p W(x) est le point de $W$ le plus proche de x. p_W(x)\mbox{ est le point de &#36;W&#36; le plus proche de }x. Il nous est donc important d’avoir une formule explicite pour calculer cette projection orthogonale si on veut l’utiliser pour des calculs effectifs. Les résultats ci-dessous nous livrent une telle formule, p W(x)= ix,v iv i, p_W(x)=\sum_i \langle x,v_i\rangle v_i, à condition de disposer d’une base orthonormée (v 1v n)(v_1\ldots v_n) pour WW. Il nous est donc important de pouvoir construire de telles bases orthonormées, ce que nous faisons dans le prochain paragraphe.

5.3  Procédé d’orthonormalisation de Gram-Schmidt.

Soit (V,,)(V,\langle, \rangle) un espace prehilbertien de dimension finie. On suppose donnée une base pour VV, e=(e 1,,e n){\bf e}= (e_1,\ldots, e_n). Nous allons construire récursivement une nouvelle base (orthonormée) v=(v 1,v n){\bf v}=(v_1,\ldots v_n) à partir de e{\bf e} par la méthode suivante :

  1. On pose v 1=e 1||e 1||v_1= \frac{e_1}{||e_1||},
  2. On suppose donnés (v 1,,v k)(v_1,\ldots, v_k), et on se propose de construire v k+1v_{k+1}.
  3. (Orthogonalisation). On introduit un vecteur auxiliaire f k+1f_{k+1} défini par f k+1=e k+1 i=1 ke k+1,v jv j. f_{k+1}= e_{k+1} -\sum_{i=1}^k \langle e_{k+1}, v_j\rangle v_j. Par construction f k+1f_{k+1} est orthogonal aux vecteurs v 1,,v kv_1,\ldots, v_k. Il n’est pas, par contre, de longueur 11.
  4. (Normalisation). On pose v k+1=f k+1||f k+1||. v_{k+1}=\frac{f_{k+1}}{|| f_{k+1}||}.
  5. Nous avons maintenant l’ensemble (v 1,,v k+1)(v_1,\ldots, v_{k+1}). On revient à l’étape (2) pour construire v k+2v_{k+2}.

Vérifions maintenant que cette construction donne bien une base orthonormée.

Proposition 1   Les vecteurs de la famille v{\bf v} construite ci-dessus forment une base orthonormée pour VV.

Preuve : Il suffira de montrer que cette famille est orthonormée : elle est alors automatiquement libre et comme elle contient n=dim Vn=\mbox{dim } V éléments c’est une base.

il résulte directement de v k=f k/||f k||v_{k}=f_{k}/|| f_{k}|| que ||v k||=1|| v_{k}||=1. On va montrer par récurrence sur k2k\geq 2 la proposition P(k): les \'el\'ements (v 1,v k) sont orthogonaux deux \`a deux k{2,,n}. P(k) : \mbox{ les \'el\'ements } (v_1,\ldots v_k)\mbox{ sont orthogonaux deux \`a deux } \forall k\in \{ 2,\ldots, n\}. Démontrons d’abord P(2)P(2). On doit montrer que v 1,v 2=0\langle v_1, v_2\rangle =0. Puisque v 1,v 2=1||e 1||×||f 2||e 1,f 2\langle v_1, v_2\rangle=\frac{1} {|| e_1||\times || f_2 ||\langle e_1, f_2\rangle} il suffira de montrer que e 1,f 2=0\langle e_1, f_2\rangle =0.

Mais e 1,f 2=e 1,e 2e 2,v 2v 1\langle e_1, f_2\rangle = \langle e_1, e_2-\langle e_2, v_2\rangle v_1\rangle =e 1,e 2e 1,e 2,v 1v 1=\langle e_1, e_2\rangle - \langle e_1, \langle e_2, v_1\rangle v_1\langle =e 1,e 2e 2,v 1e 1,v 1= \langle e_1, e_2\rangle -\langle e_2, v_1\rangle \langle e_1, v_1\rangle =e 1,e 2e 2,e 1||e 1||||e 1||=0. = \langle e_1, e_2\rangle -\frac{\langle e_2, e_1\rangle}{||e_1||} ||e_1||=0. P(2)P(2) est donc vrai. Supposons que P(k1)P(k-1) est vraie et déduisons P(k)P(k). Il suffira de démontrer que v i,v k=0\langle v_i, v_k \rangle=0 pour tout i<ki&lt;k. Mais on a v i,v k=1||f k||v i,f k \langle v_i, v_k \rangle = \frac{1}{||f_k||} \langle v_i, f_k\rangle =1||f k||v i,e k j=1 k1e k,v jv j = \frac{1}{||f_k||} \langle v_i, e_k-\sum_{j=1}^{k-1} \langle e_k, v_j\rangle v_j\rangle =1||f k||(v i,e k j=1 k1e k,v jv i,v j)= \frac{1}{|| f_k||} \left(\langle v_i, e_k\rangle -\sum_{j=1}^{k-1} \langle e_k, v_j\rangle \langle v_i, v_j\rangle\right) et maintenant puisque v i,v j=0\langle v_i, v_j\rangle =0 si iji\neq j et v iv j=1\langle v_i v_j\rangle = 1 si i=ji=j on a 1||f k||(v i,e k j=1 k1e k,v jv i,v j)=1||f k||(v i,e ke k,v i)=0.\frac{1}{|| f_k||} \left(\langle v_i, e_k\rangle -\sum_{j=1}^{k-1} \langle e_k, v_j\rangle \langle v_i, v_j\rangle\right) = \frac{1}{|| f_k||} (\langle v_i, e_k\rangle - \langle e_k, v_i\rangle)=0. On a donc P(k)P(k) pour tout knk\leq n : en particulier P(n)P(n) est vraie et cette famille est une base orthonormée.

Exemple 2   On considère la base de 3\mathbb{R}^3 e 1=(1 1 0),e 2=(1 0 1),e 3=(0 1 1).e_1=\begin{pmatrix}1\\ 1\\ 0\end{pmatrix},e_2=\begin{pmatrix}1\\ 0\\ 1\end{pmatrix},e_3=\begin{pmatrix}0\\ 1\\ 1\end{pmatrix}. Appliquons le procédé de Gram-Schmidt à cette base afin d’obtenir une base orthonormée pour le produit scalaire. On pose v 1=e 1/||e 1||=(1/2 1/2 0)v_1=e_1/|| e_1||= \begin{pmatrix}1/\sqrt{2}\\ 1/\sqrt{2}\\ 0\end{pmatrix}. On a f 2=e 2v 1,e 2v 1=(12 12 1).f_2=e_2-\langle v_1,e_{2}\rangle v_1=\begin{pmatrix} \frac{1}{2}\\ -\frac{1}{2}\\ 1 \end{pmatrix}. On pose v 2=f 2/||f 2||=(16 16 26).v_2= f_2/|| f_2||= \begin{pmatrix}\frac{1} {\sqrt{6}}\\ -\frac{1} {\sqrt{6}}\\ \frac{2} {\sqrt{6}} \end{pmatrix}. Enfin, f 3=e 3v 1,e 3v 1v 2,e 3v 2=(2/3 2/3 2/3),f_3=e_3-\langle v_1,e_3\rangle v_1-\langle v_2,e_{3}\rangle v_2= \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}, et donc v 3=f 3||f 3||=32(2/3 2/3 2/3). v_3= \frac{f_3}{||f_3||}= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. On a donc v 1=12(1 0 0),v 2=23(1/2 1/2 1),v 3=32(2/3 2/3 2/3).v_1=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 0\\ 0 \end{pmatrix},v_2=\sqrt{\frac{2}{3}}\begin{pmatrix}1/2\\ 1/2\\ 1\end{pmatrix},v_3= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}.
Exemple 3   Construisons une base orthonormée pour le plan d’équation x+y+z=0x+y+z=0 dans 3\mathbb{R}^3. Il a une base non orthonormée (e 1,e 2)(e_1, e_2) donnée par e 1=(1 1 0),e 2=(1 0 1).e_1=\begin{pmatrix}1\\-1\\0\end{pmatrix} , e_2= \begin{pmatrix}1\\0\\-1\end{pmatrix}. On pose v 1=e 1||e 1||=(1/2 1/2 0)v_1= \displaystyle{\frac{e_1}{|| e_1||}}= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}. On introduit alors f 2=e 2v 1,e 2v 1=e 212v 1=(1/2 1/2 1)f_2= e_2-\langle v_1, e_2\rangle v_1= e_2-\frac{1}{\sqrt2} v_1= \begin{pmatrix}1/2\\ 1/2 \\ -1\end{pmatrix} et on pose v 2=f 2/||f 2||=(1/6 16 2/6).v_2= f_2/ || f_2||= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}. Ceci nous donne la base (v 1,v 2)(v_1, v_2) avec v 1=(1/2 1/2 0),v 2=(1/6 16 2/6). v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.
Remarque 4   Le procédé de Gram-Schmidt permet de calculer la projection orthogonale de tout vecteur xVx\in V sur un sous-espace WW de dimension finie, en calculant une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) de WW à partir d’une base quelconque e 1,,e ke_1,\ldots,e_k de WW (pour le produit scalaire sur WW obtenu par restriction du produit scalaire sur WW). On aura alors p W(x)= j=1 kv j,xv j.p_W(x)=\sum_{j=1}^k \langle v_j,x\rangle v_j. Rappelons que p W(x)p_W(x) est le meilleur approximant de xx dans WW.
Exemple 5   Utilisons cette méthode pour construire pour tout v 3v\in \mathbb{R}^3 le point le plus proche de vv dans WW, le plan d’équation x+y+z=0x+y+z=0. Nous avons vu qu’une base orthonormée pour ce plan est donnée par v 1=(1/2 1/2 0),v 2=(1/6 16 2/6)v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}. Soit v=(x y z)v=\begin{pmatrix}x\\y\\z\end{pmatrix} : on a donc p W(v)=v,v 1v 1+v,v 2 p_W(v) =\langle v,v_1\rangle v_1+ \langle v, v_2\rangle =(xy)2v 1+(x+y2z)6v 2 = \frac{(x-y)}{\sqrt{2}}v_1+ \frac{(x+y-2z)}{\sqrt{6}}v_2 =((xy)/2 (x+y)/2 0)+((x+y2z)/6 (x+y2z)/6 2x2y+4z/6)= \begin{pmatrix}(x-y)/2\\ (-x+y)/2\\ 0\end{pmatrix} + \begin{pmatrix} (x+y-2z)/6\\ (x+y-2z)/6\\ -2x-2y+4z/6\end{pmatrix} =((2xyz)/3 (x+2yz)/3 (xy+2z)/3).= \begin{pmatrix} (2x-y-z)/3\\ (-x+2y-z)/3\\ (-x-y+2z)/3\end{pmatrix}.

Nous pouvons utiliser ces techniques pour résoudre des problèmes de minimisation.

Exemple 6   Considérons le problème suivant. On veut mesurer une donnée yy (pH d’une solution, température) en fonction d’un paramètre xx (concentration d’un ion, temps). Considérons les nn points (avec n2n\geq 2) P 1:=(x 1,y 1),,P n:=(x n,y n)P_1:=(x_1,y_1),\ldots,P_n:=(x_n,y_n) de 2\mathbb{R}^2 représentant par exemple le résultat de nn expérimentations. On suppose que les x ix_is sont deux à deux distincts. Supposons que la théorie nous dise que yy varie de façon affine en fonction de xx. A cause des erreurs de manipulation, de mesure, les nn points P 1,,P nP_1,\ldots,P_n ne sont pas alignés.

Comment trouver la droite de meilleure approximation, c’est-à-dire la droite d’équation y=ax+by=ax+b telle que les points théoriques Q 1:=(x 1,ax 1+b),,Q n:=(x n,ax n+b)Q_1:=(x_1,ax_1+b),\ldots,Q_n:=(x_n,ax_n+b) soient le plus proche possible des points expérimentaux P 1,,P nP_1,\ldots,P_n ?

Plus précisément, comment choisir la droite y=ax+by=ax+b telle que l’erreur quadratique e:=P 1Q 1 2++P nQ n 2e:=P_1Q_1^2+\ldots+P_nQ_n^2 soit minimale?

On veut donc trouver (a,b) 2(a,b)\in\mathbb{R}^2 tels que e:=(y 1(ax 1+b)) 2++(y n(ax n+b)) 2e:=(y_1-(ax_1+b))^2+\ldots+(y_n-(ax_n+b))^2 soit minimale. Posons X̲=(x 1 x n),Y̲=(y 1 y n) et U̲=(1 1).\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix},\underline{Y}=\begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix}\mbox{ et } \underline{U}=\begin{pmatrix}1\\\vdots\\ 1\end{pmatrix}. On a facilement que Y̲(aX̲+bU̲)=(y 1(ax 1+b) y n(ax n+b)),\underline{Y}-(a\underline{X}+b\underline{U})= \begin{pmatrix}y_1-(ax_1+b)\\\vdots\\ y_n-(ax_n+b)\end{pmatrix}, et donc d=||Y̲(aX̲+bU̲)|| 2,d=\vert\vert \underline{Y}-(a\underline{X}+b\underline{U})\vert\vert^2, où nous utilisons la norme associée au produit scalaire canonique sur n\mathbb{R}^n. Soit WW le sous-espace vectoriel dans n\mathbb{R}^n formé de tous les vecteurs de la forme aX̲+bU̲a\underline{X}+ b\underline{U} lorsque (a,b)(a,b) décrit 2\mathbb{R}^2. On veut donc minimiser ||Y̲w||\vert\vert \underline{Y}-w\vert\vert, lorsque ww décrit WW. D’après les propriétés de la projection orthogonale, le minimum est obtenu pour w=p W(Y̲)w=p_W(\underline{Y}).

On doit donc calculer p W(Y̲)p_W(\underline{Y}). Les coefficients aa et bb seront alors donnés par la relation p W(Y̲)=aX̲+bU̲p_W(\underline{Y})=a\underline{X}+b \underline{U} car (X̲,U̲)(\underline{X},\underline{U}) est une base de WW. Posons x¯=x 1++x nn,y¯=y 1++y nn.\overline{x}=\frac{x_1+\ldots+x_n}{n}, \overline{y}=\frac{y_1+\ldots+y_n}{n}.

Appliquons l’algorithme de Gram-Schmidt à la base e 1=U̲,e 2=X̲e_1=\underline{U}, e_2=\underline{X} de WW. On a v 1=U̲/||U̲||=1nU̲v_1=\underline{U}/||\underline{U}||= \frac{1}{\sqrt{n}}\underline{U}. On a aussi f 2=e 2v 1,e 2v 1=X̲x¯U̲f_2=e_2-\langle v_1,e_2\rangle v_1= \underline{X}-\overline{x}\underline{U} et v 2=f 2/||f 2||v_2= f_2/ || f_2||. On a alors p W(Y̲) = v 1,Y̲v 1+v 2,Y̲v 2 = dsy¯U̲+ds i=1 nx iy ix¯y ids i=1 n(x ix¯) 2(X̲x¯U̲).\begin{array}{lll} p_W(\underline{Y})&=&\langle v_1,\underline{Y} \rangle v_1+\langle v_2,\underline{Y}\rangle v_2\\ &=&\ds \overline{y}\underline{U}+ \frac{\ds\sum_{i=1}^n x_iy_i-\overline{x}y_i}{\ds\sum_{i=1}^n (x_i-\overline{x})^2}(\underline{X}-\overline{x}\underline{U}). \end{array}

Remarquons que l’on a i=1 n(x iy ix¯y i)=( i=1 nx iy i)nx¯y¯= i=1 n(x iy ix¯y¯).\sum_{i=1}^n (x_iy_i-\overline{x}y_i)=(\sum_{i=1}^n x_iy_i)-n\overline{x}\,\overline{y}=\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y}). On a donc

p W(Y̲)=ds i=1 n(x iy ix¯y¯)ds i=1 n(x ix¯) 2X̲+(y¯x¯ds i=1 n(x iy ix¯y¯)ds i=1 n(x ix¯) 2)U̲.p_W(\underline{Y})=\frac{\ds\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\ds\sum_{i=1}^n (x_i-\overline{x})^2}\underline{X}+\left(\overline{y}-\overline{x}\frac{\ds\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\ds\sum_{i=1}^n (x_i-\overline{x})^2}\right)\underline{U}.

Ainsi, la droite de meilleure approximation est donnée par y=ds i=1 n(x iy ix¯y¯)ds i=1 n(x ix¯) 2(xx¯)+y¯.y=\frac{\ds\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\ds\sum_{i=1}^n (x_i-\overline{x})^2}(x-\overline{x})+ \overline{y}. c’est-à-dire qu’on a a=ds i=1 n(x iy ix¯y¯)ds i=1 n(x ix¯) 2a= \frac{\ds\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\ds\sum_{i=1}^n (x_i-\overline{x})^2} et b=ds i=1 n(x iy ix¯y¯)ds i=1 n(x ix¯) 2x¯+y¯b= -\frac{\ds\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\ds\sum_{i=1}^n (x_i-\overline{x})^2}\overline{x}+\overline{y}.

Exemple 7   On peut aussi vouloir approximer une fonction continue f:[a,b]f:[a,b]\to \mathbb{R} par une fonction affine y=αx+βy=\alpha x+\beta. Dans ce cas, la méthode précédente ne marche plus, puisque l’on doit considérer une infinité de points.

L’idée est de considérer un grand nombre de points sur le graphe de ff, dont les abcisses sont régulièrement espacés, P 1=(x 1,f(x 1)),,P n=(x n,f(x n))P_1=(x_1,f(x_1)),\ldots,P_n=(x_n,f(x_n)), avec x i=dsa+(ba)inx_i=\ds a+\frac{(b-a)i}{n}, et de considérer la droite de meilleure approximation pour ces points. Bien sûr, plus nn est grand, meilleure est l’approximation. L’entier nn étant fixé, on doit donc minimiser d:=(f(x 1)(αx 1+β)) 2++(f(x n)(αx n+β)) 2.d:=(f(x_1)-(\alpha x_1+\beta))^2+\ldots+(f(x_n)-(\alpha x_n+\beta))^2. Ceci revient aussi à minimiser S n:=1n i=1 n(f(x i)(αx i+β)) 2, avec x i=a+(ba)in.S_n:=\frac{1}{n}\sum_{i=1}^n (f(x_i)-(\alpha x_i+\beta))^2, \mbox{ avec }x_i=a+\frac{(b-a)i}{n}. On voit graphiquement (et on peut démontrer rigoureusement) que S nS_n converge vers ds a b(f(t)(αt+β)) 2dt\ds\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t. En particulier, S nS_n est très proche de cette intégrale lorsque nn est suffisamment grand.

Il est alors naturel de définir la droite de meilleure approximation y=αx+βy=\alpha x+\beta comme celle qui minimise l’intégrale ds a b(f(t)(αt+β)) 2dt\ds\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t.

Ce genre d’intégrale s’interprète souvent comme l’énergie d’un système. Ainsi, le problème de minimisation précédent revient à demander de minimiser cette énergie.

Exemple 8   Considérons le problème de minimisation suivant: trouver a,ba,b\in\mathbb{R} tels que ds 0 π2(cos(x)abx) 2dx\ds\int_0^{\frac{\pi}{2}}(\cos(x)-a-bx)^2\mbox{d}x soit minimale.

Soit VV l’espace C 0([0,π2],)C^0([0,\frac{\pi}{2}], \mathbb{R}) avec son produit scalaire ,:V×V,(f,g) 0 π2f(x)g(x)dx.\langle, \, \rangle:V\times V\to\mathbb{R}, (f,g)\mapsto \int_0^{\frac{\pi}{2}}f(x)g(x)\mbox{d}x. On vérifie que ,\langle, \, \rangle est un produit scalaire sur VV. Considérons maintenant le sous-espace WW de VV défini par W=Vect(1,x)={f|f:xa+bx,a,b}.W=\mbox{Vect}(1,x)=\{f| f:x\mapsto a+bx, a,b\in\mathbb{R} \}. Le problème de minimisation se reformule alors ainsi:

Trouver gWg\in W tel que cos(x)g(x),cos(x)g(x)\langle \cos(x)-g(x),\cos(x)-g(x)\rangle soit minimal. Autrement dit, on cherche gWg\in W tel que ||cos(x)g(x)||\vert\vert\cos(x)-g(x)\vert\vert soit minimal. Cela revient à dire que g=p W(cos(x))g=p_W(\cos(x)). On cherche donc à calculer la projection orthogonale de cos(x)\cos(x) sur W=Vect(1,x)W=\mbox{Vect}(1,x).

Appliquons le procédé de Gram-Schmidt à la base e 1=1,e 2=xe_1=1,e_2=x de WW. On a v 1=e 1/||e 1||=2πv_1=e_1/|| e_1||=\sqrt{\frac{2}{\pi}}. On pose f 2=e 2v 1,e 2v 1=(xπ4)f_2=e_2-\langle v_1,e_2\rangle v_1=(x-\frac{\pi}{4}) et on prend v 2=(xπ4)/||xπ4||v_2= (x-\frac{\pi}{4})/|| x-\frac{\pi}{4}||

On a alors g=p W(cos(x))=1,cos(x)1,11+xπ4,cos(x)xπ4,xπ4(xπ4)=ax+bg=p_W(\cos(x))=\frac{\langle 1,\cos(x)\rangle}{\langle 1,1\rangle}1+\frac{\langle x-\frac{\pi}{4},\cos(x)\rangle}{\langle x-\frac{\pi}{4},x-\frac{\pi}{4}\rangle}(x-\frac{\pi}{4})= ax+b avec a=(24π 296π 3)a= (\frac{24}{\pi^2}-\frac{96}{\pi^3}) et b=(4π+24π 2)b= (\frac{-4}{\pi}+\frac{24}{\pi^2}).

Exemple 9   On peut aussi vouloir approximer une fonction f:[a,b]f:[a,b]\to\mathbb{R} par une fonction autre qu’une droite. Par exemple, on peut vouloir approximer ff par une fonction gg appartenant à un sous-espace vectoriel WW de C 0([a,b],)C^0([a,b],\mathbb{R}), de façon à ce que l’intégrale a b(f(t)g(t)) 2dt\int_a^b(f(t)-g(t))^2\mbox{d}t soit minimale, lorsque gg décrit WW.

Considérons le problème posé dans l’introduction, celui d’approcher une fonction par des sommes trigonométriques. Soit f:[L,L]f:[-L,L]\rightarrow \mathbb{R} une fonction que l’on supposera continue : on veut approximer ff par une somme finie de fonctions trigonométriques S n(f):=a 0+ k=1 na kcos(2kπxL)+b ksin(2kπxL).S_n(f):=a_0+\sum_{k=1}^n a_k\cos(\frac{2 k\pi x}{L})+ b_k\sin(\frac{2 k\pi x}{L}). On veut trouver les coefficients a ka_k et b kb_k tels que l’intégrale 0 L(f(t)S n(t)) 2dt\int_0^L(f(t)-S_n(t))^2\mbox{d}t soit minimale.

Soit VV l’espace vectoriel C 0([L,L],)C^0([-L,L], \mathbb{R}) et WW le sous-espace vectoriel de VV engendré par 1,cos(2kπxL),sin(2kπxL),k=1,,n.\frac{1}, \cos(\frac{2 k\pi x}{L}),\sin(\frac{2 k\pi x}{L}),k=1,\ldots,n. Autrement dit, WW est l’ensemble de fonctions de la forme g(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g(x)=a_0+\sum_{k=1}^n a_k\cos(\frac{k\pi x}{L})+ b_k\sin(\frac{k\pi x}{L}).

Considérons le produit scalaire ,:V,(f,g)f,g= L Lf(t)g(t)dt.\langle,\,\rangle:V\to\mathbb{R}, (f,g)\mapsto \langle f,g\rangle=\int_{-L}^Lf(t)g(t)\mbox{d}t.

Le raisonnement précédent montre que la meilleure approximation S n(f)S_n(f) est donnée par p W(f)p_W(f). Or, on peut vérifier que 12L,1Lcos(2kπxL),1Lsin(2kπxT),k=1,,n\frac{1}{\sqrt{2L}}, \sqrt{\frac{1}{L}}\cos\left(\frac{2 k\pi x}{L}\right),\sqrt{\frac{1}{L}}\sin\left(\frac{2 k\pi x}{T}\right),k=1,\ldots,n fournit une base orthonormée de WW – nous reviendrons en détail sur ce calcul dans le dernier chapitre.

La formule pour la projection orthogonale p W(f)p_W(f) nous donne alors p W(f)=1,f12L+ k=1 n1Lcos(kπxL),fcos(kπxL)+1Lsin(kπxL),fsin(kπxL)p_W(f)=\langle 1,f\rangle\frac{1}{2L}+\sum_{k=1}^n \frac{1}{L}\langle \cos(\frac{k\pi x}{L}),f\rangle \cos(\frac{k\pi x}{L})+ \frac{1}{L}\langle \sin(\frac{ k\pi x}{L}),f\rangle \sin(\frac{ k\pi x}{L})

=12L L Lf(t)dt+1L L Lf(t)cos(kπtL)dtcos(kπxL)+1L L Lf(t)sin(kπtL)dtsin(kπxL).= \frac{1}{2L}\int_{-L}^L f(t)dt+ \frac{1}{L}\int_{-L}^L f(t)\cos(\frac{k\pi t}{L})\mbox{d}t \cos(\frac{k\pi x}{L})+ \frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t \sin(\frac{ k\pi x}{L}). Les choix de coefficients a 0,a k,b ka_0, a_k, b_k qui minimisent cet intégrale sont donc donnés par a 0=12L L Lf(t)dta_0= \frac{1}{2L}\int_{-L}^L f(t)dt a k=1L L Lf(t)cos(kπtL)dt,a_k=\frac{1}{L}\int_{-L}^L f(t)\cos(\frac{ k\pi t}{L})\mbox{d}t, b k=1L L Lf(t)sin(kπtL)dt.b_k=\frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t.

5.4  Diagonalisation orthogonale des matrices symétriques.

Nous présentons ici un théorème sur la diagonalisation des matrices symétriques, que vous avez étudiée en MAT234.

On commence par un lemme.

Lemme 1   Soit (V,,)(V,\langle,\rangle) un espace prehilbertien de dimension nn, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base orthonormée. Soit v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) une autre base de VV, et soit PP la matrice de passage correspondante (c’est-à-dire la matrice dont les colonnes sont les vecteurs coordonnées de (v 1,,v n)(v_1,\ldots,v_n) dans la base (e 1,,e n)(e_1,\ldots,e_n)). La base (v 1,,v n)(v_1,\ldots,v_n) est orthornormée si et seulement si tPP=I n{}^tP P=I_n, c’est-à-dire si P 1= tPP^{-1}= {}^tP.

Preuve :

Soient MM et NN les matrices de la forme ,\langle, \rangle dans les bases e{\bf e} et v{ \bf v}. On sait que N= tPMPN= {}^tP M P : puisque e{\bf e} est supposée orthonormée nous avons M=I nM=I_n et N= tPPN= {}^tPP. La base v{\bf v} est orthonormée si et seulement si N=I nN=I_n c’est à dire ssi I n= tPP. I_n= {}^tP P. CQFD.

Théorème 2   Soit BM n()B\in \M_n(\mathbb{R}) une matrice symétrique, c’est-à-dire vérifiant tB=B{}^tB=B. Alors il existe une base de n\mathbb{R}^n formée de vecteurs propres de BB qui est orthonormée pour le produit scalaire usuel sur n\mathbb{R}^n.

La démonstration repose sur le critère suivant.

Lemme 3   Soient BB une matrice carrée n×nn\times n. Alors si BB est symétrique on a pour tout X̲,Y̲ n\underline{X},\underline{Y}\in \mathbb{R}^n X̲,BY̲=BX̲,Y̲. \langle \underline{X}, B\underline{Y}\rangle = \langle B\underline{X},\underline{Y} \rangle. ou ,\langle, \rangle est le produit scalaire canonique.

Preuve : On a que X̲,BY̲= tX̲BY̲= t( tBX̲)Y̲= t(BX̲)Y̲=BX̲,Y̲\langle \underline{X}, B\underline{Y}\rangle= {}^t\underline{ X} B\underline{Y}= {}^t(^tB \underline{X}) \underline{Y}= {}^t(B\underline{X})\underline{ Y}= \langle B\underline{X}, \underline{Y}\rangle CQFD.

Remarque 4   En particulier, si BX̲=λX̲B\underline{X}= \lambda \underline{X} (c’est-à-dire X̲\underline{X} est un vecteur propre de BB) et BY̲=μY̲B\underline{Y}=\mu \underline{Y} alors λX̲,Y̲=μX̲,Y̲ \lambda \langle \underline{X}, \underline{Y}\rangle= \mu \langle \underline{X},\underline{Y}\rangle et si λμ\lambda\neq \mu alors X̲\underline{X} et Y̲\underline{Y} doivent être orthgonaux

Preuce du Théorème 4.28

Vous avez vu dans MAT234 que toute matrice symétrique réelle est diagonalisable sur \mathbb{R}. Soient λ 1,,λ k\lambda_1,\ldots, \lambda_k ses valeurs propres distincts avec E λ iE_{\lambda_i} le sous-espace propre associé à λ i\lambda_i. Nous avons alors n=E λ 1E λ k, \mathbb{R}^n = E_{\lambda_1} \underset{\perp}{\oplus} \ldots \underset{\perp}{\oplus} E_{\lambda_k}, et par la remarque 4, E λ iE_{\lambda_i} est orthogonal à E λ jE_{\lambda_j} si iji\neq j. Pour tout ii soit e i{\bf e_i} une base orthonormée pour E λ iE_{\lambda_i} et soit e{\bf e} la concaténation (e 1,,e k)({\bf e}_1, \ldots, {\bf e}_k). Par le Lemme 5, e{\bf e} est une base orthonormée pour n\mathbb{R}^n composée de vecteurs propres de BB.

Ceci se traduit en termes de formes bilinéaires de la façon suivante:

Théorème 5  

Soit (V,,)(V,\langle, \rangle) un espace prehilbertien de dimension finie, et soit φ:V×V\varphi :V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base orthonormée pour ,\langle, \rangle qui est aussi φ\varphi-orthogonale.

Preuve :

Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) orthonormée pour ,\langle, \,\rangle, et soit BB sa matrice dans cette base. Alors BB est une matrice symétrique d’après le Lemme 3.

D’après le théorème précédent, il existe une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) de n\mathbb{R}^n formée de vecteurs propres de BB qui est orthonormée pour le produit scalaire usuel de n\mathbb{R}^n.

Si V̲ j=(v 1j v nj)\underline{V}_j=\begin{pmatrix} v_{1j}\\\vdots\\ v_{nj}\end{pmatrix}, posons v j= i=1 nv ije i,v_j=\sum_{i=1}^n v_{ij}e_i, de telle façon que V̲ j\underline{V}_j est le vecteur de coordonnées de v jv_j dans la base e{\bf e}.

Nous allons montrer que v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est une base de VV qui possède les propriétés voulues.

Puisque e est orthonormée, on a v i,v j= tV̲ iV̲ j\langle v_i, v_j\rangle={}^t \underline{V}_i \underline{V}_j d’après le Lemme 7. Par choix de V̲ 1,,V̲ n\underline{V}_1,\ldots, \underline{V}_n, on en déduit que v i,v j=0 si ij\langle v_i,v_j\rangle=0\mbox{ si }i\neq j et v i,v i=1 pour tout i.\langle v_i,v_i\rangle=1\mbox{ pour tout }i.

Il reste à voir que v est φ\varphi-orthogonale. Soit PP la matrice de passage de v à e. La matrice NN qui représente φ\varphi dans la base v{\bf v} est donc tPBP.{}^tP B P. Or v étant orthonormée, on a tPP=I n{}^tP P=I_n. On a ainsi N=P 1BP.N=P^{-1} B P.

Mais v étant formée de vecteurs propres de BB, nous avons que P 1BPP^{-1}BP est diagonale. NN est donc est diagonale, ce qui revient à dire que v est φ\varphi-orthogonale. Cette démonstration nous donne en plus que nous pouvons construire une telle base orthonormée et φ\varphi-orthogonale en prenant des vecteurs propres de BB. vecteur propres de BB.

Méthode pratique pour trouver une base de vecteurs orthonormée et φ\varphi-orthogonale.

(1)(1) Soit MM une matrice symétrique réelle.

- Pour chaque valeur propre λ\lambda\in\mathbb{R} de MM, on calcule une base de E λE_\lambda, puis on applique l’algorithme de Gram-Schmidt pour obtenir une base orthonormée de E λE_\lambda.

- On recolle les bases orthonormées précédentes pour obtenir une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) de n\mathbb{R}^n formée de vecteurs propres de MM, orthonormée pour le produit scalaire usuel sur n\mathbb{R}^n.

(2)(2) Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. On se fixe une base e de VV orthonormée pour ,\langle, \, \rangle.

Soit MM la matrice de φ\varphi dans la base e{\bf e}. MM est une matrice symétrique. On applique la méthode précédente pour obtenir une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) orthonormée de n\mathbb{R}^n formée de vecteurs propres de MM. On prend alors v iv_i l’unique vecteur dans VV qui admet pour vecteur coordonnées dans la base e{\bf e} le vecteur V̲ i\underline{V}_i. La base (v 1,,v n)(v_1,\ldots, v_n) est alors la base recherchée.

Exemples 6  

(1)(1) Soit B=(3 4 4 3)B=\begin{pmatrix}3 & 4 \\ 4 & -3\end{pmatrix}.

On vérifie que les valeurs propres sont 55 et 5-5, et que E 5=Vect{(2 1)},E 5=Vect{(1 2)}.E_5=\mbox{Vect}\{\begin{pmatrix}2\\ 1\end{pmatrix}\}, E_{-5}=\mbox{Vect}\{\begin{pmatrix}1\\ -2\end{pmatrix}\}.

Une base orthonormée pour E 5E_5 est donc 15(2 1),\frac{1}{\sqrt{5}}\begin{pmatrix}2\\ 1\end{pmatrix}, et une base orthonormée pour E 5E_{-5} est donc 15(1 2).\frac{1}{\sqrt{5}}\begin{pmatrix}1\\ -2\end{pmatrix}.

La base recherchée est donc donnée par (15(2 1),15(1 2).)(\frac{1}{\sqrt{5}}\begin{pmatrix}2\\ 1\end{pmatrix},\frac{1}{\sqrt{5}}\begin{pmatrix}1\\ -2\end{pmatrix}.)

(2)(2) Munissons 3\mathbb{R}^3 de son produit scalaire usuel, et soit φ: 3× 3,((x 1 x 3),(y 1 y 3)) i,j3x iy j.\varphi:\mathbb{R}^3\times \mathbb{R}^3\to \mathbb{R}, \left(\begin{pmatrix}x_1\\\vdots\\ x_3\end{pmatrix},\begin{pmatrix}y_1\\\vdots\\ y_3\end{pmatrix}\right)\mapsto \sum_{i,j\leq 3}x_iy_j.

Soit e la base canonique de 3\mathbb{R}^3. C’est une base orthonormée pour le produit scalaire usuel. La matrice MM de φ\varphi dans la base canonique est alors

M=(1 1 1 1 1 1 1 1 1).M=\begin{pmatrix}1&1&1\\1&1&1\\1&1&1\end{pmatrix}.

On vérifie que les valeurs propres sont 33 et 00, que E 3E_3 admet comme base la famille ((1 1 1))(\begin{pmatrix}1\\ 1\\ 1\end{pmatrix}) et que E 0E_{0} admet comme base la famille ((1 1 0),(1 0 1)).\left(\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},\begin{pmatrix}1\\ 0\\ -1\end{pmatrix}\right).

Une base orthonormée pour E 1E_1 est donc 13(1 1 1).\frac{1}{\sqrt{3}}\begin{pmatrix}1\\ 1\\ 1\end{pmatrix}.

Pour trouver une base orthonormée de E 0E_0, on applique Gram-Schmidt. On pose v 1=12(1 1 0)v_1=\displaystyle{\frac{1}{\sqrt{2}}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix}. Ensuite on pose f 2=(1 0 1)12(1 1 0)=(1/2 1/2 1).f_2=\begin{pmatrix}1\\ 0\\ -1\end{pmatrix}-\frac{1}{2}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix}=\begin{pmatrix}1/2\\ 1/2\\ -1\end{pmatrix}. Enfin on pose v 2=f 2/||f 2||=23(1/2 1/2 1)v_2= f_2/|| f_2||= \displaystyle{\sqrt{\frac{2}{3}}}\begin{pmatrix}1/2\\ 1/2\\ -1\end{pmatrix}

Une base orthonormée pour E 0E_{0} est donc (12(1 1 0),23(12 12 1)).\left(\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},\sqrt{\frac{2}{3}}\begin{pmatrix}\frac{1}{2}\\ \frac{1}{2}\\ -1\end{pmatrix}\right).

La base recherchée est donc donnée par v 1=13(1 1 1),v 2=12(1 1 0),v 3=23(12 12 1).v_1=\frac{1}{\sqrt{3}}\begin{pmatrix}1\\ 1\\ 1\end{pmatrix},v_2=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},v_3=\sqrt{\frac{2}{3}}\begin{pmatrix}\frac{1}{2}\\ \frac{1}{2}\\ -1\end{pmatrix}.

Si x=x 1v 1+x 2v 2+x 3v 3x=x'_1v_1+x'_2v_2+x'_3v_3 et y=xy 1v 1+y 2v 2+y 3v 3y=xy'_1v_1+y'_2v_2+y'_3v_3, on a b(x,y)=3x 3y 3.b(x,y)=3x'_3y'_3.

5.5  Matrices orthogonales et unitaires.

Nous avons vu ci-dessus que les matrices réelles MM telles que tMM=I n{}^tM M =I_n, ou les matrices complexes telles que tM¯M=I n{}^t\overline{M}M=I_n, sont très importantes puisqu’elle encodent des changements de la bases orthonormées. Nous allons maintenant étudier ces matrices en détail.

Définition 1   Soit MM une matrice réelle de taille n×nn\times n. Les conditions suivantes sont équivalentes :
  1. tMM=I n{}^tMM= I_n ;
  2. pour tous v,w nv,w\in \mathbb{R}^n nous avons Mv,Mw=v,w\langle Mv, Mw\rangle= \langle v,w\rangle, où ,\langle, \rangle est le produit scalaire canonique.
  3. pour tout v nv\in \mathbb{R}^n nous avons ||Mv||=||v|||| Mv||= ||v||, où ||v||||v|| est la norme de vv pour le produit scalaire canonique.
On dit qu’une matrice qui satisfait à ces conditions est orthogonale.

Preuve : Si tMM=I n{}^tM M= I_n alors Mv,Mw= t(Mv)Mv= tv tMMw= tvI nw= tvw=v,w.\langle Mv,Mw \rangle = {}^t(Mv) Mv = {}^tv{}^tM M w= {}^tv I_n w= {}^tv w= \langle v,w\rangle. Donc (1) implique (2). (2) implique (3) en prenant v=wv=w et (3) implique (2) par la formule de polarisation. Reste à montrer que 2) implique 1). Si Mv,Mw=v,w\langle Mv, Mw\rangle= \langle v,w\rangle alors pour tout v,w nv, w\in \mathbb{R}^n nous avons tv tMMw= tvI nw= tvw=v,w {}^tv {}^tM M w= {}^tv I_n w={}^t v w=\langle v,w\rangle et donc tMM=I n{}^tM M= I_n. On peut bien sûr faire la même chose pour des matrices complexes.

Définition 2   Soit MM une matrice complexe de taille n×nn\times n. Les conditions suivantes sont équivalentes :
  1. tM¯M=I n{}^t\overline{M} M= I_n ;
  2. pour tous v,w nv,w\in \mathbb{C}^n nous avons h(Mv,Mw)=h(v,w)h(Mv, Mw)= h(v,w)hh est le produit hermitien canonique ;
  3. pour tout v nv\in \mathbb{C}^n nous avons ||Mv||=||v|||| Mv||= ||v||, où ||v|||| v|| est la norme associée au produit hermitien canonique.
On dit qu’une matrice qui satisfait à ces conditions est unitaire.

Preuve : Si tM¯M=I n{}^t\overline{M} M= I_n alors h(Mv,Mw)= t(Mv)¯Mv= tv¯ tM¯Mw= tv¯I nw= tv¯=w=h(v,w).h(Mv,Mw)= {}^t\overline{(Mv)} Mv = {}^t\overline{v} {}^t\overline{M} M w= {}^t\overline{v} I_n w= {}^t\overline{v}= w = h(v,w). Donc (1) implique (2). (2) implique (3) en prenant v=wv=w et (3) implique (2) par la formule de polarisation. Reste à montrer que (2) implique (1). Si h(Mv,Mw)=h(v,w)h(Mv, Mw)= h(v,w) alors pour tout v,w nv, w\in \mathbb{C}^n nous avons que tv¯ tM¯Mw= tv¯I nw {}^t\overline{v}{}^t\overline{ M} M w= {}^t\overline{v} I_n w et donc tM¯M=I n{}^t\overline{M} M= I_n. Nous finissons cette section avec une étude des matrices orthogonales de taille 2×22\times 2. Nous allons démontrer le théorème suivant:

Proposition 3   Soit MM une matrice 2×22\times 2 orthogonale. Alors l’application 2 2\mathbb{R}^2\mapsto \mathbb{R}^2 donnée par vMvv\mapsto Mv est
  1. une rotation autour de l’origine ou
  2. une symétrie par rapport à une droite passant par l’origine.

Soit M=(a b c d)M=\begin{pmatrix} a & b\\ c & d\end{pmatrix} une matrice orthogonale. On a alors ||M(1 0)||=||(a c)||=1 || M\begin{pmatrix}1\\0\end{pmatrix}|| = || \begin{pmatrix}a\\c\end{pmatrix}|| =1 et, en utilisant des coordonnées polaires, il existe un θ\theta tel que (a c)=(cos(θ) sin(θ))\begin{pmatrix}a\\c\end{pmatrix}= \begin{pmatrix}\cos(\theta)\\ \sin(\theta)\end{pmatrix}. De même (b d)=(cos(ϕ) sin(ϕ))\begin{pmatrix}b\\d\end{pmatrix}= \begin{pmatrix}\cos(\phi)\\ \sin(\phi)\end{pmatrix} et on peut écrire M=(cosθ cosϕ sinθ sinϕ). M=\begin{pmatrix} \cos{\theta} & \cos{\phi}\\ \sin{\theta} & \sin{\phi}\end{pmatrix}. On a alors tMM=(cos 2θ+sin 2θ cosθcosϕ+sinθsinϕ cosθcosϕ+sinθsinϕ cos 2ϕ+sin 2ϕ) {}^tM M= \begin{pmatrix} \cos^2{\theta}+\sin^2{\theta} & \cos{\theta}\cos{\phi}+ \sin \theta\sin \phi\\ \cos{\theta}\cos{\phi}+ \sin \theta\sin\phi & \cos^2{\phi}+\sin^2{\phi}\end{pmatrix} =(1 cos(θϕ) cos(θϕ) 1)= \begin{pmatrix} 1& \cos(\theta -\phi)\\ \cos(\theta-\phi)& 1\end{pmatrix} et nous avons donc MM orthogonale si et seulement si cos(θϕ)=0\cos(\theta-\phi)= 0, c’est-à-dire si et seulement si ϕ=θ+π/2 ou ϕ=θπ/2.\phi= \theta +\pi/2\mbox{ ou }\phi= \theta -\pi/2. Dans le premier cas nous avons M=(cosθ sinθ sinθ cosθ) M=\begin{pmatrix} \cos{\theta} & -\sin\theta \\ \sin\theta & \cos\theta\end{pmatrix} et on reconnait la matrice d’une rotation d’angle θ\theta autour de l’origine. Dans le deuxième cas on a M=(cosθ +sinθ sinθ cosθ). M=\begin{pmatrix} \cos{\theta} & +\sin \theta \\ \sin\theta & -\cos{\theta}\end{pmatrix}. Après calcul le polynôme caractéristique de MM est λ 21\lambda^2-1, qui a pour solutions 11 et 1-1. Après calcul des vecteurs propres par pivot de Gauss, on voit que e 1=(cosθ/2 sinθ/2),e 2=(sinθ/2 cos(θ/2))e_1= \begin{pmatrix}\cos{\theta/2}\\ \sin{\theta/2}\end{pmatrix}, e_2= \begin{pmatrix}-\sin{\theta/2}\\ \cos(\theta/2)\end{pmatrix} sont des vecteurs propres de MM de valeur propre 11 et 1-1 respectivement. Autrement dit, on a Me 1=e 1M e_1=e_1 et M