Algèbre bilinéaire, séries de Fourier (Mat404-ex244)

2019

Table des matières

Index

  • [positive, définie, 5.2

  • absolument convergente, 2.1
  • antisymétrique, forme bilinéaire, 4.2
  • application linéaire, 3.3

  • bilinéaire, forme, 4.2

  • chaleur, équation de la, 1.1
  • convergente, absolument, 2.1
  • critère de d’Alembert, 2.1
  • critère de Riemann, 2.1

  • d’Alembert, critère de, 2.1
  • définie positive, 5.2

  • equation de la chaleur, 1.1
  • equation des ondes, 1.2
  • euclidien, espace, 5.2

  • Fourier, séries de, 6
  • forme quadratique, 4.2
  • forme bilinéaire, 4.2
  • forme linéaire, 3.3

  • Gram-Schmidt, 5.4
  • général, terme, 2.1

  • image, 3.3
  • isométrie, 5.7

  • linéaire, application, 3.3
  • linéaire, forme, 3.3

  • noyau, 3.3

  • ondes, équation des, 1.2
  • orthogonal, 4.4
  • orthogonale, matrice, 5.7
  • orthogonale, projection, 5.3
  • orthonormée, 4.4
  • orthonormalisation, 5.4

  • partielle, somme, 2.1
  • positive, 5.2
  • préhilbertien, espace, 5.2
  • produit matriciel, 3.4
  • produit scalaire, 5
  • projection orthogonale, 5.3

  • quadratique, forme, 4.2

  • Riemann, critère de, 2.1
  • rang (application linéaire), 3.3
  • rang (forme bilinéaire), 4.3
  • rang (matrice), 3.5

  • série, 2.1
  • séries de Fourier, 6
  • scalaire, produit, 5
  • signature, 4.5.2
  • somme partielle, 2.1
  • son, 1
  • spectrale, analyse, 1
  • symétrique, forme bilinéaire, 4.2
  • symétrique, matrice, 3.4

  • terme général, 2.1
  • transposition, 3.4

  • unitaire, matrice, 5.7

Chapitre 1  Motivations

Les séries de Fourier permettant d’écrire une fonction périodique (par exemple un signal périodique) comme une somme de fonctions périodiques fondementales (sinus et cosinus, ou exponentielle imaginaire pure). Le but est de simplifier la résolution de problèmes qui vérifient le principe de superposition et faisant intervenir des fonctions périodiques en se ramenant à ces fonctions périodiques fondementales.

Exemple: écriture approchée de 12+sin(t)\frac{1}{2+\sin(t)} comme somme de fonctions sinusoides fondementales 33+143+243cos(2t)+19433363cos(4t)+523903sin(3t)+43+63sin(t)\frac{\sqrt{3}}{3}+ \frac{-14 \sqrt{3}+24}{3} \cos\left(2\cdot t\right)+\frac{194 \sqrt{3}-336}{3} \cos\left(4\cdot t\right)+\frac{52 \sqrt{3}-90}{3} \sin\left(3\cdot t\right)+\frac{-4 \sqrt{3}+6}{3} \sin\left(t\right)

f1:=1/(2+sin(t));
g1:=(sqrt(3))/3+(-14*sqrt(3)+24)/3*cos(2*t)+(194*sqrt(3)-336)/3*cos(4*t)+
(52*sqrt(3)-90)/3*sin(3*t)+(-4*sqrt(3)+6)/3*sin(t);
plot([f1,g1],t,-pi,pi,color=[red,blue]);

onload
Il faut vraiment zoomer pour voir la différence

plot([f1,g1],t,-0.1,0.1,color=[red,blue]);

onload

Une application immédiate des séries de Fourier est l’analyse d’un son. Si on gratte sur une corde de guitare, on observe un phénomène périodique en temps, qui se décompose en une somme de sinusoides dont la fréquence est un multiple entier de la fréquence de base. Pour une même note de musique (par exemple un la à 440Hz), une guitare, un piano, une flute ne donneront pas le même son parce que les harmoniques sont différents.
Voici 2 sons purs de fréquence 440Hz et 880Hz, et deux sons de fréquence de base 440Hz avec une harmonique n’ayant pas le même coefficient



On pourrait ainsi numériser le son en stockant les coefficients des sinusoides pour la fréquence de base et de ses multiples (les harmoniques) jusqu’à la limite de sensibilité de l’oreille humaine. D’une certaine manière c’est ce que fait une partition de musique en donnant une succession de notes d’une certaine durée à jouer par des instruments de musique (chaque note jourée par un instrument correspondant en quelques sorte à une série de Fourier). Si on représente graphiquement la liste des coefficients des harmoniques en fonction des multiples de la fréquence de base, on obtient le spectre, qui donne une description complète du son (et qu’on peut manipuler par exemple supprimer les harmoniques trop aigües). Plus généralement, on parle d’analyse spectrale. Cette idée de décomposer en somme de fonctions périodiques“pures” s’applique à diverses généralisations des séries de Fourier : la transformée de Fourier (qui peut servir à comprendre la lumière, les couleurs correspondant à des fréquences, mais vues comme un paramètre continu variant dans +\mathbb{R}^+ et non discret restreint aux harmoniques d’une fréquence de base), et la transformée de Fourier discrète, adaptée au calcul sur machine.

Un exemple plus mathématique, si on veut résoudre une équation différentielle linéaire à coefficients constants avec second membre périodique (ressort soumis à un forçage périodique en temps, circuit RLC soumis à une source périodique en temps, ...), on a des formules simples pour trouver une solution particulière si le second membre est un sinus ou un cosinus (impédance complexe). Le principe de superposition s’applique (pour obtenir la solution particulière correspondant à un second membre somme de deux fonctions, il suffit de faire la somme des solutions particulières correspondant à chacune des deux fonctions). Bien sur, on sait résoudre ces équations différentielles avec un second membre quelconque, mais la forme de la solution n’est pas toujours explicite


et même si elle l’est, elle peut être compliquée et ne pas faire apparaitre certaines propriétés. L’existence de certains phénomènes, par exemple d’une fréquence de résonance ou d’un filtre passe-haut ou passe-bas, et la décomposition en somme de fréquences va permettre de mettre en évidence des propriétés de la solution particulière plus facilement


Historiquement, les séries de Fourier ont été inventées par Fourier pour résoudre le problème de la diffusion de la chaleur. On ne sait pas résoudre analytiquement l’équation de la chaleur, mais on va voir qu’on sait le faire lorsqu’on décompose la température initiale en somme de cosinus. On va aussi voir que la méthode utilisée pour l’équation de la chaleur est suffisamment générale pour s’appliquer dans d’autes cas, par exemple pour l’équation des ondes (qui elle se résoud analytiquement).

Mathématiquement, les concepts qui interviennent sont 

  1. de l’algèbre linéaire (principe de superposition)
  2. des sommes (de fonctions sinusoides) qui ne sont pas finies (puisqu’il y a une infinité de multiples entiers d’une fréquence de base), on les appelle des séries
  3. ces séries sont plus difficiles à étudier que des sommes de nombres réels, car il s’agit de fonctions. Pour donner un sens à la valeur d’une somme infinie de fonctions, il faut donner un sens à être petit pour une fonction, pour les séries de Fourier, le bon cadre pour cela est l’algèbre bilinéaire et les formes quadratiques.
  4. Les formes quadratiques particulières qui interviennent pour les séries de Fourier sont des produits scalaires qui généralisent le produit scalaire usuel dans 2\mathbb{R}^2 et 3\mathbb{R}^3. D’autres formes quadratiques ont des applications en physique, par exemple les trajectoires du problème à 2 corps (un astre en orbite autour d’un autre) sont des coniques dont l’équation fait intervenir une forme quadratique, ou encore la relativité qui fait intervenir des formes quadratiques qui ne sont pas des produits scalaires.

1.1  L’équation de la chaleur.

Supposons donnée une barre chauffée de façon inhomogène. Comment se diffuse la chaleur dans cette barre ?

On considère une barre d’un matériau homogène de longueur finie LL, la température initiale (au temps t=0t=0) en un point d’abscisse xx étant donnée par une fonction φ(x)=T(x,t=0),x[0,L]\varphi(x) =T(x,t=0), \ x \in [0,L]. On suppose que les échanges de chaleur entre la barre et l’air sont négligeables et que les extremités de la barre sont au contact d’un parfait isolant, ce qui implique qu’il n’y a pas de flux de chaleur à travers ces extrémités. En particulier le gradient de la chaleur y est nul. On veut comprendre comment la chaleur se diffuse dans la barre avec le temps ; autrement dit, si T(x,t)T(x,t) est la température dans la barre au point xx en un temps tt, alors on veut comprendre l’évolution de la valeur de T(x,t)T(x,t) avec tt.

Des considérations physiques montrent que TT doit satisfaire à l’équation, dite équation de la chaleur : Tt=k 2T 2x\frac{\partial T}{\partial t}= k \frac{\partial^2 T}{\partial^2 x} kk est une constante positive (la conductivité thermique) qui dépend du matériau. Nous avons en plus les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t,\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t, qui traduisent l’absence de flux de chaleur à travers les extrémités, et la condition initiale T(x,0)=φ(x).T(x,0)= \varphi(x). Oublions d’abord la condition T(x,0)=φ(x)T(x,0)=\varphi(x). Autrement dit, on cherche les solutions vérifiant seulement les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t.\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t. L’équation étant beaucoup trop compliquée pour être résolue avec les méthodes dont nous disposons actuellement, nous allons commencer par simplement chercher des exemples de fonctions qui la satisfont. Les fonctions à variables séparés (c’est-à-dire s’écrivant dans la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t)) sont une source féconde d’exemples satisfaisant à des équations aux dérivées partielles, puisque de telles équations se simplifient souvent dans ce cas. Nous commencerons donc par chercher des solutions de la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t). On a alors que f(x)g(t)=kf(x)g(t),f(x)g'(t)=kf''(x)g(t), soit f(x)f(x)=g(t)kg(t),\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}, au moins sur la région ou ni ff ni gg ne s’annule. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)kg(t)=α.\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}=\alpha. Ainsi, on a f(x)αf(x)=0f''(x)-\alpha f(x)=0 et g(t)kαg(t)=0.g'(t)-k\alpha g(t)=0. On a donc g(t)=λe kαtg(t)=\lambda e^{k\alpha t} pour λ\lambda\in\mathbb{R}, et donc g(t)0g(t)\neq 0 pour tout t0t\geq 0 (car on cherche TT non identiquement nulle). La contrainte Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)=\frac{\partial T}{\partial x}(L,t) =0 entraîne alors f(0)=f(L)=0f'(0)=f'(L)=0. Pour résoudre l’équation en ff il nous faut maintenant distinguer 3 cas.

  1. Cas 1 : α=0\alpha=0. On a alors f(x)=0f''(x)=0, et donc f(x)=b 0x+a 0f(x)=b_0x+a_0. Les conditions f(0)=f(L)=0f'(0)=f'(L)=0 imposent alors facilement f(x)=a 0f(x)=a_0 pour tout xx. On a donc une première solution de base T 0(x,t)=1.T_0(x,t)=1.
  2. Cas 2 : α>0\alpha>0. On peut alors poser α=ω 2\alpha=\omega^2 et ff est de la forme f(x)=ae ωx+be ωxf(x)=a e^{\omega x}+ be^{-\omega x}. Les conditions que f(0)=0f'(0)=0 et f(L)=0f'(L)=0 impliquent alors a=b=0a=b=0, et ff est identiquement nulle, ce qui est exclu.
  3. Cas 3 : α<0\alpha&lt;0. On peut alors poser α=ω 2\alpha=-\omega^2 et f(x)=acos(ωx)+bsin(ωx),a,b,.f(x)=a\cos(\omega x)+b\sin(\omega x), a,b,\in\mathbb{R}. Puisque f(0)=0f'(0)=0 on a b=0b=0, et puisque f(L)=0f'(L)=0 on a asin(ωL)=0a\sin(\omega L)=0. Puisque l’on cherche TT non nulle, on a a0a\neq 0 et donc sin(ωL)=0\sin(\omega L)=0.

    Ainsi ωL=πn\omega L=\pi n pour n0n\geq 0, et donc pour chaque nn, on a une solution de la forme T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}.

Pour chaque entier positif n0n\geq 0 nous avons donc une solution de l’équation de la chaleur T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}. (Nous pouvons intégrer la solution T 0(x,t)=1T_0(x,t)=1 dans cette famille de solutions en considérant qu’il s’agit de T 0(x,t)=cos(0x)e 0tT_0(x,t)= \cos(0x)e^{-0t}.) La condition initiale φ n(x)\varphi_n(x) correspondant à la solution T n(x,t)T_n(x,t) est donnée par φ n(x)=T n(x,0)\varphi_n(x)= T_n(x,0), c’est à dire φ n(x)=cos(nπxL). \varphi_n(x)= \cos\left(\frac{n\pi x}{L}\right). Nous avons donc trouvé une solution à l’équation de la chaleur pour certaines conditions initiales bien particulières, c’est à dire certains cosinus. Est ce qu’on peut en construire d’autres solutions pour d’autres conditions initiales ?

Notons tout d’abord que l’équation de la chaleur à une propriété très utile :

Remarque 1 (Linéarité de l’équation de la chaleur.)   Si T 1(x,t)T_1(x,t) et T 2(x,t)T_2(x,t) sont deux solutions à l’équation de la chaleur alors pour tous réels λ,μ\lambda, \mu\in \mathbb{R} T(x,t)=λT 1(x,t)+μT 2(x,t) T(x,t)= \lambda T_1(x,t)+\mu T_2(x,t) est encore une solution de cette équation. (Une telle fonction est appellée une combinaison linéaire de T 1T_1 et T 2T_2). On dit alors que l’équation de la chaleur est une équation linéaire.

Exercice. Démontrer que l’équation de la chaleur est une équation linéaire.

En particulier, toute fonction qui est une combinaison linéaire finie T(x,t)=λ 0T 0(x,t)+λ 1T 1(x,t)+λ 2T 2(x,t)++λ nT n(x,t)T(x,t)=\lambda_0 T_0(x,t)+\lambda_1 T_1(x,t)+\lambda_2T_2(x,t)+\ldots +\lambda_n T_n(x,t) avec des nombres réels λ 0,,λ n\lambda_0, \ldots, \lambda_n est encore une solution de l’équation de la chaleur. Cette solution corresponde à la condition initiale φ(x)=T(x,0)\varphi(x)=T(x,0) c’est à dire φ(x)=λ 0+λ 1cos(πxL)+λ 2cos(2πxL)++λ ncos(nπxL).\varphi (x)= \lambda_0+ \lambda_1 \cos\left(\frac{\pi x}{L}\right)+\lambda_2\cos\left(\frac{2 \pi x}{L}\right) +\ldots + \lambda_n\cos\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution pour l’équation de la chaleur pour certaines conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de cosinus.

Et il vient assez naturellement l’idée : Peut-on résoudre cette équation de la même façon pour une condition initiale φ\varphi quelconque en l’écrivant comme une “somme infinie” de cosinus ?

1.2  L’équation des ondes.

Pour illustrer que la méthode utilisée pour l’équation de la chaleur est pertinente, nous allons voir qu’elle peut s’appliquer à une équation que l’on sait résoudre autrement : l’équation des ondes.

Un fil horizontal de longueur LL, soumis à une tension TT et de densité linéaire μ\mu, est tenu aux deux extremités. Par exemple une corde de guitare de longueur L=3L=3 pincée en un point d’abscisse 1 et d’ordonnée très petite (0.2 sur le dessin) aura le profil suivant

gl_ortho=1; L:=3; P:=point(1,0.2); segment(0,P);segment(P,L);

onload
Au temps t=0t=0 il est relaché et se met à osciller librement dans un plan vertical.

Soit D(x,t)D(x,t) la fonction égale au déplacement vertical1 à l’instant tt de la partie du fil qui se trouve (à l’équilibre) à une distance xx d’une des extremités.
Nous avons cette fois les conditions aux bords D(0,t)=D(L,t)=0, D(0, t)= D(L,t)=0, qui traduisent le fait que le fil est attaché aux extrémités. Si le déplacement initial du fil est décrit par la fonction ϕ(x)\phi(x) alors nous avons aussi les conditions initiales D(x,0)=ϕ(x) et Dt(x,0)=0,D(x,0)= \phi(x)\ \mbox{ et }\ \frac{\partial D}{\partial t}(x,0)=0, cette dernière condition traduisant le fait que le fil est relâché à l’instant t=0t=0 et se trouve donc à ce moment-là au repos. Des considérations physiques montrent que l’évolution de DD est décrite par l’équation des ondes 2Dt 2=c 2 2Dx 2 \frac{\partial ^2 D}{\partial t^2}=c^2\frac{\partial^2 D}{\partial x^2} cc est la constante positive c 2=Tμc^2=\frac{T}{\mu}.

On sait déterminer la solution de cette équation, on prolonge ϕ\phi par périodicité (période LL), on a alors : D(x,t)=12(ϕ(x+ct)+ϕ(xct))D(x,t)=\frac{1}{2}(\phi(x+ct)+\phi(x-ct)) Cherchons comme ci-dessus des solutions de la forme f(x)g(t)f(x)g(t). On a alors f(x)g(t)=c 2f(x)g(t),f(x)g''(t)=c^2f''(x)g(t), soit f(x)f(x)=g(t)c 2g(t).\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont deux variables indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)c 2g(t)=α.\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}=\alpha. Ainsi, on a f(x)αf(x)=0 et g(t)c 2αg(t)=0.f''(x)-\alpha f(x)=0\ \mbox{ et }\ g''(t)-c^2\alpha g(t)=0. Le même raisonnement que ci-dessus nous montre que cette équation a une solution telle que D(0,t)=D(L,t)=0D(0,t)= D(L, t)=0 si et seulement si il existe un entier nn tel que α=n 2π 2L 2\alpha= \frac{n^2\pi^2}{L^2} et dans ce cas on a une solution donnée par D n(x,t)=sin(nπxL)cos(cnπtL). D_n(x,t)= \sin\left(\frac{n\pi x}{L}\right)\cos\left(\frac{ cn\pi t}{L}\right) . Ceci nous donne une solution au problème pour une condition initiale φ n(x)=sin(nπxL). \varphi_n(x)= \sin\left(\frac{n\pi x}{L}\right). On vérifie bien que D n(x,t)=12(φ n(x+ct)+φ n(xct))D_n(x,t)=\frac{1}{2} (\varphi_n(x+ct)+\varphi_n(x-ct))

Remarque 1   L’équation des ondes est encore une équation linéaire,

Exercice Démontrer que l’équation des ondes est linéaire.

Puisque la fonction D n(x,t)D_n(x,t) est une solution pour chaque nn, toute combinaison linéaire finie D(x,t)=λ 1D 1(x,t)+λ 2D 2(x,t)++λ kD k(x,t)D(x,t)=\lambda_1 D_1(x,t)+\lambda_2D_2(x,t)+\ldots +\lambda_k D_k(x,t) ou les λ k\lambda_k sont des nombres réels est encore une solution de l’équation de la chaleur. Cette solution correspond à la condition initiale φ(x)=λ 1sin(πxL)+λ 2sin(2πxL)++λ nsin(nπxL).\varphi (x)= \lambda_1 \sin\left(\frac{\pi x}{L}\right)+\lambda_2\sin\left(\frac{2\pi x}{L}\right) +\ldots + \lambda_n\sin\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution à cette équation pour des conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de sinus.

Il vient la même idée que dans le cas de l’équation de la chaleur : Peut-on résoudre cette équation pour une condition initiale quelconque φ\varphi en écrivant φ\varphi comme une “somme infinie” de sinus ?

Avant de se lancer dans des spéculations sur les sommes infinies de fonctions, il faudrait déjà savoir ce que veut dire une somme infinie de nombres. Dans le prochain chapitre, nous allons étudier les séries2 numériques.


1
par rapport à l’équilibre
2
C’est le nom que les mathématiciens donnent aux sommes infinies.

Chapitre 2  Séries numériques.

Vous avez déjà rencontré au cours de vos études l’équation suivante 1+12+14+18+=2 1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots =2 ou le symbole “\ldots” se comprend comme “et ainsi de suite jusqu’à l’infini”. Quel sens donner à cette équation, et en particulier, quel sens donner à son membre de gauche 1+12+14+18+1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots ? Ca ne peut pas signifer “le résultat qu’on obtient en effectuant une infinité d’additions” puisqu’il est impossible de faire une infinité d’additions.

La somme infinie à gauche doit être comprise comme une limite. En écrivant cette équation, nous disons la chose suivante :

En prenant nn assez grand, nous pouvons rendre la somme finie 1+12+14++12 n1+\frac{1}{2}+ \frac{1}{4}+\ldots+\frac{1}{2^{n}} aussi proche qu’on veut de 22.

La somme infinie 1+12+14+18+,1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots, que l’on écrit aussi n=0 12 n\sum_{n=0}^\infty \frac{1}{2^n}, doit être compris comme la limite de la suite des sommes partielles s k= n=0 k12 ns_k=\sum_{n=0}^k \frac{1}{2^n}.

Représentation graphique des premières sommes partielles

2.1  Convergence des séries

Définition 1   Soit (u n)(u_n) une suite de nombres réels ou complexes. On définit la suite de sommes partielles (s k) k(s_k)_k (également notée ( n0u n)(\sum_{n\geq 0} u_n)) s k=u 0+u 1+u 2+u k= n0 ku n s_k = u_0+u_1+u_2+\ldots u_k = \sum_{n\geq 0}^k u_n Nous appelons cette suite la série de terme général u nu_n.

On peut adapter la définition lorsqu’on commence la somme à un rang m0m \neq 0, par exemple m=1m=1 si u 0u_0 n’est pas défini, ( nmu n)(\sum_{n\geq m} u_n) est la suite des sommes partielles s k=u m+u m+1+u k+ms_k= u_m+u_{m+1}+\ldots u_{k+m}.

Exemples

  1. Si on pose, comme ci-dessus, u n=12 nu_n=\frac{1}{2^n} et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors la somme partielle s k= n=0 ku ns_k= \sum_{n=0}^k u_n est donnée par s k=1+12++12 k=212 k. s_k=1+\frac{1}{2}+\ldots +\frac{1}{2^k}= 2-\frac{1}{2^k}. Si on considère la série ( n3u n)(\sum_{n\geq 3} u_n) alors la somme partielle s k= n=3 k+3u ns_k= \sum_{n=3}^{k+3} u_n est donnée par s k=18+116++12 k+3=1412 k+3. s_k= \frac{1}{8}+\frac{1}{16}+\ldots +\frac{1}{2^{k+3}}= \frac{1}{4}-\frac{1}{2^{k+3}}.
  2. Si on pose u n=1u_n=1 pour tout nn et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données pour tout kk par s k=1+1++1=k+1.s_k=1+1+\ldots +1=k+1.
  3. Si on pose1 u n=(1) nu_n=(-1)^n et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données par s 0=1 s_0=1 s 1=11=0s_1=1-1=0 s 2=11+1=1s_2= 1-1+1=1 et ainsi de suite, c’est à dire que pour tout kk paire nous avons que s k=1s_{k}=1 et pour tout kk impaire nous avons que s k=0s_{k}=0.
  4. Si on pose u n=1n 2u_n=\frac{1}{n^2} et on considère la série ( n1u n)(\sum_{n\geq 1} u_n) alors la somme partielle s ks_k est le nombre réel s k=1+14+19++1k 2. s_k=1+\frac{1}{4}+\frac{1}{9}+\ldots +\frac{1}{k^2}. Contrairement aux autres cas, nous ne disposons d’aucune formule générale pour cette somme partielle.

Lorsque cette suite de sommes partielles (s k) k0(s_k)_{k\geq 0} est convergente, on dit que sa limite est la valeur de la “somme infinie” n=0 u n=u 0+u 1+u 2+\sum_{n=0}^{\infty} u_n=u_0+u_1+u_2+\ldots

Définition 2   Soit (u n) nm(u_n)_{n\geq m} une suite infinie et considérons la série ( nmu n)(\sum_{n\geq m} u_n). Nous disons que la série ( nmu n)(\sum_{n\geq m} u_n) admet comme limite le nombre fini ll si la suite (s k) k0(s_k)_{k\geq 0} de sommes partielles converge vers ll, lim ks k=l. \lim_{k\rightarrow \infty} s_k=l. Dans ce contexte, nous disons que ll est la somme de la série ( nmu n)(\sum_{n\geq m} u_n) et nous écrivons nm u n=l. \sum_{n\geq m}^\infty u_n=l.

Attention ! Les deux notations ( nmu n) \left(\sum_{n\geq m} u_n \right) et n=m u n, \sum_{n=m}^\infty u_n, qui sont très proches, désignent quand même des choses différentes. Lorsque nous écrivons ( nmu n)(\sum_{n\geq m} u_n ) nous parlons de la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} alors que n=m u n\sum_{n=m}^\infty u_n désigne la limite de cette suite (en supposant, bien sur, qu’elle existe).

Proposition 3   Le terme général d’une série convergente tend vers 0.

En effet, soit ( nmu n)(\sum_{n\geq m} u_n) une série et soit (s k) k0(s_k)_{k\geq 0} ses sommes partielles. Si ( nmu n)(\sum_{n\geq m} u_n) converge vers ll alors on a que s k kl s_k\rightarrow_{k\rightarrow \infty} l s k1 kl s_{k-1}\rightarrow_{k\rightarrow\infty} l donc s ks k1 k0 s_{k}-s_{k-1}\rightarrow_{k\rightarrow \infty } 0 Or s ks k1=u k+ms_k-s_{k-1}=u_{k+m} donc u k k0u_k\rightarrow_{k\rightarrow \infty} 0.

Remarque 4  
  • Par contre-apposition, si le terme général d’une suite ne tend pas vers 0 alors la série diverge. Par exemple n0(1) n\sum_{n\geq 0} (-1)^n diverge parce que son terme général (1) n(-1)^n ne tend pas vers 0. De même une suite géométrique de raison λ\lambda diverge lorsque |λ|1|\lambda|\geq 1.
  • Attention! La réciproque est fausse. Il existe des séries divergentes dont le terme général ne tend pas vers 0, par exemple on montre que n>01n\sum_{n&gt;0} \frac{1}{n} diverge alors que son terme général 1n\frac{1}{n} tend vers 0 (cf. proposition 13 plus bas)

Exemples.

  1. Pour la série ( n012 n)(\sum_{n\geq 0} \frac{1}{2^n}) nous avons que la somme partielle s k=212 n k2.s_k=2-\frac{1}{2^n}\rightarrow_{k\rightarrow \infty} 2. On peut donc écrire n=0 12 n=2.\sum_{n=0}^\infty \frac{1}{2^n}=2.
  2. Soit maintenant λ\lambda un nombre réel ou complexe tel que |λ|<1|\lambda|&lt;1, et considérons la série ( n0λ n)(\sum_{n\geq 0} \lambda^n). La somme partielle s k=1+λ++λ ks_k=1+\lambda +\ldots +\lambda^k peut être calculée par l’astuce suivante : (1λ)s k=s kλs k (1-\lambda) s_k= s_k -\lambda s_k (1λ)s k=(1+λ++λ k)(λ+λ 2++λ k+1)(1-\lambda) s_k= (1+\lambda +\ldots +\lambda^k) -(\lambda+\lambda^2+\ldots +\lambda^{k+1}) (1λ)s k=1λ k+1 (1-\lambda) s_k= 1-\lambda^{k+1} s k=1λ k+11λ.s_k=\frac{1-\lambda^{k+1}}{1-\lambda}. Puisque |λ|<1|\lambda|&lt;1 nous avons que λ k k0\lambda^k\rightarrow_{k\rightarrow \infty} 0 donc s k k11λ. s_k\rightarrow_{k\rightarrow \infty}\frac{1}{1-\lambda}. Autrement dit, la série géométrique de raison |λ|<1|\lambda|&lt;1 converge et on a n=0 λ n=11λ. \sum_{n=0}^{\infty}\lambda^{n}=\frac{1}{1-\lambda}.

  3. La série ( n01)(\sum_{n\geq 0}1) a pour sommes partielles s k=k+1s_k=k+1. Cette suite n’est pas convergente : sa limite n’est pas finie. On dit alors que la série ( n01)(\sum_{n\geq 0} 1) est divergente2.
  4. La série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) a pour sommes partielles s k=1 si k paire, s k=0 si k impaire.s_k=1 \mbox{ si }\ k\ \mbox{ paire, }\ s_k=0 \ \mbox{ si }\ k\ \mbox{ impaire}. Cette suite de sommes partielles, bien que bornée (les sommes partielles n’approchent pas \infty) ne converge pas. On dit encore une fois que la série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) est divergente.3
  5. Même si nous ne disposons pas de formule pour les sommes partielles s k= n=1 k1n 2s_k=\sum_{n=1}^k \frac{1}{n^2} il est possible de montrer que cette suite converge vers une limite finie. Nous verrons à la fin du semestre que lim ks k=π 26 \lim_{k\rightarrow \infty} s_k=\frac{\pi^2}{6} que nous pouvons aussi écrire n=1 1n 2=π 26. \sum_{n=1}^\infty \frac{1}{n^2}= \frac{\pi^2}{6}.

La remarque suivante, qui suit des propriétés de linéarité des suites, est souvent utile dans l’étude des séries.

Proposition 5 (Linéarité de la convergence des séries)   Soient ( nmu n)(\sum_{n\geq m} u_n) et ( nmv n)(\sum_{n\geq m} v_n) deux séries convergentes réelles ou complexes, de limites uu et vv respectivement. Alors pour tout λ,μ\lambda, \mu\in \mathbb{C}, la série ( nmλu n+μv n)(\sum_{n\geq m} \lambda u_n+\mu v_n) est convergente, avec limite λu+μv\lambda u+ \mu v.

Le cas des séries réelles à termes positifs est assez simple.

Lemme 6   Soit ( nmu n)(\sum_{n\geq m} u_n) une série réelle dont toutes les termes u nu_n sont positifs. Pour tout kmk\geq m soit s ks_k la somme partielle s k= m k+mu n.s_k=\sum_m^{k+m} u_n. Il y a alors deux possibilités
  1. la suite (s k) k0(s_k)_{k\geq 0} converge vers une limite finie ll. Autrement dit, la série ( nmu n)(\sum_{n\geq m} u_n) est convergente
  2. la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} tend vers ++\infty.

En effet la différence entre deux sommes partielles consécutives est un terme de la suite u nu_n donc est positif (s ks k1=u k+m0s_{k}-s_{k-1}= u_{k+m}\geq 0) donc la suite s ks_k est croissante. Si elle est majorée, elle converge vers une limite finie (toute suite croissante majorée est convergente). Sinon, elle n’est pas majorée et tend donc vers ++\infty.

Pour appliquer ce lemme, il sera utile de se ramener à des séries à termes positifs. On peut d’abord observer que s’il y a un nombre fini de termes négatifs, on peut appliquer ce résultat, car la nature d’une série ne dépend pas de ses premiers termes (mais bien sur la somme en dépend si la série est convergente). S’il y a un nombre infini de termes positifs et négatifs, on peut d’abord regarder la nature de la série des valeurs absolues du terme général.

Définition 7   Soit ( nmu n)(\sum_{n\geq m} u_n) une série. On dit que ( nmu n)(\sum_{n\geq m}u_n) est absolument convergente si la série ( nm|u n|)(\sum_{n\geq m}|u_n|) est convergente.

On a le résultat suivant.

Proposition 8   Toute série absolument convergente est convergente.

Idée de la preuve (hors programme) : cela résulte de l’inégalité triangulaire sur les sommes partielles | n=N Mu n| n=N M|u n||\sum_{n =N}^M u_n| \leq \sum_{n = N}^M |u_n| Comme n|u n|\sum_n |u_n| est convergente, le terme de droite peut être rendu aussi petit que l’on veut pourvu que l’on choisisse NN assez grand. Cela permet d’établir rigoureusement la convergence de la suite des sommes partielles de u nu_n (c’est ce qu’on appelle une suite de Cauchy).

Attention : la réciproque de cette proposition est fausse : il existe des séries réelles convergentes qui ne sont pas absolument convergentes. Leur comportement est parfois surprenant – par exemple, en permutant les termes d’une telle série on peut la rendre divergente, ou la faire converger vers n’importe quel nombre réel. De plus ces séries convergent lentement, il faut calculer des sommes partielles à des rangs d’indice élevé pour avoir une valeur approchée de la somme. Les séries absolument convergentes sont donc plus intéressantes! Mais on n’a pas toujours le choix (par exemple certaines séries de Fourier).

Remarque 9   Le comportement de la série de terme général u n=(1) nu_n=(-1)^n, qui diverge sans tendre vers ++\infty, n’est possible que parce que certains termes de cette série sont negatifs.

Le critère de d’Alembert traite le cas des séries qui se comportent comme des séries géométriques.

Proposition 10   Soit u k\sum u_k une série telle que |u k+1||u k| kλ\frac{|u_{k+1}|}{|u_k|}\rightarrow_{k\rightarrow \infty} \lambda. Si λ<1\lambda &lt;1 alors la série u k\sum u_k est absolument convergente. Si λ>1\lambda &gt;1 alors la série u k\sum u_k diverge.

Preuve :
Si λ>1\lambda&gt;1, le terme général de la série ne tend pas vers 0, donc elle diverge. Si λ<1\lambda&lt;1, on observe que 0λ<λ+12<10\leq \lambda &lt; \frac{\lambda+1}{2} &lt; 1. Comme la suite |u n+1/u n||u_{n+1}/u_n| converge vers λ<λ+12\lambda &lt; \frac{\lambda+1}{2} , il existe un rang ll tel que n>l,|u n+1|/|u n|λ+12\forall n&gt;l, \quad |u_{n+1}|/|u_n|\leq \frac{\lambda+1}{2} Donc pour tout mnm\geq n, on a : |u m|C(λ+12) mn,C=|u n||u_{m}| \leq C\left(\frac{\lambda+1}{2}\right)^{m-n}, \quad C=|u_n| . Comme λ+12<1 \frac{\lambda+1}{2}&lt;1 la série géométrique mC(λ+12) mn=C m(λ+12) mn\sum_m C \left(\frac{\lambda+1}{2}\right)^{m-n}=C \sum_m \left(\frac{\lambda+1}{2}\right)^{m-n} converge. En appliquant le critère de comparaison, comme |u m||u_m| est positive, on en déduit que la série ml|u m|\sum_{m\geq l}|u_m| converge.

Les séries à convergence de type géométrique convergent assez rapidement, ces séries sont très utiles pour calculer des valeurs approchées de fonctions trigonométriques, exponentielles, logarithmes etc. (cf. la section 2.2). Mais toutes les séries ne convergent pas aussi rapidement, par exemple les séries de Fourier qui seront abordées en fin de cours. Pour déterminer leur nature, on commence par utiliser un critère plus fin, le critère des équivalents.

Le lemme 6 entraîne le corollaire suivant.

Corollaire 11   Soient ( nmu n)(\sum_{n\geq m}u_n), ( nmv n)(\sum_{n\geq m}v_n) des séries avec un nombre fini de termes négatifs. Alors :
  1. Si u nv nu_n\leq v_n pour tout nn et ( nmv n)(\sum_{n\geq m} v_n) converge alors ( nmu n)(\sum_{n\geq m} u_n) converge aussi.
  2. Si u n nu nu_n\sim_{n\rightarrow \infty} u'_n alors la série ( nmu n)(\sum_{n\geq m} u_n) converge si et seulement si la série ( nmv n)(\sum_{n\geq m} v_n) converge aussi.

Preuve : Quitte à commencer la somme à un indice m>0m&gt;0, on peut supposer que toutes les termes des deux suites sont positifs.

  1. Soit (s k) k0(s_k)_{k\geq 0} la suite de sommes partielles de la série ( nmu n)(\sum_{n\geq m} u_n). Soit (t k) k0(t_k)_{k\geq 0} la suite de sommes partielles de la série ( nmv n)(\sum_{n\geq m} v_n). Puisque ( nmv n)(\sum_{n\geq m} v_n) converge, i.e. la suite (t k) k0(t_k)_{k\geq 0} converge, donc est majorée. Puisque u nv nu_n\leq v_n pour tout nn, s kt ks_k\leq t_k pour tout kk, donc la suite s ks_k est majorée. Par Lemme 6 il suit que la série ( nmu n)(\sum_{n\geq m} u_n) converge.
  2. Puisque u n nv nu_n\sim_{n\rightarrow \infty} v_n et u n,v n>0u_n, v_n&gt;0 il existe des nombres réels strictement positifs α,β\alpha, \beta tels que, pour tout nn, αv nu n. \alpha v_n\geq u_n. βu nv n. \beta u_n\geq v_n. Nous avons donc par (1) que ( nmu n) converge ( nmβu n) converge ( nmv n) converge . (\sum_{n\geq m} u_n )\mbox{ converge } \Rightarrow (\sum_{n\geq m} \beta u_n) \mbox{ converge }\Rightarrow (\sum_{n\geq m} v_n) \mbox{ converge }. De même ( nmv n) converge ( nmαv n) converge ( nmu n) converge . (\sum_{n\geq m} v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} \alpha v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} u_n) \mbox{ converge }.

Ceci termine la démonstration du Corollaire 11.

Exercice. Montrer que le Corollaire 11 est toujours valable lorsque : les deux séries sont à termes négatifs,

Remarque 12   Si la suite u nu_n ne comprend qu’un nombre fini de termes negatifs et la suite v nv_n satisfait v nu nv_n\sim u_n alors la suite v nv_n ne comprend qu’un nombre fini de termes negatifs. Il suffit donc de vérifier cette condition sur une seule des deux suites.

Vous avez étudié en 1ère année les developpements limités. Utilisant ces développements, il est très souvent possible de montrer qu’une suite donnée est équivalente à une suite de la forme (1n s) n1(\frac{1}{n^s})_{n\geq 1}.

Exemples

  1. Considérons u n=sin(1n)u_n=\sin(\frac{1}{n}). Nous avons que sin(1n)= n1n+o(1n),\sin\left(\frac{1}{n}\right)=_{n\rightarrow \infty} \frac{1}{n}+o\left(\frac{1}{n}\right), c’est à dire que sin(1n) n1n.\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n}.

  2. Considérons u n=e 1/n1u_n=e^{1/n}-1. Nous avons que e 1/n= n1+1n+o(1n)e^{1/n}=_{n\rightarrow \infty} 1+ \frac{1}{n} +o(\frac{1}{n}) et donc (e 1/n1)= n1n+o(1n)(e^{1/n}-1)=_{n\rightarrow \infty} \frac{1}{n} +o(\frac{1}{n}), c’est à dire e 1/n n1ne^{1/n} \sim_{n\rightarrow \infty} \frac{1}{n}.

  3. Considérons u n=cos(1n)1nu_n=\frac{\cos(\frac{1}{n}) -1}{n}. Nous avons que cos(1n)= n112n 2+o(1n 2)\cos(\frac{1}{n})=_{n\rightarrow \infty} 1-\frac{1}{2n^2}+ o(\frac{1}{n^2}) et donc cos(1n)1 n12n 2\cos(\frac{1}{n})-1\sim_{n\rightarrow \infty} \frac{-1}{2n^2}, d’ou il vient que cos(1n)1n n12n 3. \frac{\cos(\frac{1}{n}) -1}{n}\sim_{n\rightarrow \infty} \frac{-1}{2n^3}.

  4. Considérons u n=cos(1n)1sin(1n) n12n 21n=12n.u_n= \frac{ \cos(\frac{1}{n}) -1}{ \sin(\frac{1}{n})}\sim_{n\rightarrow \infty} \frac{\frac{-1}{2n^2}}{\frac{1}{n}} = \frac{-1}{2n}.

La corollaire 11 sera donc un outil très puissant pour établir la convergence des séries, à condition de savoir quand la série ( n>01n s) \left(\sum_{n&gt;0} \frac{1}{n^s}\right) converge.

Proposition 13 (Critère de Riemann.)   Pour tout nombre réel positif s>0s&gt;0 la suite infinie ( n11n s) \left(\sum_{n\geq 1} \frac{1}{n^s}\right) diverge si s1s\leq 1 et converge si s>1s&gt;1.

Preuve
On doit déterminer quand la suite de sommes partielles s k= n=1 k1n s s_k=\sum_{n=1}^k \frac{1}{n^s} converge. Puisque la suite (u n)(u_n) est à termes positifs il suffit par le lemme 6 de savoir quand la suite s ks_k est majorée. Nous allons faire cela par une téchnique très puissante : comparaison d’une somme avec une intégrale. Il y a en effet un lien fort entre l’intégrale 1 kf(x)dx\int_1^k f(x) dx et la somme n=1 kf(n)\sum_{n=1}^k f(n).

Illustration graphique de la nature identique de la convergence d’une série ou de l’intégrale correspondante pour une fonction décroissante telle que f(x)=1/xf(x)=1/x. En noir la somme des rectangles dont l’aire est une somme partielle de la série (car chaque rectangle a pour dimension horizontale 1 et verticale un des f(n)f(n)). On compare avec l’aire sous la courbe représentative de ff (en rouge), de deux façons, en prenant les rectangles à gauche ou à droite.

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_gauche); 

onload
Si l’aire des rectangles gauches noirs tend vers une limite finie, alors l’aire sous la courbe aussi (puisqu’elle est majorée par l’aire des rectangles).

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_droit); 

onload
Réciproquement, si l’aire sous la courbe tend vers une limite, l’aire des rectangles droits aussi. On calcule ensuite 1 k1t sdt=11(s1)k s1,s1\int_1^k \frac{1}{t^s} \ dt = 1-\frac{1}{(s-1)k^{s-1}}, \quad s\neq 1 et on fait tendre kk vers ++\infty, il y a convergence lorsque s>1s&gt;1. Attention au cas particulier s=1s=1, on a alors un logarithme qui ne tend pas vers une limite finie.

Une autre preuve plus formelle. Puisque s>0s&gt;0 pour tout xx tel que x[n,n+1]x\in [n, n+1] nous avons que 1n s1x s1(n+1) s. \frac{1}{n^s}\geq \frac{1}{x^s}\geq \frac{1}{(n+1)^s}. Il en suit que n n+11n sdx n n+11x sdx n n+11(n+1) sdx. \int_{n}^{n+1} \frac{1}{n^s} dx \geq \int_{n}^{n+1} \frac{1}{x^s} dx \geq \int_{n}^{n+1} \frac{1}{(n+1)^s} dx. cest à dire que pour tout entier positif nn nous avons que 1n s n n+11x sdx1(n+1) s. \frac{1}{n^s} \geq \int_n^{n+1} \frac{1}{x^s} dx \geq \frac{1}{(n+1)^s}. En sommant ces inégalités, nous obtenons que 1+12 s++1n s 1 21x sdx+ 2 31x sdx++ n n+11x sdx12 s+13 s+1(n+1) s. 1+\frac{1}{2^s}+\ldots+\frac{1}{n^s} \geq \int_1^2 \frac{1}{x^s} dx+\int_2^3 \frac{1}{x^s} dx+\ldots+ \int_n^{n+1} \frac{1}{x^s} dx\geq \frac{1}{2^s}+\frac{1}{3^s}+\ldots \frac{1}{(n+1)^s}. Autrement écrit n=1 k1n s 1 k+11x sdx n=2 k+11n s, \sum_{n=1}^k \frac{1}{n^s} \geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq \sum_{n=2}^{k+1}\frac{1}{n^s}, c’est à dire s k 1 k+11x sdxs kkk+1. s_k\geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq s_k-\frac{k}{k+1}. Re-organisant ces équations, nous obtenons que 1 k1x sdxs k 1 k1x sdx+1. \int_1^k \frac{1}{x^s} dx \leq s_k\leq \int_1^k \frac{1}{x^s} dx+1. Nous allons maintenant distinguer 3 cas, selon que ss est plus grand que, égale à ou plus petit que 11.

  1. Cas 1 : s>1s&gt;1. Nous avons alors que 1 kx sdx=[x 1s1s] 1 k=1k 1ss11s1.\int_1^k x^{-s} dx= \left[ \frac{x^{1-s}}{1-s}\right]_1^k =\frac{1-k^{1-s}}{s-1}\leq \frac{1}{s-1}. On a donc que pour tout kk s k1s1+1. s_k\leq \frac{1}{s-1}+1. La suite s ks_k est donc majorée et la série ( n11n s)(\sum_{n\geq 1} \frac{1}{n^s}) converge.
  2. Cas 2 : s=1s=1. Nous avons alors que 1 kx 1dx=[log(x)] 1 k=log(k) k.\int_1^k x^{-1} dx=[ \log (x)]_1^k= \log(k)\rightarrow_{k\rightarrow \infty} \infty. Nous avons donc que s klog(k)s_k\geq \log(k) pour tout kk : la suite s ks_k ne peut donc pas être majorée et par le lemma 6 la suite ( nm1n)(\sum_{n\geq m}\frac{1}{n}) doit diverger.
  3. Cas 3 : s<1s&lt;1. Pour tout entier positif nn nous avons alors que 1n s1n>0\frac{1}{n^s}\geq \frac{1}{n}&gt;0. Comme ( n11n)(\sum_{n\geq 1} \frac{1}{n}) ne converge pas, il résulte du Lemma 6 que ( n11n s) (\sum_{n\geq 1} \frac{1}{n^s}) ne converge pas non plus.

Ceci termine démonstration de la proposition 13

Exemples:
Les exemples qui suivent montrent à quel point l’attelage du Corollaire 11 avec la Proposition 13 est un outil puissant pour déterminer si des séries positives convergent ou divergent.

  1. Soit u n=sin(1n)u_n=\sin(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n1n.u_n\sim_{n\rightarrow \infty} \frac{1}{n}. Puisque la séries ( n11n)(\sum_{n\geq 1} \frac{1}{n}) diverge par la proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) diverge aussi.
  2. Soit u n=1cos(1n)u_n=1-\cos(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n12n 2u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2}. Puisque la série ( n11n 2)(\sum_{n\geq 1} \frac{1}{n^2}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  3. Soit u n=1cos(1n)nu_n= \frac{1-\cos(\frac{1}{n})}{\sqrt{n}}. Nous avons que u n n12n 2n=2n 52. u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2\sqrt{n}}= 2n^{-\frac{5}{2}}.

    Puisque la séries ( n11n 5/2)(\sum_{n\geq 1} \frac{1}{n^{5/2}}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  4. Soit u n=sin(1n)(e 1n1)u_n= \sin\left(\frac{1}{n}\right)\left(e^{\frac{1}{\sqrt{n}}}-1\right). Par les developpements limités, on a que sin(1n) n1n\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n} et e 1n1 nn 1/2.e^{\frac{1}{\sqrt{n}}}-1\sim_{n\rightarrow\infty} n^{-1/2}. Il en suit que u n n1n*n 1/2=n 3/2.u_n\sim_{n\rightarrow \infty} \frac{1}{n*n^{1/2}}= n^{-3/2}.

    Puisque la série ( n11n 3/2)(\sum_{n\geq 1} \frac{1}{n^{3/2}}) converge par la Proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.

Que se passe-t-il pour les séries qui ont un nombre infini de termes négatifs et positifs ? Si la série converge absolument, on a vu que la série convergeait. Sinon, il se peut que la série converge quand même. On peut montrer par exemple que n(1) nn\sum_n \frac{(-1)^n}{n} converge alors que n1n\sum_n \frac{1}{n} tend vers l’infini. Intuitivement, cela vient du fait qu’il y a des compensations entre les termes positifs et négatifs dans le premier cas et pas dans le second. L’étude de la nature des séries ayant une infinité de termes positifs et négatifs qui ne sont pas absolument convergentes sort du cadre de ce cours. Le lecteur souhaitant aller plus loin peut regarder les articles “Séries alternées” et “transformation d’Abel” de wikipedia. Attention, certaines séries de Fourier qui seront étudiées plus loin ne sont pas absolument convergentes, on admettra donc qu’elles convergent en appliquant le théorème donnant la valeur de leur somme.

2.2  Les séries et le calcul sur machine.

Les séries peuvent être utilisées dans les logiciels de calcul pour calculer des fonctions transcendantes (sinus, cosinus, exponentielle, logarithme...) ou spéciales que vous verrez peut-etre dans vos études (error function, fonctions de Bessel, de Airy, W de Lambert, etc.).

Un processeur est capable de faire des opérations arithmétiques de base4:

  1. addition, soustraction de deux nombres
  2. multiplication, division de deux nombres.

A l’aide de ces opérations, il s’agit de coder des fonctions plus avancées citées ci-dessus. Mais la plupart des fonctions qu’on souhaite calculer - cos, sin, exp, log et ainsi de suite - ne s’expriment pas exactement à l’aide de opérations de base + - * / d’ailleurs. Les seules fonctions qui peuvent ètre calculées exactement utilisant seulement ces opérations sont les fractions de polynomes : P(x)=a 0+a 1x+a 2x 2++a nx n P(x)= a_0+a_1 x+a_2x^2+\ldots +a_n x^n xx est une variable et a 0,,a na_0,\ldots, a_n sont des nombres.

Alors, comment faire pour faire calculer sin(x)\sin(x) (par exemple) à un ordinateur ? Il y a plusieurs méthodes : l’une d’elle utilise les séries de Taylor5. Voilà comment cela se passe dans le cas de la fonction sin(x)\sin(x).

  1. On applique la théorie de la série de Taylor pour écrire sin(x)\sin(x) comme une somme infinie de puissances de xx. En l’occurence, nous savons que sin(x)=xx 33!+x 55!x 77!+= n=0 (1) nx 2n+1(2n+1)!. \sin(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}-\frac{x^7}{7!}+\ldots= \sum_{n=0}^\infty \frac{(-1)^n x^{2n+1}}{(2n+1)!}. (Le lecteur pourra vérifier que la série converge en appliquant le critère de d’Alembert).
  2. Les sommes partielles s k(x)s_k(x) de cette séries de Taylor sont des polynômes et peuvent être calculées en utilisant seulement les opérations d’addition, multiplication, division. Dans le cas de sin(x)\sin(x) nous avons que s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!. s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!}.
  3. Pour kk assez grand le polynôme s k(x)s_k(x) sera une approximation acceptable pour sin(x)\sin(x). Attention : ici le kk “assez grand” dépendra de xx : plus xx sera petit, plus on pourra utiliser une valeur basse pour kk. On le voit sur la représentation graphique ci-dessous de la fonction sinus et des sommes partielles de la série de Taylor en 0.
S(n,x):=sum((-1)^k*x^(2*k+1)/(2*k+1)!,k,0,n);
plot([sin(x),S(1,x),S(2,x),S(3,x)],x,-2,2,color=[black,red,green,blue])

onload

La question plus difficile à laquelle il faudrait répondre est la suivante : si je cherche (par exemple) à calculer sin(2)\sin(2) à 10 310^{-3} près, quelle valeur de kk dois-je utiliser ? Pour minimiser le temps de calcul de la machine, il est souhaitable de prendre kk le plus petit possible.

L’erreur E k(x)E_k(x) que je commets lorsque j’approche sin(x)\sin(x) par s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!} est donnée par le formule6 E k(x)=(1) kx 2k+1(2k+1)!+. E_k(x)= \frac{(-1)^k x^{2k+1}}{(2k+1)!}+\ldots. On peut démontrer que des lors que x 2<(2k+2)(2k+3)x^2&lt; (2k+2)(2k+3) nous avons que |E k(x)||x 2k+3|(2k+3)! |E_k(x)|\leq \frac{|x^{2k+3}|}{(2k+3)!} Pour garantir que E k(x)E_k(x) est petit il suffit donc de s’assurer que |x| 2k+3/|(2k+3)!|x|^{2k+3}/|(2k+3)! est petit. Ici, comme on voudrait calculer sin(2)\sin(2) à 10 310^{-3} près, il suffit de trouver kk tel que 2 2k+3/(2k+3)!<10 32^{2k+3}/(2k+3)!&lt;10^{-3}. Des calculs nous donnent que 2 3/3!=4/3 2^3/3!=4/3 2 5/5!=4/15 2^5/5!= 4/15 2 7/7!=8/315 2^7/ 7!= 8/315 2 9/9!=4/2835 2^9/9!= 4/2835 2 11/11!=8/155925<10 3. 2^{11}/11!=8/ 155925&lt;10^{-3}.

Nous savons donc que les deux expressions sin(2),et22 3/3!+2 5/5!2 7/7!+2 9/9! \sin(2), \quad \mbox{et} \quad 2- 2^3/3!+2^5/5!-2^7/7!+2^9/9! diffèrent par moins de 10 310^{-3}.



Dans la pratique, on peut optimiser en utilisant les propriétés de la fonction sinus (périodicité, règles telles que sin(x)=cos(π2x)\sin(x)=\cos(\frac{\pi}{2}-x)) et se ramener à un argument plus proche de 0.


1
c’est à dire u 0=1u_0=1, u 1=1u_1=-1, u 2=1u_2=1, u 3=1u_3=-1 et ainsi de suite.
2
On aurait pu aussi remarquer que u n¬ n0u_n \not\rightarrow_{n\rightarrow \infty} 0 et donc cette série, par Remarque 3, ne converge pas.
3
De même, cette série ne peut pas converger par Remarque 3.
4
Aujourd’hui, les coprocesseurs arithmétiques sont capables de calculer les fonctions sinus, cosinus, exponentielles, etc. en décomposant le calcul en opérations arithmétiques de base
5
Une autre méthode populaire est l’algorithme CORDIC
6
La terme générale de la séries E k(x)E_k(x) a un coefficient 1(2k+1)!\frac{1}{(2k+1)!} qui devient très petit très vite, ce qui fait qu’il est typiquement possible de calculer sin(x)\sin(x) avec relativement peu de termes.

Chapitre 3  Rappels d’algèbre linéaire.

Nous avons vu dans le chapitre précedent comment on peut donner un sens à une somme infinie de nombres – mais notre but initial ne concernait pas les nombres, mais les fonctions. Nous voudrions prendre une fonction ϕ(x)\phi(x), définie sur une intervalle [0,L][0,L], et l’écrire comme une somme infinie de fonctions trigonométriques, dans l’espoir que cela nous permettra de résoudre l’équation de la chaleur avec condition initiale ϕ\phi.

Notons tout d’abord que la définition que nous avons donnée d’une somme infinie de nombres ne s’applique pas naturellement aux fonctions. En effet, la valeur d’une somme infinie s’exprime comme une limite d’une suite, et pouvoir parler de la limite d’une suite on a besoin d’une notion de distance - il faut pouvoir dire quand deux objets sont “proches”. Or, si cette notion est intuitive pour des nombres réels ou complexes, c’est beaucoup plus délicat de dire quand deux fonctions sont “proches” ou de définir une “distance” entre deux fonctions.

Mettons brièvement de côté cette difficulté. Si on nous donne une fonction ϕ\phi sur une intervalle [0,L][0,L], comment pourrait-on essayer d’écrire ϕ\phi comme une somme infinie de fonctions trigonométriques ? Une première idée pourrait être de calculer cette somme par approximations successives : pour chaque entier kk, on pourrait essayer de calculer S k(ϕ)S_k(\phi), qui serait le “meilleur approximant” de ϕ\phi, sous la forme a 0+a 1cos(πx/L)+a 2cos(2πx/L)++a kcos(kπx/L). a_0+ a_1\cos(\pi x/L)+a_2\cos(2\pi x/L)+\ldots + a_k\cos(k\pi x/L). Peut être qu’en prenant des valeurs de kk de plus en plus grandes, on trouvera des S k(ϕ)S_k(\phi), sommes trigonométriques finies, de plus en plus proches de ϕ\phi ? Peut être que lorsque kk tend vers \infty, les S k(ϕ)S_k(\phi) convergeront vers une somme infinie de fonctions trigonométriques dont le résultat est ϕ\phi ?

Cette idée d’écrire ϕ\phi comme une somme infinie de fonctions trigonométriques par approximations successives est séduisante, mais pose beaucoup de questions :

  1. Quel sens donner à une somme infinie de fonctions ?
  2. Qu’est ce que ça veut dire, quand on dit que deux fonctions sont “proches” ?
    Comment quantifier la “distance” entre deux fonctions ?
  3. Comment calculer effectivement cette “meilleure approximation” S k(ϕ)S_k(\phi) ?
  4. Qu’est ce que cela signifie quand on dit qu’une suite de fonctions converge vers une autre fonction ?

Nous avons déjà commencé dans le chapitre précedent à répondre à la question 1), au moins dans le cas simple qui est celui d’une somme infinie de nombres. Nous chercherons maintenant à comprendre ce que peut vouloir dire une “bonne approximation” pour des fonctions. En effet, le premier problème que l’on rencontre lorsqu’on essaie de résoudre ces deux équations par une méthode d’approximations successives est celui de définir ce qu’on veut dire par une “bonne approximation”, ou une “distance” entre deux fonctions.1

Nous allons en particulier regarder de près la question suivante :
Supposons donnée sur un intervalle [0,L][0,L] une fonction ff. Comment faire pour trouver la meilleure approximation pour ff de la forme S n(f)=a 0+ j=1 na jcos(jπx/L)+b jsin(jπx/L)? S_n(f)= a_0+ \sum_{j=1}^n a_j \cos{(j \pi x/L)}+b_j\sin{(j\pi x/L)}\; ? Si nous ne disposons pas actuellement d’une bonne notion de distance entre des fonctions2 il existe bien des espaces pour lesquels on connait une définition de distance. Ce sont les espace géométriques 2\mathbb{R}^2 et 3\mathbb{R}^3. De plus, dans ces espaces, il existe des algorithmes efficaces qui permettent, étant donnés un point xx et un plan ou droite SS, de calculer le point de SS le plus proche de xx.

Nous allons nous baser sur ce que nous savons sur 2\mathbb{R}^2 et 3\mathbb{R}^3 pour définir des distances entre fonctions (et plein d’autres choses). Dans ce chapitre, nous allons étudier la notion d’espace vectoriel, qui réunit (entre autres) les espaces géométriques et les espaces de fonctions.

3.1  Rappels sur les espaces vectoriels : définitions et exemples.

Définition 1   Un \mathbb{R}-espace vectoriel est un ensemble VV tel que la somme de deux éléments de VV est encore un élément de VV, le produit d’un réel (appelé scalaire réel) par un élément de VV est encore un élément de VV, et qui vérifie les propriétés habituelles des sommes et produits (x+y=y+xx+y=y+x, existence d’un élément nul, d’un opposé, distributivité du produit par rapport à la somme...).

Plus formellement, VV doit être muni d’une loi interne V×VV,(x,y)x+y,V\times V\to V,(x,y)\mapsto x+y, et d’une loi externe ×VV,(λ,x)λx,\mathbb{R}\times V\to V,(\lambda,x)\mapsto \lambda\cdot x, appelée parfois multiplication par un scalaire, satisfaisant aux propriétés suivantes:

  1. Il existe un élément 0 VV0_V\in V tel que 0 V+x=x+0 V=x0_V+x=x+0_V=x pour tout xVx\in V.
  2. x+(y+z)=(x+y)+zx+(y+z)=(x+y)+z pour tout x,yVx,y\in V
  3. x+y=y+xx+y=y+x pour tout x,yVx,y\in V
  4. Pour tout xVx\in V, il existe un élément xVx'\in V tel que x+x=x+x=0 Vx+x'=x'+x=0_V. Cet élément xx' est alors unique, et est noté x-x.
  5. 1x=x1\cdot x=x pour tout xMx\in M
  6. (λμ)x=λ(μx)(\lambda\mu)\cdot x=\lambda\cdot(\mu\cdot x) pour tout λ,μ,xV\lambda,\mu\in \mathbb{R},x\in V
  7. λ(x+y)=λx+λy\lambda\cdot (x+y)=\lambda\cdot x+\lambda\cdot y pour tout x,yV,λx,y\in V,\lambda\in \mathbb{R}
  8. (λ+μ)x=λx+μx(\lambda+\mu)\cdot x=\lambda\cdot x+\mu\cdot x pour tout xV,λ,μx\in V,\lambda,\mu\in \mathbb{R}.

Un \mathbb{C}-espace vectoriel est défini de manière analogue en remplaçant \mathbb{R} par \mathbb{C}, on peut donc multiplier un élément de VV par un complexe (un scalaire complexe).

Remarque 2   On écrira λx\lambda x pour λx\lambda \cdot x.

Exemples :

  1. n\mathbb{R}^n, l’espace de vecteurs colonnes X̲=(x 1 x 2 x n)\underline{X}=\begin{pmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{pmatrix} avec x ix_i\in \mathbb{R}, est un espace vectoriel réel. L’espace n\mathbb{C}^n de vecteurs colonnes complexes est un espace vectoriel complexe.
  2. [X]\mathbb{R}[X], l’espace de polynômes réels en une variable XX, est un espace vectoriel réel. De même, [Y]\mathbb{C}[Y], l’espace de polynômes complexes en une variable YY est une espace vectoriel complexe.
  3. n[X]\mathbb{R}_n[X], l’espace de polynômes réels en une variable XX de degré n\leq n, est un espace vectoriel réel. De même, n[Y]\mathbb{C}_n[Y], l’espace de polynômes complexes en une variable YY de degré n\leq n, est une espace vectoriel complexe.
  4. M n()\mbox{M}_n(\mathbb{R}), l’espace de matrices n×nn\times n à coefficients réels, est un espace vectoriel réel,
  5. Pour tout a<ba&lt;b\in \mathbb{R} l’espace C 0([a,b],)C^0([a,b],\mathbb{R}) de toutes les fonctions continues réelles sur l’intervalle [a,b][a,b], est un espace vectoriel réel.
  6. Pour tout a<ba&lt;b\in \mathbb{R} et tout entier i>0i&gt;0 l’espace C i([a,b],)C^i([a,b],\mathbb{C}) de toutes les fonctions ii-fois continument dérivables à valeurs dans les complexes sur l’intervalle [a,b][a,b], est un espace vectoriel complexe.

Dans la pratique, nous travaillerons souvent avec des espaces vectoriels qui sont inclus dans d’autres.

Définition 3   Soit VV un \mathbb{R}-espace vectoriel. Un sous-espace vectoriel WW de VV est un sous-ensemble de WVW\subset V contenant le vecteur nul de VV, tel que
  1. pour tout w 1,w 2Ww_1, w_2\in W nous avons que w 1+w 2Ww_1+w_2\in W
  2. pour tout w 1Ww_1\in W et λ\lambda\in \mathbb{R} nous avons que λw 1W\lambda w_1\in W

On montre que l’ensemble WW est bien un espace vectoriel avec l’addition et la multiplication héritées de VV.

Exercice 4   Montrer que les sous-ensembles suivants sont tous des sous-espaces vectoriels.
  1. L’ensemble de tous les (x,y) 2(x,y)\in \mathbb{C}^2 tels que x+y=0x+y=0.
  2. Un plan d’équation ax+by+cz=0ax+by+cz=0 (a,b,c)a,b,c\in\mathbb{R}) dans 3\mathbb{R}^3.
  3. L’ensemble {P[X]|P(1)=0}\{ P\in \mathbb{R}[X]| P(1)=0\} des polynômes qui s’annulent en 1 dans [X]\mathbb{R}[X].
  4. L’ensemble {MM n()| tM=M}\{ M\in M_n(\mathbb{C})| {}^tM= M\} des matrices symétriques dans M n()M_n(\mathbb{C}).
  5. L’ensemble de toutes les fonctions deux fois dérivables fC 2(,)f\in C^2(\mathbb{R},\mathbb{R}) telles que f=2ff''= -2f dans C 2(,)C^2(\mathbb{R},\mathbb{R}).

3.2  Bases et coordonnées.

Une notion clé dans ce qui suit sera la notion de base, qui permet de représenter un élément d’un espace vectoriel par un vecteur colonne.

Définition 1   Soit VV un espace vectoriel réel. Une famille ordonnée d’éléments de VV, e=(e 1,,e n){\bf e}=(e_1, \ldots, e_n) est une base (finie) pour VV si pour tout élément vVv\in V il existe un unique n-uplet de scalaires λ 1,λ 2,,λ n\lambda_1, \lambda_2, \ldots, \lambda_n tels que v=λ 1e 1+λ 2e 2++λ ne n. v= \lambda_1e_1+\lambda_2e_2+\ldots +\lambda_n e_n.
Définition 2   Avec les notations de la définition 1, nous dirons que le vecteur colonne (λ 1 λ 2 λ n) \begin{pmatrix}\lambda_1\\ \lambda_2 \\ \vdots \\ \lambda_n\end{pmatrix} est le vecteur des coordonnées de vv dans la base e{\bf e}.
Remarque 3 (Attention !)   Le vecteur de coordonnées de vv dans une base e{\bf e} dépend autant de la base e{\bf e} que du vecteur vv.
Remarque 4 (Notation)  Dans ce qui suit il sera très important de distinguer l’élément vv dans un espace vectoriel VV de dimension finie nn (qui peut être un vecteur colonne, ou une matrice, ou une fonction, ou un polynôme, ou plein d’autres choses) et le vecteur colonne V̲ n\underline{V}\in \mathbb{R}^n qui le représente dans une base donnée.

Pour bien distinguer ces deux objets, nous soulignerons systématiquement les noms des variables qui sont des vecteurs colonnes, et ne soulignerons pas ceux qui ne le sont pas.
Exemples 5  

  1. Les vecteurs (1 0 0),,(0 0 1)\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) ,\cdots,\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) forment une base de n\mathbb{R}^n, appelée la base canonique.

    Si
    (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) est un élément de n\mathbb{R}^n alors on peut écrire (x 1 x 2 x n)=x 1(1 0 0)++x n(0 0 1); \left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right)= x_1\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) +\cdots+ x_n\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) ; autrement dit, le vecteur de coordonnées de (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) dans la base canonique est (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right). Ceci est une source importante de confusion.
  2. Montrons que B=((1 1),(1 2))B=\left(\left(\begin{array}{c} 1\\ 1\end{array}\right), \left(\begin{array}{c} 1\\ 2\end{array}\right)\right) est une base de 2\mathbb{C}^2. Nous considérons pour un vecteur arbitraire (x y)\left(\begin{array}{c} x\\ y\end{array}\right) l’équation (x y)=λ 1(1 1)+λ 2(1 2) \left(\begin{array}{c} x\\ y\end{array}\right)= \lambda_1 \left(\begin{array}{c} 1\\ 1\end{array}\right)+ \lambda_2\left(\begin{array}{c} 1\\ 2\end{array}\right) c’est-à-dire x=λ 1+λ 2 x= \lambda_1+ \lambda_2 y=λ 1+2λ 2 y= \lambda _1+ 2\lambda_2 ce qui (après pivot de Gauss) nous donne l’unique solution λ 1=2xy,\lambda_1= 2x-y, λ 2=yx.\lambda_2= y-x. Cette famille est donc une base et le vecteur de coordonnées de (x y)\left(\begin{array}{c} x\\ y\end{array}\right) dans la base BB est (2xy yx). \left(\begin{array}{c} 2x-y\\ y-x\end{array}\right).
  3. La famille B=(1,X,,X n)B=(1,X,\ldots,X^n) forme une base de l’espace vectoriel [X] n\mathbb{R}[X]_n des polynômes à coefficients dans \mathbb{R} de degré au plus nn. Si P=a 0+a 1X+a nX nP= a_0+a_1X+\ldots a_n X^n est un élément de n[X]\mathbb{R}_n[X] alors son vecteur de coefficients dans la base BB est (a 0 a 1 a n). \left(\begin{array}{c} a_0\\ a_1\\ \vdots \\ a_n \end{array}\right).
  4. On considère M 2()M_2(\mathbb{C}), l’espace de matrices carrées complexes 2×22\times 2. Elle a une base B=((1 0 0 0),(0 1 0 0),(0 0 1 0),(0 0 0 1),)B=\left(\begin{pmatrix} 1 & 0\\ 0& 0 \end{pmatrix}, \begin{pmatrix} 0& 1\\ 0& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 1& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 0& 1\end{pmatrix}, \right) et dans cette base la matrice M=(a b c d)M=\begin{pmatrix}a & b\\ c& d\end{pmatrix} a pour vecteur de coefficients (a b c d)\begin{pmatrix}a \\ b\\ c\\ d\end{pmatrix}.
  5. On considère l’espace de fonctions réelles deux fois dérivables sur \mathbb{R} qui satisfont l’équation f=2ff''= -2f. Vous avez vu en L1 que cette espace est de dimension 2 et la famille (cos(2x),sin(2x))(\cos(\sqrt{2}x), \sin(\sqrt{2} x)) en est une base. Le vecteur de coordonnées de la fonction f=acos(2x)+bsin(2x)f=a\cos(\sqrt{2} x)+ b\sin(\sqrt{2}x) dans cette base est (a b)\begin{pmatrix}a\\ b\end{pmatrix}.
Définition 6   Lorsqu’un espace vectoriel VV possède une base finie on dit que VV est de dimension finie. Toutes les bases de VV ont alors le même nombre d’éléments (nous admettrons ce théorème) : ce nombre s’appelle la dimension de VV.
Exemples 7  
  1. L’espace n\mathbb{R}^n est de dimension nn.
  2. L’espace n[X]\mathbb{R}_n[X] est de dimension n+1n+1.
  3. L’espace M 2()M_2(\mathbb{R}) est de dimension 44.
Remarque 8   Tout sous-espace d’un espace de dimension finie est de dimension finie.

Le résultat suivant, que nous rappelons sans démonstration, sera souvent utilisé pour vérifier qu’une famille de vecteurs est une base.

Définition 9   Une famille de vecteurs (e 1,,e n)(e_1,\ldots, e_n) est libre si l’équation λ ie i=0 V\sum \lambda_i e_i=0_V d’inconnues λ 1,...,λ n\lambda_1,...,\lambda_n a pour unique solution λ 1=...=λ n=0\lambda_1=...=\lambda_n=0)
Lemme 10   Soit VV un espace vectoriel de dimension nn et soit (e 1,,e n)(e_1,\ldots, e_n) une famille de nn vecteurs dans VV. Si la famille (e 1,,e n)(e_1,\ldots, e_n) est libre alors elle est une base.

Les coordonnées d’un élément vVv\in V dans une base seront essentielles dans la suite, car elles nous permettront de ramener tous nos calculs à de simples multiplications de matrices. Il nous sera, d’ailleurs, souvent utile de simplifier nos calculs au maximum en choississant une base bien adaptée. Pour faire cela, il nous faut comprendre comment le vecteur V̲\underline{V} des coordonnées d’un élément vVv\in V dans une base e{\bf e} se transforme lorsqu’on change de base.

Définition 11   Soit VV un espace vectoriel de dimension nn et soient E=(e 1,,e n){\bf E}=(e_1, \ldots, e_n) et F=(f 1,,f n) {\bf F}=(f_1,\ldots, f_n) des bases de VV. Soit V̲ i\underline{V}_i le vecteur de coordonnés de f if_i dans la base E=(e 1,,e d){\bf E}=(e_1,\ldots, e_d). Alors, la matrice de passage de E{\bf E} vers F{\bf F} est la matrice P=(V̲ 1,,V̲ n).P=(\underline{V}_1,\ldots, \underline{V}_n).
Remarque 12   Cas particulier
Si
E{\bf E} est la base canonique de n\mathbb{R}^n, la matrice de passage PP est donnée par P=(f̲ 1,,f̲ n). P= (\underline{f}_1,\ldots, \underline{f}_n). C’est-à-dire que la première colonne de PP est formée par les composantes de f 1f_1, la deuxième colonne de PP par les composantes de f 2f_2, etc.

L’importance de la matrice de passage vient du théorème fondamental suivant, que nous rappelons :

Théorème 13   Soient B 1{\bf B_1} et B 2{\bf B_2} des bases de VV et soit vv un élément de VV. Soient V̲ 1\underline{V}_1 et V̲ 2\underline{V}_2 les vecteurs de coordonnés de vv dans les bases B 1{\bf B}_1 et B 2{\bf B}_2. Soit PP la matrice de passage de B 1B_1 vers B 2B_2. Alors V̲ 1=PV̲ 2 \underline{V}_1= P \underline{V}_2 ou, de façon équivalente V̲ 2=P 1V̲ 1 \underline{V}_2= P^{-1} \underline{V}_1
Remarque 14   Attention il faut multiplier par P 1P^{-1} (et pas PP) le vecteur colonne des composantes de vv dans la base B 1{\bf B_1} pour obtenir le vecteur colonnes des composantes de vv dans la base B 2{\bf B_2}.

Il y a une généralisation de la notion de base qui sera utile dans la démonstration d’un théorème ultérieur.

Définition 15   Soient V 1,,V mV_1,\ldots,V_m des sous-espaces vectoriels de VV. On dit que VV est la somme directe des sous-espaces V 1,,V mV_1,\ldots,V_m, et on écrit V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m, si et seulement si pour tout vVv\in V il existe des uniques éléments v 1V 1,,v mV mv_1\in V_1, \ldots, v_m\in V_m tels que v=v 1++v m.v=v_1+\ldots+v_m.

Le résultat suivant, que nous admettrons, sera aussi utile dans un résultat ultérieur:

Proposition 16   Si V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m et pour chaque ii nous avons que e i{\bf e}_i est une base de V iV_i alors la concatenation (e 1,e 2,,e m)({\bf e}_1, {\bf e}_2,\ldots, {\bf e}_m) est une base de VV.

3.3  Applications linéaires.

Considérons maintenant la classe des applications qui préservent la structure d’un espace vectoriel.

Définition 1   Soient VV et VV' deux \mathbb{R}-espaces vectoriels.

Une application linéaire de VV dans VV' est une application f:VVf: V\to V' qui commute avec l’addition et la multiplication par un réel, donc vérifiant

  1. f(v 1+v 2)=f(v 1)+f(v 2)f(v_1+v_2)=f(v_1)+f(v_2) pour tous v 1,v 2Vv_1,v_2\in V (l’image de la somme est la somme des images)
  2. f(λv)=λf(v)f(\lambda v)=\lambda f(v) pour tous λ,vV\lambda\in \mathbb{R},v\in V (l’image du produit par λ\lambda est le produit par λ\lambda de l’image)

Dans le cas où l’espace d’arrivée est \mathbb{R} on dira que ff est une forme linéaire

Remarque 2  Pour toute application linéaire ff on a nécessairement f(0)=0f(0)=0.

Exemples :

  1. L’application 3 2\mathbb{R}^3\rightarrow \mathbb{R}^2 donnée par (x y z)(x y)\begin{pmatrix}x\\y\\z\end{pmatrix} \mapsto \begin{pmatrix}x\\y \end{pmatrix} est linéaire.
  2. L’application 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2 donnée par (x y z)(x y+1)\begin{pmatrix}x\\y\\z\end{pmatrix}\mapsto \begin{pmatrix}x\\y+1 \end{pmatrix} n’est pas linéaire.
  3. L’application des fonctions continument dérivables dans les fonctions continues (C 1(,)C 0()C^1(\mathbb{R}, \mathbb{R})\mapsto C^0(\mathbb{R}\mathbb{R})), définie par ff2ff \mapsto f'-2f est linéaire.
  4. L’application de transposition dans l’espace vectoriel des matrices carrées M n()M n()M_n(\mathbb{C}) \mapsto M_n(\mathbb{C}) donnée par M tMM\mapsto {}^tM est linéaire.
  5. L’application de l’espace des polynômes de degré inférieur ou égal à 3 dans l’espace des polynômes de degré inférieur ou égal à 1 3[X] 1[X]\mathbb{R}_3[X] \mapsto \mathbb{R}_1[X], PPP\mapsto P'', est une application linéaire.
Exercice 3   Démontrer que les applications 1, 3, 4, 5 sont bien linéaires et que 2 ne l’est pas.
Définition 4   Le noyau de ff, noté Ker(f)\mbox{Ker}(f), est l’ensemble Ker(f)={vVf(v)=0}(V).\mbox{Ker}(f)=\{ v\in V \mid f(v)=0\}(\subseteq V). C’est un sous-espace vectoriel de VV.
Définition 5   L’image de ff, notée Im(f)\mbox{Im}(f), est l’ensemble Im(f)={f(v),vV}V.\mbox{Im}(f)=\{ f(v), v\in V\}\subseteq V'. C’est un sous-espace vectoriel de VV'.

Exercices

  1. Montrer que le noyau et l’image d’une application linéaire sont des sous-espaces vectoriels.
  2. Calculer l’image et le noyau des applications linéaires données en exemple.
Définition 6   On appelle rang d’une application linéaire ff la dimension de son image Im(f)(f).

On rappelle le théorème du rang, dont nous aurons besoin dans une démonstration ultérieure.

Théorème 7   Soit f:VWf:V\rightarrow W une application linéaire. On suppose que VV est de dimension finie. Alors Im(f)\mbox{Im}(f) est de dimension finie et dim(V)=dim(Ker(f))+dim(Im(f)). \mbox{dim}(V)= \mbox{dim}(\mbox{Ker}(f))+\mbox{dim}(\mbox{Im}(f)).

3.4  Calcul Matriciel.

Dans cette section nous ferons des rappels sur les matrices et leurs manipulations. Celles-ci seront un élément clé de notre travail ce semestre.

Définition 1   Etant donnés deux entiers mm et nn strictement positifs, une matrice à mm lignes et nn colonnes est un tableau rectangulaire de réels A=(a i,j)A=(a_{i,j}). L’indice de ligne ii va de 11 à mm, l’indice de colonne jj va de 11 à nn. A=(a i,j)=(a 1,1 a 1,j a 1,n a i,1 a i,j a i,n a m,1 a m,j a m,n).A=(a_{i,j}) = \left( \begin{array}{ccccc} a_{1,1}&\cdots&a_{1,j}&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&a_{m,j}&\cdots&a_{m,n} \end{array} \right) \;. Les entiers mm et nn sont les dimensions de la matrice, a i,ja_{i,j} est son coefficient d’ordre (i,j)(i,j).

Notons qu’une matrice AA peut être précisée en donnant une expression pour ses coefficients a i,ja_{i,j} Par exemple, la matrice AA de taille 2×22\times 2 donnée par le formule a i,j=i+ja_{i,j}= i+j est la matrice A=(1+1 1+2 2+1 2+2)=(2 3 3 4).A= \begin{pmatrix} 1+1 & 1+2 \\ 2+1 & 2+2\end{pmatrix}= \begin{pmatrix} 2 & 3 \\ 3 & 4\end{pmatrix}.

L’ensemble des matrices à mm lignes et nn colonnes et à coefficients réels est noté m,n()\mathcal{M}_{m,n}(\mathbb{R}). Ce qui suit s’applique aussi, si on remplace \mathbb{R} par \mathbb{C}, à l’ensemble des matrices à coefficients complexes.

Notons trois cas spéciaux :

  1. Un vecteur de nn éléments peut s’écrire comme une vecteur colonne (x 1 x 2 x n)\begin{pmatrix}x_1\\x_2\\ \vdots \\ x_n\end{pmatrix} (matrice n×1n\times 1).
  2. Un vecteur de nn éléments peut s’écrire comme un vecteur ligne (x 1, x 2, , x n)\begin{pmatrix}x_1,&x_2,&\ldots, &x_n\end{pmatrix} (matrice 1×n1\times n).
  3. Un nombre réel xx peut être vu comme une matrice 1×11\times 1.

Du point de vue du calcul matriciel - en particulier lorsqu’il s’agit de faire des multiplications - un vecteur ligne ne se comporte pas comme un vecteur colonne. Nous ferons cette distinction en considérant, par exemple, que les vecteurs (1 2 3)et(1 2 3) \begin{pmatrix}1&2&3\end{pmatrix}\ \mbox{et}\ \begin{pmatrix}1\\ 2\\ 3\end{pmatrix} sont différents, même s’ils contiennent les mêmes nombres dans le même ordre. Toutefois certains logiciels, notamment Xcas, permettent de multiplier une matrice par un vecteur ligne, qui est alors remplacé par le vecteur colonne ayant les mêmes composantes.

Notation. Si X̲\underline{X} est un vecteur colonne à nn éléments, on notera le coefficient X̲ 1,i\underline{X}_{1,i} par X̲ i\underline{X}_i.

L’ensemble m,n()\mathcal{M}_{m,n}(\mathbb{R}) est naturellement muni d’une addition (on peut ajouter deux matrices de mêmes dimensions terme à terme) et de multiplication par des scalaires (on peut multiplier une matrice par un réel terme à terme).

  1. Addition : Si A=(a i,j)A=(a_{i,j}) et B=(b i,j)B=(b_{i,j}) sont deux matrices de m,n()\mathcal{M}_{m,n}(\mathbb{R}), leur somme A+BA+B est la matrice (a i,j+b i,j)(a_{i,j}+b_{i,j}). Par exemple : (1 1 2 3 1 1)+(3 1 5 3 0 2)=(2 2 7 0 1 1)\left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) + \left( \begin{array}{rr} -3&1\\ 5&-3\\ 0&2 \end{array} \right) = \left( \begin{array}{rr} -2&2\\ 7&0\\ 1&1 \end{array} \right)
  2. Multiplication par un scalaire : Si A=(a i,j)A=(a_{i,j}) est une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}), et λ\lambda est un réel, le produit λA\lambda A est la matrice (λa i,j)(\lambda a_{i,j}). Par exemple : 2(1 1 2 3 1 1)=(2 2 4 6 2 2)-2\, \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) = \left( \begin{array}{rr} -2&-2\\ -4&-6\\ -2&2 \end{array} \right)

Observons que ces opérations auraient le même effet si les matrices étaient disposées comme des mnmn-uplets de réels (toutes les lignes étant concaténées, par exemple)

Définition 2   (Matrice d’une application linéaire)
Soit
φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1=(e 1,...,e n)B_1=(e_1,...,e_n) dans un espace vectoriel V 2V_2 de base B 2=(f 1,..,f n)B_2=(f_1,..,f_n). On appelle matrice de φ\varphi dans les bases B 1B_1 et B 2B_2 la matrice dont les colonnes sont les composantes dans la base B 2B_2 des images φ(e 1),...,φ(e n)\varphi(e_1),...,\varphi(e_n) des vecteurs e 1,...,e ne_1,...,e_n de la base B 1B_1.

Si V 1=V 2V_1=V_2 on choisit (presque toujours) B 1=B 2B_1=B_2.

Exemple
Soit l’application linéaire de 3\mathbb{R}^3 dans 2\mathbb{R}^2 qui a un vecteur X=(x,y,z)X=(x,y,z) associe le vecteur Y=(x+2yz,3x2z)Y=(x+2y-z,3x-2z). Sa matrice dans les bases canoniques de 3\mathbb{R}^3 et 2\mathbb{R}^2 a pour première colonne les composantes de φ(e 1)=φ((1,0,0))=(1,3)\varphi(e_1)=\varphi((1,0,0))=(1,3), pour deuxième colonne les composantes de φ(e 2)=φ((0,1,0))=(2,0)\varphi(e_2)=\varphi((0,1,0))=(2,0) et pour troisième colonne les composantes de φ(e 3)=φ((0,0,1))=(1,2)\varphi(e_3)=\varphi((0,0,1))=(-1,-2) donc φ(e 1) φ(e 2) φ(e 3) 1 2 1 f 1 3 0 2 f 2,M=(1 2 1 3 0 2)\begin{array}{cccc} \varphi(e_1) & \varphi(e_2) & \varphi(e_3) & \\ 1 & 2 &-1 & f_1\\ 3 & 0 & -2 & f_2 \end{array}, \quad \Rightarrow \quad M= \left(\begin{array}{ccc} 1 & 2 &-1 \\ 3 & 0 & -2 \end{array}\right) On observe qu’on a en ligne les coefficients des coordonnées du vecteur image.

Applications : Noyau et image d’une application linéaire de matrice MM
Soit f:VVf: V \mapsto V' a pour matrice MM relativement à des bases BB et BB'. Pour calculer le noyau de ff, il faut résoudre le système linéaire {x+2yz = 0 3x2z = =0\left\{ \begin{array}{ccc} x+2y-z&=&0\\ 3x-2z&=&=0 \end{array} \right. dont la matrice est MM. On réduit donc MM (en lignes) par l’algorithme du pivot de Gauss pour se ramener à une matrice triangulaire. Dans l’exemple ci-dessus, on remplace la ligne L 2L_2 par L 23L 1L_2-3L_1 ce qui donne la matrice M=(1 2 1 0 6 1)M=\left(\begin{array}{ccc} 1 & 2 &-1\\ 0 & -6 & 1 \end{array}\right) La deuxième équation donne 6y+z=0-6y+z=0 soit y=z/6y=z/6. Ensuite la première équation donne x+2yz=0x+2y-z=0 soit x=2y+z=2z/3x=-2y+z=2z/3. Donc (x,y,z)=z(2/3,1/6,1)(x,y,z)=z(2/3,1/6,1) et Ker(f)(f) est de dimension 1, engendré par le vecteur (2/3,1/6,1)(2/3,1/6,1). Le théorème du rang donne alors que Im(f)(f) est de dimension 3-1=2, c’est donc 2\mathbb{R}^2 tout entier.

Dans le cas général, les vecteurs colonnes de MM forment une famille génératrice de Im(f)(f). Il suffit de réduire MM en colonnes par l’algorithme du pivot de Gauss, une fois la réduction terminée les colonnes non nulles forment une base de Im(f)(f).
N.B : La commande rref de Xcas permet de réduire une matrice de vecteurs lignes, il faut donc transposer la matrice MM, la réduire avec rref puis extraire les vecteurs lignes non nuls pour avoir les coordonnées d’une base de Im(f)(f).

Les matrices de taille m×nm\times n peuvent agir sur des vecteurs colonnes de taille nn pour produire un vecteur de taille mm, par la formule suivante : (MX̲) i= j=1 nM i,jX̲ j. (M\underline{X})_i= \sum_{j=1}^n M_{i,j} \underline{X}_j. On peut vérifier la :

Proposition 3   Soit φ\varphi une application linéaire de V 1V_1 muni de la base B 1B_1 vers V 2V_2 muni de la base V 2V_2. Soit v 1V 1v_1 \in V_1 un vecteur de composantes X̲\underline{X} dans la base B 1B_1.

Alors les composantes de φ(V 1)\varphi(V_1) dans la base B 2B_2 sont données par MX̲M\underline{X}

Soit φ\varphi une application linéaire de V 1V_1 de base B 1B_1 dans V 2V_2 de base B 2B_2 et ψ\psi une autre application linéaire de V 2V_2 dans V 3V_3 de base B 3B_3. On peut montrer que la composée ψ(φ(.))\psi(\varphi(.)) est une application linéaire de V 1V_1 dans V 3V_3. Que se passe-t-il pour les matrices représentant ψ\psi, φ\varphi et la matrice de la composée ? On vérifie que la matrice de la composée s’obtient en faisant le produit matriciel des matrices de ψ\psi et φ\varphi

Définition 4   Soient m,n,pm,n,p trois entiers strictement positifs. Soit A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et soit B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). On appelle produit matriciel de AA par BB la matrice C m,p()C\in \mathcal{M}_{m,p}(\mathbb{R}) dont le terme général c i,kc_{i,k} est défini, pour tout i=1,,mi=1,\ldots,m et pour tout k1,,pk\in 1,\ldots,p par : c i,k= j=1 na i,jb j,k.c_{i,k} = \sum_{j=1}^n a_{i,j}\,b_{j,k}\;.

Nous insistons sur le fait que le produit ABAB de deux matrices n’est défini que si le nombre de colonnes de AA et le nombre de lignes de BB sont les mêmes (pour la composition des applications linéaires, ceci correspond au fait que l’espace vectoriel de départ de la deuxième application ψ\psi est le même que l’espace vectoriel d’arrivée de la première application φ\varphi, ils ont donc même dimension). Dans le cas particulier ou BB est un vecteur colonne de taille n×1n\times 1 cette opération nous fournit un vecteur colonne de taille m×1m\times 1. (b 1,1 b 1,k b 1,n b j,k b n,1 b n,k b n,p) (a 1,1 a 1,n a i,1 a i,j a i,n a m,1 a m,n) (c 1,1 c 1,p c i,k c m,1 c m,p)\begin{array}{cc} & \left( \begin{array}{ccccc} b_{1,1}&\cdots&b_{1,k}&\cdots&b_{1,n}\\ \vdots&&\vdots&&\vdots\\ &\cdots&b_{j,k}&\cdots&\\ \vdots&&\vdots&&\vdots\\ b_{n,1}&\cdots&b_{n,k}&\cdots&b_{n,p} \end{array} \right) \\ \left( \begin{array}{ccccc} a_{1,1}&\cdots&&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&&\cdots&a_{m,n} \end{array} \right) & \left( \begin{array}{ccccc} c_{1,1}&&\vdots&&c_{1,p}\\ &&\vdots&&\\ \cdots&\cdots&c_{i,k}&\ &\\ &&&&\\ c_{m,1}&&&&c_{m,p} \end{array} \right) \end{array} Posons par exemple : A=(1 1 2 3 1 1)etB=(0 1 1 2 3 2 0 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad\mbox{et}\quad B= \left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right)\;. La matrice AA a 3 lignes et 2 colonnes, la matrice BB a 2 lignes et 4 colonnes. Le produit ABAB a donc un sens : c’est une matrice à 3 lignes et 4 colonnes. (0 1 1 2 3 2 0 1)(1 1 2 3 1 1)=(3 1 1 1 9 4 2 1 3 3 1 3)\left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right) \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \ = \ \left( \begin{array}{rrrr} -3&-1&-1&-1\\ -9&-4&-2&-1\\ 3&3&-1&-3 \end{array} \right) Le produit matriciel a les propriétés habituelles d’un produit, à une exception notable près : il n’est pas commutatif

Proposition 5   Le produit matriciel possède les propriétés suivantes.
  1. Associativité : Si les produits ABAB et BCBC sont définis, alors les produits A(BC)A(BC) et (AB)C(AB)C le sont aussi et ils sont égaux. A(BC)=(AB)C.A(BC)=(AB)C\;.
  2. Linéarité à droite : Si BB et CC sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si AA a autant de colonnes que BB et CC ont de lignes, alors A(λB+μC)=λAB+μAC.A(\lambda B+\mu C) = \lambda AB+\mu AC\;.
  3. Linéarité à gauche : Si AA et BB sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si CC a autant de lignes que AA et BB ont de colonnes, alors (λA+μB)C=λAC+μBC.(\lambda A+\mu B)C = \lambda AC+\mu BC\;.

Ces propriétés se démontrent par le calcul à partir de la définition 4 ou en interprétant le produit comme une composition d’applications linéaires.

La transposition est une notion importante, dont la justification provient de la dualité, qui dépasse le cadre de ce cours.

Définition 6   Étant donnée une matrice A=(a i,j)A=(a_{i,j}) de m,n()\mathcal{M}_{m,n}(\mathbb{R}), sa transposée est la matrice de n,m()\mathcal{M}_{n,m}(\mathbb{R}) dont le coefficient d’ordre (j,i)(j,i) est a i,ja_{i,j}.

Pour écrire la transposée d’une matrice, il suffit de transformer ses lignes en colonnes. Par exemple : A=(1 1 2 3 1 1),tA=(1 2 1 1 3 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad,\quad {^t\!A}= \left( \begin{array}{rrr} 1&2&1\\ 1&3&-1 \end{array} \right)\;. Observons que la transposée de la transposée est la matrice initiale. t(tA)=A.{^t({^t\!A})} = A\;. La transposée d’un produit est le produit des transposées, mais il faut inverser l’ordre des facteurs.

Proposition 7   Soient m,n,pm,n,p trois entiers strictement positifs. Soient A=(a i,j)A=(a_{i,j}) une matrice de calM m,n(){\cal M}_{m,n}(\mathbb{R}) et B=(b j,k)B=(b_{j,k}) une matrice de calM n,p(){\cal M}_{n,p}(\mathbb{R}). La transposée du produit de AA par BB est le produit de la transposée de BB par la transposée de AA. t(AB)=tBtA.{^t(AB)} = {^t\!B}\,{^t\!A}\;.

Par exemple, en reprenant les matrices AA et BB définies ci-dessus : (1 2 1 1 3 1)(0 3 1 2 1 0 2 1)=(3 9 3 1 4 3 1 2 1 1 1 3)\left( \begin{array}{rrr} \;1&\quad2&1\\ \; 1&\quad 3&-1 \end{array} \right) \left( \begin{array}{rr} 0&-3\\ 1&-2\\ -1&0\\ -2&1 \end{array} \right) \ = \ \left( \begin{array}{rrr} -3&-9&3\\ -1&-4&3\\ -1&-2&-1\\ -1&-1&-3 \end{array} \right)

Définition 8  

Soit nn un entier strictement positif et AA une matrice carrée à nn lignes et nn colonnes. On dit que AA est symétrique si pour tous i,j=1,,ni,j=1,\ldots,n, ses coefficients d’ordre a i,ja_{i,j} et a j,ia_{j,i} sont égaux, ce qui est équivalent à dire que AA est égale à sa transposée.

Le produit d’une matrice par sa transposée est toujours une matrice symétrique. En effet : t(AtA)=t(tA)tA=AtA.{^t(A\,{^t\!A})} = {^t({^t\!A})}\,{^t\!A}=A\,{^t\!A}\;.

3.5  Matrices carrées

En général si le produit ABAB est défini, le produit BABA n’a aucune raison de l’être. Le produit d’une matrice par sa transposée est une exception, les matrices carrées en sont une autre : si AA et BB sont deux matrices à nn lignes et nn colonnes, les produits ABAB et BABA sont tous deux définis et ils ont les mêmes dimensions que AA et BB. En général ils ne sont pas égaux. Par exemple, (0 1 1 0)(0 1 1 0)=(1 0 0 1)(0 1 1 0)(0 1 1 0)=(1 0 0 1)\left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} 1&0\\ 0&-1 \end{array} \right) \qquad \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} -1&0\\ 0&1 \end{array} \right) Nous noterons simplement n()\mathcal{M}_n(\mathbb{R}) l’ensemble n,n()\mathcal{M}_{n,n}(\mathbb{R}) des matrices carrées à nn lignes et nn colonnes, à coefficients réels. Parmi elles la matrice identité, notée I nI_n, joue un rôle particulier. I n=(1 0 0 0 1 1 0 0 0 1)I_n= \left( \begin{array}{ccccc} 1&0&\cdots&\cdots&0\\ 0&1&\ddots&&\vdots\\ \vdots&\ddots&\ddots&\ddots&\vdots\\ \vdots&&\ddots&1&0\\ 0&\cdots&\cdots&0&1 \end{array} \right) En effet, elle est l’élément neutre du produit matriciel : pour toute matrice A n,m()A\in\mathcal{M}_{n,m}(\mathbb{R}), AI n=I mA=A.A\,I_n = I_m\,A = A\;. On le vérifie facilement à partir de la définition 4.

Définition 1   Soit AA une matrice de n\mathcal{M}_n. On dit que AA est inversible s’il existe une matrice de n\mathcal{M}_n, notée A 1A^{-1}, telle que AA 1=A 1A=I n.A\,A^{-1} = A^{-1}\,A = I_n\;.

Par exemple : (1 0 1 1 1 0 1 1 1)(1 1 1 1 2 1 0 1 1)=(1 1 1 1 2 1 0 1 1)(1 0 1 1 1 0 1 1 1)=(1 0 0 0 1 0 0 0 1)\left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&0&0\\ 0&1&0\\ 0&0&1 \end{array} \right) Observons que l’inverse, s’il existe, est nécessairement unique. En effet, soient B 1B_1 et B 2B_2 deux matrices telles que AB 1=B 1A=I nA\,B_1=B_1\,A=I_n et AB 2=B 2A=I nA\,B_2=B_2\,A=I_n. En utilisant l’associativité, le produit B 1AB 2B_1\,A\,B_2 vaut B 1(AB 2)=B 1I n=B 1B_1\,(A\,B_2)=B_1\,I_n=B_1, mais aussi (B 1A)B 2=I nB 2=B 2(B_1\,A)\,B_2=I_n\,B_2=B_2. Donc B 1=B 2B_1=B_2.

Nous rappelons la proposition suivante, qui nous dit qu’il suffit de trouver une matrice BB telle que AB=I nA\,B=I_n pour être sûr que AA est inversible et que son inverse est BB.

Proposition 2   Soit AA une matrice de n\mathcal{M}_n. Supposons qu’il existe une matrice BB telle que AB=I nA\,B=I_n ou bien BA=I nB\,A=I_n. Alors AA est inversible et B=A 1B=A^{-1}.

Si AA et BB sont deux matrices inversibles de n\mathcal{M}_n, leur produit est inversible.

Proposition 3   Soient AA et BB deux matrices inversibles de n()\mathcal{M}_n(\mathbb{R}). Le produit ABAB est inversible et son inverse est B 1A 1B^{-1}A^{-1}.

Preuve : Nous utilisons le théorème 2, ainsi que l’associativité du produit : (B 1A 1)(AB)=B 1(A 1A)B=B 1I nB=B 1B=I n.(B^{-1}A^{-1})(AB)=B^{-1}(A^{-1}A)B=B^{-1}I_nB=B^{-1}B=I_n\;.

L’inverse d’une matrice et la proposition 5 permettent de donner une formule de changement de base pour une application linéaire.

Proposition 4   Soit φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1B_1 vers un espace vectoriel V 2V_2 de base B 2B_2, de matrice MM relativement à ces bases B 1B_1 et B 2B_2. Soit B 1B_1' une autre base de V 1V_1 de matrice de passage P 1P_1 dans la base B 1B_1, et B 2B_2' une autre base de V 2V_2 de matrice de passage P 2P_2 dans la base B 2B_2. Alors la matrice MM' de φ\varphi relativement aux bases B 1B_1' et B 2B_2' est donnée par M=P 2 1MP 1M'=P_2^{-1} M P_1 Si V 1=V 2V_1=V_2 on prend B 1=B 2B_1=B_2 et B 1=B 2B_1'=B_2' donc P 1=P 2=PP_1=P_2=P et on a M=P 1MPM'=P^{-1}MP

Exemple
Dans 2\mathbb{R}^2, on considère la projection orthogonale sur la droite vectorielle engendrée par le vecteur v(1,1)v(1,1). On prend pour B 1=B 2B_1=B_2 la base canonique (e 1,e 2)(e_1,e_2) et pour B 1=B 2B_1'=B_2' la base formée par vv et un vecteur orthogonal w(1,1)w(1,-1).

gl_ortho=1;
e1:=vecteur(1,0); e2:=vecteur(0,1);
v:=vecteur(1,1,color=red); w:=vecteur(1,-1,color=green);
display(1/2*v,magenta); 
segment(1,i,color=cyan);

onload
L’image de vv est lui-même i.e. 1v+0w1v+0w, donc la première colonne de MM' est (1,0)(1,0). L’image de ww est le vecteur nul, donc M=(1 0 0 0)M'= \left(\begin{array}{cc} 1 & 0\\ 0 & 0 \end{array}\right) L’image du vecteur (1,0)(1,0) par la projection est 12v=(12,12)\frac{1}{2} v =(\frac{1}{2},\frac{1}{2}) de même pour (0,1)(0,1) donc les 2 colonnes de MM ont pour coordonnées (12,12)(\frac{1}{2},\frac{1}{2}) M=(12 12 12 12)M=\left(\begin{array}{cc} \frac{1}{2} & \frac{1}{2}\\ \frac{1}{2} & \frac{1}{2} \end{array}\right) La matrice de passage de B 1B_1' est (coordonnées de vv et ww en colonnes) P=(1 1 1 1)P=\left(\begin{array}{cc} 1 & 1\\ 1 & -1 \end{array}\right) Vérifions que M=P 1MPM'=P^{-1}MP.

Définition 5   On définit le rang d’une matrice MM comme étant la dimension du sous-espace vectoriel engendré par ses vecteurs colonnes. Il s’agit donc du rang de toute application linéaire ayant MM comme matrice.
Proposition 6   Multiplier une matrice à droite ou/et à gauche par une matrice inversible ne change pas son rang.

Cela résulte du fait que le produit de matrices correspond à la composition de deux applications linéaires et que composer avec une application linéaire inversible ne change pas le rang. En effet

Enfin, nous aurons parfois besoin du lemme suivant:

Lemme 7   Soit MM n()M\in M_n(\mathbb{R}) une matrice carrée n×nn\times n. Si pour tout X̲,Y̲ n\underline{X}, \underline Y\in \mathbb{R}^n nous avons que tX̲MY̲=0{}^t\underline{X} M \underline{Y}=0 alors M=0M=0.

Preuve : Soit pour tout ii le vecteur colonne e̲ i n\underline{e}_i\in \mathbb{R}^n défini par (e̲ i) j=1sii=j,0siij. (\underline{e}_i)_j= 1\ \mbox{si}\ i=j,\; 0\ \mbox{si}\ i\neq j. Alors pour tout 1i,jn1\leq i,j\leq n on a que te̲ iMe̲ j=M i,j=0{}^t\underline{e}_i M \underline{e}_j=M_{i,j}=0 et donc M=0M=0.

Réécrivons maintenant notre problème initial dans le language des espaces vectoriels. Nous considérons une fonction réelle continue ff, définie sur une intervalle [0,L][0,L] (fV=C 0([0,L],)f \in V=C^0([0,L], \mathbb{R})). Nous voulons chercher une fonction g ng_n qui est de la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL) g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right) et qui doit être “aussi proche que possible” de ff.

Dans le langage des espaces vectoriels on pourrait écrire la chose suivante :

Soit WW le sous-espace de tous les éléments gVg\in V qui peuvent s’écrire sous la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right). WW est alors un sous-espace vectoriel de VV (exercice : démontrez-le !): de plus, WW est de dimension finie et admet pour base finie la famille e=(1,cosπxL,sinπxL,,cosnπxL,sinnπxL). {\bf e}=( 1, \cos{\frac{\pi x}{L}},\sin{\frac{\pi x}{L}}, \ldots, \cos{ \frac{n\pi x}{L}}, \sin{\frac{n\pi x}{L}}). Nous cherchons à identifier un élément gWg\in W qui est “le plus proche que possible” de fVf\in V.

Notre problème initial est donc un exemple particulier du problème suivant :

Question. J’ai un espace vectoriel VV et un élément vVv\in V. Il y a dans VV un sous-espace spécial de dimension finie WVW\subset V. Je veux approcher au mieux vv par un élément wWw\in W. Comment faire ? Et tout d’abord, qu’est ce que ça veut dire “approcher au mieux” ?

Dans les deux prochains chapitres, nous aborderons surtout la question : qu’est ce que ça veut dire “approcher au mieux” ?


1
Nous serons particulièrement attentifs à la question de l’approximation d’une fonction quelconque par des sommes de fonctions trigonométriques sin(nπx)\sin(n\pi x) et cos(nπx)\cos(n\pi x), puisque ces fonctions, qui représentent mathématiquement les phénomènes physiques ondulatoires, occupent une place très importante dans les mathématiques au service de la physique.
2
Et encore moins d’un algorithme permettant de calculer ce “meilleur approximant” pour une fonction donnée...

Chapitre 4  Formes bilinéaires.

4.1  Le produit scalaire canonique sur 3\mathbb{R}^3.

Dans le chapitre précedent, nous avons étudié la notion d’espace vectoriel. Cette notion est utile parce qu’elle englobe à la fois des espaces géométriques tels que 2\mathbb{R}^2 et 3\mathbb{R}^3 et des espaces de fonctions tels que n[X]\mathbb{R}_n[X] et C 0([0,1],)C^0([0,1], \mathbb{R}). Notre but est maintenant d’utiliser cette notion pour étendre des idées géométriques (distance et angle, par exemple) à des espaces de fonctions. Pour faire cela, il nous sera nécessaire d’identifier une formule purement algébrique qui permet de calculer distances et angles dans 3\mathbb{R}^3, faisant intervenir le produit scalaire canonique sur 3\mathbb{R}^3.

Définition 1   Le produit scalaire canonique sur 3\mathbb{R}^3 est une fonction prenant en argument deux vecteurs X̲=(x 1 x 2 x 3)\underline{X}=\begin{pmatrix} x_1\\x_2\\x_3\end{pmatrix} et Y̲=(y 1 y 2 y 3)\underline{Y}=\begin{pmatrix} y_1\\y_2\\y_3\end{pmatrix} définie par X̲|Y̲=x 1y 1+x 2y 2+x 3y 3\langle \underline{X} | \underline {Y}\rangle= x_1y_1+x_2y_2+x_3y_3

Le produit scalaire canonique tire son intérêt du fait qu’il encode la géométrie de l’espace 3\mathbb{R}^3.

X:=vecteur(3,1); Y:=vecteur(2,3);
X-Y; legend(X-Y,"X-Y"); angle(X,Y,"θ");

onload

Théorème 2   Soient X̲\underline{X} et Y̲\underline{Y} deux vecteurs dans 3\mathbb{R}^3, soit dd la longueur de la différence X̲Y̲\underline{X}-\underline{Y} et soit θ\theta l’angle entre ces deux vecteurs. On a : d=X̲Y̲,|X̲Y̲,θ=arccos(X̲|Y̲X̲|X̲Y̲|Y̲). d= \sqrt{\langle \underline{X}-\underline{Y}, | \underline{X}-\underline{Y}\rangle}, \quad \theta= \arccos\left(\frac{\langle\underline{X}|\underline{Y}\rangle} {\sqrt{\langle\underline{X}|\underline{X}\rangle\langle\underline{Y}|\underline{Y}\rangle}}\right).

Il existe donc une formule qui permet de calculer la distance et l’angle entre deux vecteurs utilisant seulement le produit scalaire. Nous allons donc essayer de définir des classes de fonctions sur des espaces vectoriels qui ressemblent au produit scalaire sur 3\mathbb{R}^3 dans l’espoir qu’elles nous livront une bonne notion de “distance”.

Une des propriétés clés du produit scalaire est qu’il se comporte effectivement comme un produit sous les opérations algébriques de base sur les vecteurs, c’est-à-dire qu’on a, pour tout X̲,Y̲,Z̲ 3\underline{X}, \underline{Y},\underline{Z}\in \mathbb{R}^3 et pour tout λ\lambda\in \mathbb{R}

  1. X̲+Y̲,Z̲=X̲,Z̲+Y̲,Z̲\langle\underline{X}+\underline{Y}, \underline{Z} \rangle=\langle\underline{X},\underline{Z}\rangle+\langle\underline{Y},\underline{Z}\rangle
  2. X̲,Y̲+Z̲=X̲,Y̲+X̲,Z̲\langle\underline{X},\underline{Y}+\underline{Z}\rangle=\langle\underline{X},\underline{Y}\rangle+\langle\underline{X},\underline{Z}\rangle
  3. X̲,λY̲=λX̲,Y̲=λX̲,Y̲\langle\underline{X},\lambda \underline{Y}\rangle=\langle\lambda \underline{X},\underline{Y}\rangle= \lambda \langle\underline{X},\underline{Y}\rangle

Nous allons donc commencer par étudier les fonctions de deux vecteurs qui respectent ces conditions.

4.2  Formes bilinéaires : définitions et exemples.

Dans cette section, de nouveau, nous présenterons la théorie des formes bilinéaires réelles, mais tous nos résultats seront valables pour des formes complexes.

Définition 1   Soient VV un \mathbb{R}-espace vectoriel, et soit φ\varphi une fonction de 2 variables de VV à valeur réelle φ:V×V\varphi :V\times V\to \mathbb{R}. On dit que φ\varphi est une forme bilinéaires’il se comporte comme un produit, i.e. :
  1. pour tout v 1,v 2Vv_1, v_2\in V et vVv\in V nous avons que φ(v 1+v 2,v)=φ(v 1,v)+φ(v 2,v)\varphi(v_1+v_2, v)= \varphi(v_1, v)+\varphi(v_2,v)
  2. pour tout vVv\in V et v 1,v 2Vv_1, v_2 \in V nous avons que φ(v,v 1+v 2)=φ(v,v 1)+φ(v,v 2)\varphi(v, v_1+v_2)= \varphi(v, v_1)+\varphi(v,v_2)
  3. pour tout vVv\in V, vVv' \in V et λ\lambda\in \mathbb{R} nous avons que φ(λv,v)=φ(v,λv)=λφ(v,v)\varphi(\lambda v, v')= \varphi(v, \lambda v') =\lambda \varphi(v,v').
On dit que φ\varphi est symétrique si φ(y,x)=φ(x,y)\varphi(y,x)=\varphi(x,y) pour tout x,yVx,y\in V,
On dit que
φ\varphi est antisymétrique si φ(y,x)=φ(x,y)\varphi(y,x)=-\varphi(x,y) pour tout x,yVx,y\in V.

Remarque :
On utilise le terme forme parce que la valeur de φ\varphi est un réel. Le terme bilinéraire vient du fait que si on fixe un des arguments, on a une application linéaire par rapport à l’autre argument.

Exemples :

  1. L’application φ:{× (x,y) xy\varphi: \ \left\{ \begin{array}{ccc} \mathbb{R}\times \mathbb{R} & \to & \mathbb{R}\\ (x,y) & \mapsto & xy \end{array} \right. est une forme bilinéaire symétrique.
  2. Le produit scalaire φ: n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\varphi: \ \mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \quad \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n \end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i est une forme bilinéaire symétrique. Lorsque n=2n=2 ou 33, on retrouve le produit scalaire étudié ci-dessus. Nous appelons cette forme le produit scalaire canonique sur n\mathbb{R}^n.
  3. L’application qui à deux polynômes PP et QQ associe le produit P(0)Q(1)P(0)Q(1) φ:{[X]×[X] (P,Q) P(0)Q(1)\varphi: \ \left\{ \begin{array}{ccc} \mathbb{C}[X]\times\mathbb{C}[X] & \to &\mathbb{C}\\ (P,Q) &\mapsto & P(0)Q(1) \end{array} \right. est une forme bilinéaire. Elle n’est pas symétrique et n’est pas antisymétrique.
  4. L’application qui à deux matrices carrées MM et NN associe la trace du produit des deux matrices φ:{M n()×M n() (M,N) tr(MN)\varphi: \ \left\{ \begin{array}{ccc} \M_n(\mathbb{R})\times \M_n(\mathbb{R}) &\to &\mathbb{R} \\ (M,N) &\mapsto & \mbox{tr}(MN) \end{array} \right. est une forme bilinéaire symétrique.
  5. L’application déterminant φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to \mathbb{R}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_2-x_2y_1 est bilinéaire et antisymétrique.
  6. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1x 2+2x 1y 2\varphi:\mathbb{C}^2\times \mathbb{C}^2\to \mathbb{C}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1x_2+2x_1y_2 n’est pas bilinéaire.
    En effet, posons U̲=(x 1 x 2),V̲=(y 1 y 2)\underline{U}=\left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \underline{V}=\left(\begin{array}{c}y_1 \\ y_2\end{array}\right). On a φ(λU̲,V̲)=(λx 1)(λx 2)+2(λx 1)y 2=λ 2x 1x 2+2λx 1y 2λφ(U̲,V̲).\varphi(\lambda \underline{U}, \underline{V})=(\lambda x_1)(\lambda x_2)+2(\lambda x_1)y_2= \lambda^2 x_1x_2+2\lambda x_1y_2\neq \lambda \varphi(\underline{U},\underline{V}).
  7. L’application qui associe à deux fonctions continues ff et gg l’intégrale de leur produit sur [0,1][0,1] φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow & \mathbb{R} \\ (f,g) & \rightarrow & \int_0^1 f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.
  8. Pour toute fonction continue p:[0,1]p:[0,1]\rightarrow\mathbb{R}, l’application φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1p(x)f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow &\mathbb{R}\\ (f,g) & \rightarrow & \int_0^1 p(x) f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.

Un cas particulier intéressant est celui ou on applique une forme bilinéaire à deux vecteurs identiques.

Définition 2   Soit VV un espace vectoriel sur \mathbb{R} et soit φ\varphi une forme bilinéaire symétrique sur VV. Alors la forme quadratique associée à φ\varphi, notée q φq_\varphi, est la fonction définie sur VV par q φ(v)=φ(v,v)q_\varphi(v)=\varphi(v,v)

La forme quadratique associée à une forme bilinéaire est un analogue de la fonction carrée d’un nombre réel, ou de la norme de vv au carré (v 2\|v\|^2) quand vv est un vecteur dans 2\mathbb{R}^2 ou 3\mathbb{R}^3. Les formules suivantes (dites “formule de polarisation” et “formule du parallélogramme”) permettent de rétrouver une forme bilinéaire symétrique à partir de la forme quadratique associée.

Lemme 3   Soit VV un espace vectoriel, φ\varphi une forme bilinéaire sur V×VV\times V et q φq_\varphi la forme quadratique associée. Alors pour tout v,wVv,w\in V on a φ(v,w)=12(q φ(v+w)q φ(v)q φ(w))\varphi(v,w)= \frac{1}{2}(q_\varphi(v+w)-q_\varphi(v)-q_\varphi(w)) q φ(v+w)+q φ(vw)=2(q φ(v)+q φ(w)).q_\varphi(v+w)+q_\varphi(v-w)= 2(q_\varphi(v)+q_\varphi(w)).

La démonstration de ce lemme est laissée en exercice.

Remarque :
Ces formules sont les généralisations des relations suivantes sur \mathbb{R} : xy=12((x+y) 2x 2y 2). xy= \frac{1}{2}((x+y)^2-x^2-y^2). (x+y) 2+(xy) 2=2(x 2+y 2). (x+y)^2+ (x-y)^2= 2(x^2+y^2).

4.3  Formes bilinéaires : représentation matricielle.

Nous allons maintenant définir la matrice d’une forme bilinéaire dans une base, qui va nous permettre, modulo le choix d’une base, de réduire les calculs faisant intervenir des formes bilinéaires sur des espaces de dimension finie à des multiplications de matrices.

Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. La matrice de φ\varphi dans la base e est la matrice n×nn\times n, MM, dont les coefficients sont donnés par M i,j=(φ(e i,e j)) 1i,jn.M_{i,j}=(\varphi(e_i,e_j))_{1\leq i,j\leq n}.
Lemme 2   Soit VV un espace vectoriel de dimension finie nn, soient x,yVx,y\in V, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, notons X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix} et Y=(y 1 y n)Y= \begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix} les vecteurs coordonnées de xx et yy dans la base e (autrement dit x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit MM la matrice de φ\varphi dans la base e{\bf e}. Alors on a φ(x,y)= tX̲MY̲= i,jφ(e i,e j)x iy j.\varphi(x,y)={}^t\underline{X}M\underline{Y}=\sum_{i,j}\varphi(e_i,e_j)x_iy_j.

Preuve : On a φ(x,y)=φ( i=1 nx ie i, j=1 ny je j)= j=1φ( i=1 nx ie i,y je j)= j=1y jφ( i=1 nx ie i,e j),\varphi(x,y)=\varphi(\sum_{i=1}^n x_i e_i,\sum_{j=1}^n y_j e_j)=\sum_{j=1}\varphi(\sum_{i=1}^n x_i e_i,y_j e_j)=\sum_{j=1}y_j \varphi(\sum_{i=1}^n x_i e_i,e_j), puisque φ\varphi est linéaire en yy. Or on a aussi φ( i=1 nx ie i,e j)= i=1 nφ(x ie i,e j)= i=1 nx iφ(e i,e j).\varphi(\sum_{i=1}^n x_i e_i,e_j)=\sum_{i=1}^n \varphi(x_i e_i,e_j)=\sum_{i=1}^n x_i\varphi(e_i,e_j). Ainsi, on obtient φ(x,y)= j=1 ny j( i=1 nx iφ(e i,e j))= i,jφ(e i,e j)x iy j.\varphi(x,y)=\sum_{j=1}^n y_j(\sum_{i=1}^n x_i\varphi(e_i,e_j))=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

On a aussi MY̲=( j=1 nφ(e i,e j)y j ),M\underline{Y}=\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right), et donc tX̲BY̲=( x i )( j=1 nφ(e i,e j)y j )= i,jx iφ(e i,e j)y j= i,jφ(e i,e j)x iy j.{}^t\underline{X}B\underline{Y}=\left(\begin{array}{ccc}\cdots & x_i& \cdots \end{array}\right)\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right)=\sum_{i,j} x_i\varphi(e_i,e_j)y_j=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

Corollaire 3   Soit VV un espace vectoriel de dimension finie nn. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Les propositions suivantes sont équivalentes.
  1. φ\varphi est symétrique
  2. Pour tout base e de VV, la matrice MM de φ\varphi dans la base e est symétrique.
  3. Il existe une base e de VV telle que la matrice MM de φ\varphi dans la base e est symétrique.

Preuve : Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit e une base de VV.

Si φ\varphi est symétrique, alors on a φ(e i,e j)=φ(e j,e i)pour touti,j,\varphi(e_i,e_j)=\varphi(e_j,e_i)\ \mbox{pour tout}\ i,j, et ceci s’écrit matriciellement tM=M{}^tM=M, par définition de la matrice de φ\varphi. On a donc (1)(2)(1)\Rightarrow (2). L’implication (2)(3)(2)\Rightarrow (3) étant claire, il reste à montrer (3)(1)(3)\Rightarrow (1).

Supposons qu’il existe une base e de VV telle que MM est symétrique. Soient x,yVx,y\in V, et soient X̲,Y̲\underline{X}, \underline{Y} leurs vecteurs de coordonnées dans la base e{\bf e}. On a alors que φ(x,y)= tX̲MY̲ \varphi(x,y)= {}^t\underline{X} M \underline{Y} Le membre de droit est une matrice 1×11\times 1 : elle est donc égale à sa propre transposée et on a φ(x,y)= tX̲MY̲= t( tX̲MY̲)= tY̲ tMX̲= tY̲MX̲=φ(y,x) \varphi(x,y)= {}^t\underline{X} M \underline{Y}= {}^t({}^t\underline{X} M \underline{Y})= {}^t \underline{Y}{}^t M \underline{X}= {}^t\underline{Y}M \underline{X}= \varphi(y,x) CQFD.

Le lemme précédent admet une réciproque, bien utile pour démontrer qu’une application est bilinéaire et donner sa matrice représentative dans une base fixée.

Lemme 4   Soit VV un \mathbb{R}-espace vectoriel de dimension finie, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Pour tout a ij,1i,jna_{ij}\in \mathbb{R}, 1\leq i,j\leq n, l’application φ:{V×V ( i=1 nx ie i, j=1 ny je j) 1i,jna ijx iy j\varphi:\ \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R} \\ (\sum_{i=1}^n x_ie_i,\sum_{j=1}^n y_je_j) & \mapsto & \sum_{1\leq i,j\leq n} a_{ij}x_iy_j \end{array}\right. est une forme bilinéaire, dont la matrice AA dans la base e est donnée par A ij=(a ij).A_{ij}=(a_{ij}).

Exemples

  1. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 1+x 2y 2+3x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \left(\left(\begin{array}{cc}x_1 \\ x_2\end{array}\right),\left(\begin{array}{cc}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_1+x_2y_2+3x_1y_2-x_2y_1 est bilinéaire, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est M=(1 3 1 1).M=\left(\begin{array}{cc} 1 & 3 \\ -1 & 1\end{array}\right).
  2. Considérons l’application qui à deux polynomes de degré inférieurs ou égaux à 2 associe le produit de leur valeur en 1 et 0 φ: 2[X]× 2[X],(P,Q)P(1)Q(0).\varphi: \mathbb{R}_2[X]\times \mathbb{R}_2[X]\to \mathbb{R}, (P,Q)\mapsto P(1)Q(0). On peut vérifier directement que φ\varphi est bilinéaire, mais on peut aussi utiliser la remarque précédente. Pour cela, considérons la base 1,X,X 21,X,X^2 de 2[X]\mathbb{R}_2[X]. On écrit P=x 1+x 2X+x 3X 2,Q=y 1+y 2X+y 3X 2.P=x_1+x_2X+x_3 X^2, Q=y_1+y_2X+y_3X^2. On vérifie alors que φ(P,Q)=x 1y 1+x 2y 1+x 3y 1\varphi(P,Q)=x_1y_1+x_2y_1+x_3y_1. Donc φ\varphi est bilinéaire et sa matrice représentative dans la base 1,X,X 21,X,X^2 est M=(1 0 0 1 0 0 1 0 0).M=\left(\begin{array}{ccc} 1 & 0& 0 \\ 1 & 0& 0\\ 1& 0& 0\end{array}\right).

Regardons maintenant ce qui se passe lorsque l’on effectue un changement de base.

Proposition 5   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soient e{\bf e} et e{\bf e'} deux bases de VV, et soit PP la matrice de passage de la base e{\bf e} à la base e{\bf e}' (c’est-à-dire colonne par colonne la matrice des coordonnées des vecteurs de e{\bf e'} dans la base e). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, soit MM sa matrice dans la base e{\bf e} et soit NN sa matrice dans la base e{\bf e'}. Alors on a N= tPMP.N={}^tPMP.

Preuve : Soient x,yVx,y\in V, soient X̲,Y̲\underline{X}, \underline{Y} leur vecteurs de coordonnées dans la base e{\bf e} et soient X̲,Y̲\underline{X}', \underline{Y}' leurs coordonnées dans la base e{\bf e'}. On a alors X̲=PX̲\underline{X}= P\underline{X}' et Y̲=PY̲ \underline{Y}= P\underline{Y}' pour tout x,yx,y et donc φ(x,y)= tX̲MY̲= t(PX̲)MPY̲= tX̲ tPMPY̲= tX̲NY̲. \varphi(x,y)= {}^t \underline{X}M \underline Y= {}^t(P\underline{X}') M P\underline{Y}'= {}^t\underline{X}'{}^tP MP \underline{Y}'={}^t\underline{X}'N\underline{Y}'. c’est à dire que N= tPMPN= {}^t P MP par 7.

Nous sommes prêts à définir la notion de rang.

Définition 6   Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Le rang de φ\varphi est le rang de n’importe quelle matrice représentative de φ\varphi dans une base de VV.

Le rang est bien défini et ne dépend pas de la base choisie d’après la proposition précédente et la proposition 6.

4.4  Orthogonalité.

Les expressions permettant de calculer φ(x,y)\varphi(x,y) peuvent se simplifier grandement lorsque la base e est adaptée. Par exemple, il est souvent utile de se débarasser des termes croisés lorsque c’est possible. On introduit pour cela la notion d’orthogonalité.

Définition 1   Soit VV un espace vectoriel de dimension nn sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique.

On dit que deux vecteurs x,yVx,y\in V sont φ\varphi-orthogonaux si φ(x,y)=0\varphi(x,y)=0.

On le note xφyx\underset{\varphi}{\perp} y, ou xyx\perp y s’il n’y a pas de confusion possible.

On dit que la base e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est φ\varphi-orthogonale si les vecteurs de la base sont φ\varphi-orthogonaux deux à deux, c’est-à-dire si on a φ(e i,e j)=0pour toutij.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j.

Lemme 2   La base e{\bf e} est φ\varphi-orthogonale si et seulement si MM, la matrice de φ\varphi dans la base e{\bf e}, est diagonale.

Preuve : La base e{\bf e} est φ\varphi-orthogonale \Leftrightarrow φ(e i,e j)=0\varphi(e_i, e_j)=0 si iji\neq j \Leftrightarrow M i,j=0M_{i,j}=0 si iji\neq j \Leftrightarrow MM est diagonale.

On dit que e est φ\varphi-orthonormée si on a φ(e i,e j)={0siij 1sii=j\varphi(e_i,e_j)=\left\lbrace\begin{array}{l}0 \ \mbox{si}\ i\neq j \\ 1 \ \mbox{si}\ i=j\end{array}\right.

Lemme 3   La base e{\bf e} est φ\varphi-orthonormée si et seulement si Mat(φ,e)\Mat(\varphi, {\bf e}) est la matrice identité.

Preuve : Laissée en exercice.

Définition 4   On dit que deux sous-espaces W,WW,W' de VV sont orthogonaux si on a φ(w,w)=0pour toutwW,wW.\varphi(w,w')=0\ \mbox{pour tout}\ w\in W,w' \in W'.

On dit que VV est la somme directe orthogonale des sous-espaces V 1,,V mV_1,\ldots,V_m si V=V 1V mV=V_1\oplus\ldots\oplus V_m et les sous-espaces V 1,,V mV_1,\ldots,V_m sont orthogonaux deux à deux. On note alors V=V 1V m.V=V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_m.

On a le :

Lemme 5   Soit VV un espace vectoriel et soit φ\varphi une forme bilinéaire sur VV. Soient V 1,V kV_1,\ldots V_k des sous-espaces de VV tels que V=V 1V kV= V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_k. Si pour chaque ii, v i{\bf v_i} est une base orthonormée de V iV_i alors la concatenation (v 1,v 2,,v k)({\bf v}_1, {\bf v}_2, \ldots, {\bf v}_k) est une base orthonormée de VV

En effet tout vecteur ww de cette base de VV est dans un des (v i({\bf v}_i donc φ(w,w)=0\varphi(w,w)=0, et il est orthogonal à tout autre vecteur ww' de cette base de VV, soit parce que (v 1({\bf v}_1 est orthonormée si wv 1w' \in {\bf v}_1 , soit parce que les V iV_i sont orthogonaux entre eux.

Exemples

  1. L’application qui a une paire de polynômes de degré au plus 2 associe φ(P,Q)= 1 1P(t)Q(t)dt\varphi(P,Q)= \int_{-1}^1 P(t)Q(t)\mbox{d}t est bilinéaire symétrique. De plus, 1φX1\underset{\varphi}{\perp}X et XφX 2X\underset{\varphi}{\perp} X^2.

    Par contre, 11 et X 2X^2 ne sont pas φ\varphi-orthogonaux, puisque l’on a φ(1,X 2)=23\varphi(1,X^2)=\frac{2}{3}. La base 1,X,X 21,X,X^2 n’est donc pas φ\varphi-orthogonale.
    On peut vérifier que la base 1,X,X 2131,X,X^2-\frac{1}{3} est φ\varphi-orthogonale. Elle n’est pas φ\varphi-orthonormée puisque φ(1,1)=2,φ(X,X)=2/3,φ(X 213,X 213)=8/45.\varphi(1,1)=2,\; \varphi(X, X)= 2/3,\; \varphi(X^2-\frac{1}{3}, X^2-\frac{1}{3})= 8/45.

    On peut la rendre φ\varphi-orthonormée en multipliant chaque élément de la base par une constante bien choisie. Plus précisement, la base : 1232X458(X 213)\frac{1}{\sqrt{2}}\; \sqrt{\frac{3}{2}} X\; \sqrt{\frac{45}{8}} (X^2-\frac{1}{3}) est une base φ\varphi-orthonormée.
  2. La base canonique de n\mathbb{R}^n est φ\varphi-orthonormée pour la forme bilinéaire symétrique φ(x,y)=xy= i=1 nx iy i\varphi( x, y)=x \cdot y=\sum_{i=1}^n x_iy_i
  3. Soit V=C 0([1,1],)V=C^0([-1,1],\mathbb{R}), et soient 𝒫\mathcal{P} et \mathcal{I} le sous-espace des fonctions paires et impaires respectivement. On sait que l’on a V=𝒫.V=\mathcal{P}\oplus\mathcal{I}. Considérons sur V×VV\times V l’application φ(f,g)= 1 1f(t)g(t)dt\varphi(f,g)= \int_{-1}^1 f(t)g(t)\mbox{d}t Alors, on a φ(f,g)=0mboxpourtoutf𝒫,g.\varphi(f,g)=0\ \ mbox{pour tout}\ f \in\mathcal{P},g\in\mathcal{I}. On a donc V=𝒫.V=\mathcal{P}\underset{\perp}{\oplus}\mathcal{I}.

Le lemme 2 entraîne immédiatement:

Lemme 6   Soit VV un espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soient x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i deux vecteurs de VV. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Si e{\bf e} est φ\varphi-orthogonale, on a φ(x,y)= i=1 nφ(e i,e i)x iy i.\varphi(x,y)=\sum_{i=1}^n \varphi(e_i,e_i)x_iy_i. En particulier, si e{\bf e} est φ\varphi-orthonormée, on a φ(x,y)= i=1 nx iy i.\varphi(x,y)=\sum_{i=1}^n x_iy_i.

Il n’existe pas toujours une base φ\varphi-orthonormée. En effet, si φ:V×V\varphi:V\times V\to \mathbb{R} est bilinéaire symétrique et s’il existe une base φ\varphi-orthonormée alors le lemme précédent montre que φ(x,x)>0\varphi(x,x)&gt;0 pour tout x0x\neq 0.

Par exemple, la forme bilinéaire symétrique sur 2× 2\mathbb{R}^2\times \mathbb{R}^2 définie par φ((x 1,x 2),(y 1,y 2))=x 1y 1x 2y 2.\varphi((x_1,x_2),(y_1,y_2))= x_1y_1-x_2y_2. n’admet pas de base φ\varphi-orthonormée, puisque φ((0,1),(0,1))=1<0\varphi((0,1),(0,1))=-1&lt;0.

En revanche, on a le théorème suivant:

Théorème 7   Soit VV un espace vectoriel de dimension finie sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base de VV qui est φ\varphi-orthogonale.

Preuve : On démontre l’existence d’une base φ\varphi-orthogonale par récurrence sur n=dim(V)n=\dim(V).

Soit (P n)(P_n) la propriété:
(P n)(P_n) Pour tout \mathbb{R}-espace vectoriel de dimension nn et tout φ:V×V\varphi:V\times V\to \mathbb{R}, il existe une base φ\varphi-orthogonale.

Si n=1n=1, il n’y a rien à démontrer.

Supposons que (P n)(P_n) soit vraie, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique avec dim(V)=n+1\dim(V)=n+1.

Si φ=0\varphi=0, toute base est φ\varphi-orthogonale, et on a fini. On suppose donc que φ0\varphi\neq 0. Soit qq la forme quadratique associée. Par le formule de polarisation, si q=0q=0 alors φ=0\varphi=0, ce qui n’est pas le cas. Il existe donc un e 0e_0 tel que q(e 0)0q(e_0)\neq 0, c’est à dire, φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0.

L’application f:{V y φ(e 0,y)f: \left\{ \begin{array}{ccc} V & \to & \mathbb{R}\\ y&\mapsto &\varphi(e_0,y) \end{array}\right. est alors une application linéaire non nulle, puisque f(e 0)=φ(e 0,e 0)0f(e_0)=\varphi(e_0,e_0)\neq 0 et son image est donc ==\mathbb{R}. Par le théorème du rang, dimKer(f)=n+11=n.\dim\mbox{Ker}(f)=n+1-1=n.

Par hypothèse de récurrence, il existe une base (e 1,,e n)(e_1,\ldots,e_n) de Ker(f)\mbox{Ker}(f) qui est orthogonale pour la forme φ:{Ker(f)×Ker(f) (x,y) φ(x,y)\varphi': \left\{ \begin{array}{ccc} \mbox{Ker}(f)\times \mbox{Ker}(f) &\to & \mathbb{R}\\ (x,y) &\mapsto &\varphi(x,y) \end{array}\right.

Montrons que e=(e 0,e 1,,e n){\bf e}=(e_0,e_1,\ldots,e_n) est une base de VV. Puisque dim(V)=n+1\dim(V)=n+1, il suffit de montrer que la famille (e 0,,e n)(e_0,\ldots,e_n) est libre. Soient λ 0,,λ n\lambda_0,\ldots,\lambda_n\in \mathbb{R} tels que λ 0e 0+λ 1e 1++λ ne n=0.\lambda_0 e_0+\lambda_1 e_1+\ldots+\lambda_n e_n=0. En appliquant ff à cette égalité et en utilisant la linéarité, on obtient λ 0f(e 0)+λ 1f(e 1)++λ nf(e n)=0.\lambda_0 f(e_0)+\lambda_1 f(e_1)+\ldots+\lambda_n f(e_n)=0.

Puisque e 1,,e nKer(f)e_1,\ldots,e_n\in\mbox{Ker}(f), on obtient λ 0f(e 0)=0\lambda_0 f(e_0)=0. Comme f(e 0)0f(e_0)\neq 0, on obtient λ 0=0\lambda_0=0. On a donc λ 1e 1++λ ne n=0.\lambda_1 e_1+\ldots+\lambda_n e_n=0. Comme (e 1,,e n)(e_1,\ldots,e_n) est une base de Ker(f)\mbox{Ker}(f), ils sont linéairement indépendants, et on obtient donc λ 1==λ n=0.\lambda_1=\cdots=\lambda_n=0.

Ceci prouve que e est une base de VV. Il reste à vérifier que cette base est φ\varphi-orthogonale.

Par choix des e ie_i, on a φ(e i,e j)=φ(e i,e j)=0pour toutij,1i,jn\varphi(e_i,e_j)=\varphi'(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j,1\leq i,j\leq n et aussi φ(e 0,e j)=f(e j)=0pour toutj>0\varphi(e_0,e_j)=f(e_j)=0\ \mbox{pour tout}\ j&gt;0 parce que e jKer(f)e_j\in \mbox{Ker}(f). On a donc que φ(e i,e j)=0pour tout0ijn.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ 0\leq i\neq j\leq n. Ainsi, (e 0,e 1,,e n)(e_0,e_1,\ldots,e_n) est une base φ\varphi-orthogonale. Ceci achève la récurrence.

Remarque
Le résultat précédent peut être faux si φ\varphi n’est pas bilinéaire symétrique. Par exemple, si φ:V×V\varphi: V\times V\to \mathbb{R} est antisymétrique, c’est-à-dire si on a φ(y,x)=φ(x,y)pour toutx,yV,\varphi(y,x)=-\varphi(x,y)\ \mbox{pour tout}\ x,y\in V, et si φ\varphi est non nulle, alors il n’existe pas de base φ\varphi-orthogonale de VV.

En effet, si φ\varphi est une telle forme, alors on a φ(x,x)=φ(x,x)pour toutxV.\varphi(x,x)=-\varphi(x,x)\ \mbox{pour tout}\ x\in V. On a donc φ(x,x)=0pour toutxV.\varphi(x,x)=0\ \mbox{pour tout}\ x\in V. Supposons maintenant que e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est une base φ\varphi-orthogonale. On a donc φ(e i,e i)=0pour touti=1,,n.\varphi(e_i,e_i)=0\ \mbox{pour tout}\ i=1,\ldots,n. Comme φ(e i,e j)=0\varphi(e_i,e_j)=0 pour tout iji\neq j puisque e est φ\varphi-orthogonale, on en déduit que si MM est la matrice de φ\varphi dans e{\bf e} alors M=0.M=0.

Le Lemme 2 entraîne alors que l’on a φ(x,y)=0pour toutx,yV,\varphi(x,y)=0\ \mbox{pour tout}\ x,y\in V, ce qui contredit le fait que φ\varphi est non nulle.

Un exemple d’une telle forme bilinéaire φ\varphi est donné par le déterminant de deux vecteurs de 2\mathbb{R}^2, det((x 1 x 2),(y 1 y 2))=x 1y 2x 2y 1.\mbox{det}\left( \left(\begin{array}{c}x_1\\ x_2\end{array}\right), \left(\begin{array}{c}y_1\\ y_2\end{array}\right) \right) = x_1y_2-x_2y_1.

4.5  Calcul effectif d’une base φ\varphi-orthogonale.

4.5.1  Lien avec la forme quadratique correspondante.

Nous allons calculer une base φ\varphi-orthogonale en exploitant la forme quadratique qq qui lui est associée. Rappelons que la forme bilinéaire symétrique φ\varphi peut être reconstruite de la forme quadratique qq via la formule de polarisation φ(x,y)=12(q(x+y)q(x)q(y)). \varphi(x,y)= \frac{1}{2} (q(x+y)-q(x)-q(y)). Nous disons alors que φ\varphi est la forme polaire de qq, que nous noterons parfois φ q\varphi_q.

Exemples

  1. La norme euclidienne de n\mathbb{R}^n définie par q(x=(x 1 x n))=x 1 2++x n 2q(x=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}) = x_1^2+\ldots+x_n^2 est une forme quadratique, de forme polaire le produit scalaire usuel φ q((x 1 x n),(y 1 y n))=x 1y 1++x ny n.\varphi_q \left( \begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}, \begin{pmatrix}y_1\\ \vdots \\ y_n\end{pmatrix}\right) = x_1y_1+\ldots+x_ny_n.

    En effet, l’application φ\varphi est bilinéaire symétrique et on a clairement φ(x,x)=q(x)\varphi(x,x)=q(x).
    Vérifions la formule de polarisation. On a que q(x+y)= i=1 n(x i+y i) 2= i=1 nx i 2+2x iy i+y i 2=q(x)+q(y)+2φ(x,y).q(x+y)=\sum_{i=1}^n (x_i+y_i)^2=\sum_{i=1}^n x_i^2+2x_iy_i+y_i^2=q(x)+q(y)+2 \varphi(x,y).

  2. L’application qui a une fonction continue sur [0,1][0,1] à valeurs réelles associe q(f)= 0 1f(t) 2dtq( f)=\int_0^1 f(t)^2\mbox{d}t est une forme quadratique, de forme polaire φ q(f,g)= 0 1f(t)g(t)dt.\varphi_q (f,g)= \int_0^1 f(t)g(t)\mbox{d}t. Vérifions la formule de polarisation. q(f+g) = 0 1(f(t)+g(t)) 2dt = 0 1f(t) 2+2f(t)g(t)+g(t) 2dt = q(f)+q(g)+2 0 1f(t)g(t)dt. \begin{matrix} q(f+g)&=&\int_0^1 (f(t)+g(t))^2\,\mbox{d}t \\ &=&\int_0^1f(t)^2+2f(t)g(t)+g(t)^2\,\mbox{d}t\\ &=&q(f)+q(g)+2\int_0^1 f(t)g(t)\mbox{d}t. \end{matrix}
Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e une base de VV. La matrice MM de qq dans la base e est la matrice de la forme polaire φ q\varphi_q dans la base e{\bf e}. C’est une matrice symétrique par le Corollaire 3.

Le rang de qq, noté rg(q)\mbox{rg}(q), est le rang de sa forme polaire.

On dit que e est qq-orthogonale (resp. qq-orthonormée) si elle est φ q\varphi_q-orthogonale (resp. φ q\varphi_q-orthonormée).

L’égalité q(x)=φ q(x,x)q(x)=\varphi_q(x,x) et le Lemme 2 donnent immédiatement:

Lemme 2   Soit VV un espace vectoriel de dimension finie nn et e{\bf e} une base pour VV. Soit xVx\in V, et soit X̲\underline{X} le vecteur coordonnées de xx dans la base e.

Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit MM sa matrice dans la base e{\bf e}. Alors on a q(x)= tX̲MX̲.q(x)={}^t\underline{X} M \underline{X}. En particulier, si e est qq-orthogonale, c’est à dire si MM est symétrique, alors on a q(x)= i=1 nq(e i)x i 2.q(x)=\sum_{i=1}^n q(e_i)x_i^2.

Le lemme suivant nous permet de passer directement de la forme quadratique qq a sa matrice MM sans calculer le forme polaire φ\varphi.

Lemme 3   Soit VV un espace vectoriel de dimension finie nn. Soient x,yVx,y\in V, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Alors pour tout a ij,1ijna_{ij}\in \mathbb{R}, 1\leq i\leq j\leq n, l’application définie sur VV par q( i=1 nx ie i)= i=1 na iix i 2+2 1i<jna ijx ix jq(\sum_{i=1}^n x_ie_i) = \sum_{i=1}^n a_{ii}x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j est une forme quadratique, et sa matrice AA dans la base e{\bf e} est donnée par A=(a ij).A=(a_{ij}).

La démonstration est laissée en exercice au lecteur. Attention au facteur 2 !

Exemple :
L’application définie sur 2\mathbb{R}^2 par q((x 1 x 2))=3x 1 2+4x 1x 2+5x 2 2q(\begin{pmatrix} x_1 \\ x_2\end{pmatrix})= 3x_1^2+ 4x_1x_2+5x_2^2 est une forme quadratique, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est donnée par (3 2 2 5).\begin{pmatrix}3 & 2 \\ 2 & 5\end{pmatrix}.

Soient maintenant φ\varphi une forme bilinéaire sur un espace VV, qq sa forme polaire, e{\bf e} une base pour VV. Soit xVx\in V un élément arbitraire et X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix} son vecteur de coordonnées dans la base e{\bf e}. Alors eestφ-orthogonale {\bf e}\ \mbox{est}\ \varphi\mbox{-orthogonale} \Updownarrow la matrice deφdans la baseeest diagonale \mbox{la matrice de}\ \varphi\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow la matrice deqdans la baseeest diagonale \mbox{la matrice de}\ q\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow a itels queq(x)= i=1 na ix i 2. \exists a_i\in\mathbb{R} \ \mbox{tels que}\ q(x)=\sum_{i=1}^n a_i x_i^2.

4.5.2  Algorithme de Gauss, signature

Nous allons maintenant décrire un algorithme, dit algorithme de Gauss, qui permet de trouver une base qq-orthogonale. Nous ne justifierons pas complètement toutes les étapes de cet algorithme. L’idée de base sera la suivante : écrire q(v)q(v) sous forme de somme/différences de carrés de combinaisons linéaires (indépendantes) des coordonnées de vv : q(v)= i=1 na iL i(v) 2q(v)=\sum_{i=1}^n a_i L_i(v)^2 et une fois trouvée les L i(v)L_i(v) on cherchera la base orthogonale e ie'_i correspondante, c-a-d, telle que v= iL i(v)e i v=\sum_i L_i(v)e'_i

Algorithme de Gauss

Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit e une base de VV. Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit M=(a ij) 1i,jnM=(a_{ij})_{1\leq i,j\leq n} sa matrice représentative dans la base e. Si x= i=1 nx ie ix=\sum_{i=1}^n x_i e_i, on a donc q(x)= i=1 na iix i 2+2 1i<jna ijx ix j=P(x 1,,x n).q(x)=\sum_{i=1}^n a_{ii} x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j=P(x_1,\ldots,x_n).

On procède par récurrence sur le nombre de variables. A chaque étape, il y a deux cas.

  1. S’il existe un indice kk tel que a kk0a_{kk}\neq 0, on regroupe tous les termes faisant intervenir la variable x kx_k, et on complète le carré. On écrit P(x 1,,x n)=a kkx k 2+2f kx k+P 0,P(x_1,\ldots,x_n)=a_{kk}x_k^2+2f_k x_k+P_0, f kf_k est une forme linéaire en les variables x i,ikx_i,i\neq k, et P 0P_0 est une forme quadratique en les variables x i,ikx_i,i\neq k.
    On a alors P(x 1,,x n) = a kk(x k 2+2a kkf kx k)+P 0 = a kk((x k+f ka kk) 2f k 2a kk 2)+P 0.\begin{array}{lll}P(x_1,\ldots,x_n)&=&a_{kk}(x_k^2+\frac{2}{a_{kk}}f_k x_k)+P_0\\ &=&a_{kk}((x_k+\frac{f_k}{a_{kk}})^2-\frac{f_k^2}{a_{kk}^2})+P_0\end{array}. On peut donc écrire P(x 1,,x n)=a kk(x k+f ka kk) 2+P 1,P(x_1,\ldots,x_n)=a_{kk}(x_k+\frac{f_k}{a_{kk}})^2+P_1, P 1P_1 est une forme quadratique en les variables x i,ikx_i,i\neq k.
  2. Si a kk=0a_{kk}=0 pour tout kk, mais qu’il existe kk et \ell tels que k<k&lt;\ell et a k0a_{k\ell}\neq 0. C’est le cas délicat.
    On écrit P(x 1,,x n)=2a kx kx +2f kx k+2f x +P 0,P(x_1,\ldots,x_n)=2a_{k\ell}x_k x_\ell+2f_{k}x_{k}+2f_\ell x_\ell+P_0, f kf_k et f f_\ell sont des formes linéaires en les variables x i,(ik,)x_i, (i\neq k,\ell), et P 0P_0 est une forme quadratique en les variables x i,(ik,)x_i, (i\neq k,\ell).
    On a ainsi P(x 1,,x n)=2a k(x k+1a kf )(x +1a kf k)2a kf kf +P 0.P(x_1,\ldots,x_n)=2a_{k\ell }(x_{k}+\frac{1}{a_{k\ell}}f_\ell)(x_{\ell}+\frac{1}{a_{k\ell}}f_k) -\frac{2}{a_{k\ell}}f_kf_\ell+P_0.

    On a donc P(x 1,,x n)=2a kAB+P 1,P(x_1,\ldots,x_n)=2a_{k\ell}AB+P_1, avec A=x k+1a kf ,B=x +1a kf kA=x_{k}+\frac{1}{a_{k\ell}}f_\ell, B= x_{\ell}+\frac{1}{a_{k\ell}}f_k, et P 1P_1 est une forme quadratique en les variables x i,ik,x_i,i\neq k,\ell.

    On a alors P(x 1,,x n)=a k2((A+B) 2(AB) 2)+P 1.P(x_1,\ldots,x_n)=\frac{a_{k\ell}}{2}((A+B)^2-(A-B)^2)+P_1.

Si P 1=0P_1=0, on arrête. Sinon, on recommence le procédé avec P 1P_1.

On peut montrer que l’on obtient alors une écriture de la forme q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2,q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2, où:

  1. chaque α i *\alpha_i\in \mathbb{R}^*
  2. chaque L iL_i est une forme linéaire sur VV
  3. la famille de formes (L 1,,L r)(L_1,\ldots, L_r) est indépendante.

Si qq n’est pas de rang nn (rnr \neq n), on complète par des formes linéaires L r+1,L r+2,,L nL_{r+1}, L_{r+2},\ldots, L_n (on les choisit par exemple parmi les formes coordonnées x 1,...,x nx_1,...,x_n) pour que la famille (L 1,,L n)(L_1, \ldots, L_n) soit libre et on écrit q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2+0(L r+1) 2++0(L n(x))) 2q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2+ 0 (L_{r+1})^2+ \ldots + 0(L_n(x)))^2

Calcul de la base qq-orthogonale
On cherche e=(e 1,e 2,,e n){\bf e}'=(e'_1,e'_2,\ldots, e'_n) telle que pour tout vv on ait v= iL i(v)e iv=\sum_i L_i(v)e'_i. Cela revient à

L j(e i)=0L_j(e'_i)=0 si iji\neq j et 1 si i=ji=j.

Les coordonnées de e ie'_i vérifient donc un système dont la matrice MM est obtenue en écrivant en ligne les coefficients des L jL_j, et de second membre la ii-ème colonne de la matrice identité. Il s’agit donc du ii-ième vecteur colonne de M 1M^{-1}.

Exemple :
Soit q: 4q:\mathbb{R}^4\to \mathbb{R} l’application qui a u=(x y z t){\bf u}=\begin{pmatrix} x\\ y \\ z\\ t\end{pmatrix} associe q(u)=x 2+2xy+2xz+2xt+y 2+6yz2yt+z 2+10zt+t 2.q({\bf u})=x^2+2xy+2xz+2xt+y^2+6yz-2yt+z^2+10zt+t^2. L’application qq est bien une forme quadratique car c’est un polynôme de degré 22 homogène.

Appliquons l’algorithme de Gauss à qq pour trouver une base qq-orthogonale. On a q(u) = x 2+2(y+z+t)x+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2(y+z+t) 2+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2+4yz4yt+8zt.\begin{array}{lll}q({\bf u})&=&x^2+2(y+z+t)x+y^2+6yz-2yt+z^2+10zt+t^2 \\ &=& (x+y+z+t)^2-(y+z+t)^2+y^2+6yz-2yt+z^2+10zt+t^2\\ &=& (x+y+z+t)^2+4yz-4yt+8zt .\end{array}

On a maintenant 4yz4yt+8zt = 4(yz+(t)y+(2t)z) = 4((y+2t)(zt)+2t 2) = 4(y+2t)(zt)+8t 2 = (y+z+t) 2(yz+3t) 2+8t 2.\begin{array}{lll} 4yz-4yt+8zt&=& 4(yz +(-t)y +(2t)z)\\ &=&4((y+2t)(z-t)+2t^2)\\ &=& 4(y+2t)(z-t)+8t^2\\ &=& (y+z+t)^2-(y-z+3t)^2+8t^2\end{array}. Finalement, on obtient q(u)=(x+y+z+t) 2+(y+z+t) 2(yz+3t) 2+8t 2.q({\bf u})=(x+y+z+t)^2 +(y+z+t)^2-(y-z+3t)^2+8t^2. Vérification

On a donc rg(q)=4\mbox{rg}(q)=4. On a {L 1(u) = x+y+z+t L 2(u) = y+z+t L 3(u) = yz+t L 4(u) = t \left\{ \begin{array}{ccc} L_1(u) & = & x+y+z+t\\ L_2(u) & = & y+z+t \\ L_3(u) & =& y-z+t \\ L_4(u) & =& t \end{array} \right. Calcul de e 1e'_1 : on a L 1(e 1)=1,L 2(e 1)=L 3(e 1)=L 4(e 1)=0L_1(e'_1)=1, L_2(e'_1)=L_3(e'_1)=L_4(e'_1)=0. Si (x,y,z,t)(x,y,z,t) sont les coordonnées de e 1e'_1 {x +y +z +t = 1 y +z +t = 0 y z +t = 0 t = 0\left\{ \begin{array}{cccccc} x&+y&+z&+t & = & 1\\ &y&+z&+t &=& 0\\ &y&-z&+t &=& 0\\ &&&t &=& 0 \end{array} \right. donc x=1x=1, y=z=t=0y=z=t=0. La matrice du système est donnée par M=(1 1 1 1 0 1 1 1 0 1 1 1 0 0 0 1)M=\left(\begin{array}{cccc} 1 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & -1 & 1 \\ 0 & 0 & 0 & 1 \end{array}\right) La matrice du système est presque triangulaire supérieure, il y a donc assez peu de manipulation à faire pour résoudre le système. Avec un logiciel ou à la main, on calcule M 1M^{-1}

et on lit e 1e'_1 dans la 1ère colonne de MM, e 2e'_2 dans la deuxième colonne, etc. e 1=(1 0 0 0),e 2=(1 1/2 1/2 0),e 3=(0 1/2 1/2 0),e 4=(0 1 0 1)e_1'=\begin{pmatrix}1\\0\\0\\0\end{pmatrix},\; e_2'=\begin{pmatrix}-1\\1/2\\1/2\\0\end{pmatrix},\; e_3'= \begin{pmatrix}0\\1/2\\-1/2\\0\end{pmatrix},\; e_4'=\begin{pmatrix}0\\-1\\0\\1\end{pmatrix} Ces vecteurs (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4') forment donc une base qq-orthogonale.

Il résulte du lemme 3 que la matrice de qq dans la base e{\bf e}' est la matrice M=diag(α 1,α 2,,α r,0,,0)M=\mbox{diag}(\alpha_1,\alpha_2, \ldots, \alpha_r,0,\ldots, 0)

Remarque 4   Si ϕ:V×V\phi:V\times V\to \mathbb{R} est bilinéaire symétrique, alors en appliquant l’algorithme de Gauss à la forme quadratique q b:V,xφ(x,x),q_b:V\to \mathbb{R}, x\mapsto \varphi(x,x), on trouve une base v qui est q φq_\varphi-orthogonale. Mais par définition, v est donc orthogonale pour la forme polaire de q φq_\varphi, qui est φ\varphi.

En particulier, le nombre rr de carrés qui apparaissent dans l’écriture q(x)= i=1 ra iL i(x) 2q(x)=\sum_{i=1}^r a_i L_i(x)^2 est le rang de la forme bilinéaire.

Cet algorithme permet donc de trouver une base φ\varphi-orthogonale pour n’importe quelle forme bilinéaire symétrique φ\varphi, ainsi que son rang. On peut programmer l’algorithme de Gauss sur machine, mais à condition que les coefficients de la forme quadratique soient représentables exactement sur machine, sinon le résultat obtenu peut être invalide en raison des erreurs d’arrondis (toutefois Gauss fonctionne avec des coefficients approchés si r +=nr_+=n ou si r =nr_-=n, cela correspond à la factorisation de Cholesky d’une matrice).

Le théorème qui suit affirme que r +r_+ le nombre de coefficients strictement positifs et r r_- le nombre de coefficients strictement négatifs des carrés L i(x) 2L_i(x)^2 ne dépend pas des choix faits au cours de l’algorithme de réduction de Gauss de la forme quadratique.

Théorème 5 (Théorème d’inertie de Sylvester)   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e{\bf e} une base qq-orthogonale Soit r +=card{i|q(e i)>0},r =card{i|q(e i)<0}.r_+=\mbox{card}\{ i \vert q(e_i)&gt;0\}, \quad r_-=\mbox{card}\{ i \vert q(e_i)&lt;0\}.

Alors le couple (r +,r )(r_+,r_-) ne dépend pas de la base qq-orthogonale choisie. De plus, r ++r =rg(q)r_++r_-=\mbox{rg}(q).

Ce théorème n’est valable que pour des formes réelles.

Preuve : Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base qq-orthogonale. Posons α i=q(e i)=φ q(e i,e i)\alpha_i=q(e_i)=\varphi_q(e_i,e_i) et r=r ++r r=r_++r_-. Changer l’ordre des vecteurs de e{\bf e} ne change pas r +r_+ et r r_-, ni le fait que la base soit qq-orthogonale. On peut donc supposer sans perte de généralité que l’on a q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e_i)&gt;0, i=1,\ldots, r_+, \quad q(e_i)&lt;0, i=r_++1,\ldots, r,\quad q(e_i)=0, i=r+1,\ldots,n.

Puisque e{\bf e} est qq-orthogonale (c’est-à-dire φ q\varphi_q-orthogonale), on obtient que MM, la matrice de qq dans la base e{\bf e}, s’écrit M=(q(e 1) ... 0 0 ... q(e n)).M=\begin{pmatrix}q(e_1) & ...& 0\\ & \ddots & \\ 0 & ... & q(e_n) \end{pmatrix}. Or, seuls les réels q(e 1),,q(e r)q(e_1),\ldots,q(e_r) sont non nuls. Le rang d’une matrice diagonale étant le nombre de termes diagonaux non nuls, on a bien rg(q)=r=r ++r rg(q)=r=r_++r_-.

Soit maintenant e{\bf e'} une autre base qq-orthogonale. Soient (r +,r )(r'_+,r'_-) le couple d’entiers correspondant. Remarquons que l’on a r ++r =rg(q)=rr'_++r'_-=rg(q)=r par le point précédent. Comme précédemment, quitte à changer l’ordre des vecteurs, on peut supposer que q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e'_i)&gt;0, i=1,\ldots, r'_+, \quad q(e_i)&lt;0, i=r'_++1,\ldots, r,\quad q(e'_i)=0,i=r+1,\ldots,n. Montrons que e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont linéairement indépendants. Supposons que l’on ait une relation λ 1e 1++λ r +e r ++λ r ++1e r ++1++λ ne n=0.\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}+\lambda_{r'_++1}e'_{r'_+ +1}+\ldots+\lambda_ne'_n=0. On a donc λ 1e 1++λ r +e r +=(λ r ++1e r ++1+λ ne n).\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}=-(\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n). En appliquant qq des deux côtés, et en utilisant le fait que les bases e et e{\bf e'} sont qq-orthogonales, on obtient i=1 r +q(e i)λ i 2= i=r ++1 nq(e i)λ i 2.\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=\sum_{i=r'_++1}^{n}q(e'_i)\lambda_i^2. Par choix de e{\bf e} et de e{\bf e'}, le membre de gauche est 0\geq 0 et le membre de droite est 0\leq 0.

On en déduit que l’on a i=1 r +q(e i)λ i 2=0,\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=0, et puisque q(e i)>0q(e_i)&gt;0 pour i=1,,r +i=1,\ldots,r_+, on en déduit λ 1==λ r +=0.\lambda_1=\ldots=\lambda_{r_+}=0. Mais alors, on a λ r ++1e r ++1+λ ne n=0,\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n=0, et comme e{\bf e'} est une base, on en déduit λ r ++1==λ n=0.\lambda_{r'_++1}=\ldots=\lambda_n=0.

Ainsi, e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont r ++(nr +)r_++(n-r'_+) vecteurs linéairement indépendants dans un espace vectoriel de dimension nn. On a donc r ++(nr +)n,r_++(n-r'_+)\leq n, et donc r +r +r_+\leq r'_+. En échangeant les rôles de e{\bf e} et e{\bf e'}, on a de même r +r +r'_+\leq r_+.

On a donc r +=r +r_+=r'_+, et comme on a rg(q)=r ++r =r ++r \mbox{rg}(q)=r_++r_-=r'_++r'_-, on en déduit r =r r_-=r'_-. Ceci achève la démonstration.

Cela conduit à la définition suivante.

Définition 6   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Le couple (r +,r )(r_+,r_-) est appelé la signature de qq.
Remarque 7   Pour calculer la signature d’une forme quadratique qq, il suffit d’utiliser l’algorithme de Gauss pour écrire q(x)q(x) sous la forme α 1(u 11x 1++u 1nx n) 2++α r(u r1x 1++u rnx n) 2,\alpha_1(u_{11}x_1+\ldots+u_{1n}x_n)^2+\ldots+\alpha_r (u_{r1}x_1+\ldots+u_{rn}x_n)^2, et de compter le nombre de coefficients α i\alpha_i qui sont strictement plus grand que 00 et strictement plus petit que 00.

En effet, on a vu que si v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est la base qq-orthogonale obtenue à la fin de l’algorithme de Gauss, et MM est la matrice de qq dans cette base, alors M=diag(α 1,,α r,0,,0).M=diag(\alpha_1,\ldots,\alpha_r,0,\ldots,0). Mais les coefficients diagonaux de MM sont exactement les réels q(v i)q(v_i), et on conclut en utilisant la définition de r +r_+ et r r_-.

Exemple
La signature de la forme quadratique qq de l’exemple précédent est (3,1)(3,1).

Chapitre 5  Produits scalaires.

5.1  Rappels dans le plan et l’espace

5.1.1  Dans le plan

Soient u 1(x 1,y 1)u_1(x_1,y_1) et u 2(x 2,y 2)u_2(x_2,y_2) deux vecteurs du plan. On définit le produit scalaire de u 1u_1 et u 2u_2 par <u 1|u 2>=x 1x 2+y 1y 2&lt;u_1|u_2&gt;=x_1x_2+y_1y_2 Propriétés

Si z 1z_1 est l’affixe de u 1u_1 (le complexe correspondant à u 1u_1) et z 2z_2 celui de u 2u_2, alors en notant \Re la partie réelle : <u 1|u 2>=x 1x 2+y 1y 2=((x 1iy 1)(x 2+iy 2))=(z 1¯z 2)&lt;u_1|u_2&gt;= x_1x_2+y_1y_2=\Re((x_1-iy_1)(x_2+iy_2))=\Re(\overline{z_1} z_2) Donc le produit scalaire est invariant par rotation1, puisque (e iθz 1¯e iθz 2)=(e iθz 1¯e iθz 2)=(z 1¯z 2)\Re(\overline{e^{i\theta}z_1} e^{i\theta}z_2)=\Re(e^{-i\theta}\overline{z_1} e^{i\theta}z_2) =\Re(\overline{z_1} z_2) On peut aussi le vérifier avec la matrice PP de la rotation d’angle θ\theta : P=(cos(θ) sin(θ) sin(θ) cos(θ))P=\left(\begin{array}{cc} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{array} \right) qui vérifie P tP=I 2P^t P=I_2.

Soit φ\varphi l’angle entre les vecteurs u 1u_1 et u 2u_2. Effectuons la rotation qui met u 1u_1 selon l’axe des xx dans le bon sens, on a alors x 1=u 1,y 1=0x_1=\|u_1\|, y_1=0 donc <u 1|u 2>=x 1x 2=u 1u 2cos(φ)&lt;u_1|u_2&gt;=x_1x_2=\|u_1\| \|u_2\| \cos(\varphi) En particulier, on a l’inégalité de Cauchy-Schwarz : |<u 1|u 2>|u 1u 2|&lt;u_1|u_2&gt;| \leq \|u_1\| \|u_2\|

Si <u|v>=0&lt;u|v&gt;=0, on dit que les vecteurs uu et vv sont orthogonaux, on a alors le théorème de Pythagore u+v 2=u 2+v 2\|u+v\|^2=\|u\|^2+\|v\|^2 Lorsqu’une base est composée de vecteurs de norme 1 orthogonaux entre eux, on parle de base orthonormée. Si {u 1,u 2}\{u_1,u_2\} est une telle base, alors on a u=<u 1|u>u 1+<u 2|u>u 2u=&lt;u_1|u&gt;u_1+&lt;u_2|u&gt;u_2

Si on se donne un vecteur uu, on peut construire une base orthonormée dont le premier vecteur est u 1=uuu_1=\frac{u}{\|u\|}. On définit la projection orthogonale sur la droite vectorielle DD engendrée par uu par p(v)=<u 1|v>u 1p(v)=&lt;u_1|v&gt;u_1 on vérifie que vp(v)v-p(v) est orthogonal à u 1u_1 : <u 1|vp(v)>=<u 1|v><u 1|p(v)>=<u 1|v><u 1|<u 1|v>u 1>=<u 1|v><u 1|v><u 1|u 1>=0&lt;u_1|v-p(v)&gt;=&lt;u_1|v&gt;-&lt;u_1|p(v)&gt;=&lt;u_1|v&gt;-&lt;u_1| &lt;u_1|v&gt;u_1&gt; =&lt;u_1|v&gt;-&lt;u_1|v&gt; &lt;u_1|u_1&gt;=0 Le vecteur de DD le plus proche de vv est p(v)p(v). En effet si dd est un vecteur de DD, on applique le théorème de Pythagore dans le triangle de sommets les extrémités de dd, p(v)p(v) et vv qui est rectangle (en p(v)p(v)).

5.1.2  Dans l’espace

Si u 1(x 1,y 1,z 1)u_1(x_1,y_1,z_1) et u 2(x 2,y 2,z 2)u_2(x_2,y_2,z_2) sont deux vecteurs de 3\mathbb{R}^3, on définit leur produit scalaire par : <u 1|u 2>=x 1x 2+y 1y 2+z 1z 2&lt;u_1|u_2&gt;=x_1x_2+y_1y_2+z_1z_2 On vérifie les mêmes propriétés que dans le plan : le produit scalaire se comporte comme un produit (linéarité par rapport à chaque argument), <u|u>&lt;u|u&gt; est positif et ne s’annule que si u=0u=0. Comme c’est le produit scalaire du plan si on se restreint aux plans de coordonnées Oxy,Oxz,OyzOxy, Oxz, Oyz, il est invariant par rotation d’axe les vecteurs de base. On a donc toujours <u 1|u 2>=u 1u 2cos(u 1,u 2)&lt;u_1|u_2&gt;=\|u_1\| \|u_2\| \cos(u_1,u_2) (en utilisant les angles d’Euler : faire une rotation d’axe OzOz pour que le plan u 1,u 2u_1,u_2 contienne OxOx, puis une rotation selon OxOx pour que le plan u 1,u 2u_1,u_2 soit le plan de coordonnées OxyOxy). Donc l’inégalité de Cauchy-Schwarz est toujours valide. De même que le théorème de Pythagore.

On parle toujours de base orthonormée pour une base de 3 vecteurs de norme 1 orthogonaux entre eux 2 à 2. Les coordonnées d’un vecteur uu dans une base orthonormée {u 1,u 2,u 3}\{u_1,u_2,u_3\} se calculent avec u=<u 1|u>u 1+<u 2|u>u 2+<u 3|u>u 3u=&lt;u_1|u&gt;u_1+&lt;u_2|u&gt; u_2+&lt;u_3|u&gt; u_3

Si on se donne une droite vectorielle DD de vecteur directeur uu, on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|}. La projection orthogonale d’un vecteur vv sur la droite DD est toujours obtenue par p(v)=<u 1|v>u 1p(v)=&lt;u_1|v&gt;u_1 et c’est le vecteur de DD le plus proche de vv.

Si on se donne un plan vectoriel PP engendré par deux vecteurs uu et vv on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|} et de deuxième vecteur dans le plan u,vu,v. Pour cela, on modifie vv en un vecteur orthogonal à uu en lui retirant sa projection orthogonale sur uu, puis on normalise ce qui donne un vecteur u 2u_2 de norme 1 orthogonal à u 1u_1. À ce stade, on peut définir la projection orthogonale sur PP par p(w)=<u 1|w>u 1+<u 2|w>u 2p(w)=&lt;u_1|w&gt;u_1+&lt;u_2|w&gt;u_2 On peut compléter la famille orthonormée {u 1,u 2}\{ u_1,u_2\} avec le produit vectoriel des deux vecteurs u 1u_1 et u 2u_2, mais cette construction est spécifique à la dimension 3. Pour pouvoir généraliser en dimension plus grande, on peut aussi prendre un troisième vecteur ww qui n’appartient pas au plan PP, on le modifie en un vecteur orthogonal à PP en lui retirant sa projection orthogonale sur PP et on le normalise en un vecteur u 3u_3. Le vecteur de PP le plus proche de ww est p(w)p(w), toujours à cause du théorème de Pythagore.

5.2  Définitions et exemples.

Nous voulons maintenant généraliser la notion de produit scalaire - et donc de longueur, de distance et d’angle - à un espace vectoriel réel arbitraire. Soient x=(x 1 x n),y=(y 1 y n)x=\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right), y=\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right) deux vecteurs de n\mathbb{R}^n, le produit scalaire canonique est défini par : xy= txy= i=1 nx iy ix\cdot y=^tx y=\sum_{i=1}^n x_iy_i L’application (x,y)xy(x,y) \mapsto x \cdot y est une forme bilinéaire symétrique. La longueur d’un vecteur x nx\in\mathbb{R}^n pour n=2n=2 et n=3n=3 peut être calculée par la formule x=xx\| x\|=\sqrt{x\cdot x} De même, nous souhaiterions associer une notion de longueur (on parle plutot de norme pour un vecteur) à une forme bilinéaire φ\varphi en posant x=φ(x,x)\|x\| =\sqrt{\varphi(x,x)}. Malheureusement, il n’est pas sûr que cette quantité soit définie : en effet si φ(x,x)<0\varphi(x,x)&lt;0, la racine carrée n’est pas définie. De plus, on souhaite que la norme d’un vecteur soit strictement positive pour un xx non-nul (or nous ne voulons pas une distance 00 entre deux vecteurs distincts).

Ces considérations amènent les définitions suivantes:

Définition 1   Soit VV un espace vectoriel réel. On dit qu’une forme bilinéaire symétrique φ:V×V\varphi:V\times V\to \mathbb{R} est positive si φ(x,x)0\varphi(x,x)\geq 0 pour tout xVx\in V, et définie positive si φ(x,x)>0\varphi(x,x)&gt;0 pour tout xV,x0x\in V,x\neq 0.

Remarquons que φ\varphi est définie positive si et seulement si

  • φ\varphi est positive et
  • φ(x,x)=0x=0 V.\varphi(x,x)=0\Rightarrow x=0_V.

C’est en général cette reformulation de la définition que l’on utilise en pratique pour vérifier si oui ou non une forme bilinéaire donnée est définie positive.

Définition 2   Soit VV un \mathbb{R}-espace vectoriel (non nécessairement de dimension finie). Un produit scalaire sur VV est une forme bilinéaire symétrique et définie positive sur VV : ,:{V×V (x,y) x,y\langle\, , \, \rangle: \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R}\\ (x,y) & \mapsto & \langle x,y\rangle \end{array} \right. On dit que VV muni du produit scalaire ,\langle\, , \, \rangle est un espace préhilbertien réel.
Remarque 3   On expliquera brièvement plus loin l’utilisation du préfixe “pré”-hilbertien, voir la remarque 12. On utilise aussi le terme d’espace euclidien si VV est un \mathbb{R}-espace vectoriel de dimension finie muni d’un produit scalaire. Le terme préhilbertien s’emploie aussi dans le cas de produits scalaires hermitiens définis sur un \mathbb{C}-espace vectoriel, cf. l’appendice D. Dans la suite de ce chapitre, on donne des résultats pour des espaces préhilbertiens dans le cas réel, la plupart des résultats se généralisent aux préhilbertiens complexes.

Exemples

  1. Le produit scalaire usuel sur n\mathbb{R}^n xy= i=1 nx iy ix \cdot y =\sum_{i=1}^n x_iy_i
  2. La forme bilinéaire qui a deux fonctions ff et gg continues de [a,b][a,b] à valeur dans \mathbb{R} associe l’intégrale entre aa et bb de leur produit : ,:{C 0([a,b],)×C 0([a,b],) (f,g) f,g= a bf(t)g(t)dt\langle \, , \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b] , \mathbb{R}) &\to & \mathbb{R}\\ (f,g) & \mapsto & \langle f,g\rangle=\int_a^b f(t)g(t)\mbox{d}t \end{array} \right. Montrons que c’est un produit scalaire.
    1. Montrons que ,\langle \, , \rangle est symétrique. En effet, pour tout f,gC 0([a,b],)f,g\in C^0([a,b], \mathbb{R}), on a g,f= a bg(t)f(t)dt= a bf(t)g(t)dt=f,g.\langle g,f\rangle=\int_a^b g(t)f(t)\mbox{d}t=\int_a^b f(t)g(t)\mbox{d}t=\langle f,g\rangle.
    2. Montrons que ,\langle \, , \rangle est bilinéaire. Pour tout f 1,f 2,f,gC 0([a,b],),λf_1,f_2,f,g\in C^0([a,b], \mathbb{R}),\lambda\in\mathbb{R}, on a f 1+f 2,g = a b(f 1+f 2)(t)g(t)dt = a b(f 1(t)+f 2(t))g(t)dt = a bf 1(t)g(t)dt+ a bf 2(t)g(t)dt = f 1,g+f 2,g\begin{array}{lll}\langle f_1+f_2,g\rangle &=&\int_a^b (f_1+f_2)(t)g(t)\mbox{d}t \\ &=& \int_a^b (f_1(t)+f_2(t))g(t)\mbox{d}t \\ &=& \int_a^b f_1(t)g(t)\mbox{d}t + \int_a^b f_2(t)g(t)\mbox{d}t \\ &=& \langle f_1,g\rangle +\langle f_2,g\rangle \end{array} et : λf,g = a b(λf)(t)g(t)dt = a bλf(t)g(t)dt = λ a bf(t)g(t)dt = λf,g.\begin{array}{lll}\langle \lambda f,g\rangle &=& \int_a^b (\lambda f)(t)g(t)\mbox{d}t \\ &=& \int_a^b \lambda f(t)g(t)\mbox{d}t\\ &=& \lambda\int_a^b f(t)g(t)\mbox{d}t\\ &=& \lambda \langle f,g\rangle\end{array}. Par symétrie, il découle que f,g 1+g 2=f,g 1+f,g 2 et f,λg=λf,g\langle f,g_1+g_2\rangle=\langle f,g_1\rangle+\langle f, g_2\rangle \mbox{ et }\langle f,\lambda g\rangle=\lambda \langle f,g\rangle pour tout f,g,g 1,g 2[X],λf,g,g_1,g_2\in \mathbb{R}[X],\lambda\in\mathbb{R}
      Ainsi, ,\langle \, ,\rangle est bilinéaire.
    3. Montrons enfin que ,\langle, \rangle est définie positive. On va utiliser pour cela la reformulation de la définition 1.

      Pour tout fC 0([a,b],)f\in C^0([a,b], \mathbb{R}), on a f,f= a bf(t) 2dt.\langle f,f\rangle=\int_a^b f(t)^2\mbox{d}t. Or, l’intégrale d’une fonction positive est positive. Comme la fonction f 2(t)f^2(t) est positive, on en déduit que f,f0pour tout fC 0([a,b],).\langle f,f\rangle\geq 0\ \mbox{pour tout }f\in C^0([a,b], \mathbb{R}). Supposons maintenant que l’on a f,f=0,\langle f,f\rangle=0, c’est à dire que a bf(t) 2dt=0.\int_a^b f(t)^2\mbox{d}t=0. Or l’intégrale d’une fonction positive et continue f:[a,b]f:[a,b]\to\mathbb{R} est nulle si et seulement si ff est identiquement nulle. Comme la fonction [a,b],tf(t) 2[a,b]\to \mathbb{R}, t\mapsto f(t)^2 est positive et continue, on en déduit f(t) 2=0pour toutt[a,b],f(t)^2=0\ \mbox{pour tout}\ t\in [a,b], c’est-à-dire f=0f=0 : CQFD.

  3. Pour toute fonction pp continue et strictement positive sur [a,b][a,b], la forme bilinéaire : ,:{C 0([a,b],)×C 0([a,b],) (f,g) f,g= a bp(t)f(t)g(t)dt\langle \, , \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b], \mathbb{R}) & \to &\mathbb{R}\\ (f,g)&\mapsto&\langle f,g\rangle=\int_a^b p(t) f(t)g(t)\mbox{d}t \end{array} \right. est un produit scalaire (exercice)
  4. L’application définie sur les matrices carrées réelles M n()M_n(\mathbb{R}) par (M,N)Tr( tMN)(M,N)\mapsto \mbox{Tr}({}^tMN) est un produit scalaire.
  5. La forme blinéaire définie sur 2\mathbb{R}^2 par : ((x 1 x 2),(y 1 y 2))x 1y 1x 2y 2\left(\left(\begin{array}{c}x_1\\ x_2\end{array}\right),\left(\begin{array}{c}y_1\\ y_2\end{array}\right)\right)\mapsto x_1y_1-x_2y_2 n’est pas un produit scalaire. C’est bien une forme bilinéaire symétrique, mais elle n’est pas positive.
  6. L’application qui associe à deux polynômes le produit de leur valeur en 0 : φ:{[X]×[X] (P,Q) P(0)Q(0)\varphi: \left\{ \begin{array}{ccc} \mathbb{R}[X] \times \mathbb{R}[X] & \to & \mathbb{R}\\ (P,Q) & \mapsto & P(0)Q(0) \end{array} \right. n’est pas un produit scalaire. Elle est bien bilinéaire, symétrique, positive, mais pas définie positive. Par exemple, on a φ(X,X)=0\varphi(X,X)=0, mais XX n’est pas le polynôme nul.

5.3  Géométrie.

Les propriétés du produit scalaire permettent alors, comme dans le cas classique, de définir la “longueur”, ou norme d’un vecteur de VV.

Définition 1   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien Pour tout xVx\in V, on définit la norme de xx, notée x\| x\|, par x=x,x.\| x\|=\sqrt{\langle x,x\rangle}.

Notons que par définition d’un produit scalaire, x0\|x\|\geq 0, et x=0\|x\|=0 si et seulement si x=0x=0.

Définition 2   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V. On définit la distance entre vv et ww par d(v,w)=vw. d(v,w)= \| v-w\|.

Encore une fois, la distance entre vv et ww est positive et n’est 00 que si v=wv=w.

v:=vecteur(3,1); w:=vecteur(2,3);
v-w; legend(v-w,"v-w"); angle(v,w,"θ");

onload
Nous aurions envie de poser la définition suivante :

Définition 3   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V avec v,w0v,w\neq 0. On définit l’angle entre vv et ww par θ=arccos(v,wv×w). \theta= \arccos\left(\frac{\langle v,w\rangle}{\|v\|\times \|w\|}\right).
Remarque 4   Avec cette définition de θ\theta, l’angle entre vv et ww, nous avons automatiquement θ[0,π]\theta\in [0, \pi]. Par ailleurs, il s’agit d’une angle non-orienté : θ\theta ne dépend pas de l’ordre de vv et ww.

Malheureusement, ce n’est pas évident que cette définition soit bien posée. En effet, la fonction arccos n’est définie que pour des nombres réels xx satisfaisant la condition 1x1-1\leq x\leq 1 ou autrement dit |x|1|x|\leq 1. Nous devons donc vérifier la proposition suivante :

Proposition 5 (Inégalité de Cauchy-Schwarz)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien. Alors pour tout x,yVx,y\in V, on a |x,y|x×y,|\langle x,y\rangle|\leq \| x\|\times \| y\|, et on a égalité dans cette expression si et seulement si la famille x,yx,y est liée sur \mathbb{R}, c’est-à-dire s’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0.

Preuve : Le résultat étant immédiat si xx ou yy est égal à 00, on peut supposer x,y0x,y\neq 0 : si x,y0x,y\neq 0 nous avons qu’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0 si et seulement si il existe tt\in \mathbb{R} tel que x+ty=0x+ty=0. Considérons la fonction de tt f(t)=x+ty,x+ty=t 2y 2+2tx,y+x 2.f(t)=\langle x+ ty, x+ty\rangle= t^2 \|y\|^2+2t\langle x,y\rangle + \|x\|^2. Ceci est une fonction quadratique de tt qui ne prend pas de valeurs négatives : elle a donc un discriminant Δ0\Delta\leq 0, c’est à dire Δ=4(x,y) 24x 2y 20. \Delta= 4(\langle x,y\rangle)^2 - 4\|x\|^2\|y\|^2\leq 0. On a donc que (x,y) 2x 2y 2 (\langle x,y\rangle)^2 \leq \|x\|^2\|y\|^2 et |x,y|xy. |\langle x,y\rangle| \leq \|x\|\|y\|. De plus, on a ǵalité dans cette expression si et seulement si Δ=0\Delta =0, c’est-à-dire si et seulement si il existe tt tel que f(t)=0f(t)=0. Par définition de f(t)f(t), nous avons égalité dans cette expression si et seulement si il existe tt tel que x+ty=0x+ty=0. CQFD. L’inégalité de Cauchy-Schwarz est donc valable et notre définition de θ\theta est bien posée.

Un certain nombre de formules de la géométrie dans l’espace sont toujours valables dans ce contexte :

Lemme 6 (Théorème de Pythagore)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in Vavec v,w0 Vv,w \neq 0_V. Soit θ\theta l’angle entre vv et ww. Alors on a vw 2=v 2+w 2θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \theta= \pi/2.

Preuve : On note tout d’abord que par définition θ=π/2\theta=\pi/2 si et seulement si v,w=0\langle v,w \rangle =0. Par définition, vw 2=vw,vw\|v-w\|^2= \langle v-w, v-w\rangle =v,v+w,w2v,w = \langle v,v\rangle + \langle w,w\rangle -2\langle v,w\rangle =v 2+w 22v,w= \|v\|^2+ \|w\|^2- 2 \langle v,w\rangle et donc vw 2=v 2+w 2v,w=0θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \langle v,w \rangle =0 \Leftrightarrow \theta= \pi/2.

Lemme 7 (Identité du parallélogramme)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+w 2+vw 2=2(v 2+w 2). \|v+w\|^2+\|v-w\|^2=2(\|v\|^2+ \|w\|^2).

Preuve : Exercice pour le lecteur.

Lemme 8 (Inégalité triangulaire)   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+wv+w. \|v+w\|\leq \|v\|+\|w\|.

Preuve : On a que v+w 2=v 2+w 2+2v,w. \| v+w\|^2= \|v\|^2+ \|w\|^2+2\langle v,w \rangle. Par l’inégalité de Cauchy-Schwarz on a que v+w 2v 2+w 2+2v×w=(v+w) 2. \|v+w\|^2\leq \|v\|^2+\|w\|^2+2\|v\|\times \|w\|= (\|v\|+\|w\|)^2. Puisque v+w\|v+w\| et v+w\|v\|+\|w\| sont positifs, on peut prend la racine carrée des deux membres pour déduire que v+wv+w.\| v+w\|\leq \|v\|+\|w\|. Les deux lemmes suivants sont souvent très utiles.

Lemme 9   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V une famille de vecteurs deux à deux orthogonaux. Alors on a x 1++x k 2=x 1 2++x k 2.\| x_1+\ldots+x_k\|^2=\| x_1\|^2+\ldots+\| x_k\|^2.

Preuve : Supposons x 1,,x kVx_1,\ldots,x_k\in V deux à deux orthogonaux. On a donc x i,x j=0pour toutij.\langle x_i,x_j\rangle=0\ \mbox{pour tout}\ i\neq j. Par ailleurs, on a que x 1++x k 2=x 1++x k,x 1++x k= i,j=1 kx i,x j.\| x_1+\ldots+x_k\|^2=\langle x_1+\ldots+x_k,x_1+\ldots+x_k\rangle=\sum_{i,j=1}^k\langle x_i,x_j\rangle. Mais puisque x i,x j=0\langle x_i,x_j\rangle=0 pour tout iji\neq j, on obtient x 1++x k 2= i=1 kx i,x i= i=1 kx i 2,\| x_1+\ldots+x_k\|^2=\sum_{i=1}^k \langle x_i,x_i\rangle=\sum_{i=1}^k \| x_i\|^2, ce que l’on voulait démontrer.
On peut aussi faire une récurrence.

Lemme 10   Soit (V,,)(V,\langle\, , \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V des vecteurs non nuls deux à deux orthogonaux. Alors (x 1,,x k)(x_1,\ldots,x_k) est une famille libre.

Preuve : Soient λ 1,,λ k\lambda_1,\ldots,\lambda_k\in \mathbb{R} tels que λ 1x 1++λ kx k=0 V.\lambda_1x_1+\ldots+\lambda_k x_k=0_V. Soit j{1,,k}j\in \{1,\ldots, k\}. On a x j,λ 1x 1++λ kx k=x j,0 V=0,\langle x_j, \lambda_1x_1+\ldots+\lambda_k x_k\rangle=\langle x_j, 0_V\rangle=0, et donc i=1 kλ ix j,x i=0.\sum_{i=1}^k\lambda_i \langle x_j,x_i\rangle=0. Puisque les x ix_i sont deux à deux orthogonaux, cela s’écrit λ jx j,x j=0.\lambda_j \langle x_j,x_j\rangle=0. Puisque par hypothèse x j0x_j\neq 0, on a x j,x j>0\langle x_j,x_j\rangle &gt;0, et donc λ j=0\lambda_j=0. Ceci achève la démonstration.

Revenons maintenant à l’existence de bases orthonormées.

Proposition 11   Soit (V,,)(V,\langle \, ,\, \rangle) un espace prehilbertien de dimension finie. Alors VV possède une base (v 1,,v n)(v_1,\ldots,v_n) orthonormée pour le produit scalaire.

De plus, si (v 1,,v n)(v_1,\ldots,v_n) est une base orthonormée, alors pour tout xVx\in V, on a x=v 1,xv 1++v n,xv n.x=\langle v_1,x\rangle v_1+\ldots+\langle v_n,x\rangle v_n.

Remarque 12   En dimension infinie, on parle d’espace de Hilbert lorsque les propriétés des bases orthonormées vues ici en dimension finie se généralisent (existence, décomposition de tout vecteur comme une somme infinie, i.e. une série par rapport aux bases orthonormées...). L’étude générale des espaces de Hilbert en dimension infinie dépasse le cadre de ce cours. La série de Fourier d’une fonction périodique de période TT peut être vue comme l’écriture selon une base orthonormée infinie composée par les harmoniques des sinus et cosinus de période TT.

Preuve : Pour montrer l’existence d’une base orthonormée, on peut au choix

Soit maintenant (v 1,,v n)(v_1,\ldots,v_n) une base orthonormée, et soit xVx\in V. Comme v 1,,v nv_1,\ldots,v_n est une base, on peut écrire x=λ 1v 1++λ nv n.x=\lambda_1 v_1+\ldots+\lambda_n v_n. Pour tout jj, on a alors v j,x= i=1 nλ iv j,v i=λ j,\langle v_j,x\rangle=\sum_{i=1}^n \lambda _i \langle v_j,v_i\rangle=\lambda_j, la dernière égalité provenant du fait que v 1,,v nv_1,\ldots,v_n est une base orthonormée. On a donc bien l’égalité annoncée.

Nous avons donc maintenant une notion satisfaisante de la distance entre deux éléments d’un espace vectoriel muni d’un produit scalaire. Rappelons que la question qui a motivé ce travail est la suivante : je veux construire dans un espace vectoriel VV un “bon approximant” ww pour un élément vv sous la contrainte que ww doit être contenu dans un sous-espace WW, on veut construire la projection orthogonale ww de vv sur WW.

gl_ortho=true;
W:=droite(0,[1,2]); v:=vecteur(2,1); w:=projection(W,v); 
affichage(v-w,red);

onload
Nous savons maintenant ce qu’on veut dire exactement par un “bon approximant” : on veut que la distance d(v,w)d(v,w) entre vv et ww soit la plus petite possible. Le lemme suivant nous donne un critère numérique pour que wWw\in W soit le “meilleur approximant” pour vv.

Lemme 13   Soit VV un espace prehilbertien, WW un sous espace de VV et vv un élément de VV. Si wWw\in W a la propriété que vw,w=0\langle v-w,w'\rangle =0 pour tout wWw'\in W alors pour tout wWw'\in W on a que d(v,w)d(v,w)d(v,w)\leq d(v,w'), avec égalité si et seulement si w=ww'=w.

Autrement dit, si la droite qui relie vv à wWw\in W est perpendiculaire à WW alors ww est le point de WW le plus proche de vv. Ce résultat vous est familier lorsque v 2v\in \mathbb{R}^2 et WW est une droite dans 2\mathbb{R}^2, ou lorsque v 3v\in \mathbb{R}^3 et WW est un plan dans 3\mathbb{R}^3.

Preuve : On a que d(v,w)=vw=(vw)+(ww). d(v,w')= \| v-w'\| =\| (v- w) + (w-w')\|. Maintenant, wwWw-w'\in W donc par hypothèse (vw)(ww)(v-w) \perp (w-w') et par le théorème de Pythagore d(v,w) 2=(vw) 2+(ww) 2d(v,w) 2 d(v,w')^2= \|(v-w)\|^2+ \|(w-w')\|^2 \geq d(v,w)^2 avec égalité si et seulement si ww=0\|w-w'\|=0, c’est-à-dire w=ww=w'.

Notre critère est que (vw)(v-w) doit être orthogonal à tous les éléments de WW. Etudions donc l’ensemble constitué de tels éléments.

Définition 14   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien et soit SS un sous-ensemble de VV. L’orthogonal de SS, noté S S^\perp, est le sous-ensemble de VV défini par S ={xVs,x=0pour toutsS}.S^\perp=\{ x\in V \mid \langle s,x\rangle=0 \ \mbox{pour tout}\ s\in S \}.

Exercice. Démontrer que S S^\perp est toujours un sous-espace vectoriel de WW.

Théorème 15   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien et soit WW un sous-espace vectoriel de VV. Alors:
  1. Pour tout wWw\in W et tout wW w'\in W^\perp, on a www\perp w'. De plus, WW ={0 V}W\cap W^\perp=\{0_V\}.
  2. Si WW est de dimension finie, on a V=WW V=W{\oplus} W^\perp. Autrement dit, tout xVx\in V s’écrit de manière unique sous la forme x=w+w,wW,wW .x=w+w', w\in W,w'\in W^\perp. De plus, si (v 1,,v k)(v_1,\ldots, v_k) est une base orthonormée pour WW alors on a w= i=1 kv i,xv iw= \sum_{i=1}^k \langle v_i,x\rangle v_i.

Preuve :

  1. Si wWw\in W et wW w'\in W^\perp, alors on a w,w=0\langle w,w'\rangle=0 par définition de W W^\perp. On a donc www\perp w'. Soit maintenant wWW w\in W\cap W^\perp. Puisque wW w\in W^\perp et wWw\in W on a que w,w=0\langle w,w\rangle=0 et donc w=0w=0 d’après les propriétés du produit scalaire.
    Ainsi, on a WW ={0}W\cap W^\perp=\{ 0 \}, ce qu’il fallait vérifier.
  2. D’après (1)(1), il reste à démontrer que V=W+W V=W+W^\perp, c’est-à-dire que tout vecteur vVv\in V peut s’écrire v=w+wv=w+w' avec wWw\in W et wW w'\in W^\perp.
    Si W={0}W=\{0\}, on a W =VW^\perp=V, et il n’y a rien à faire. On peut donc supposer que WW n’est pas l’espace trivial {0 V}\{ 0_V \}. La restriction à WW du produit scalaire sur VV est encore un produit scalaire. Puisque WW est de dimension finie, WW possède une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) d’après la proposition précédente.
    Soit vVv\in V. On pose w= i=1 kv i,vv i.w=\sum_{i=1}^k \langle v_i, v\rangle v_i. Alors wWw\in W. D’autre part, on a v j,vw = v j,vv j,w = v j,vv j, i=1 nv i,vv i = v j,v i=1 kv i,vv j,v i.\begin{array}{lll}\langle v_j,v-w\rangle &=& \langle v_j,v\rangle-\langle v_j,w\rangle\\ &=& \langle v_j,v\rangle- \langle v_j,\displaystyle\sum_{i=1}^n \langle v_i,v\rangle v_i\rangle \\ &=& \langle v_j,v\rangle-\displaystyle\sum_{i=1}^k \langle v_i,v\rangle \langle v_j,v_i\rangle.\end{array} Puisque v 1,,v kv_1,\ldots,v_k est orthonormée, on en déduit: v j,vw=v j,vv j,v=0,\langle v_j,v-w\rangle=\langle v_j,v\rangle-\langle v_j,v\rangle=0, et ceci pour tout j=1,,kj=1,\ldots,k.
    Soit sWs\in W. Alors on peut écrire s=s 1v 1++s kv ks=s_1v_1+\ldots+s_k v_k, et donc s,vw= i=j ks jv j,vw=0.\langle s, v-w\rangle=\sum_{i=j}^k {s}_j\langle v_j,v-w\rangle=0. Ainsi, vwW v-w\in W^\perp, et donc on a la décomposition voulue en posant w=vww'=v-w. Si maintenant on a deux décompositions v=w 1+w 1=w 2+w 2,w iW,w iW ,v=w_1+w'_1=w_2+w'_2,w_i\in W,w'_i\in W^\perp, on a w 1w 2=w 2w 1WW ,w_1-w_2=w'_2-w'_1\in W\cap W^\perp, car WW et W W^\perp sont des sous-espaces vectoriels de VV. Par le premier point, on en déduit w 1w 2=w 2w 1=0 Vw_1-w_2=w'_2-w'_1=0_V, et donc w 1=w 2,w 1=w 2w_1=w_2, w'_1=w'_2, CQFD.
Remarque 16   Le point (2)(2) est faux sans hypothèse de finitude de la dimension de WW.

D’après le deuxième point du théorème, lorsque WW est de dimension finie, tout xVx\in V se décompose de manière unique sous la forme x=w+w,wW,wW .x=w+w',w\in W,w'\in W^\perp. Cela conduit à la définition suivante:

Définition 17   Soit (V,,)(V,\langle \, , \,\rangle) un espace prehilbertien, et soit WW un sous-espace de VV de dimension finie. Pour tout x=w+wVx=w+w'\in V avec wWw\in W et wW w' \in W^\perp on pose p W(x)=w.p_W(x)=w. Le vecteur p W(x)Wp_W(x)\in W est appelé la projection orthogonale de xx sur WW. Si (v 1,v k)(v_1,\ldots v_k) est une base orthonormée de WW alors on a p W(x)= iv i,xv i, p_W(x)=\sum_i \langle v_i,x\rangle v_i, Le lecteur pourra vérifier à titre d’exercice les propriétés suivantes:
  1. L’application p W:VVp_W:V\to V est linéaire.
  2. Pour tout xVx\in V, on a et p W(x)W,p_W(x)\in W, (xp W(x))W (x-p_W(x))\in W^\perp.

La projection orthogonale a la propriété essentielle suivante :

p W(x)p_W(x) est le point de WW le plus proche de xx

Si on dispose d’une base orthonormée (v 1v n)(v_1\ldots v_n) pour WW, on a une formule explicite pour calculer une projection orthogonale : p W(x)= i=1 kv i,xv i(1) p_W(x)= \sum_{i=1}^k \langle v_i,x\rangle v_i \qquad (1) Reste à construire de telles bases orthonormées, c’est l’objet du prochain paragraphe.

5.4  Procédé d’orthonormalisation de Gram-Schmidt.

Soit (V,,)(V,\langle, \rangle) un espace prehilbertien de dimension finie. On suppose donnée une base pour VV, e=(e 1,,e n){\bf e}= (e_1,\ldots, e_n). On présente un algorithme de construction d’une famille orthonormée (v 1,v k)(v_1,\ldots v_k) à partir de e{\bf e} pour k=1k=1, puis k=2k=2, ... puis k=nk=n. Cette famille engendrera le même sous-espace vectoriel que la famille (e 1,e k)(e_1,\ldots e_k).

  1. Initialisation :pour k=1k=1, on pose v 1=e 1e 1v_1= \frac{e_1}{\|e_1\|}. v 1v_1 est alors de norme 1 par construction et l’espace engendré par (v 1)(v_1) est égal à l’espace engendré par (e 1)(e_1).
  2. Début du corps de la boucle
    Pour k>1k&gt;1, on suppose (v 1,,v k1)(v_1,\ldots, v_{k-1}) déjà construits. On va construire v kv_{k}, il doit être orthogonal à l’espace WW engendré par (v 1,...,v k1)(v_1,...,v_{k-1}).
  3. Étape d’orthogonalisation
    On a vu que pour tout vecteur zz, en lui soustrayant p W(z)p_W(z) son projeté orthogonal sur un sous-espace vectoriel WW, on obtient un vecteur zp W(z)z-p_W(z) qui est orthogonal à WW.
    On définit donc un vecteur auxiliaire f kf_{k} en soustrayant de e ke_{k} son projeté orthogonal sur WW, donc en appliquant (1) : f k=e k j=1 k1v j,e kv j. f_{k}= e_{k} -\sum_{j=1}^{k-1} \langle v_j, e_{k}\rangle v_j. Par construction f kf_{k} est orthogonal aux vecteurs v 1,,v k1v_1,\ldots, v_{k-1}. Par contre, il n’est pas forcément de longueur 11.
  4. Étape de normalisation
    On observe que e ke_k n’est pas combinaison linéaire des v jv_j pour jk1j \leq k-1 (en effet la famille (v 1,...,v k1)(v_1,...,v_{k-1}) engendre le même sous-espace que la famille (e 1,...,e k1)(e_1,...,e_{k-1}), or la famille (e 1,...,e k)(e_1,...,e_k) est libre). On a donc f k0f_k \neq 0, on pose : v k=f kf k. v_{k}=\frac{f_{k}}{\| f_{k}\|}.
  5. Nous avons maintenant construit (v 1,,v k)(v_1,\ldots, v_{k}). On voit que la famille (v 1,...,v k)(v_1,...,v_k) engendre bien le même sous-espace vectoriel que (e 1,...,e k)(e_1,...,e_k) Si k<nk&lt;n, on revient au début de la boucle (étape 2) en incrémentant kk de 1.
gl_ortho=true;
W:=droite(y=2x); legende(W,"W=Vect(e1,...,ek-1)",quadrant2);
ek:=vecteur(2,1,color=magenta); projection(W,ek);
affichage(ek-projection(W,ek),red); legende(ek-projection(W,ek),"fk=ek-p(ek)",red)

onload
On a donc :

Proposition 1   Les vecteurs de la famille v{\bf v} construite par le procédé de Gram-Schmidt ci-dessus forment une base orthonormée pour VV et le sous-espace vectoriel engendré par (v 1,,v k)(v_1,\ldots, v_k) est le même que celui engendré par (e 1,,e k)(e_1,\ldots, e_k)

Exemple 1
On considère la base de 3\mathbb{R}^3 e 1=(1 1 0),e 2=(1 0 1),e 3=(0 1 1).e_1=\begin{pmatrix}1\\ 1\\ 0\end{pmatrix},e_2=\begin{pmatrix}1\\ 0\\ 1\end{pmatrix},e_3=\begin{pmatrix}0\\ 1\\ 1\end{pmatrix}. Appliquons le procédé de Gram-Schmidt à cette base afin d’obtenir une base orthonormée pour le produit scalaire.
On pose v 1=e 1e 1=(1/2 1/2 0)v_1=\frac{e_1}{\| e_1\|}= \begin{pmatrix}1/\sqrt{2}\\ 1/\sqrt{2}\\ 0\end{pmatrix} On a f 2=e 2v 1,e 2v 1=(12 12 1).f_2=e_2-\langle v_1,e_{2}\rangle v_1=\begin{pmatrix} \frac{1}{2}\\ -\frac{1}{2}\\ 1 \end{pmatrix}. On pose v 2=f 2f 2=(16 16 26).v_2= \frac{f_2}{\| f_2\|}= \begin{pmatrix}\frac{1} {\sqrt{6}}\\ -\frac{1} {\sqrt{6}}\\ \frac{2} {\sqrt{6}} \end{pmatrix}. Enfin f 3=e 3v 1,e 3v 1v 2,e 3v 2=(2/3 2/3 2/3),f_3=e_3-\langle v_1,e_3\rangle v_1-\langle v_2,e_{3}\rangle v_2= \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}, et donc v 3=f 3f 3=32(2/3 2/3 2/3). v_3= \frac{f_3}{\|f_3\|}= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. On a donc v 1=12(1 1 0),v 2=23(1/2 1/2 1),v 3=32(2/3 2/3 2/3).v_1=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 1\\ 0 \end{pmatrix},v_2=\sqrt{\frac{2}{3}}\begin{pmatrix}1/2\\ 1/2\\ 1\end{pmatrix},v_3= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. Vérification avec Xcas : on utilise la commande gramschmidt avec en argument des vecteurs lignes, le résultat renvoyé est une liste de vecteurs lignes :


ou on appelle la commande qr avec la matrice des vecteurs en colonnes et l’argument optionnel -3:


Exemple 2
Construisons une base orthonormée pour le plan d’équation x+y+z=0x+y+z=0 dans 3\mathbb{R}^3. Il a une base non orthonormée (e 1,e 2)(e_1, e_2) donnée par e 1=(1 1 0),e 2=(1 0 1).e_1=\begin{pmatrix}1\\-1\\0\end{pmatrix} , e_2= \begin{pmatrix}1\\0\\-1\end{pmatrix}. On pose v 1=e 1e 1=(1/2 1/2 0)v_1= \displaystyle{\frac{e_1}{\| e_1\|}}= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}. On introduit alors f 2=e 2v 1,e 2v 1=e 212v 1=(1/2 1/2 1)f_2= e_2-\langle v_1, e_2\rangle v_1= e_2-\frac{1}{\sqrt2} v_1= \begin{pmatrix}1/2\\ 1/2 \\ -1\end{pmatrix} et on pose v 2=f 2f 2=(1/6 1/6 2/6).v_2= \frac{f_2}{ \| f_2\|}= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}. Ceci nous donne la base (v 1,v 2)(v_1, v_2) avec v 1=(1/2 1/2 0),v 2=(1/6 1/6 2/6). v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.

Exemple 3
Sur les polynômes de degré au plus 2, on définit le produit scalaire ϕ(P,Q)=P(1)Q(1)+P(0)Q(0)+P(1)Q(1)\phi(P,Q)=P(-1)Q(-1)+P(0)Q(0)+P(1)Q(1) C’est bien un produit scalaire, car ϕ(P,P)=0\phi(P,P)=0 entraine P(1)=P(0)=P(1)=0P(-1)=P(0)=P(1)=0 donc P=0P=0 (3 racines pour degré au plus 2). On peut orthonormaliser la base canonique {1,X,X 2}\{1,X,X^2\}. On normalise le premier vecteur de la base en v 1=1/3v_1=1/\sqrt{3} car ϕ(1,1)=3\phi(1,1)=3. Le 2ième vecteur de la base est orthogonal au premier car ϕ(1,X)=1+0+1=0\phi(1,X)=-1+0+1=0 il suffit de le normaliser en v 2=X/2v_2=X/\sqrt{2} (ϕ(X,X)=(1) 2+0 2+1 2=2\phi(X,X)=(-1)^2+0^2+1^2=2). On projette X 2X^2 sur le plan {v 1,v 2}\{v_1,v_2\} p(X 2)=ϕ(v 1,X 2)v 1+ϕ(v 2,X 2)v 2=13ϕ(1,X 2)+12ϕ(X,X 2)X=23p(X^2)=\phi(v_1,X^2) v_1+\phi(v_2,X^2)v_2 =\frac{1}{3} \phi(1,X^2) + \frac{1}{2} \phi(X,X^2) X = \frac{2}{3} Donc v 3v_3 est X 22/3X^2-2/3 normalisé, soit v 3=(X 22/3)/2/3v_3=(X^2-2/3)/\sqrt{2/3} car ϕ(X 22/3,X 22/3)=(1/3) 2+(2/3) 2+(1/3) 2=2/3\phi(X^2-2/3,X^2-2/3)=(1/3)^2+(-2/3)^2+(1/3)^2 = 2/3 Finalement, la base orthonormée obtenue est {13,X2,X 22323}\{ \frac{1}{\sqrt{3}}, \frac{X}{\sqrt{2}}, \frac{X^2-\frac{2}{3}}{\sqrt{\frac{2}{3}}}\} Vérification

Remarque 2   En calcul exact ou à la main, il peut être plus simple de ne pas normaliser les vecteurs f kf_{k} à chaque étape, donc de construire une base orthogonale : f k=e k j=1 k1f j,e kf j 2f j f_{k}= e_{k} -\sum_{j=1}^{k-1} \frac{\langle f_j, e_{k}\rangle}{\|f_j\|^2} f_j et de normaliser la base seulement à la fin.
En calcul approché, cette méthode de calcul n’est pas adaptée en raison des erreurs d’arrondis. On utilise plutot la factorisation
QRQR d’une matrice, qui est la version matricielle de l’orthonomalisation. L’orthonormalisation se fait en utilisant des matrices de symétries (réflexions de Householder) ou de rotations (méthode de Givens).
Remarque 3   Le procédé de Gram-Schmidt permet de calculer la projection orthogonale de tout vecteur xVx\in V sur un sous-espace WW de dimension finie, en calculant une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) de WW à partir d’une base quelconque e 1,,e ke_1,\ldots,e_k de WW (pour le produit scalaire sur WW obtenu par restriction du produit scalaire sur WW). On aura alors p W(x)= j=1 kv j,xv j.p_W(x)=\sum_{j=1}^k \langle v_j,x\rangle v_j. Rappelons que p W(x)p_W(x) est le meilleur approximant de xx dans WW.

5.5  Exemples de problèmes de minimisation.

5.5.1  Projection sur un plan de l’espace.

Utilisons cette méthode pour construire pour tout v 3v\in \mathbb{R}^3 le point le plus proche de vv dans WW, le plan d’équation x+y+z=0x+y+z=0.
Nous avons vu qu’une base orthonormée pour ce plan est donnée par v 1=(1/2 1/2 0),v 2=(1/6 16 2/6)v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.
Soit v=(x y z)v=\begin{pmatrix}x\\y\\z\end{pmatrix} : on a donc p W(v)=v,v 1v 1+v,v 2 p_W(v) =\langle v,v_1\rangle v_1+ \langle v, v_2\rangle =(xy)2v 1+(x+y2z)6v 2 = \frac{(x-y)}{\sqrt{2}}v_1+ \frac{(x+y-2z)}{\sqrt{6}}v_2 =((xy)/2 (x+y)/2 0)+((x+y2z)/6 (x+y2z)/6 2x2y+4z/6)= \begin{pmatrix}(x-y)/2\\ (-x+y)/2\\ 0\end{pmatrix} + \begin{pmatrix} (x+y-2z)/6\\ (x+y-2z)/6\\ -2x-2y+4z/6\end{pmatrix} =((2xyz)/3 (x+2yz)/3 (xy+2z)/3).= \begin{pmatrix} (2x-y-z)/3\\ (-x+2y-z)/3\\ (-x-y+2z)/3\end{pmatrix}. Autre méthode : le vecteur n(1,1,1)n(1,1,1) est un vecteur normal au plan WW, on retire de vv sa projection sur l’orthogonal de WW donc p W(v)=v<n,v>n 2n=(x y z)x+y+z3(1 1 1)=(2xyz3 x+2yz3 xy+2z3)p_W(v)=v-\frac{&lt;n,v&gt;}{\|n\|^2}n = \begin{pmatrix} x\\y\\z\end{pmatrix} - \frac{x+y+z}{3} \begin{pmatrix} 1 \\ 1\\ 1\end{pmatrix} = \begin{pmatrix} \frac{2x-y-z}{3}\\ \frac{-x+2y-z}{3}\\ \frac{-x-y+2z}{3}\end{pmatrix}

5.5.2  Régression linéaire

Considérons le problème suivant. On veut mesurer une donnée yy (pH d’une solution, température) en fonction d’un paramètre xx (concentration d’un ion, temps). Considérons les nn points (avec n2n\geq 2) P 1:=(x 1,y 1),,P n:=(x n,y n)P_1:=(x_1,y_1),\ldots,P_n:=(x_n,y_n) de 2\mathbb{R}^2 représentant par exemple le résultat de nn expérimentations. On suppose que les x ix_is sont deux à deux distincts. Supposons que la théorie nous dise que yy varie de façon affine en fonction de xx. A cause des erreurs de manipulation, de mesure, les nn points P 1,,P nP_1,\ldots,P_n ne sont pas alignés.

Comment trouver la droite de meilleure approximation, c’est-à-dire la droite d’équation y=ax+by=ax+b telle que les points théoriques Q 1:=(x 1,ax 1+b),,Q n:=(x n,ax n+b)Q_1:=(x_1,ax_1+b),\ldots,Q_n:=(x_n,ax_n+b) soient le plus proche possible des points expérimentaux P 1,,P nP_1,\ldots,P_n ?

Plus précisément, comment choisir la droite y=ax+by=ax+b telle que l’erreur quadratique e:=P 1Q 1 2++P nQ n 2e:=P_1Q_1^2+\ldots+P_nQ_n^2 soit minimale?

On veut donc trouver (a,b) 2(a,b)\in\mathbb{R}^2 tels que e:=(y 1(ax 1+b)) 2++(y n(ax n+b)) 2e:=(y_1-(ax_1+b))^2+\ldots+(y_n-(ax_n+b))^2 soit minimale. Posons X̲=(x 1 x n),Y̲=(y 1 y n) et U̲=(1 1).\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix},\underline{Y}=\begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix}\mbox{ et } \underline{U}=\begin{pmatrix}1\\\vdots\\ 1\end{pmatrix}. On a facilement que Y̲(aX̲+bU̲)=(y 1(ax 1+b) y n(ax n+b)),\underline{Y}-(a\underline{X}+b\underline{U})= \begin{pmatrix}y_1-(ax_1+b)\\\vdots\\ y_n-(ax_n+b)\end{pmatrix}, et donc d=Y̲(aX̲+bU̲) 2,d=\| \underline{Y}-(a\underline{X}+b\underline{U})\|^2, où nous utilisons la norme associée au produit scalaire canonique sur n\mathbb{R}^n. Soit WW le sous-espace vectoriel dans n\mathbb{R}^n formé de tous les vecteurs de la forme aX̲+bU̲a\underline{X}+ b\underline{U} lorsque (a,b)(a,b) décrit 2\mathbb{R}^2. On veut donc minimiser Y̲w\| \underline{Y}-w\|, lorsque ww décrit WW. D’après les propriétés de la projection orthogonale, le minimum est obtenu pour w=p W(Y̲)w=p_W(\underline{Y}).

On doit donc calculer p W(Y̲)p_W(\underline{Y}). Les coefficients aa et bb seront alors donnés par la relation p W(Y̲)=aX̲+bU̲p_W(\underline{Y})=a\underline{X}+b \underline{U} car (X̲,U̲)(\underline{X},\underline{U}) est une base de WW. Posons x¯=x 1++x nn,y¯=y 1++y nn.\overline{x}=\frac{x_1+\ldots+x_n}{n}, \overline{y}=\frac{y_1+\ldots+y_n}{n}.

Appliquons l’algorithme de Gram-Schmidt à la base e 1=U̲,e 2=X̲e_1=\underline{U}, e_2=\underline{X} de WW. On a v 1=U̲/U̲=1nU̲v_1=\underline{U}/\|\underline{U}\|= \frac{1}{\sqrt{n}}\underline{U}. On a aussi f 2=e 2v 1,e 2v 1=X̲x¯U̲f_2=e_2-\langle v_1,e_2\rangle v_1= \underline{X}-\overline{x}\underline{U} et v 2=f 2/f 2v_2= f_2/ \| f_2\|. On a alors p W(Y̲) = v 1,Y̲v 1+v 2,Y̲v 2 = y¯U̲+ i=1 nx iy ix¯y i i=1 n(x ix¯) 2(X̲x¯U̲).\begin{array}{lll} p_W(\underline{Y})&=&\langle v_1,\underline{Y} \rangle v_1+\langle v_2,\underline{Y}\rangle v_2\\ &=& \overline{y}\underline{U}+ \frac{\sum_{i=1}^n x_iy_i-\overline{x}y_i}{\sum_{i=1}^n (x_i-\overline{x})^2}(\underline{X}-\overline{x}\underline{U}). \end{array}

Remarquons que l’on a i=1 n(x iy ix¯y i)=( i=1 nx iy i)nx¯y¯= i=1 n(x iy ix¯y¯).\sum_{i=1}^n (x_iy_i-\overline{x}y_i)=(\sum_{i=1}^n x_iy_i)-n\overline{x}\,\overline{y}=\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y}). On a donc

p W(Y̲)= i=1 n(x iy ix¯y¯) i=1 n(x ix¯) 2X̲+(y¯x¯ i=1 n(x iy ix¯y¯) i=1 n(x ix¯) 2)U̲.p_W(\underline{Y})=\frac{\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\sum_{i=1}^n (x_i-\overline{x})^2}\underline{X}+\left(\overline{y}-\overline{x}\frac{\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\sum_{i=1}^n (x_i-\overline{x})^2}\right)\underline{U}.

Ainsi, la droite de meilleure approximation est donnée par y= i=1 n(x iy ix¯y¯) i=1 n(x ix¯) 2(xx¯)+y¯.y=\frac{\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\sum_{i=1}^n (x_i-\overline{x})^2}(x-\overline{x})+ \overline{y}. c’est-à-dire qu’on a a= i=1 n(x iy ix¯y¯) i=1 n(x ix¯) 2a= \frac{\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\sum_{i=1}^n (x_i-\overline{x})^2} et b= i=1 n(x iy ix¯y¯) i=1 n(x ix¯) 2x¯+y¯b= -\frac{\sum_{i=1}^n (x_iy_i-\overline{x}\,\overline{y})}{\sum_{i=1}^n (x_i-\overline{x})^2}\overline{x}+\overline{y}.

5.5.3  Résolution au sens des moindres carrés.

On généralise l’exemple précédent, il s’agit de “résoudre” des systèmes linéaires n×mn \times m qui ont plus d’équations (nn) que d’inconnues (mm). Matriciellement, on considère l’équation d’inconnue vv : Av=b,v m,b n,n>mAv=b, \quad v \in \mathbb{R}^m, b \in \mathbb{R}^n, n&gt;m AA est une matrice “mince”, avec moins de colonnes que de lignes.

Par exemple pour la régression linéaire, vv a deux composantes : le coefficient directeur α\alpha de la droite cherchée et son ordonnée à l’origine β\beta. On a donc m=2m=2, on essaie de faire passer une droite par nn points (x 1,y 1),...,(x n,y n)(x_1,y_1),...,(x_n,y_n), Le système s’écrit (x 1 1 x n 1)(α β)=(y 1 y n)\begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} y_1\\ \vdots \\ y_n \end{pmatrix} et n’a en général pas de solutions.

On peut alors chercher vv qui minimise Avb 2\|Av-b\|^2. Soit Im(A)(A), le sous-espace vectoriel parcouru par AvAv pour v nv \in \mathbb{R}^n Le problème revient à chercher la projection orthogonale de bb sur Im(A)(A). Pour cela, on pourrait chercher une base orthonormale de Im(A)(A) comme précédamment. On peut aussi utiliser la propriété du projeté orthogonal AvAv de bb sur Im(A)(A), w,<Avb|Aw>=0\forall w, \quad &lt;Av-b|Aw&gt;=0

gl_ortho=1;
d:=droite(y=2x,affichage=hidden_name); legende(1+2*i,"Im(A)");
b:=vecteur(2,1);
Av:=projection(d,b,affichage=hidden_name); 
legende(3/4+3/2*i,"Av",quadrant2);
couleur(Av-b,red); legende(Av-b,"Av-b",red);
vecteur(1/2,1,legende="Aw",color=magenta);

onload
Notons *{ }^* la transposée d’une matrice (ou sa transconjuguée dans le cas complexe), on a : <Avb|Aw>=(Avb) *Aw=(A *(Avb)) *w&lt;Av-b|Aw&gt; = (Av-b)^* Aw=(A^*(Av-b))^* w donc, w,<A *(Avb)|w>=0\forall w, \quad &lt;A^*(Av-b)|w&gt; =0 donc vv est solution de A *(Avb)=0(A *A)v=A *bA^* (A v-b)= 0 \Leftrightarrow (A^*A) v= A^* b qui est un système de mm équations à mm inconnues. Par exemple pour la régression linéaire, on a un système 2,2. (x 1 ... x n 1 ... 1)(x 1 1 x n 1)(α β)=(x 1 ... x n 1 ... 1)(y 1 ... y n)\begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} y_1\\ ...\\ y_n \end{pmatrix} Sur machine, on saisit la matrice AA à partir des données (par exemple issues d’un tableur) en ajoutant une colonne de 1, puis on fait le produit matriciel A *AA^* A, on inverse et on applique à A *bA^*b2

Exemple température moyenne de la Terre de 1981 à 2018 (d’après http://data.giss.nasa.gov/gistemp/tabledata_v3/GLB.Ts+dSST.txt)

X:=range(1981,2019);
Y:=[14.31,14.13,14.33,14.18,14.1,14.18,14.31,14.42,14.29,14.44,14.42,14.23,14.24,14.29,14.45,14.32,14.45,14.62,14.41,14.41,14.51,14.63,14.58,14.55,14.66,14.61,14.66,14.51,14.62,14.71,14.57,14.61,14.63,14.72,14.83,15.01,14.89,14.82];
gl_x=1980..2020; gl_y=13.9..15.1; 
scatterplot(X,Y);
linear_regression_plot(X,Y);

onload




Le coefficient directeur de la droite est donc de environ 0.018 degré par an.

On peut aussi faire le calcul du produit de matrice formellement : ( i=1 nx i 2 i=1 nx i i=1 nx i i=1 n1)(α β)=( i=1 nx iy i i=1 ny i)\begin{pmatrix} \sum_{i=1}^n x_i^2 & \sum_{i=1}^n x_i \\ \sum_{i=1}^n x_i & \sum_{i=1}^n 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^n x_iy_i \\ \sum_{i=1}^n y_i \end{pmatrix} et vérifier qu’on retrouve la solution de la section précédente. En effet, la 2ème équation nous dit que la droite de régression passe par le point de coordonnées les moyennes (x¯=1n ix i,y¯=1n iy i)(\overline{x}=\frac{1}{n} \sum_i x_i,\overline{y}=\frac{1}{n}\sum_i y_i), et l’opération 1nL 1x¯nL 2\frac{1}{n}L_1 - \frac{\overline{x}}{n} L_2 élimine β\beta et permet de trouver le coefficient directeur : (1n ix i 2x¯ 2)α=1n ix iy ix¯y¯(\frac{1}{n}\sum_i x_i^2 - \overline{x}^2) \alpha = \frac{1}{n} \sum_i x_i y_i - \overline{x}\overline{y}

Exercice
Faire de mêne pour une régression avec 3 séries statistiques (donc une série dépendant des deux autres) z n=αx n+βy n+γz_n=\alpha x_n + \beta y_n+ \gamma. Indication de solution : la matrice AA s’obtient en mettant dans la 1ère colonne les x ix_i, dans la 2ième colonne les y iy_i et dans la 3ième colonne des 1.

5.5.4  Approcher une fonction continue par une fonction affine

On peut aussi vouloir approximer une fonction continue f:[a,b]f:[a,b]\to \mathbb{R} par une fonction affine y=αx+βy=\alpha x+\beta. Dans ce cas, la méthode précédente ne marche plus, puisque l’on doit considérer une infinité de points.

L’idée est de considérer un grand nombre de points sur le graphe de ff, dont les abcisses sont régulièrement espacés, P 1=(x 1,f(x 1)),,P n=(x n,f(x n))P_1=(x_1,f(x_1)),\ldots,P_n=(x_n,f(x_n)), avec x i=a+(ba)inx_i= a+\frac{(b-a)i}{n}, et de considérer la droite de meilleure approximation pour ces points. Bien sûr, plus nn est grand, meilleure est l’approximation. L’entier nn étant fixé, on doit donc minimiser d:=(f(x 1)(αx 1+β)) 2++(f(x n)(αx n+β)) 2.d:=(f(x_1)-(\alpha x_1+\beta))^2+\ldots+(f(x_n)-(\alpha x_n+\beta))^2. Ceci revient aussi à minimiser S n:=1n i=1 n(f(x i)(αx i+β)) 2, avec x i=a+(ba)in.S_n:=\frac{1}{n}\sum_{i=1}^n (f(x_i)-(\alpha x_i+\beta))^2, \mbox{ avec }x_i=a+\frac{(b-a)i}{n}. On voit graphiquement (et on peut démontrer rigoureusement) que S nS_n converge vers a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t. En particulier, S nS_n est très proche de cette intégrale lorsque nn est suffisamment grand.

Il est alors naturel de définir la droite de meilleure approximation y=αx+βy=\alpha x+\beta comme celle qui minimise l’intégrale a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t

Ce genre d’intégrale s’interprète souvent comme l’énergie d’un système. Ainsi, le problème de minimisation précédent revient à demander de minimiser cette énergie.

Exemple
Considérons le problème de minimisation suivant: trouver a,ba,b\in\mathbb{R} qui minimise 0 π2(cos(x)abx) 2dx\int_0^{\frac{\pi}{2}}(\cos(x)-a-bx)^2\mbox{d}x

Soit VV l’espace des fonctions continues sur [0,π2][0,\frac{\pi}{2}] avec son produit scalaire <f,g>= 0 π2f(x)g(x)dx.&lt;f,g&gt; = \int_0^{\frac{\pi}{2}}f(x)g(x)\mbox{d}x. On vérifie que ,\langle, \, \rangle est un produit scalaire sur VV. Considérons maintenant le sous-espace WW de VV défini par W=Vect(1,x)={f|f:xa+bx,a,b}.W=\mbox{Vect}(1,x)=\{f| f:x\mapsto a+bx, a,b\in\mathbb{R} \}. Le problème de minimisation se reformule alors ainsi:

Trouver gWg\in W tel que cos(x)g(x),cos(x)g(x)\langle \cos(x)-g(x),\cos(x)-g(x)\rangle 3 soit minimal.

Autrement dit, on cherche gWg\in W tel que cos(x)g(x)\|\cos(x)-g(x)\| soit minimal. On connait la solution, c’est g=p W(cos(x))g=p_W(\cos(x)). On cherche donc à calculer la projection orthogonale de cos(x)\cos(x) sur W=Vect(1,x)W=\mbox{Vect}(1,x).

Appliquons le procédé de Gram-Schmidt à la base e 1=1,e 2=xe_1=1,e_2=x de WW. v 1=e 1e 1=2πv_1=\frac{e_1}{\| e_1\|}=\sqrt{\frac{2}{\pi}} f 2=e 2v 1,e 2v 1=(xπ4)f_2=e_2-\langle v_1,e_2\rangle v_1=(x-\frac{\pi}{4}) v 2=xπ4xπ4v_2= \frac{x-\frac{\pi}{4}}{\| x-\frac{\pi}{4}\|}

On a alors g=p W(cos(x))=1,cos(x)1,11+xπ4,cos(x)xπ4,xπ4(xπ4)=ax+bg=p_W(\cos(x))=\frac{\langle 1,\cos(x)\rangle}{\langle 1,1\rangle}1+\frac{\langle x-\frac{\pi}{4},\cos(x)\rangle}{\langle x-\frac{\pi}{4},x-\frac{\pi}{4}\rangle}(x-\frac{\pi}{4})= ax+b le calcul donne a=(24π 296π 3)a= (\frac{24}{\pi^2}-\frac{96}{\pi^3}) et b=(4π+24π 2)b= (\frac{-4}{\pi}+\frac{24}{\pi^2}) :

5.5.5  Projection sur les polynômes trigonométriques

On peut aussi vouloir approximer une fonction f:[a,b]f:[a,b]\to\mathbb{R} par une fonction autre qu’une droite. Par exemple, on peut vouloir approximer ff par une fonction gg appartenant à un sous-espace vectoriel WW des fonctions continues sur [a,b][a,b], de façon à ce que l’intégrale a b(f(t)g(t)) 2dt\int_a^b(f(t)-g(t))^2\mbox{d}t soit minimale, lorsque gg décrit WW.

Considérons le problème posé dans l’introduction, celui d’approcher une fonction par des sommes trigonométriques. Soit f:[L,L]f:[-L,L]\rightarrow \mathbb{R} une fonction que l’on supposera continue : on veut approximer ff par une somme finie de fonctions trigonométriques S n(f):=a 0+ k=1 na kcos(2kπxL)+b ksin(2kπxL).S_n(f):=a_0+\sum_{k=1}^n a_k\cos(\frac{2 k\pi x}{L})+ b_k\sin(\frac{2 k\pi x}{L}). On veut trouver les coefficients a ka_k et b kb_k tels que l’intégrale L L(f(t)S n(f)(t)) 2dt\int_{-L}^L(f(t)-S_n(f)(t))^2\mbox{d}t soit minimale.

Soit VV l’espace vectoriel des fonctions continues sur [L,L][-L,L] à valeurs rélles C 0([L,L],)C^0([-L,L], \mathbb{R}) et WW le sous-espace vectoriel de VV engendré par 1,cos(2kπxL),sin(2kπxL),k=1,,n.1, \ \cos(\frac{2 k\pi x}{L}),\sin(\frac{2 k\pi x}{L}),k=1,\ldots,n. Autrement dit, WW est l’ensemble de fonctions de la forme g(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g(x)=a_0+\sum_{k=1}^n a_k\cos(\frac{k\pi x}{L})+ b_k\sin(\frac{k\pi x}{L}). Considérons le produit scalaire sur VV f,g= L Lf(t)g(t)dt.\langle f,g\rangle=\int_{-L}^Lf(t)g(t)\mbox{d}t. Le