Formes quadratiques, séries de Fourier (Mat404)

Dernière révision par B. Parisse, mai 2021

Table des matières

Index

  • [positive, définie, 4.2

  • absolument convergente, 5.1
  • antisymétrique, forme bilinéaire, 3.2
  • application linéaire, 2.3

  • base, 2.2
  • bilinéaire, forme, 3.2

  • chaleur, équation de la, 1.1
  • conique, C
  • convergente, absolument, 5.1
  • critère de d’Alembert, 5.1
  • critère de Riemann, 5.1

  • d’Alembert, critère de, 5.1
  • définie positive, 4.2

  • equation de la chaleur, 1.1
  • equation des ondes, 1.2
  • euclidien, espace, 4.2

  • Fourier, séries de, 6
  • forme quadratique, 3.2
  • forme bilinéaire, 3.2
  • forme linéaire, 2.3

  • Gram-Schmidt, 4.4
  • général, terme, 5.1
  • génératrice, famille, 2.2

  • image, 2.3
  • isométrie, 4.7

  • libre, famille, 2.2
  • linéaire, application, 2.3
  • linéaire, forme, 2.3

  • noyau, 2.3

  • ondes, équation des, 1.2
  • orthogonal, 3.4
  • orthogonale, matrice, 4.7
  • orthogonale, projection, 4.3
  • orthonormée, 3.4
  • orthonormalisation, 4.4

  • partielle, somme, 5.1
  • positive, 4.2
  • préhilbertien, espace, 4.2
  • produit matriciel, 2.4
  • produit scalaire, 4
  • projection orthogonale, 4.3

  • quadratique, forme, 3.2

  • Riemann, critère de, 5.1
  • rang (application linéaire), 2.3
  • rang (forme bilinéaire), 3.3
  • rang (matrice), 2.5

  • série, 5.1
  • séries de Fourier, 6
  • scalaire, produit, 4
  • signature, 3.5.2
  • somme partielle, 5.1
  • son, 1
  • spectrale, analyse, 1
  • symétrique, forme bilinéaire, 3.2
  • symétrique, matrice, 2.4

  • terme général, 5.1
  • transposition, 2.4

  • unitaire, matrice, 4.7

Chapitre 1  Motivations

Les séries de Fourier permettant d’écrire une fonction périodique (par exemple un signal périodique) comme une somme de fonctions périodiques fondementales (sinus et cosinus, ou exponentielle imaginaire pure). Le but est de simplifier la résolution de problèmes qui vérifient le principe de superposition et faisant intervenir des fonctions périodiques en se ramenant à ces fonctions périodiques fondementales.

Exemple: écriture approchée de 12+sin(t)\frac{1}{2+\sin(t)} comme somme de fonctions sinusoides fondementales 33+143+243cos(2t)+19433363cos(4t)+523903sin(3t)+43+63sin(t)\frac{\sqrt{3}}{3}+ \frac{-14 \sqrt{3}+24}{3} \cos\left(2\cdot t\right)+\frac{194 \sqrt{3}-336}{3} \cos\left(4\cdot t\right)+\frac{52 \sqrt{3}-90}{3} \sin\left(3\cdot t\right)+\frac{-4 \sqrt{3}+6}{3} \sin\left(t\right)

f1:=1/(2+sin(t));
g1:=(sqrt(3))/3+(-14*sqrt(3)+24)/3*cos(2*t)+(194*sqrt(3)-336)/3*cos(4*t)+
(52*sqrt(3)-90)/3*sin(3*t)+(-4*sqrt(3)+6)/3*sin(t);
plot([f1,g1],t,-pi,pi,color=[red,blue]);

onload
Il faut vraiment zoomer pour voir la différence

plot([f1,g1],t,-0.1,0.1,color=[red,blue]);

onload

Une application immédiate des séries de Fourier est l’analyse d’un son. Si on gratte sur une corde de guitare, on observe un phénomène périodique en temps, qui se décompose en une somme de sinusoides dont la fréquence est un multiple entier de la fréquence de base. Pour une même note de musique (par exemple un la à 440Hz), une guitare, un piano, une flute ne donneront pas le même son parce que les harmoniques sont différents. Voici 2 sons purs de fréquence 440Hz et 880Hz, et deux sons de fréquence de base 440Hz avec une harmonique n’ayant pas le même coefficient.





N.B. : la commande l:=soundsec(t) renvoie une liste ll de réels de la forme k/44100k/44100 pour k[0,44100*t]k \in [0,44100*t], par exemple


Ceci permet de générer un son de durée tt secondes échantilloné à 44.1 kHz (qualité sonore d’un CD audio) pour la commande playsnd. Si on calcule sin(2πfl)\sin(2\pi f l), on obtient la liste des sinus des réels sin(2πfk/44100)\sin(2\pi f k/44100), si on en trace la représentation graphique (avec en abscisse kk) on obtient une sinusoide avec ff périodes.

On pourrait ainsi numériser le son en stockant les coefficients des sinusoides pour la fréquence de base et de ses multiples (les harmoniques) jusqu’à la limite de sensibilité de l’oreille humaine. D’une certaine manière c’est ce que fait une partition de musique en donnant une succession de notes d’une certaine durée à jouer par des instruments de musique (chaque note jouée par un instrument correspondant en quelques sorte à une série de Fourier). Si on représente graphiquement la liste des coefficients des harmoniques en fonction des multiples de la fréquence de base, on obtient le spectre, qui donne une description complète du son (et qu’on peut manipuler avec des logiciels comme audacity par exemple faire l’analyse spectrale du son, supprimer des harmoniques trop aigües...). Voir par exemple ce document

Plus généralement, on parle d’analyse spectrale. Cette idée de décomposer en somme de fonctions périodiques“pures” s’applique à diverses généralisations des séries de Fourier : la transformée de Fourier (qui peut servir à comprendre la lumière, les couleurs correspondant à des fréquences, mais vues comme un paramètre continu variant dans +\mathbb{R}^+ et non discret restreint aux harmoniques d’une fréquence de base), et la transformée de Fourier discrète, adaptée au calcul sur machine.

Un exemple plus mathématique, si on veut résoudre une équation différentielle linéaire à coefficients constants avec second membre périodique (ressort soumis à un forçage périodique en temps, circuit RLC soumis à une source périodique en temps, ...), on a des formules simples pour trouver une solution particulière si le second membre est un sinus ou un cosinus (impédance complexe). Le principe de superposition s’applique (pour obtenir la solution particulière correspondant à un second membre somme de deux fonctions, il suffit de faire la somme des solutions particulières correspondant à chacune des deux fonctions). Bien sur, on sait résoudre ces équations différentielles avec un second membre quelconque, mais la forme de la solution n’est pas toujours explicite


et même si elle l’est, elle peut être compliquée et ne pas faire apparaitre certaines propriétés. L’existence de certains phénomènes, par exemple d’une fréquence de résonance ou d’un filtre passe-haut ou passe-bas, et la décomposition en somme de fréquences va permettre de mettre en évidence des propriétés de la solution particulière plus facilement


Historiquement, les séries de Fourier ont été inventées par Fourier pour résoudre le problème de la diffusion de la chaleur. On ne sait pas résoudre analytiquement l’équation de la chaleur, mais on va voir qu’on sait le faire lorsqu’on décompose la température initiale en somme de cosinus. On va aussi voir que la méthode utilisée pour l’équation de la chaleur est suffisamment générale pour s’appliquer dans d’autes cas, par exemple pour l’équation des ondes (qui elle se résoud analytiquement).

Mathématiquement, les concepts qui interviennent sont 

  1. de l’algèbre linéaire (principe de superposition)
  2. des sommes (de fonctions sinusoides) qui ne sont pas finies (puisqu’il y a une infinité de multiples entiers d’une fréquence de base), on les appelle des séries
  3. ces séries sont plus difficiles à étudier que des sommes de nombres réels, car il s’agit de fonctions. Pour donner un sens à la valeur d’une somme infinie de fonctions, il faut donner un sens à être petit pour une fonction, pour les séries de Fourier, le bon cadre pour cela est l’algèbre bilinéaire et les formes quadratiques.
  4. Les formes quadratiques particulières qui interviennent pour les séries de Fourier sont des produits scalaires qui généralisent le produit scalaire usuel dans 2\mathbb{R}^2 et 3\mathbb{R}^3. D’autres formes quadratiques ont des applications en physique, par exemple les trajectoires du problème à 2 corps (un astre en orbite autour d’un autre) sont des coniques dont l’équation cartésienne fait intervenir une forme quadratique, ou encore la relativité qui fait intervenir des formes quadratiques qui ne sont pas des produits scalaires, ou la mécanique quantique où les fonctions d’ondes sont des vecteurs de norme 1 d’un \mathbb{C}-espace vectoriel muni d’un produit scalaire (hermitien).

1.1  L’équation de la chaleur.

Considérons une tige chauffée de façon inhomogène, par exemple une tige métallique qui vient de servir à remuer les braises d’un feu de bois. Comment se diffuse la chaleur dans cette tige ?

On a donc une tige de longueur finie LL dont la température initiale (au temps t=0t=0) en un point d’abscisse xx est donnée par une fonction T init(x)=T(x,t=0),x[0,L]T_{\mbox{init}}(x) =T(x,t=0), \ x \in [0,L]. Dans l’exemple de la tige retirée du feu de bois, si l’extrémité de la tige est en x=Lx=L, alors T init(x)T_{\mbox{init}}(x) est une fonction croissante de xx (T init(L)T_{\mbox{init}}(L) vaut peut-etre 100 degrés, alors que T init(0)T_{\mbox{init}}(0) est proche de 20 degrés). On suppose que les échanges de chaleur entre la tige et l’air sont négligeables et que les extremités de la tige sont au contact d’un parfait isolant, ce qui implique qu’il n’y a pas de flux de chaleur à travers ces extrémités. En particulier le gradient de la température y est nul. On veut comprendre comment la chaleur se diffuse dans la barre avec le temps ; autrement dit, si T(x,t)T(x,t) est la température dans la tige au point xx en un temps tt, alors on veut comprendre l’évolution de la valeur de T(x,t)T(x,t) avec tt.

Si la température croit lorsque xx augmente, la chaleur va aller vers les xx décroissant, d’autant plus vite que Tx\frac{\partial T}{\partial x} est grand. Si on considère un petit élément de tige entre xx et x+dxx+dx, la chaleur entrante en x+dxx+dx est proportionelle à Tx(x+dx)\frac{\partial T}{\partial x}(x+dx) et la chaleur sortante en xx à Tx(x)\frac{\partial T}{\partial x}(x) donc on a un bilan de chaleur entrant de Tx(x+dx)Tx(x)\frac{\partial T}{\partial x}(x+dx)-\frac{\partial T}{\partial x}(x), qui va réchauffer le morceau de tige entre xx et x+dxx+dx, donc est proportionnel à Ttdx\frac{\partial T}{\partial t} dx Les lois de la physique entrainent donc que TT doit satisfaire à l’équation, dite équation de la chaleur : Tt=k 2Tx 2\frac{\partial T}{\partial t}= k \frac{\partial^2 T}{\partial x^2} kk est une constante positive (la diffusivité) qui dépend du matériau (proportionnelle à sa conductivité thermique).

Nous avons en plus les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t,\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t, qui traduisent l’absence de flux de chaleur à travers les extrémités, et la condition initiale T(x,t=0)=T init(x).T(x,t=0)= T_{\mbox{init}}(x). Oublions d’abord la condition T(x,0)=T init(x)T(x,0)=T_{\mbox{init}}(x). Autrement dit, on cherche les solutions vérifiant seulement les conditions au bord Tx(0,t)=Tx(L,t)=0 pour tout t.\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)= 0 \ \mbox{ pour tout }\ t. L’équation étant beaucoup trop compliquée pour être résolue avec les méthodes dont nous disposons actuellement, nous allons commencer par simplement chercher des exemples de fonctions qui la satisfont. Les fonctions à variables séparées (c’est-à-dire s’écrivant dans la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t)) sont une source féconde d’exemples satisfaisant à des équations aux dérivées partielles, puisque de telles équations se simplifient souvent dans ce cas. Nous commencerons donc par chercher des solutions de la forme T(x,t)=f(x)g(t)T(x,t)=f(x)g(t). On a alors : f(x)g(t)=kf(x)g(t),f(x)g'(t)=kf''(x)g(t), soit f(x)f(x)=g(t)kg(t),\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}, au moins sur la région ou ni ff ni gg ne s’annule. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)kg(t)=α.\frac{f''(x)}{f(x)}=\frac{g'(t)}{kg(t)}=\alpha. Ainsi, on a f(x)αf(x)=0f''(x)-\alpha f(x)=0 et g(t)kαg(t)=0.g'(t)-k\alpha g(t)=0. On a donc g(t)=λe kαtg(t)=\lambda e^{k\alpha t} pour λ\lambda\in\mathbb{R}, et donc g(t)0g(t)\neq 0 pour tout t0t\geq 0 (car on cherche TT non identiquement nulle). La contrainte Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)=\frac{\partial T}{\partial x}(L,t) =0 entraîne alors f(0)=f(L)=0f'(0)=f'(L)=0. Pour résoudre l’équation en ff il nous faut maintenant distinguer 3 cas.

  1. Cas 1 : α=0\alpha=0. On a alors f(x)=0f''(x)=0, et donc f(x)=b 0x+a 0f(x)=b_0x+a_0. Les conditions f(0)=f(L)=0f'(0)=f'(L)=0 imposent alors facilement f(x)=a 0f(x)=a_0 pour tout xx. On a donc une première solution de base T 0(x,t)=1.T_0(x,t)=1.
  2. Cas 2 : α>0\alpha>0. On peut exclure ce cas par des considérations physiques, car gg serait exponentiellement croissante. D’un point de vue mathématique, on peut alors poser α=ω 2\alpha=\omega^2 et ff est de la forme f(x)=ae ωx+be ωxf(x)=a e^{\omega x}+ be^{-\omega x}. Les conditions que f(0)=0f'(0)=0 et f(L)=0f'(L)=0 impliquent alors a=b=0a=b=0, et ff est identiquement nulle, ce qui est exclu.
  3. Cas 3 : α<0\alpha&lt;0. On peut alors poser α=ω 2\alpha=-\omega^2 et f(x)=acos(ωx)+bsin(ωx),a,b,.f(x)=a\cos(\omega x)+b\sin(\omega x), a,b,\in\mathbb{R}. Puisque f(0)=0f'(0)=0 on a b=0b=0, et puisque f(L)=0f'(L)=0 on a asin(ωL)=0a\sin(\omega L)=0. Puisque l’on cherche TT non nulle, on a a0a\neq 0 et donc sin(ωL)=0\sin(\omega L)=0.

    Ainsi ωL=πn\omega L=\pi n pour n0n\geq 0 entier (remarque : ceci quantifie les ω\omega possibles qui prennent une suite discrète de valeurs), et donc pour chaque nn, on a une solution de la forme T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}.

Pour chaque entier positif n0n\geq 0 nous avons donc une solution de l’équation de la chaleur T n(x,t)=cos(nπxL)e π 2n 2L 2kt.T_n(x,t)=\cos\left(\frac{n\pi x}{L}\right)e^{-\frac{\pi^2 n^2}{L^2}kt}. (Nous pouvons intégrer la solution T 0(x,t)=1T_0(x,t)=1 dans cette famille de solutions en considérant qu’il s’agit de T 0(x,t)=cos(0x)e 0tT_0(x,t)= \cos(0x)e^{-0t}.) La condition initiale T init,n(x)T_{\mbox{init},n}(x) correspondant à la solution T n(x,t)T_n(x,t) est donnée par T init,n(x)=T n(x,0)T_{\mbox{init},n}(x)= T_n(x,0), c’est à dire T init,n(x)=cos(nπxL). T_{\mbox{init},n}(x)= \cos\left(\frac{n\pi x}{L}\right). Nous avons donc trouvé une solution à l’équation de la chaleur pour certaines conditions initiales bien particulières, c’est à dire certains cosinus. Est ce qu’on peut en construire d’autres solutions pour d’autres conditions initiales ?

Notons tout d’abord que l’équation de la chaleur à une propriété très utile :

Remarque 1 (Linéarité de l’équation de la chaleur.)   Si T 1(x,t)T_1(x,t) et T 2(x,t)T_2(x,t) sont deux solutions à l’équation de la chaleur alors pour tous réels λ,μ\lambda, \mu\in \mathbb{R} T(x,t)=λT 1(x,t)+μT 2(x,t) T(x,t)= \lambda T_1(x,t)+\mu T_2(x,t) est encore une solution de cette équation. (Une telle fonction est appellée une combinaison linéaire de T 1T_1 et T 2T_2). On dit alors que l’équation de la chaleur est une équation linéaire.

Exercice. Démontrer que l’équation de la chaleur est une équation linéaire.

En particulier, toute fonction qui est une combinaison linéaire finie T(x,t)=λ 0T 0(x,t)+λ 1T 1(x,t)+λ 2T 2(x,t)++λ nT n(x,t)T(x,t)=\lambda_0 T_0(x,t)+\lambda_1 T_1(x,t)+\lambda_2T_2(x,t)+\ldots +\lambda_n T_n(x,t) avec des nombres réels λ 0,,λ n\lambda_0, \ldots, \lambda_n est encore une solution de l’équation de la chaleur. Cette solution corresponde à la condition initiale T init(x)=T(x,0)T_{\mbox{init}}(x)=T(x,0) c’est à dire T init(x)=λ 0+λ 1cos(πxL)+λ 2cos(2πxL)++λ ncos(nπxL).T_{\mbox{init}} (x)= \lambda_0+ \lambda_1 \cos\left(\frac{\pi x}{L}\right)+\lambda_2\cos\left(\frac{2 \pi x}{L}\right) +\ldots + \lambda_n\cos\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution pour l’équation de la chaleur pour certaines conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de cosinus.

Et il vient assez naturellement l’idée : Peut-on résoudre cette équation de la même façon pour une condition initiale T initT_{\mbox{init}} quelconque en l’écrivant comme une “somme infinie” de cosinus ?

Remarque 2   La méthode de séparation de variables s’applique aussi à l’équation de Schrödinger, ici pour une particule de masse mm et charge qq soumise à un potentiel V(x)V(x) en dimension 1 d’espace, et permet de trouver les états stationnaires : iφt=( 22m 2x 2+qV(x))φi \hbar \frac{\partial \varphi}{\partial t}= \left(-\frac{\hbar^2}{2m}\frac{\partial^2 }{\partial x^2} +qV(x) \right) \varphi Si on pose φ(x,t)=f(x)g(t)\varphi(x,t)=f(x)g(t), on a if(x)g(t)=( 22mf(x)+qV(x)f(x))g(t)i \hbar f(x) g'(t)=\left(-\frac{\hbar^2}{2m}f''(x)+qV(x) f(x)\right) g(t) Donc ig(t)g(t)= 22mf(x)f(x)+qV(x)=Ei \hbar \frac{g'(t)}{g(t)}=-\frac{\hbar^2}{2m}\frac{f''(x)}{f(x)}+qV(x)= E constant, c’est le niveau d’énergie de la particule que l’on trouve en résolvant l’équation en xx (pour un potentiel qui piège la particule, on trouve, comme pour l’équation de la chaleur, que seules certaines valeurs de EE conviennent), alors qu’en tt, on a g(t)=e iEtg(0)g(t)=e^{-i\frac{Et}{\hbar}} g(0)

1.2  L’équation des ondes.

Pour illustrer que la méthode utilisée pour l’équation de la chaleur est pertinente, nous allons voir qu’elle peut s’appliquer à une équation que l’on sait résoudre autrement : l’équation des ondes.

Un fil horizontal de longueur LL, soumis à une tension TT et de densité linéaire μ\mu, est tenu aux deux extremités. Par exemple une corde de guitare de longueur L=3L=3 pincée en un point d’abscisse 1 et d’ordonnée très petite (0.2 sur le dessin) aura le profil suivant

gl_ortho=1; L:=3; P:=point(1,0.2); segment(0,P);segment(P,L);

onload
Au temps t=0t=0 il est relaché et se met à osciller librement dans un plan vertical.

Soit y(x,t)y(x,t) la fonction égale au déplacement vertical1 à l’instant tt de la partie du fil qui se trouve (à l’équilibre) à une distance xx d’une des extremités.
Nous avons cette fois les conditions aux bords y(0,t)=y(L,t)=0, y(0, t)= y(L,t)=0, qui traduisent le fait que le fil est attaché aux extrémités. Si le déplacement initial du fil est décrit par la fonction y init(x)y_{\mbox{init}}(x) alors nous avons aussi les conditions initiales y(x,0)=y init(x) et yt(x,0)=0,y(x,0)= y_{\mbox{init}}(x)\ \mbox{ et }\ \frac{\partial y}{\partial t}(x,0)=0, cette dernière condition traduisant le fait que le fil est relâché à l’instant t=0t=0 et se trouve donc à ce moment-là au repos.

Si on considère le morceau de fil compris entre les abscisses xx et x+dxx+dx, il est soumis à deux forces :

Le principe fondemental de la dynamique donne alors μ 2yt 2dx=T(y(x+dx)y(x))\mu \frac{\partial ^2 y}{\partial t^2} dx = T(y'(x+dx)-y'(x)) L’évolution de yy est décrite (au premier ordre, car on a fait comme si le vecteur (1,y)(1,y') était normé, et on n’a pas tenu compte de la possible variation locale de tension si yy' est non nul) par l’équation des ondes 2yt 2=c 2 2yx 2 \frac{\partial ^2 y}{\partial t^2}=c^2\frac{\partial^2 y}{\partial x^2} cc est la constante positive c 2=Tμc^2=\frac{T}{\mu}.

On sait déterminer la solution de cette équation, on prolonge y inity_{\mbox{init}} par périodicité (période LL), on a alors : y(x,t)=12(y init(x+ct)+y init(xct))y(x,t)=\frac{1}{2}(y_{\mbox{init}}(x+ct)+y_{\mbox{init}}(x-ct)) Cherchons comme ci-dessus des solutions de la forme f(x)g(t)f(x)g(t). On a alors f(x)g(t)=c 2f(x)g(t),f(x)g''(t)=c^2f''(x)g(t), soit f(x)f(x)=g(t)c 2g(t).\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}. Notons que le membre de gauche est une fonction qui ne dépend que de xx et le membre de droite est une fonction qui ne dépend que de tt : comme xx et tt sont deux variables indépendantes, cela implique qu’il existe α\alpha\in\mathbb{R} tel que f(x)f(x)=g(t)c 2g(t)=α.\frac{f''(x)}{f(x)}=\frac{g''(t)}{c^2g(t)}=\alpha. Ainsi, on a f(x)αf(x)=0 et g(t)c 2αg(t)=0.f''(x)-\alpha f(x)=0\ \mbox{ et }\ g''(t)-c^2\alpha g(t)=0. Le même raisonnement que ci-dessus nous montre que cette équation a une solution telle que y(0,t)=y(L,t)=0y(0,t)= y(L, t)=0 si et seulement si il existe un entier nn tel que α=n 2π 2L 2\alpha= -\frac{n^2\pi^2}{L^2} et dans ce cas on a une solution donnée par y n(x,t)=sin(nπxL)cos(cnπtL). y_n(x,t)= \sin\left(\frac{n\pi x}{L}\right)\cos\left(\frac{ cn\pi t}{L}\right) . Ceci nous donne une solution au problème pour une condition initiale Y n(x)=sin(nπxL). Y_n(x)= \sin\left(\frac{n\pi x}{L}\right). On vérifie bien que y n(x,t)=12(Y n(x+ct)+Y n(xct))y_n(x,t)=\frac{1}{2} (Y_n(x+ct)+Y_n(x-ct))

Remarque 1   L’équation des ondes est encore une équation linéaire,

Exercice Démontrer que l’équation des ondes est linéaire.

Puisque la fonction y n(x,t)y_n(x,t) est une solution pour chaque nn, toute combinaison linéaire finie y(x,t)=λ 1y 1(x,t)+λ 2y 2(x,t)++λ ky k(x,t)y(x,t)=\lambda_1 y_1(x,t)+\lambda_2y_2(x,t)+\ldots +\lambda_k y_k(x,t) ou les λ k\lambda_k sont des nombres réels est encore une solution de l’équation de la chaleur. Cette solution correspond à la condition initiale y init(x)=λ 1sin(πxL)+λ 2sin(2πxL)++λ nsin(nπxL).y_{\mbox{init}} (x)= \lambda_1 \sin\left(\frac{\pi x}{L}\right)+\lambda_2\sin\left(\frac{2\pi x}{L}\right) +\ldots + \lambda_n\sin\left(\frac{n\pi x}{L}\right). Nous savons donc trouver une solution à cette équation pour des conditions initiales bien particulières : celles qui s’écrivent comme des sommes finies de sinus.

Il vient la même idée que dans le cas de l’équation de la chaleur : Peut-on résoudre cette équation pour une condition initiale quelconque y inity_{\mbox{init}} en écrivant y inity_{\mbox{init}} comme une “somme infinie” de sinus ?

Avant de se lancer dans des spéculations sur les sommes infinies de fonctions, il faudrait déjà savoir ce que veut dire une somme infinie de nombres. Dans un prochain chapitre, nous allons étudier les séries2 numériques.

Puis nous remplacerons les nombres par des fonctions. Nous voudrions prendre une fonction y init(x)y_{\mbox{init}}(x), définie sur une intervalle [0,L][0,L], et l’écrire comme une somme infinie de fonctions trigonométriques, dans l’espoir que cela nous permettra de résoudre l’équation de la chaleur avec condition initiale y inity_{\mbox{init}}.

Notons tout d’abord que la définition que nous avons donnée d’une somme infinie de nombres ne s’applique pas naturellement aux fonctions. En effet, la valeur d’une somme infinie s’exprime comme une limite d’une suite, et pouvoir parler de la limite d’une suite on a besoin d’une notion de distance - il faut pouvoir dire quand deux objets sont “proches”. Or, si cette notion est intuitive pour des nombres réels ou complexes, c’est beaucoup plus délicat de dire quand deux fonctions sont “proches” ou de définir une “distance” entre deux fonctions.

Mettons brièvement de côté cette difficulté. Si on nous donne une fonction y inity_{\mbox{init}} sur une intervalle [0,L][0,L], comment pourrait-on essayer d’écrire y inity_{\mbox{init}} comme une somme infinie de fonctions trigonométriques ? Une première idée pourrait être de calculer cette somme par approximations successives : pour chaque entier kk, on pourrait essayer de calculer S k(y init)S_k(y_{\mbox{init}}), qui serait le “meilleur approximant” de y inity_{\mbox{init}}, sous la forme a 0+a 1cos(πxL)+a 2cos(2πxL)++a kcos(kπxL) a_0+ a_1\cos(\frac{\pi x}{L})+a_2\cos(2\frac{\pi x}{L})+\ldots + a_k\cos(k\frac{\pi x}{L}) Peut être qu’en prenant des valeurs de kk de plus en plus grandes, on trouvera des S k(y init)S_k(y_{\mbox{init}}), sommes trigonométriques finies, de plus en plus proches de y inity_{\mbox{init}} ? Peut être que lorsque kk tend vers \infty, les S k(y init)S_k(y_{\mbox{init}}) convergeront vers une somme infinie de fonctions trigonométriques dont le résultat est y inity_{\mbox{init}} ?

Cette idée d’écrire y inity_{\mbox{init}} comme une somme infinie de fonctions trigonométriques par approximations successives est séduisante, mais pose beaucoup de questions :

  1. Quel sens donner à une somme infinie de fonctions ?
  2. Qu’est ce que ça veut dire, quand on dit que deux fonctions sont “proches” ?
    Comment quantifier la “distance” entre deux fonctions ?
  3. Comment calculer effectivement cette “meilleure approximation” S k(y init)S_k(y_{\mbox{init}}) ?
  4. Qu’est ce que cela signifie quand on dit qu’une suite de fonctions converge vers une autre fonction ?

Nous avons déjà commencé dans le chapitre précedent à répondre à la question 1), au moins dans le cas simple qui est celui d’une somme infinie de nombres. Nous chercherons maintenant à comprendre ce que peut vouloir dire une “bonne approximation” pour des fonctions. En effet, le premier problème que l’on rencontre lorsqu’on essaie de résoudre ces deux équations par une méthode d’approximations successives est celui de définir ce qu’on veut dire par une “bonne approximation”, ou une “distance” entre deux fonctions.3

Nous allons en particulier regarder de près la question suivante :
Supposons donnée sur un intervalle [0,L][0,L] une fonction ff. Comment faire pour trouver la meilleure approximation pour ff de la forme S n(f)=a 0+ j=1 na jcos(jπxL)+b jsin(jπxL)? S_n(f)= a_0+ \sum_{j=1}^n a_j \cos\left(j \frac{\pi x}{L}\right)+b_j\sin \left(j\frac{\pi x}{L}\right)\; ? Si nous ne disposons pas actuellement d’une bonne notion de distance entre des fonctions4 il existe bien des espaces pour lesquels on connait une définition de distance. Ce sont les espace géométriques 2\mathbb{R}^2 et 3\mathbb{R}^3. De plus, dans ces espaces, il existe des algorithmes efficaces qui permettent, étant donnés un point xx et un plan ou droite SS, de calculer le point de SS le plus proche de xx.

Nous allons nous baser sur ce que nous savons sur 2\mathbb{R}^2 et 3\mathbb{R}^3 pour définir des distances entre fonctions (et plein d’autres choses). Dans le prochain chapitre, nous allons étudier la notion d’espace vectoriel, qui réunit (entre autres) les espaces géométriques et les espaces de fonctions.


1
par rapport à l’équilibre
2
C’est le nom que les mathématiciens donnent aux sommes infinies.
3
Nous serons particulièrement attentifs à la question de l’approximation d’une fonction quelconque par des sommes de fonctions trigonométriques sin(nπx)\sin(n\pi x) et cos(nπx)\cos(n\pi x), puisque ces fonctions, qui représentent mathématiquement les phénomènes physiques ondulatoires, occupent une place très importante dans les mathématiques au service de la physique.
4
Et encore moins d’un algorithme permettant de calculer ce “meilleur approximant” pour une fonction donnée...

Chapitre 2  Rappels d’algèbre linéaire.

2.1  Rappels sur les espaces vectoriels : définitions et exemples.

Un \mathbb{R}-espace vectoriel est un ensemble VV tel que la somme de deux éléments de VV est encore un élément de VV, le produit d’un réel (appelé scalaire réel) par un élément de VV est encore un élément de VV, et qui vérifie les propriétés habituelles des sommes et produits (x+y=y+xx+y=y+x, existence d’un élément nul, d’un opposé, distributivité du produit par rapport à la somme...). L’exemple typique est l’ensemble des solutions d’un système homogène d’équations linéaires.

Définition 1   Plus formellement, un espace vectoriel VV doit être muni d’une loi interne V×VV,(x,y)x+y,V\times V\to V,(x,y)\mapsto x+y, et d’une loi externe ×VV,(λ,x)λx,\mathbb{R}\times V\to V,(\lambda,x)\mapsto \lambda\cdot x, appelée parfois multiplication par un scalaire, satisfaisant aux propriétés suivantes:
  1. Il existe un élément 0 VV0_V\in V tel que 0 V+x=x+0 V=x0_V+x=x+0_V=x pour tout xVx\in V.
  2. x+(y+z)=(x+y)+zx+(y+z)=(x+y)+z pour tout x,yVx,y\in V
  3. x+y=y+xx+y=y+x pour tout x,yVx,y\in V
  4. Pour tout xVx\in V, il existe un élément xVx'\in V tel que x+x=x+x=0 Vx+x'=x'+x=0_V. Cet élément xx' est alors unique, et est noté x-x.
  5. 1x=x1\cdot x=x pour tout xMx\in M
  6. (λμ)x=λ(μx)(\lambda\mu)\cdot x=\lambda\cdot(\mu\cdot x) pour tout λ,μ,xV\lambda,\mu\in \mathbb{R},x\in V
  7. λ(x+y)=λx+λy\lambda\cdot (x+y)=\lambda\cdot x+\lambda\cdot y pour tout x,yV,λx,y\in V,\lambda\in \mathbb{R}
  8. (λ+μ)x=λx+μx(\lambda+\mu)\cdot x=\lambda\cdot x+\mu\cdot x pour tout xV,λ,μx\in V,\lambda,\mu\in \mathbb{R}.

Un \mathbb{C}-espace vectoriel est défini de manière analogue en remplaçant \mathbb{R} par \mathbb{C}, on peut donc multiplier un élément de VV par un complexe (un scalaire complexe).

Remarque 2   On écrira λx\lambda x pour λx\lambda \cdot x.

Exemples :

  1. n\mathbb{R}^n, l’espace de vecteurs colonnes X̲=(x 1 x 2 x n)\underline{X}=\begin{pmatrix} x_1 \\ x_2\\ \vdots \\ x_n\end{pmatrix} avec x ix_i\in \mathbb{R}, est un espace vectoriel réel. L’espace n\mathbb{C}^n de vecteurs colonnes complexes est un espace vectoriel complexe.
  2. [X]\mathbb{R}[X], l’espace de polynômes réels en une variable XX, est un espace vectoriel réel. De même, [Y]\mathbb{C}[Y], l’espace de polynômes complexes en une variable YY est une espace vectoriel complexe.
  3. n[X]\mathbb{R}_n[X], l’espace de polynômes réels en une variable XX de degré n\leq n, est un espace vectoriel réel. De même, n[Y]\mathbb{C}_n[Y], l’espace de polynômes complexes en une variable YY de degré n\leq n, est une espace vectoriel complexe.
  4. M n()\mbox{M}_n(\mathbb{R}), l’espace de matrices n×nn\times n à coefficients réels, est un espace vectoriel réel,
  5. Pour tout a<ba&lt;b\in \mathbb{R} l’espace C 0([a,b],)C^0([a,b],\mathbb{R}) de toutes les fonctions continues réelles sur l’intervalle [a,b][a,b], est un espace vectoriel réel.
  6. Pour tout a<ba&lt;b\in \mathbb{R} et tout entier i>0i&gt;0 l’espace C i([a,b],)C^i([a,b],\mathbb{C}) de toutes les fonctions ii-fois continument dérivables à valeurs dans les complexes sur l’intervalle [a,b][a,b], est un espace vectoriel complexe.

Vérifier tous ces axiomes est fastidieux. Heureusement dans la pratique, nous travaillerons souvent avec des espaces vectoriels qui sont inclus dans d’autres pour lesquels on a une procédure de vérification simplifiée.

Définition 3   Soit VV un \mathbb{R}-espace vectoriel. Un sous-espace vectoriel WW de VV est un sous-ensemble de WVW\subset V contenant le vecteur nul de VV, tel que
  1. pour tout w 1,w 2Ww_1, w_2\in W nous avons que w 1+w 2Ww_1+w_2\in W
  2. pour tout w 1Ww_1\in W et λ\lambda\in \mathbb{R} nous avons que λw 1W\lambda w_1\in W

On montre que l’ensemble WW est bien un espace vectoriel avec l’addition et la multiplication héritées de VV.

Exercice 4   Montrer que les sous-ensembles suivants sont tous des sous-espaces vectoriels.
  1. L’ensemble de tous les (x,y) 2(x,y)\in \mathbb{C}^2 tels que x+y=0x+y=0.
  2. L’ensemble des solutions d’un système linéaire homogène d’équations.
  3. Un plan d’équation ax+by+cz=0ax+by+cz=0 (a,b,ca,b,c\in\mathbb{R} fixés) dans 3\mathbb{R}^3.
  4. L’ensemble {P[X]|P(1)=0}\{ P\in \mathbb{R}[X]| P(1)=0\} des polynômes à coefficients réels qui s’annulent en 1
  5. L’ensemble {MM n()| tM=M}\{ M\in M_n(\mathbb{C})| {}^tM= M\} des matrices symétriques dans M n()M_n(\mathbb{C}).
  6. L’ensemble de toutes les fonctions deux fois dérivables fC 2(,)f\in C^2(\mathbb{R},\mathbb{R}) telles que f=2ff''= -2f dans C 2(,)C^2(\mathbb{R},\mathbb{R}).
  7. L’ensemble PP des fonctions de \mathbb{R} dans \mathbb{R} de période 2π2\pi (i.e. fPf \in P lorsque f(x+2π)=f(x)f(x+2\pi)=f(x) pour tout réel xx). Qu’en est-il des fonctions périodiques ?

2.2  Familles libres, génératrices, bases et coordonnées.

Définition 1   On vérifie aisément que l’ensemble EE des combinaisons linéaires d’une famille de vecteurs {v 1,...,v n}\{v_1,...,v_n\} d’un espace vectoriel VV est un sous-espace vectoriel de VV que l’on notera E=E=Vect(v 1,...,v n)(v_1,...,v_n). On dit aussi que {v 1,...v n}\{v_1,...v_n\} est une famille génératrice de EE (tout élément de EE sécrit comme combinaison linéaire des éléments de la famille).

Si v nv_n est une combinaison linéaire de v 1,...,v n1v_1,...,v_{n-1} v n=λ 1v 1+...+λ n1v n1v_n=\lambda_1 v_1+... + \lambda_{n-1} v_{n-1} alors Vect(v 1,...,v n1)(v_1,...,v_{n-1})=Vect(v 1,...,v n)(v_1,...,v_n), on peut donc enlever v nv_n de la famille génératrice sans changer l’espace vectoriel engendré.

Définition 2   On dit qu’une famille vecteurs (e 1,,e n)(e_1,\ldots, e_n) est libre si aucun vecteur n’est combinaison linéaire des autres, ou de manière équivalente si l’équation λ ie i=0 V\sum \lambda_i e_i=0_V d’inconnues λ 1,...,λ n\lambda_1,...,\lambda_n a pour unique solution λ 1=...=λ n=0\lambda_1=...=\lambda_n=0

Une base d’un espace vectoriel EE est une famille génératrice et libre. On peut obtenir une base en enlevant tous les éléments superflus d’une famille génératrice : on commence par enlever v 1v_1 si v 1=0v_1=0, puis v 2v_2 si v 2v_2 est combinaison linéaire de v 1v_1, puis v 3v_3 si v 3v_3 est combinaison linéaire de v 1,v 2v_1,v_2, etc.

Une base permet de représenter (de manière unique) un élément d’un espace vectoriel par un vecteur colonne.

Définition 3   Soit VV un espace vectoriel réel. Une famille ordonnée d’éléments de VV, e={e 1,,e n}{\bf e}=\{e_1, \ldots, e_n\} est une base (finie) pour VV si pour tout élément vVv\in V il existe un unique n-uplet de scalaires λ 1,λ 2,,λ n\lambda_1, \lambda_2, \ldots, \lambda_n tels que v=λ 1e 1+λ 2e 2++λ ne n. v= \lambda_1e_1+\lambda_2e_2+\ldots +\lambda_n e_n.

L’écriture est unique sinon la famille {e 1,,e n}\{e_1, \ldots, e_n\} ne serait pas libre.

Définition 4   Avec les notations de la définition 3, nous dirons que le vecteur colonne (λ 1 λ 2 λ n) \begin{pmatrix}\lambda_1\\ \lambda_2 \\ \vdots \\ \lambda_n\end{pmatrix} est le vecteur des coordonnées de vv dans la base e{\bf e}.
Remarque 5 (Attention !)   Le vecteur de coordonnées de vv dans une base e{\bf e} dépend autant de la base e{\bf e} que du vecteur vv.
Remarque 6 (Notation)  Dans ce qui suit il sera très important de distinguer l’élément vv dans un espace vectoriel VV de dimension finie nn (qui peut être un vecteur colonne, ou une matrice, ou une fonction, ou un polynôme, ou plein d’autres choses) et le vecteur colonne V̲ n\underline{V}\in \mathbb{R}^n qui le représente dans une base donnée.

Pour bien distinguer ces deux objets, nous soulignerons systématiquement les noms des variables qui sont des vecteurs colonnes, et ne soulignerons pas ceux qui ne le sont pas.
Exemples 7  

  1. Les vecteurs (1 0 0),,(0 0 1)\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) ,\cdots,\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) forment une base de n\mathbb{R}^n, appelée la base canonique.

    Si
    (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) est un élément de n\mathbb{R}^n alors on peut écrire (x 1 x 2 x n)=x 1(1 0 0)++x n(0 0 1); \left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right)= x_1\left(\begin{array}{c} 1 \\ 0\\ \vdots\\ 0\end{array}\right) +\cdots+ x_n\left(\begin{array}{c} 0 \\ \vdots\\ 0\\ 1\end{array}\right) ; autrement dit, le vecteur de coordonnées de (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right) dans la base canonique est (x 1 x 2 x n)\left(\begin{array}{c} x_1 \\ x_2\\ \vdots\\ x_n\end{array}\right). Ceci est une source importante de confusion.
  2. Montrons que B={(1 1),(1 2)}B=\left\{\left(\begin{array}{c} 1\\ 1\end{array}\right), \left(\begin{array}{c} 1\\ 2\end{array}\right)\right\} est une base de 2\mathbb{C}^2. Nous considérons pour un vecteur arbitraire (x y)\left(\begin{array}{c} x\\ y\end{array}\right) l’équation (x y)=λ 1(1 1)+λ 2(1 2) \left(\begin{array}{c} x\\ y\end{array}\right)= \lambda_1 \left(\begin{array}{c} 1\\ 1\end{array}\right)+ \lambda_2\left(\begin{array}{c} 1\\ 2\end{array}\right) c’est-à-dire x=λ 1+λ 2 x= \lambda_1+ \lambda_2 y=λ 1+2λ 2 y= \lambda _1+ 2\lambda_2 ce qui (après pivot de Gauss) nous donne l’unique solution λ 1=2xy,\lambda_1= 2x-y, λ 2=yx.\lambda_2= y-x. Cette famille est donc une base et le vecteur de coordonnées de (x y)\left(\begin{array}{c} x\\ y\end{array}\right) dans la base BB est (2xy yx). \left(\begin{array}{c} 2x-y\\ y-x\end{array}\right).
  3. La famille B=(1,X,,X n)B=(1,X,\ldots,X^n) forme une base de l’espace vectoriel [X] n\mathbb{R}[X]_n des polynômes à coefficients dans \mathbb{R} de degré au plus nn. Si P=a 0+a 1X+a nX nP= a_0+a_1X+\ldots a_n X^n est un élément de n[X]\mathbb{R}_n[X] alors son vecteur de coefficients dans la base BB est (a 0 a 1 a n). \left(\begin{array}{c} a_0\\ a_1\\ \vdots \\ a_n \end{array}\right).
  4. On considère M 2()M_2(\mathbb{C}), l’espace de matrices carrées complexes 2×22\times 2. Elle a une base B=((1 0 0 0),(0 1 0 0),(0 0 1 0),(0 0 0 1),)B=\left(\begin{pmatrix} 1 & 0\\ 0& 0 \end{pmatrix}, \begin{pmatrix} 0& 1\\ 0& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 1& 0\end{pmatrix}, \begin{pmatrix} 0 & 0\\ 0& 1\end{pmatrix}, \right) et dans cette base la matrice M=(a b c d)M=\begin{pmatrix}a & b\\ c& d\end{pmatrix} a pour vecteur de coefficients (a b c d)\begin{pmatrix}a \\ b\\ c\\ d\end{pmatrix}.
  5. On considère l’espace de fonctions réelles deux fois dérivables sur \mathbb{R} qui satisfont l’équation f=2ff''= -2f. Vous avez vu en L1 que cette espace est de dimension 2 et la famille (cos(2x),sin(2x))(\cos(\sqrt{2}x), \sin(\sqrt{2} x)) en est une base. Le vecteur de coordonnées de la fonction f=acos(2x)+bsin(2x)f=a\cos(\sqrt{2} x)+ b\sin(\sqrt{2}x) dans cette base est (a b)\begin{pmatrix}a\\ b\end{pmatrix}.
Définition 8   Lorsqu’un espace vectoriel VV possède une base finie on dit que VV est de dimension finie.

Soit nn le nombre d’éléments de cette base BB de VV. Alors une famille libre de VV a au plus nn éléments. Sinon, considérons une famille libre {v 1,...,v n+1}\{v_1,...,v_{n+1}\}. On pose le système λ 1v 1+...+λ n+1v n+1=0\lambda_1 v_1+...+\lambda_{n+1} v_{n+1}=0 en écrivant les coordonnées des vecteurs dans la base BB. Ce système a plus d’inconnues (n+1n+1) que d’équations (nn) donc il admet une solution non identiquement nulle, ce qui est absurde car on a supposé la famille libre. (En faisant le pivot de Gauss on peut écrire le système sous forme échelonnée. Si on trouve un pivot dans les colonnes de 1 à nn, on peut exprimer λ n\lambda_n en fonction de λ n+1\lambda_{n+1} avec la dernière équation, puis λ n1\lambda_{n-1} en fonction de λ n+1\lambda_{n+1}, etc. et on trouve une solution non identiquement nulle. S’il y a une colonne sans pivot, par exemple la troisième, alors on prend λ 4=...=λ n+1=0\lambda_4=...=\lambda_{n+1}=0, la deuxième équation donne λ 2\lambda_2 en fonction de λ 3\lambda_3 et la première équation λ 1\lambda_1 en fonction de λ 2\lambda_2.

On en déduit que :

Proposition 9   Toutes les bases de VV ont alors le même nombre d’éléments : ce nombre s’appelle la dimension de VV.
Exemples 10  
  1. L’espace n\mathbb{R}^n est de dimension nn.
  2. L’espace n[X]\mathbb{R}_n[X] est de dimension n+1n+1.
  3. L’espace M 2()M_2(\mathbb{R}) est de dimension 44.
  4. L’espace [X]\mathbb{R}[X] n’est pas de dimension finie (sinon on aurait une base, on regarde le plus grand degré des éléments de la base, un polynôme de degré plus grand ne peut pas être combinaison linéaire des éléments de la base).
  5. On peut aussi montrer que l’espace des fonctions 2π2\pi-périodiques n’est pas de dimension finie. Un des objectif des séries de Fourier, c’est en quelque sorte d’en donner une “base” mais ayant un nombre infini d’éléments.

Le résultat suivant sera souvent utilisé pour vérifier qu’une famille de vecteurs est une base.

Lemme 11   Soit VV un espace vectoriel de dimension nn et soit {e 1,,e n}\{e_1,\ldots, e_n\} une famille de nn vecteurs dans VV. Si la famille {e 1,,e n}\{e_1,\ldots, e_n\} est libre alors elle est une base.

En effet, si vVv \in V, alors la famille {e 1,,e n,v}\{e_1,\ldots, e_n,v\} n’est pas libre puisqu’elle a n+1n+1 éléments, donc on a une combinaison linéaire non identiquement nulle λ 1e 1+...+λ ne n+λv=0\lambda_1 e_1+...+\lambda_ne_n+\lambda v=0 On a λ0\lambda \neq 0 car {e 1,,e n}\{e_1,\ldots, e_n\} est libre, donc vv est combinaison linéaire de {e 1,,e n}\{e_1,\ldots, e_n\}.

Proposition 12   Tout sous-espace WW d’un espace VV de dimension finie nn est de dimension finie mnm \leq n (avec égalité si et seulement si W=VW=V).

En effet, une famille libre de WW est une famille libre de VV donc a au plus nn éléments. On crée ensuite une famille libre de WW ayant un nombre maximal d’éléments, c’est une base de WW.

Les coordonnées d’un élément vVv\in V dans une base seront essentielles dans la suite, car elles nous permettront de ramener tous nos calculs à de simples multiplications de matrices. Il nous sera, d’ailleurs, souvent utile de simplifier nos calculs au maximum en choississant une base bien adaptée. Pour faire cela, il nous faut comprendre comment le vecteur V̲\underline{V} des coordonnées d’un élément vVv\in V dans une base e{\bf e} se transforme lorsqu’on change de base.

Définition 13   Soit VV un espace vectoriel de dimension nn et soient E={e 1,,e n}{\bf E}=\{e_1, \ldots, e_n\} et F={f 1,,f n} {\bf F}=\{f_1,\ldots, f_n\} des bases de VV. On appelle matrice de passage de E{\bf E} vers F{\bf F} la matrice obtenue en écrivant en colonnes les coordonnées des f if_i dans la base E{\bf E} : P=(V̲ 1,,V̲ n)P=(\underline{V}_1,\ldots, \underline{V}_n) V̲ i\underline{V}_i est le vecteur de coordonnés de f if_i dans la base E={e 1,,e d}{\bf E}=\{e_1,\ldots, e_d\}.
Remarque 14   Cas particulier
Si
E{\bf E} est la base canonique de n\mathbb{R}^n, la matrice de passage PP est donnée par P=(f̲ 1,,f̲ n). P= (\underline{f}_1,\ldots, \underline{f}_n). C’est-à-dire que la première colonne de PP est formée par les composantes de f 1f_1, la deuxième colonne de PP par les composantes de f 2f_2, etc.

Soit {e 1,...,e n}\{e_1,...,e_n\} une base de VV. Soit {f 1,...,f n}\{f_1,...,f_n\} une autre base de VV, et vVv \in V tel que v 1f 1+...+v nf n=vv_1f_1+...+v_nf_n=v Cette équation devient un système si on remplace par les coordonnées des f if_i et de vv dans la base {e 1,...,e n}\{e_1,...,e_n\}. Ce système a pour inconnues les coordonnées de vv dans la base {f 1,...,f n}\{f_1,...,f_n\}, il a comme matrice PP la matrice de passage de {e 1,...,e n}\{e_1,...,e_n\} vers {f 1,...,f n}\{f_1,...,f_n\} et comme second membre les coordonnées de vv dans la base {e 1,...,e n}\{e_1,...,e_n\}. D’où le :

Théorème 15   Soient B 1{\bf B_1} et B 2{\bf B_2} des bases de VV et soit vv un élément de VV. Soient V̲ 1\underline{V}_1 et V̲ 2\underline{V}_2 les vecteurs de coordonnés de vv dans les bases B 1{\bf B}_1 et B 2{\bf B}_2. Soit PP la matrice de passage de B 1B_1 vers B 2B_2. Alors V̲ 1=PV̲ 2 \underline{V}_1= P \underline{V}_2 ou, de façon équivalente V̲ 2=P 1V̲ 1 \underline{V}_2= P^{-1} \underline{V}_1
Remarque 16   Attention il faut multiplier par P 1P^{-1} (et pas PP) le vecteur colonne des composantes de vv dans la base B 1{\bf B_1} pour obtenir le vecteur colonnes des composantes de vv dans la base B 2{\bf B_2}.

Il y a une généralisation de la notion de base qui sera utile dans la démonstration d’un théorème ultérieur.

Définition 17   Soient V 1,,V mV_1,\ldots,V_m des sous-espaces vectoriels de VV. On dit que VV est la somme directe des sous-espaces V 1,,V mV_1,\ldots,V_m, et on écrit V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m, si et seulement si pour tout vVv\in V il existe des uniques éléments v 1V 1,,v mV mv_1\in V_1, \ldots, v_m\in V_m tels que v=v 1++v m.v=v_1+\ldots+v_m.

On montre aussi que :

Proposition 18   Si V=V 1V 2V mV= V_1\oplus V_2\oplus \ldots \oplus V_m et pour chaque ii nous avons que e i{\bf e}_i est une base de V iV_i alors la concatenation (e 1,e 2,,e m)({\bf e}_1, {\bf e}_2,\ldots, {\bf e}_m) est une base de VV.

2.3  Applications linéaires.

Considérons maintenant la classe des applications qui préservent la structure d’un espace vectoriel.

Définition 1   Soient VV et VV' deux \mathbb{R}-espaces vectoriels.

Une application linéaire de VV dans VV' est une application φ:VV\varphi: V\to V' qui commute avec l’addition et la multiplication par un réel, donc vérifiant

  1. φ(v 1+v 2)=φ(v 1)+φ(v 2)\varphi(v_1+v_2)=\varphi(v_1)+\varphi(v_2) pour tous v 1,v 2Vv_1,v_2\in V (l’image de la somme est la somme des images)
  2. φ(λv)=λφ(v)\varphi(\lambda v)=\lambda \varphi(v) pour tous λ,vV\lambda\in \mathbb{R},v\in V (l’image du produit par λ\lambda est le produit par λ\lambda de l’image)

Dans le cas où l’espace d’arrivée est \mathbb{R} on dira que φ\varphi est une forme linéaire

Remarque 2  Pour toute application linéaire φ\varphi on a nécessairement φ(0)=0\varphi(0)=0.

Pour définir une application linéaire entre deux espaces vectoriels sur \mathbb{C}, on remplace ci-dessus \mathbb{R} par \mathbb{C}

Exemples :

  1. L’application 3 2\mathbb{R}^3\rightarrow \mathbb{R}^2 donnée par (x y z)(x y)\begin{pmatrix}x\\y\\z\end{pmatrix} \mapsto \begin{pmatrix}x\\y \end{pmatrix} est linéaire. Elle l’est aussi de 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2.
  2. L’application 3 2\mathbb{C}^3\rightarrow \mathbb{C}^2 donnée par (x y z)(x y+1)\begin{pmatrix}x\\y\\z\end{pmatrix}\mapsto \begin{pmatrix}x\\y+1 \end{pmatrix} n’est pas linéaire.
  3. L’application de \mathbb{C} \rightarrow \mathbb{C} définie par φ(z)=z¯\varphi(z)=\overline{z} n’est pas linéaire. Mais si on considère \mathbb{C} comme un \mathbb{R}-espace vectoriel (de dimension 2) elle le devient.
  4. L’application des fonctions continument dérivables dans les fonctions continues (C 1(,)C 0()C^1(\mathbb{R}, \mathbb{R})\mapsto C^0(\mathbb{R}\mathbb{R})), définie par ff2ff \mapsto f'-2f est linéaire.
  5. L’application de transposition dans l’espace vectoriel des matrices carrées M n()M n()M_n(\mathbb{C}) \mapsto M_n(\mathbb{C}) donnée par M tMM\mapsto {}^tM est linéaire.
  6. L’application de l’espace des polynômes de degré inférieur ou égal à 3 dans l’espace des polynômes de degré inférieur ou égal à 1 3[X] 1[X]\mathbb{R}_3[X] \mapsto \mathbb{R}_1[X], PPP\mapsto P'', est une application linéaire.
Exercice 3   Démontrer que les applications 1, 3, 4, 5 sont bien linéaires et que 2 ne l’est pas.
Définition 4   Le noyau de φ\varphi, noté Ker(φ)\mbox{Ker}(\varphi), est l’ensemble Ker(φ)={vVφ(v)=0}(V).\mbox{Ker}(\varphi)=\{ v\in V \mid \varphi(v)=0\}(\subseteq V). C’est un sous-espace vectoriel de VV.
Définition 5   L’image de φ\varphi, notée Im(φ)\mbox{Im}(\varphi), est l’ensemble Im(φ)={φ(v),vV}V.\mbox{Im}(\varphi)=\{ \varphi(v), v\in V\}\subseteq V'. C’est un sous-espace vectoriel de VV'.

Exercices

  1. Montrer que le noyau et l’image d’une application linéaire sont des sous-espaces vectoriels.
  2. Calculer l’image et le noyau des applications linéaires données en exemple.
Définition 6   On appelle rang d’une application linéaire φ\varphi la dimension de son image Im(φ)(\varphi).

On rappelle le théorème du rang, dont nous aurons besoin dans une démonstration ultérieure.

Théorème 7   Soit φ:VW\varphi:V\rightarrow W une application linéaire. On suppose que VV est de dimension finie. Alors Im(φ)\mbox{Im}(\varphi) est de dimension finie et dim(V)=dim(Ker(φ))+dim(Im(φ)). \mbox{dim}(V)= \mbox{dim}(\mbox{Ker}(\varphi))+\mbox{dim}(\mbox{Im}(\varphi)).

Preuve : on prend une base {v 1,...,v n}\{ v_1, ..., v_n\} de VV, les images {φ(v 1),...,φ(v n)}\{ \varphi(v_1), ..., \varphi(v_n) \} forment une partie génératrice de Imφ\varphi qui est donc de dimension finie, on prend une base de Imφ\varphi et on écrit les coordonnées des vecteurs images dans une matrice (en ligne ii, les coordonnées de φ(v i)\varphi(v_i)). On ajoute une colonne contenant les vecteurs v 1,...,v nv_1,...,v_n pour savoir de quel vecteur on a l’image. On applique le pivot de Gauss. On obtient une matrice échelonnée dont les lignes non nulles (colonne rajoutée non comprise) forment une base de Imφ\varphi, et les lignes nulles sont les images d’une base de Kerφ\varphi, base que l’on lit dans la colonne rajoutée. Comme le nombre de lignes nn est la somme des deux nombres précédents, on conclut.

2.4  Calcul Matriciel.

Dans cette section nous ferons des rappels sur les matrices et leurs manipulations. Celles-ci seront un élément clé de notre travail ce semestre.

Définition 1   Etant donnés deux entiers mm et nn strictement positifs, une matrice à mm lignes et nn colonnes est un tableau rectangulaire de réels A=(a i,j)A=(a_{i,j}). L’indice de ligne ii va de 11 à mm, l’indice de colonne jj va de 11 à nn. A=(a i,j)=(a 1,1 a 1,j a 1,n a i,1 a i,j a i,n a m,1 a m,j a m,n).A=(a_{i,j}) = \left( \begin{array}{ccccc} a_{1,1}&\cdots&a_{1,j}&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&a_{m,j}&\cdots&a_{m,n} \end{array} \right) \;. Les entiers mm et nn sont les dimensions de la matrice, a i,ja_{i,j} est son coefficient d’ordre (i,j)(i,j).

Notons qu’une matrice AA peut être précisée en donnant une expression pour ses coefficients a i,ja_{i,j} Par exemple, la matrice AA de taille 2×22\times 2 donnée par le formule a i,j=i+ja_{i,j}= i+j est la matrice A=(1+1 1+2 2+1 2+2)=(2 3 3 4).A= \begin{pmatrix} 1+1 & 1+2 \\ 2+1 & 2+2\end{pmatrix}= \begin{pmatrix} 2 & 3 \\ 3 & 4\end{pmatrix}.

L’ensemble des matrices à mm lignes et nn colonnes et à coefficients réels est noté m,n()\mathcal{M}_{m,n}(\mathbb{R}). Ce qui suit s’applique aussi, si on remplace \mathbb{R} par \mathbb{C}, à l’ensemble des matrices à coefficients complexes.

Notons trois cas spéciaux :

  1. Un vecteur de nn éléments peut s’écrire comme une vecteur colonne (x 1 x 2 x n)\begin{pmatrix}x_1\\x_2\\ \vdots \\ x_n\end{pmatrix} (matrice n×1n\times 1).
  2. Un vecteur de nn éléments peut s’écrire comme un vecteur ligne (x 1, x 2, , x n)\begin{pmatrix}x_1,&x_2,&\ldots, &x_n\end{pmatrix} (matrice 1×n1\times n).
  3. Un nombre réel xx peut être vu comme une matrice 1×11\times 1.

Du point de vue du calcul matriciel - en particulier lorsqu’il s’agit de faire des multiplications - un vecteur ligne ne se comporte pas comme un vecteur colonne. Nous ferons cette distinction en considérant, par exemple, que les vecteurs (1 2 3)et(1 2 3) \begin{pmatrix}1&2&3\end{pmatrix}\ \mbox{et}\ \begin{pmatrix}1\\ 2\\ 3\end{pmatrix} sont différents, même s’ils contiennent les mêmes nombres dans le même ordre. Toutefois certains logiciels, notamment Xcas, permettent de multiplier une matrice par un vecteur ligne, qui est alors remplacé par le vecteur colonne ayant les mêmes composantes.

Notation. Si X̲\underline{X} est un vecteur colonne à nn éléments, on notera le coefficient X̲ 1,i\underline{X}_{1,i} par X̲ i\underline{X}_i.

L’ensemble m,n()\mathcal{M}_{m,n}(\mathbb{R}) est naturellement muni d’une addition (on peut ajouter deux matrices de mêmes dimensions terme à terme) et de multiplication par des scalaires (on peut multiplier une matrice par un réel terme à terme).

  1. Addition : Si A=(a i,j)A=(a_{i,j}) et B=(b i,j)B=(b_{i,j}) sont deux matrices de m,n()\mathcal{M}_{m,n}(\mathbb{R}), leur somme A+BA+B est la matrice (a i,j+b i,j)(a_{i,j}+b_{i,j}). Par exemple : (1 1 2 3 1 1)+(3 1 5 3 0 2)=(2 2 7 0 1 1)\left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) + \left( \begin{array}{rr} -3&1\\ 5&-3\\ 0&2 \end{array} \right) = \left( \begin{array}{rr} -2&2\\ 7&0\\ 1&1 \end{array} \right)
  2. Multiplication par un scalaire : Si A=(a i,j)A=(a_{i,j}) est une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}), et λ\lambda est un réel, le produit λA\lambda A est la matrice (λa i,j)(\lambda a_{i,j}). Par exemple : 2(1 1 2 3 1 1)=(2 2 4 6 2 2)-2\, \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) = \left( \begin{array}{rr} -2&-2\\ -4&-6\\ -2&2 \end{array} \right)

Observons que ces opérations auraient le même effet si les matrices étaient disposées comme des mnmn-uplets de réels (toutes les lignes étant concaténées, par exemple)

Définition 2   (Matrice d’une application linéaire)
Soit
φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1=(e 1,...,e n)B_1=(e_1,...,e_n) dans un espace vectoriel V 2V_2 de base B 2=(f 1,..,f n)B_2=(f_1,..,f_n). On appelle matrice de φ\varphi dans les bases B 1B_1 et B 2B_2 la matrice dont les colonnes sont les composantes dans la base B 2B_2 des images φ(e 1),...,φ(e n)\varphi(e_1),...,\varphi(e_n) des vecteurs e 1,...,e ne_1,...,e_n de la base B 1B_1.

Si V 1=V 2V_1=V_2 on choisit (presque toujours) B 1=B 2B_1=B_2.

Exemple
Soit l’application linéaire de 3\mathbb{R}^3 dans 2\mathbb{R}^2 qui a un vecteur X=(x,y,z)X=(x,y,z) associe le vecteur Y=(x+2yz,3x2z)Y=(x+2y-z,3x-2z). Sa matrice dans les bases canoniques de 3\mathbb{R}^3 et 2\mathbb{R}^2 a pour première colonne les composantes de φ(e 1)=φ((1,0,0))=(1,3)\varphi(e_1)=\varphi((1,0,0))=(1,3), pour deuxième colonne les composantes de φ(e 2)=φ((0,1,0))=(2,0)\varphi(e_2)=\varphi((0,1,0))=(2,0) et pour troisième colonne les composantes de φ(e 3)=φ((0,0,1))=(1,2)\varphi(e_3)=\varphi((0,0,1))=(-1,-2) donc φ(e 1) φ(e 2) φ(e 3) 1 2 1 f 1 3 0 2 f 2,M=(1 2 1 3 0 2)\begin{array}{cccc} \varphi(e_1) & \varphi(e_2) & \varphi(e_3) & \\ 1 & 2 &-1 & f_1\\ 3 & 0 & -2 & f_2 \end{array}, \quad \Rightarrow \quad M= \left(\begin{array}{ccc} 1 & 2 &-1 \\ 3 & 0 & -2 \end{array}\right) On observe qu’on a en ligne les coefficients en x,y,zx,y,z des coordonnées du vecteur image.

Applications : Noyau et image d’une application linéaire de matrice MM
Soit φ:VV\varphi: V \mapsto V' a pour matrice MM relativement à des bases BB et BB'. Pour calculer le noyau de φ\varphi, il faut résoudre le système linéaire {x+2yz = 0 3x2z = =0\left\{ \begin{array}{ccc} x+2y-z&=&0\\ 3x-2z&=&=0 \end{array} \right. dont la matrice est MM. On réduit donc MM (en lignes) par l’algorithme du pivot de Gauss pour se ramener à une matrice triangulaire. Dans l’exemple ci-dessus, on remplace la ligne L 2L_2 par L 23L 1L_2-3L_1 ce qui donne la matrice M=(1 2 1 0 6 1)M=\left(\begin{array}{ccc} 1 & 2 &-1\\ 0 & -6 & 1 \end{array}\right) La deuxième équation donne 6y+z=0-6y+z=0 soit y=z/6y=z/6. Ensuite la première équation donne x+2yz=0x+2y-z=0 soit x=2y+z=2z/3x=-2y+z=2z/3. Donc (x,y,z)=z(2/3,1/6,1)(x,y,z)=z(2/3,1/6,1) et Ker(φ)(\varphi) est de dimension 1, engendré par le vecteur (2/3,1/6,1)(2/3,1/6,1). Le théorème du rang donne alors que Im(φ)(\varphi) est de dimension 3-1=2, c’est donc 2\mathbb{R}^2 tout entier.

Dans le cas général, les vecteurs colonnes de MM forment une famille génératrice de Im(φ)(\varphi). Il suffit de réduire MM en colonnes par l’algorithme du pivot de Gauss, une fois la réduction terminée les colonnes non nulles forment une base de Im(φ)(\varphi).
N.B : La commande rref de Xcas permet de réduire une matrice de vecteurs lignes, il faut donc transposer la matrice MM, la réduire avec rref puis extraire les vecteurs lignes non nuls pour avoir les coordonnées d’une base de Im(φ)(\varphi).

Proposition 3   Soit φ\varphi une application linéaire de V 1V_1 muni de la base B 1={e 1,...,e n}B_1=\{e_1,...,e_n\} vers V 2V_2 muni de la base B 2={f 1,...,f n}B_2=\{f_1,...,f_n\} et MM la matrice de φ\varphi dans les bases B 1B_1 et B 2B_2. Soit vV 1v \in V_1 un vecteur de composantes X̲\underline{X} dans la base B 1B_1.

Alors les composantes de φ(v)\varphi(v) dans la base B 2B_2 sont données par le vecteur MX̲M\underline{X} de composantes : (MX̲) i:= j=1 nM i,jX̲ j. (M\underline{X})_i := \sum_{j=1}^n M_{i,j} \underline{X}_j.

En effet : φ(v)=φ( jX je j)= jX jφ(e j)= jX j iM i,jf i= i( jM i,jX j))f i\varphi(v)=\varphi(\sum_j X_j e_j) =\sum_j X_j \varphi(e_j) = \sum_j X_j \sum_i M_{i,j} f_i = \sum_i (\sum_j M_{i,j} X_j)) f_i

Soit φ\varphi une application linéaire de V 1V_1 de base B 1B_1 dans V 2V_2 de base B 2B_2 et ψ\psi une autre application linéaire de V 2V_2 dans V 3V_3 de base B 3B_3. On peut montrer que la composée ψ(φ(.))\psi(\varphi(.)) est une application linéaire de V 1V_1 dans V 3V_3. Que se passe-t-il pour les matrices représentant ψ\psi, φ\varphi et la matrice de la composée ? On vérifie que la matrice de la composée s’obtient en faisant le produit matriciel des matrices de ψ\psi et φ\varphi (cela peut même être une façon de définir le produit de matrices).

Définition 4   Soient m,n,pm,n,p trois entiers strictement positifs. Soit A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et soit B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). On appelle produit matriciel de AA par BB la matrice C m,p()C\in \mathcal{M}_{m,p}(\mathbb{R}) dont le terme général c i,kc_{i,k} est défini, pour tout i=1,,mi=1,\ldots,m et pour tout k1,,pk\in 1,\ldots,p par : c i,k= j=1 na i,jb j,k.c_{i,k} = \sum_{j=1}^n a_{i,j}\,b_{j,k}\;.

Nous insistons sur le fait que le produit ABAB de deux matrices n’est défini que si le nombre de colonnes de AA et le nombre de lignes de BB sont les mêmes (pour la composition des applications linéaires, ceci correspond au fait que l’espace vectoriel de départ de la deuxième application ψ\psi est le même que l’espace vectoriel d’arrivée de la première application φ\varphi, ils ont donc même dimension). Dans le cas particulier où BB est un vecteur colonne de taille n×1n\times 1 cette opération nous fournit un vecteur colonne de taille m×1m\times 1. (b 1,1 b 1,k b 1,n b j,k b n,1 b n,k b n,p) (a 1,1 a 1,n a i,1 a i,j a i,n a m,1 a m,n) (c 1,1 c 1,p c i,k c m,1 c m,p)\begin{array}{cc} & \left( \begin{array}{ccccc} b_{1,1}&\cdots&b_{1,k}&\cdots&b_{1,n}\\ \vdots&&\vdots&&\vdots\\ &\cdots&b_{j,k}&\cdots&\\ \vdots&&\vdots&&\vdots\\ b_{n,1}&\cdots&b_{n,k}&\cdots&b_{n,p} \end{array} \right) \\ \left( \begin{array}{ccccc} a_{1,1}&\cdots&&\cdots&a_{1,n}\\ \vdots&&\vdots&&\vdots\\ a_{i,1}&\cdots&a_{i,j}&\cdots&a_{i,n}\\ \vdots&&\vdots&&\vdots\\ a_{m,1}&\cdots&&\cdots&a_{m,n} \end{array} \right) & \left( \begin{array}{ccccc} c_{1,1}&&\vdots&&c_{1,p}\\ &&\vdots&&\\ \cdots&\cdots&c_{i,k}&\ &\\ &&&&\\ c_{m,1}&&&&c_{m,p} \end{array} \right) \end{array} Posons par exemple : A=(1 1 2 3 1 1)etB=(0 1 1 2 3 2 0 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad\mbox{et}\quad B= \left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right)\;. La matrice AA a 3 lignes et 2 colonnes, la matrice BB a 2 lignes et 4 colonnes. Le produit ABAB a donc un sens : c’est une matrice à 3 lignes et 4 colonnes. (0 1 1 2 3 2 0 1)(1 1 2 3 1 1)=(3 1 1 1 9 4 2 1 3 3 1 3)\left( \begin{array}{rrrr} 0&1&-1&-2\\ -3&-2&0&1 \end{array} \right) \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \ = \ \left( \begin{array}{rrrr} -3&-1&-1&-1\\ -9&-4&-2&-1\\ 3&3&-1&-3 \end{array} \right) Le produit matriciel a les propriétés habituelles d’un produit, à une exception notable près : il n’est pas commutatif

Proposition 5   Le produit matriciel possède les propriétés suivantes.
  1. Associativité : Si les produits ABAB et BCBC sont définis, alors les produits A(BC)A(BC) et (AB)C(AB)C le sont aussi et ils sont égaux. A(BC)=(AB)C.A(BC)=(AB)C\;.
  2. Linéarité à droite : Si BB et CC sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si AA a autant de colonnes que BB et CC ont de lignes, alors A(λB+μC)=λAB+μAC.A(\lambda B+\mu C) = \lambda AB+\mu AC\;.
  3. Linéarité à gauche : Si AA et BB sont deux matrices de mêmes dimensions, si λ\lambda et μ\mu sont deux réels et si CC a autant de lignes que AA et BB ont de colonnes, alors (λA+μB)C=λAC+μBC.(\lambda A+\mu B)C = \lambda AC+\mu BC\;.

Ces propriétés se démontrent par le calcul à partir de la définition 4 ou en interprétant le produit comme une composition d’applications linéaires.

La transposition est une opération qui va intervenir plus loin dans le calcul matriciel avec les formes bilinéaires (d’un point de vue théorique cela provient de la dualité, qui dépasse le cadre de ce cours).

Définition 6   Étant donnée une matrice A=(a i,j)A=(a_{i,j}) de m,n()\mathcal{M}_{m,n}(\mathbb{R}), sa transposée est la matrice de n,m()\mathcal{M}_{n,m}(\mathbb{R}) dont le coefficient d’ordre (j,i)(j,i) est a i,ja_{i,j}.

Pour écrire la transposée d’une matrice, il suffit de transformer ses lignes en colonnes. Par exemple : A=(1 1 2 3 1 1),tA=(1 2 1 1 3 1).A= \left( \begin{array}{rr} 1&1\\ 2&3\\ 1&-1 \end{array} \right) \quad,\quad {^t\!A}= \left( \begin{array}{rrr} 1&2&1\\ 1&3&-1 \end{array} \right)\;. Observons que la transposée de la transposée est la matrice initiale. t(tA)=A.{^t({^t\!A})} = A\;. La transposée d’un produit est le produit des transposées, mais il faut inverser l’ordre des facteurs.

Proposition 7   Soient m,n,pm,n,p trois entiers strictement positifs. Soient A=(a i,j)A=(a_{i,j}) une matrice de m,n()\mathcal{M}_{m,n}(\mathbb{R}) et B=(b j,k)B=(b_{j,k}) une matrice de n,p()\mathcal{M}_{n,p}(\mathbb{R}). La transposée du produit de AA par BB est le produit de la transposée de BB par la transposée de AA. t(AB)=tBtA.{^t(AB)} = {^t\!B}\,{^t\!A}\;.

Par exemple, en reprenant les matrices AA et BB définies ci-dessus : (1 2 1 1 3 1)(0 3 1 2 1 0 2 1)=(3 9 3 1 4 3 1 2 1 1 1 3)\left( \begin{array}{rrr} \;1&\quad2&1\\ \; 1&\quad 3&-1 \end{array} \right) \left( \begin{array}{rr} 0&-3\\ 1&-2\\ -1&0\\ -2&1 \end{array} \right) \ = \ \left( \begin{array}{rrr} -3&-9&3\\ -1&-4&3\\ -1&-2&-1\\ -1&-1&-3 \end{array} \right)

Définition 8  

Soit nn un entier strictement positif et AA une matrice carrée à nn lignes et nn colonnes. On dit que AA est symétrique si pour tous i,j=1,,ni,j=1,\ldots,n, ses coefficients d’ordre a i,ja_{i,j} et a j,ia_{j,i} sont égaux, ce qui est équivalent à dire que AA est égale à sa transposée.

Le produit d’une matrice par sa transposée est toujours une matrice symétrique. En effet : t(AtA)=t(tA)tA=AtA.{^t(A\,{^t\!A})} = {^t({^t\!A})}\,{^t\!A}=A\,{^t\!A}\;.

2.5  Matrices carrées

En général si le produit ABAB est défini, le produit BABA n’a aucune raison de l’être. Le produit d’une matrice par sa transposée est une exception, les matrices carrées en sont une autre : si AA et BB sont deux matrices à nn lignes et nn colonnes, les produits ABAB et BABA sont tous deux définis et ils ont les mêmes dimensions que AA et BB. En général ils ne sont pas égaux. Par exemple, (0 1 1 0)(0 1 1 0)=(1 0 0 1)(0 1 1 0)(0 1 1 0)=(1 0 0 1)\left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} 1&0\\ 0&-1 \end{array} \right) \qquad \left( \begin{array}{rr} 0&1\\ 1&0 \end{array} \right) \left( \begin{array}{rr} 0&-1\\ 1&0 \end{array} \right) = \left( \begin{array}{rr} -1&0\\ 0&1 \end{array} \right) Nous noterons simplement n()\mathcal{M}_n(\mathbb{R}) l’ensemble n,n()\mathcal{M}_{n,n}(\mathbb{R}) des matrices carrées à nn lignes et nn colonnes, à coefficients réels. Parmi elles la matrice identité, notée I nI_n, joue un rôle particulier. I n=(1 0 0 0 1 1 0 0 0 1)I_n= \left( \begin{array}{ccccc} 1&0&\cdots&\cdots&0\\ 0&1&\ddots&&\vdots\\ \vdots&\ddots&\ddots&\ddots&\vdots\\ \vdots&&\ddots&1&0\\ 0&\cdots&\cdots&0&1 \end{array} \right) En effet, elle est l’élément neutre du produit matriciel : pour toute matrice A n,m()A\in\mathcal{M}_{n,m}(\mathbb{R}), AI n=I mA=A.A\,I_n = I_m\,A = A\;. On le vérifie facilement à partir de la définition 4.

Définition 1   Soit AA une matrice de n\mathcal{M}_n. On dit que AA est inversible s’il existe une matrice de n\mathcal{M}_n, notée A 1A^{-1}, telle que AA 1=A 1A=I n.A\,A^{-1} = A^{-1}\,A = I_n\;.

Par exemple : (1 0 1 1 1 0 1 1 1)(1 1 1 1 2 1 0 1 1)=(1 1 1 1 2 1 0 1 1)(1 0 1 1 1 0 1 1 1)=(1 0 0 0 1 0 0 0 1)\left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&-1&1\\ 1&-2&1\\ 0&-1&1 \end{array} \right) \left( \begin{array}{rrr} 1&0&-1\\ 1&-1&0\\ 1&-1&1 \end{array} \right) = \left( \begin{array}{rrr} 1&0&0\\ 0&1&0\\ 0&0&1 \end{array} \right) Observons que l’inverse, s’il existe, est nécessairement unique. En effet, soient B 1B_1 et B 2B_2 deux matrices telles que AB 1=B 1A=I nA\,B_1=B_1\,A=I_n et AB 2=B 2A=I nA\,B_2=B_2\,A=I_n. En utilisant l’associativité, le produit B 1AB 2B_1\,A\,B_2 vaut B 1(AB 2)=B 1I n=B 1B_1\,(A\,B_2)=B_1\,I_n=B_1, mais aussi (B 1A)B 2=I nB 2=B 2(B_1\,A)\,B_2=I_n\,B_2=B_2. Donc B 1=B 2B_1=B_2.

Nous rappelons la proposition suivante, qui nous dit qu’il suffit de trouver une matrice BB telle que AB=I nA\,B=I_n pour être sûr que AA est inversible et que son inverse est BB.

Proposition 2   Soit AA une matrice de n\mathcal{M}_n. Supposons qu’il existe une matrice BB telle que AB=I nA\,B=I_n ou bien BA=I nB\,A=I_n. Alors AA est inversible et B=A 1B=A^{-1}.

Si AA et BB sont deux matrices inversibles de n\mathcal{M}_n, leur produit est inversible.

Proposition 3   Soient AA et BB deux matrices inversibles de n()\mathcal{M}_n(\mathbb{R}). Le produit ABAB est inversible et son inverse est B 1A 1B^{-1}A^{-1}.

Preuve : Nous utilisons le théorème 2, ainsi que l’associativité du produit : (B 1A 1)(AB)=B 1(A 1A)B=B 1I nB=B 1B=I n.(B^{-1}A^{-1})(AB)=B^{-1}(A^{-1}A)B=B^{-1}I_nB=B^{-1}B=I_n\;.

L’inverse d’une matrice et la proposition 5 permettent de donner une formule de changement de base pour une application linéaire.

Proposition 4   Soit φ\varphi une application linéaire d’un espace vectoriel V 1V_1 de base B 1B_1 vers un espace vectoriel V 2V_2 de base B 2B_2, de matrice MM relativement à ces bases B 1B_1 et B 2B_2. Soit B 1B_1' une autre base de V 1V_1 de matrice de passage P 1P_1 dans la base B 1B_1, et B 2B_2' une autre base de V 2V_2 de matrice de passage P 2P_2 dans la base B 2B_2. Alors la matrice MM' de φ\varphi relativement aux bases B 1B_1' et B 2B_2' est donnée par M=P 2 1MP 1M'=P_2^{-1} M P_1 Si V 1=V 2V_1=V_2 on prend B 1=B 2B_1=B_2 et B 1=B 2B_1'=B_2' donc P 1=P 2=PP_1=P_2=P et on a M=P 1MPM'=P^{-1}MP

Exemple 1 Dans 2\mathbb{R}^2 vu comme le plan complexe, on considère l’application linéaire f:zz¯f: z \rightarrow \overline{z}. On vérifie qu’il s’agit bien d’une application linéaire (c’est une symétrie par rapport à l’axe OxOx). Dans la base canonique BB, sa matrice est

Prenons la base BB' dont les vecteurs ont pour affixe 1+i1+i et 1i1-i, la matrice de passage de BB à BB' est

donc la matrice de ff dans BB' est

ce qu’on vérifie directement puisque les deux vecteurs de base sont conjugués l’un de l’autre.

Exemple 2
Dans 2\mathbb{R}^2, on considère la projection orthogonale sur la droite vectorielle engendrée par le vecteur v(1,1)v(1,1). On prend pour B 1=B 2B_1=B_2 la base canonique (e 1,e 2)(e_1,e_2) et pour B 1=B 2B_1'=B_2' la base formée par vv et un vecteur orthogonal w(1,1)w(1,-1).

gl_ortho=1;
e1:=vecteur(1,0); e2:=vecteur(0,1);
v:=vecteur(1,1,color=red); w:=vecteur(1,-1,color=green);
display(1/2*v,magenta); 
segment(1,i,color=cyan);

onload
L’image de vv est lui-même i.e. 1v+0w1v+0w, donc la première colonne de MM' est (1,0)(1,0). L’image de ww est le vecteur nul, donc M=(1 0 0 0)M'= \left(\begin{array}{cc} 1 & 0\\ 0 & 0 \end{array}\right) L’image du vecteur (1,0)(1,0) par la projection est 12v=(12,12)\frac{1}{2} v =(\frac{1}{2},\frac{1}{2}) de même pour (0,1)(0,1) donc les 2 colonnes de MM ont pour coordonnées (12,12)(\frac{1}{2},\frac{1}{2}) M=(12 12 12 12)M=\left(\begin{array}{cc} \frac{1}{2} & \frac{1}{2}\\ \frac{1}{2} & \frac{1}{2} \end{array}\right) La matrice de passage de B 1B_1' est (coordonnées de vv et ww en colonnes) P=(1 1 1 1)P=\left(\begin{array}{cc} 1 & 1\\ 1 & -1 \end{array}\right) Vérifions que M=P 1MPM'=P^{-1}MP.

Définition 5   On définit le rang d’une matrice MM comme étant la dimension du sous-espace vectoriel engendré par ses vecteurs colonnes. Il s’agit donc du rang de toute application linéaire ayant MM comme matrice.
Proposition 6   Multiplier une matrice à droite ou/et à gauche par une matrice inversible ne change pas son rang.

Cela résulte du fait que le produit de matrices correspond à la composition de deux applications linéaires et que composer avec une application linéaire inversible ne change pas le rang. En effet

Enfin, nous aurons parfois besoin du lemme suivant:

Lemme 7   Soit MM n()M\in M_n(\mathbb{R}) une matrice carrée n×nn\times n. Si pour tout X̲,Y̲ n\underline{X}, \underline Y\in \mathbb{R}^n nous avons que tX̲MY̲=0{}^t\underline{X} M \underline{Y}=0 alors M=0M=0.

Preuve : Soit pour tout ii le vecteur colonne e̲ i n\underline{e}_i\in \mathbb{R}^n défini par (e̲ i) j=1sii=j,0siij. (\underline{e}_i)_j= 1\ \mbox{si}\ i=j,\; 0\ \mbox{si}\ i\neq j. Alors pour tout 1i,jn1\leq i,j\leq n on a que te̲ iMe̲ j=M i,j=0{}^t\underline{e}_i M \underline{e}_j=M_{i,j}=0 et donc M=0M=0.

Réécrivons maintenant notre problème initial dans le language des espaces vectoriels. Nous considérons une fonction réelle continue ff, définie sur une intervalle [0,L][0,L] (fV=C 0([0,L],)f \in V=C^0([0,L], \mathbb{R})). Nous voulons chercher une fonction g ng_n qui est de la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL) g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right) et qui doit être “aussi proche que possible” de ff.

Dans le langage des espaces vectoriels on pourrait écrire la chose suivante :

Soit WW le sous-espace de tous les éléments gVg\in V qui peuvent s’écrire sous la forme g n(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g_n(x)= a_0+ \sum_{k=1}^n a_k \cos\left(\frac{ k\pi x}{L}\right)+ b_k\sin\left(\frac{k\pi x}{L}\right). WW est alors un sous-espace vectoriel de VV (exercice : démontrez-le !): de plus, WW est de dimension finie et admet pour base finie la famille e=(1,cosπxL,sinπxL,,cosnπxL,sinnπxL). {\bf e}=( 1, \cos{\frac{\pi x}{L}},\sin{\frac{\pi x}{L}}, \ldots, \cos{ \frac{n\pi x}{L}}, \sin{\frac{n\pi x}{L}}). Nous cherchons à identifier un élément gWg\in W qui est “le plus proche que possible” de fVf\in V.

Notre problème initial est donc un exemple particulier du problème suivant :

Question. J’ai un espace vectoriel VV et un élément vVv\in V. Il y a dans VV un sous-espace spécial de dimension finie WVW\subset V. Je veux approcher au mieux vv par un élément wWw\in W. Comment faire ? Et tout d’abord, qu’est ce que ça veut dire “approcher au mieux” ?

Dans les deux prochains chapitres, nous aborderons surtout la question : qu’est ce que ça veut dire “approcher au mieux” ?

Chapitre 3  Formes bilinéaires.

3.1  Le produit scalaire canonique sur 3\mathbb{R}^3.

Dans le chapitre précedent, nous avons étudié la notion d’espace vectoriel. Cette notion est utile parce qu’elle englobe à la fois des espaces géométriques tels que 2\mathbb{R}^2 et 3\mathbb{R}^3 et des espaces de fonctions tels que n[X]\mathbb{R}_n[X] et C 0([0,1],)C^0([0,1], \mathbb{R}). Notre but est maintenant d’utiliser cette notion pour étendre des idées géométriques (distance et angle, par exemple) à des espaces de fonctions. Pour faire cela, il nous sera nécessaire d’identifier une formule purement algébrique qui permet de calculer distances et angles dans 3\mathbb{R}^3, faisant intervenir le produit scalaire canonique sur 3\mathbb{R}^3.

Définition 1   Le produit scalaire canonique sur 3\mathbb{R}^3 est une fonction prenant en argument deux vecteurs X̲=(x 1 x 2 x 3)\underline{X}=\begin{pmatrix} x_1\\x_2\\x_3\end{pmatrix} et Y̲=(y 1 y 2 y 3)\underline{Y}=\begin{pmatrix} y_1\\y_2\\y_3\end{pmatrix} définie par X̲|Y̲=x 1y 1+x 2y 2+x 3y 3\langle \underline{X} | \underline {Y}\rangle= x_1y_1+x_2y_2+x_3y_3

Le produit scalaire canonique tire son intérêt du fait qu’il encode la géométrie de l’espace 3\mathbb{R}^3.

X:=vecteur(3,1); Y:=vecteur(2,3);
X-Y; legend(X-Y,"X-Y"); angle(X,Y,"θ");

onload

Théorème 2   Soient X̲\underline{X} et Y̲\underline{Y} deux vecteurs dans 3\mathbb{R}^3, soit dd la longueur de la différence X̲Y̲\underline{X}-\underline{Y} et soit θ\theta l’angle entre ces deux vecteurs. On a : d=X̲Y̲||X̲Y̲,θ=arccos(X̲|Y̲X̲|X̲Y̲|Y̲). d= \sqrt{\langle \underline{X}-\underline{Y}| | \underline{X}-\underline{Y}\rangle}, \quad \theta= \arccos\left(\frac{\langle\underline{X}|\underline{Y}\rangle} {\sqrt{\langle\underline{X}|\underline{X}\rangle\langle\underline{Y}|\underline{Y}\rangle}}\right).

Il existe donc une formule qui permet de calculer la distance et l’angle entre deux vecteurs utilisant seulement le produit scalaire. Nous allons donc essayer de définir des classes de fonctions sur des espaces vectoriels qui ressemblent au produit scalaire sur 3\mathbb{R}^3 dans l’espoir qu’elles nous livront une bonne notion de “distance”.

Une des propriétés clés du produit scalaire est qu’il se comporte effectivement comme un produit sous les opérations algébriques de base sur les vecteurs, c’est-à-dire qu’on a, pour tout X̲,Y̲,Z̲ 3\underline{X}, \underline{Y},\underline{Z}\in \mathbb{R}^3 et pour tout λ\lambda\in \mathbb{R}

  1. X̲+Y̲,Z̲=X̲|Z̲+Y̲|Z̲\langle\underline{X}+\underline{Y}, \underline{Z} \rangle=\langle\underline{X}|\underline{Z}\rangle+\langle\underline{Y}|\underline{Z}\rangle
  2. X̲|Y̲+Z̲=X̲|Y̲+X̲|Z̲\langle\underline{X}|\underline{Y}+\underline{Z}\rangle=\langle\underline{X}|\underline{Y}\rangle+\langle\underline{X}|\underline{Z}\rangle
  3. X̲|λY̲=λX̲|Y̲=λX̲|Y̲\langle\underline{X}|\lambda \underline{Y}\rangle=\langle\lambda \underline{X}|\underline{Y}\rangle= \lambda \langle\underline{X}|\underline{Y}\rangle

Nous allons donc commencer par étudier les fonctions de deux vecteurs qui respectent ces conditions.

3.2  Formes bilinéaires : définitions et exemples.

Dans cette section, de nouveau, nous présenterons la théorie des formes bilinéaires réelles, mais tous nos résultats seront valables pour des formes complexes.

Définition 1   Soient VV un \mathbb{R}-espace vectoriel, et soit φ\varphi une fonction de 2 variables de VV à valeur réelle φ:V×V\varphi :V\times V\to \mathbb{R}. On dit que φ\varphi est une forme bilinéaires’il se comporte comme un produit, i.e. :
  1. pour tout v 1,v 2Vv_1, v_2\in V et vVv\in V nous avons que φ(v 1+v 2,v)=φ(v 1,v)+φ(v 2,v)\varphi(v_1+v_2, v)= \varphi(v_1, v)+\varphi(v_2,v)
  2. pour tout vVv\in V et v 1,v 2Vv_1, v_2 \in V nous avons que φ(v,v 1+v 2)=φ(v,v 1)+φ(v,v 2)\varphi(v, v_1+v_2)= \varphi(v, v_1)+\varphi(v,v_2)
  3. pour tout vVv\in V, vVv' \in V et λ\lambda\in \mathbb{R} nous avons que φ(λv,v)=φ(v,λv)=λφ(v,v)\varphi(\lambda v, v')= \varphi(v, \lambda v') =\lambda \varphi(v,v').
On dit que φ\varphi est symétrique si φ(y,x)=φ(x,y)\varphi(y,x)=\varphi(x,y) pour tout x,yVx,y\in V,
On dit que
φ\varphi est antisymétrique si φ(y,x)=φ(x,y)\varphi(y,x)=-\varphi(x,y) pour tout x,yVx,y\in V.

Remarque :
On utilise le terme forme parce que la valeur de φ\varphi est un réel. Le terme bilinéraire vient du fait que si on fixe un des arguments, on a une application linéaire par rapport à l’autre argument.

Exemples :

  1. L’application φ:{× (x,y) xy\varphi: \ \left\{ \begin{array}{ccc} \mathbb{R}\times \mathbb{R} & \to & \mathbb{R}\\ (x,y) & \mapsto & xy \end{array} \right. est une forme bilinéaire symétrique.
  2. Le produit scalaire φ: n× n,((x 1 x n),(y 1 y n))xy= i=1 nx iy i\varphi: \ \mathbb{R}^n \times \mathbb{R}^n\to \mathbb{R}, \quad \left(\left(\begin{array}{c}x_1 \\ \vdots \\ x_n \end{array}\right),\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right)\right)\mapsto x\cdot y=\sum_{i=1}^n x_iy_i est une forme bilinéaire symétrique. Lorsque n=2n=2 ou 33, on retrouve le produit scalaire étudié ci-dessus. Nous appelons cette forme le produit scalaire canonique sur n\mathbb{R}^n.
  3. L’application qui à deux polynômes PP et QQ associe le produit P(0)Q(1)P(0)Q(1) φ:{[X]×[X] (P,Q) P(0)Q(1)\varphi: \ \left\{ \begin{array}{ccc} \mathbb{C}[X]\times\mathbb{C}[X] & \to &\mathbb{C}\\ (P,Q) &\mapsto & P(0)Q(1) \end{array} \right. est une forme bilinéaire. Elle n’est pas symétrique et n’est pas antisymétrique.
  4. L’application qui à deux matrices carrées MM et NN associe la trace du produit des deux matrices φ:{M n()×M n() (M,N) tr(MN)\varphi: \ \left\{ \begin{array}{ccc} \M_n(\mathbb{R})\times \M_n(\mathbb{R}) &\to &\mathbb{R} \\ (M,N) &\mapsto & \mbox{tr}(MN) \end{array} \right. est une forme bilinéaire symétrique.
  5. L’application déterminant φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to \mathbb{R}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_2-x_2y_1 est bilinéaire et antisymétrique.
  6. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1x 2+2x 1y 2\varphi:\mathbb{C}^2\times \mathbb{C}^2\to \mathbb{C}, \quad \left( \left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \left(\begin{array}{c}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1x_2+2x_1y_2 n’est pas bilinéaire.
    En effet, posons U̲=(x 1 x 2),V̲=(y 1 y 2)\underline{U}=\left(\begin{array}{c}x_1 \\ x_2\end{array}\right), \underline{V}=\left(\begin{array}{c}y_1 \\ y_2\end{array}\right). On a φ(λU̲,V̲)=(λx 1)(λx 2)+2(λx 1)y 2=λ 2x 1x 2+2λx 1y 2λφ(U̲,V̲).\varphi(\lambda \underline{U}, \underline{V})=(\lambda x_1)(\lambda x_2)+2(\lambda x_1)y_2= \lambda^2 x_1x_2+2\lambda x_1y_2\neq \lambda \varphi(\underline{U},\underline{V}).
  7. L’application qui associe à deux fonctions continues ff et gg l’intégrale de leur produit sur [0,1][0,1] φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow & \mathbb{R} \\ (f,g) & \rightarrow & \int_0^1 f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.
  8. Pour toute fonction continue p:[0,1]p:[0,1]\rightarrow\mathbb{R}, l’application φ:{C 0([0,1],)×C 0([0,1],) (f,g) 0 1p(x)f(x)g(x)dx\varphi: \ \left\{ \begin{array}{ccc} C^0([0,1], \mathbb{R})\times C^0([0,1], \mathbb{R}) & \rightarrow &\mathbb{R}\\ (f,g) & \rightarrow & \int_0^1 p(x) f(x) g(x) dx \end{array} \right. est une forme bilinéaire symétrique.

Un cas particulier intéressant est celui ou on applique une forme bilinéaire à deux vecteurs identiques.

Définition 2   Soit VV un espace vectoriel sur \mathbb{R} et soit φ\varphi une forme bilinéaire symétrique sur VV. Alors la forme quadratique associée à φ\varphi, notée q φq_\varphi, est la fonction définie sur VV par q φ(v)=φ(v,v)q_\varphi(v)=\varphi(v,v)

La forme quadratique associée à une forme bilinéaire est un analogue de la fonction carrée d’un nombre réel, ou de la norme de vv au carré (v 2\|v\|^2) quand vv est un vecteur dans 2\mathbb{R}^2 ou 3\mathbb{R}^3. Les formules suivantes (dites “formule de polarisation” et “formule du parallélogramme”) permettent de rétrouver une forme bilinéaire symétrique à partir de la forme quadratique associée.

Lemme 3   Soit VV un espace vectoriel, φ\varphi une forme bilinéaire sur V×VV\times V et q φq_\varphi la forme quadratique associée. Alors pour tout v,wVv,w\in V on a φ(v,w)=12(q φ(v+w)q φ(v)q φ(w))\varphi(v,w)= \frac{1}{2}(q_\varphi(v+w)-q_\varphi(v)-q_\varphi(w)) q φ(v+w)+q φ(vw)=2(q φ(v)+q φ(w)).q_\varphi(v+w)+q_\varphi(v-w)= 2(q_\varphi(v)+q_\varphi(w)).

La démonstration de ce lemme est laissée en exercice.

Remarque :
Ces formules sont les généralisations des relations suivantes sur \mathbb{R} : xy=12((x+y) 2x 2y 2). xy= \frac{1}{2}((x+y)^2-x^2-y^2). (x+y) 2+(xy) 2=2(x 2+y 2). (x+y)^2+ (x-y)^2= 2(x^2+y^2).

3.3  Formes bilinéaires : représentation matricielle.

Nous allons maintenant définir la matrice d’une forme bilinéaire dans une base, qui va nous permettre, modulo le choix d’une base, de réduire les calculs faisant intervenir des formes bilinéaires sur des espaces de dimension finie à des multiplications de matrices.

Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. La matrice de φ\varphi dans la base e est la matrice n×nn\times n, MM, dont les coefficients sont donnés par M i,j=(φ(e i,e j)) 1i,jn.M_{i,j}=(\varphi(e_i,e_j))_{1\leq i,j\leq n}.
Lemme 2   Soit VV un espace vectoriel de dimension finie nn, soient x,yVx,y\in V, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, notons X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix} et Y=(y 1 y n)Y= \begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix} les vecteurs coordonnées de xx et yy dans la base e (autrement dit x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit MM la matrice de φ\varphi dans la base e{\bf e}. Alors on a φ(x,y)= tX̲MY̲= i,jφ(e i,e j)x iy j.\varphi(x,y)={}^t\underline{X}M\underline{Y}=\sum_{i,j}\varphi(e_i,e_j)x_iy_j.

Preuve : On a φ(x,y)=φ( i=1 nx ie i, j=1 ny je j)= j=1φ( i=1 nx ie i,y je j)= j=1y jφ( i=1 nx ie i,e j),\varphi(x,y)=\varphi(\sum_{i=1}^n x_i e_i,\sum_{j=1}^n y_j e_j)=\sum_{j=1}\varphi(\sum_{i=1}^n x_i e_i,y_j e_j)=\sum_{j=1}y_j \varphi(\sum_{i=1}^n x_i e_i,e_j), puisque φ\varphi est linéaire en yy. Or on a aussi φ( i=1 nx ie i,e j)= i=1 nφ(x ie i,e j)= i=1 nx iφ(e i,e j).\varphi(\sum_{i=1}^n x_i e_i,e_j)=\sum_{i=1}^n \varphi(x_i e_i,e_j)=\sum_{i=1}^n x_i\varphi(e_i,e_j). Ainsi, on obtient φ(x,y)= j=1 ny j( i=1 nx iφ(e i,e j))= i,jφ(e i,e j)x iy j.\varphi(x,y)=\sum_{j=1}^n y_j(\sum_{i=1}^n x_i\varphi(e_i,e_j))=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

On a aussi MY̲=( j=1 nφ(e i,e j)y j ),M\underline{Y}=\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right), et donc tX̲MY̲=( x i )( j=1 nφ(e i,e j)y j )= i,jx iφ(e i,e j)y j= i,jφ(e i,e j)x iy j.{}^t\underline{X}M\underline{Y}=\left(\begin{array}{ccc}\cdots & x_i& \cdots \end{array}\right)\left(\begin{array}{c}\vdots \\ \sum_{j=1}^n \varphi(e_i,e_j)y_j\\ \vdots \end{array}\right)=\sum_{i,j} x_i\varphi(e_i,e_j)y_j=\sum_{i,j} \varphi(e_i,e_j)x_iy_j.

Corollaire 3   Soit VV un espace vectoriel de dimension finie nn. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Les propositions suivantes sont équivalentes.
  1. φ\varphi est symétrique
  2. Pour tout base e de VV, la matrice MM de φ\varphi dans la base e est symétrique.
  3. Il existe une base e de VV telle que la matrice MM de φ\varphi dans la base e est symétrique.

Preuve : Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, et soit e une base de VV.

Si φ\varphi est symétrique, alors on a φ(e i,e j)=φ(e j,e i)pour touti,j,\varphi(e_i,e_j)=\varphi(e_j,e_i)\ \mbox{pour tout}\ i,j, et ceci s’écrit matriciellement tM=M{}^tM=M, par définition de la matrice de φ\varphi. On a donc (1)(2)(1)\Rightarrow (2). L’implication (2)(3)(2)\Rightarrow (3) étant claire, il reste à montrer (3)(1)(3)\Rightarrow (1).

Supposons qu’il existe une base e de VV telle que MM est symétrique. Soient x,yVx,y\in V, et soient X̲,Y̲\underline{X}, \underline{Y} leurs vecteurs de coordonnées dans la base e{\bf e}. On a alors que φ(x,y)= tX̲MY̲ \varphi(x,y)= {}^t\underline{X} M \underline{Y} Le membre de droit est une matrice 1×11\times 1 : elle est donc égale à sa propre transposée et on a φ(x,y)= tX̲MY̲= t( tX̲MY̲)= tY̲ tMX̲= tY̲MX̲=φ(y,x) \varphi(x,y)= {}^t\underline{X} M \underline{Y}= {}^t({}^t\underline{X} M \underline{Y})= {}^t \underline{Y}{}^t M \underline{X}= {}^t\underline{Y}M \underline{X}= \varphi(y,x) CQFD.

Le lemme précédent admet une réciproque, bien utile pour démontrer qu’une application est bilinéaire et donner sa matrice représentative dans une base fixée.

Lemme 4   Soit VV un \mathbb{R}-espace vectoriel de dimension finie, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Pour tout a ij,1i,jna_{ij}\in \mathbb{R}, 1\leq i,j\leq n, l’application φ:{V×V ( i=1 nx ie i, j=1 ny je j) 1i,jna ijx iy j\varphi:\ \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R} \\ (\sum_{i=1}^n x_ie_i,\sum_{j=1}^n y_je_j) & \mapsto & \sum_{1\leq i,j\leq n} a_{ij}x_iy_j \end{array}\right. est une forme bilinéaire, dont la matrice AA dans la base e est donnée par A ij=(a ij).A_{ij}=(a_{ij}).

Exemples

  1. L’application φ: 2× 2,((x 1 x 2),(y 1 y 2))x 1y 1+x 2y 2+3x 1y 2x 2y 1\varphi:\mathbb{R}^2\times \mathbb{R}^2\to\mathbb{R}, \left(\left(\begin{array}{cc}x_1 \\ x_2\end{array}\right),\left(\begin{array}{cc}y_1 \\ y_2\end{array}\right) \right)\mapsto x_1y_1+x_2y_2+3x_1y_2-x_2y_1 est bilinéaire, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est M=(1 3 1 1).M=\left(\begin{array}{cc} 1 & 3 \\ -1 & 1\end{array}\right).
  2. Considérons l’application qui à deux polynomes de degré inférieurs ou égaux à 2 associe le produit de leur valeur en 1 et 0 φ: 2[X]× 2[X],(P,Q)P(1)Q(0).\varphi: \mathbb{R}_2[X]\times \mathbb{R}_2[X]\to \mathbb{R}, (P,Q)\mapsto P(1)Q(0). On peut vérifier directement que φ\varphi est bilinéaire, mais on peut aussi utiliser la remarque précédente. Pour cela, considérons la base 1,X,X 21,X,X^2 de 2[X]\mathbb{R}_2[X]. On écrit P=x 1+x 2X+x 3X 2,Q=y 1+y 2X+y 3X 2.P=x_1+x_2X+x_3 X^2, Q=y_1+y_2X+y_3X^2. On vérifie alors que φ(P,Q)=x 1y 1+x 2y 1+x 3y 1\varphi(P,Q)=x_1y_1+x_2y_1+x_3y_1. Donc φ\varphi est bilinéaire et sa matrice représentative dans la base 1,X,X 21,X,X^2 est M=(1 0 0 1 0 0 1 0 0).M=\left(\begin{array}{ccc} 1 & 0& 0 \\ 1 & 0& 0\\ 1& 0& 0\end{array}\right).

Regardons maintenant ce qui se passe lorsque l’on effectue un changement de base.

Proposition 5   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, soient e{\bf e} et e{\bf e'} deux bases de VV, et soit PP la matrice de passage de la base e{\bf e} à la base e{\bf e}' (c’est-à-dire colonne par colonne la matrice des coordonnées des vecteurs de e{\bf e'} dans la base e). Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire, soit MM sa matrice dans la base e{\bf e} et soit NN sa matrice dans la base e{\bf e'}. Alors on a N= tPMP.N={}^tPMP.

Preuve : Soient x,yVx,y\in V, soient X̲,Y̲\underline{X}, \underline{Y} leur vecteurs de coordonnées dans la base e{\bf e} et soient X̲,Y̲\underline{X}', \underline{Y}' leurs coordonnées dans la base e{\bf e'}. On a alors X̲=PX̲\underline{X}= P\underline{X}' et Y̲=PY̲ \underline{Y}= P\underline{Y}' pour tout x,yx,y et donc φ(x,y)= tX̲MY̲= t(PX̲)MPY̲= tX̲ tPMPY̲= tX̲NY̲. \varphi(x,y)= {}^t \underline{X}M \underline Y= {}^t(P\underline{X}') M P\underline{Y}'= {}^t\underline{X}'{}^tP MP \underline{Y}'={}^t\underline{X}'N\underline{Y}'. c’est à dire que N= tPMPN= {}^t P MP par 7.

Nous sommes prêts à définir la notion de rang.

Définition 6   Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire. Le rang de φ\varphi est le rang de n’importe quelle matrice représentative de φ\varphi dans une base de VV.

Le rang est bien défini et ne dépend pas de la base choisie d’après la proposition précédente et la proposition 6.

3.4  Orthogonalité.

Les expressions permettant de calculer φ(x,y)\varphi(x,y) peuvent se simplifier grandement lorsque la base e est adaptée. Par exemple, il est souvent utile de se débarasser des termes croisés lorsque c’est possible. On introduit pour cela la notion d’orthogonalité.

Définition 1   Soit VV un espace vectoriel de dimension nn sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique.

On dit que deux vecteurs x,yVx,y\in V sont φ\varphi-orthogonaux si φ(x,y)=0\varphi(x,y)=0.

On le note xφyx\underset{\varphi}{\perp} y, ou xyx\perp y s’il n’y a pas de confusion possible.

On dit que la base e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est φ\varphi-orthogonale si les vecteurs de la base sont φ\varphi-orthogonaux deux à deux, c’est-à-dire si on a φ(e i,e j)=0pour toutij.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j.

Lemme 2   La base e{\bf e} est φ\varphi-orthogonale si et seulement si MM, la matrice de φ\varphi dans la base e{\bf e}, est diagonale.

Preuve : La base e{\bf e} est φ\varphi-orthogonale \Leftrightarrow φ(e i,e j)=0\varphi(e_i, e_j)=0 si iji\neq j \Leftrightarrow M i,j=0M_{i,j}=0 si iji\neq j \Leftrightarrow MM est diagonale.

On dit que e est φ\varphi-orthonormée si on a φ(e i,e j)={0siij 1sii=j\varphi(e_i,e_j)=\left\lbrace\begin{array}{l}0 \ \mbox{si}\ i\neq j \\ 1 \ \mbox{si}\ i=j\end{array}\right.

Lemme 3   La base e{\bf e} est φ\varphi-orthonormée si et seulement si Mat(φ,e)\Mat(\varphi, {\bf e}) est la matrice identité.

Preuve : Laissée en exercice.

Définition 4   On dit que deux sous-espaces W,WW,W' de VV sont orthogonaux si on a φ(w,w)=0pour toutwW,wW.\varphi(w,w')=0\ \mbox{pour tout}\ w\in W,w' \in W'.

On dit que VV est la somme directe orthogonale des sous-espaces V 1,,V mV_1,\ldots,V_m si V=V 1V mV=V_1\oplus\ldots\oplus V_m et les sous-espaces V 1,,V mV_1,\ldots,V_m sont orthogonaux deux à deux. On note alors V=V 1V m.V=V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_m.

On a le :

Lemme 5   Soit VV un espace vectoriel et soit φ\varphi une forme bilinéaire sur VV. Soient V 1,V kV_1,\ldots V_k des sous-espaces de VV tels que V=V 1V kV= V_1\underset{\perp}{\oplus}\ldots\underset{\perp}{\oplus} V_k. Si pour chaque ii, v i{\bf v_i} est une base orthonormée de V iV_i alors la concatenation (v 1,v 2,,v k)({\bf v}_1, {\bf v}_2, \ldots, {\bf v}_k) est une base orthonormée de VV

En effet tout vecteur ww de cette base de VV est dans un des (v i({\bf v}_i donc φ(w,w)=0\varphi(w,w)=0, et il est orthogonal à tout autre vecteur ww' de cette base de VV, soit parce que (v 1({\bf v}_1 est orthonormée si wv 1w' \in {\bf v}_1 , soit parce que les V iV_i sont orthogonaux entre eux.

Exemples

  1. L’application qui a une paire de polynômes de degré au plus 2 associe φ(P,Q)= 1 1P(t)Q(t)dt\varphi(P,Q)= \int_{-1}^1 P(t)Q(t)\mbox{d}t est bilinéaire symétrique. De plus, 1φX1\underset{\varphi}{\perp}X et XφX 2X\underset{\varphi}{\perp} X^2.

    Par contre, 11 et X 2X^2 ne sont pas φ\varphi-orthogonaux, puisque l’on a φ(1,X 2)=23\varphi(1,X^2)=\frac{2}{3}. La base 1,X,X 21,X,X^2 n’est donc pas φ\varphi-orthogonale.
    On peut vérifier que la base 1,X,X 2131,X,X^2-\frac{1}{3} est φ\varphi-orthogonale. Elle n’est pas φ\varphi-orthonormée puisque φ(1,1)=2,φ(X,X)=2/3,φ(X 213,X 213)=8/45.\varphi(1,1)=2,\; \varphi(X, X)= 2/3,\; \varphi(X^2-\frac{1}{3}, X^2-\frac{1}{3})= 8/45.

    On peut la rendre φ\varphi-orthonormée en multipliant chaque élément de la base par une constante bien choisie. Plus précisement, la base : 1232X458(X 213)\frac{1}{\sqrt{2}}\; \sqrt{\frac{3}{2}} X\; \sqrt{\frac{45}{8}} (X^2-\frac{1}{3}) est une base φ\varphi-orthonormée.
  2. La base canonique de n\mathbb{R}^n est φ\varphi-orthonormée pour la forme bilinéaire symétrique φ(x,y)=xy= i=1 nx iy i\varphi( x, y)=x \cdot y=\sum_{i=1}^n x_iy_i
  3. Soit V=C 0([1,1],)V=C^0([-1,1],\mathbb{R}), et soient 𝒫\mathcal{P} et \mathcal{I} le sous-espace des fonctions paires et impaires respectivement. On sait que l’on a V=𝒫.V=\mathcal{P}\oplus\mathcal{I}. Considérons sur V×VV\times V l’application φ(f,g)= 1 1f(t)g(t)dt\varphi(f,g)= \int_{-1}^1 f(t)g(t)\mbox{d}t Alors, on a φ(f,g)=0pour toutf𝒫,g.\varphi(f,g)=0\ \mbox{pour tout}\ f \in\mathcal{P},g\in\mathcal{I}. On a donc V=𝒫.V=\mathcal{P}\underset{\perp}{\oplus}\mathcal{I}.
  4. Soit φ\varphi la forme bilinéaire symétrique sur 3\mathbb{R}^3 de matrice (0 1 0 1 0 1 0 1 0)\begin{pmatrix} 0 & 1 & 0 \\ 1 & 0 & -1 \\ 0 & -1 & 0 \end{pmatrix} Alors (1,0,1)(1,0,1) est orthogonal à tout vecteur, (1,0,0)(1,0,0) est orthogonal à lui-même. La base {(1,0,1),(1,1,0),(1,1,0)}\{ (1,0,1), (1,1,0), (1,-1,0) \} est φ\varphi-orthogonale.

Le lemme 2 entraîne immédiatement:

Lemme 6   Soit VV un espace vectoriel de dimension finie nn, soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV, et soient x= i=1 nx ie i,y= i=1 ny ie ix=\sum_{i=1}^n x_i e_i, y=\sum_{i=1}^ny_i e_i deux vecteurs de VV. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Si e{\bf e} est φ\varphi-orthogonale, on a φ(x,y)= i=1 nφ(e i,e i)x iy i.\varphi(x,y)=\sum_{i=1}^n \varphi(e_i,e_i)x_iy_i. En particulier, si e{\bf e} est φ\varphi-orthonormée, on a φ(x,y)= i=1 nx iy i.\varphi(x,y)=\sum_{i=1}^n x_iy_i.

Il n’existe pas toujours une base φ\varphi-orthonormée. En effet, si φ:V×V\varphi:V\times V\to \mathbb{R} est bilinéaire symétrique et s’il existe une base φ\varphi-orthonormée alors le lemme précédent montre que φ(x,x)>0\varphi(x,x)&gt;0 pour tout x0x\neq 0.

Par exemple, la forme bilinéaire symétrique sur 2× 2\mathbb{R}^2\times \mathbb{R}^2 définie par φ((x 1,x 2),(y 1,y 2))=x 1y 1x 2y 2.\varphi((x_1,x_2),(y_1,y_2))= x_1y_1-x_2y_2. n’admet pas de base φ\varphi-orthonormée, puisque φ((0,1),(0,1))=1<0\varphi((0,1),(0,1))=-1&lt;0.

En revanche, on a le théorème suivant:

Théorème 7   Soit VV un espace vectoriel de dimension finie sur \mathbb{R}, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base de VV qui est φ\varphi-orthogonale.

Preuve : On démontre l’existence d’une base φ\varphi-orthogonale par récurrence sur n=dim(V)n=\dim(V).

Idée de la preuve : prenons un vecteur e 0e_0, et regardons l’ensemble des vecteurs φ\varphi-orthogonaux à e 0e_0, c’est un sous-espace de dimension nn ou n1n-1. Si la dimension vaut nn, e 0e_0 est orthogonal à tout le monde, on peut prendre un sous-espace de dimension n1n-1 qui ne contient pas e 0e_0, une base φ\varphi-orthogonale de ce sous-espace auquel on ajoute e 0e_0 convient. Si la dimension vaut n1n-1, on prend une base φ\varphi-orthogonale de ce sous-espace, si e 0e_0 n’appartient pas au sous-espace, on ajoute e 0e_0 à la base. On a donc intérêt à choisir e 0e_0 tel que φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0 (dans l’exemple sur 3\mathbb{R}^3, on ne peut pas par exemple prendre e 0=(1,0,0)e_0=(1,0,0) qui est orthogonal à lui-même).

Soit donc (P n)(P_n) la propriété:
(P n)(P_n) Pour tout \mathbb{R}-espace vectoriel de dimension nn et tout φ:V×V\varphi:V\times V\to \mathbb{R}, il existe une base φ\varphi-orthogonale.

Si n=1n=1, il n’y a rien à démontrer.

Supposons que (P n)(P_n) soit vraie, et soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique avec dim(V)=n+1\dim(V)=n+1.

Si φ=0\varphi=0, toute base est φ\varphi-orthogonale, et on a fini. On suppose donc que φ0\varphi\neq 0. Soit qq la forme quadratique associée. Par le formule de polarisation, si q=0q=0 alors φ=0\varphi=0, ce qui n’est pas le cas. Il existe donc un e 0e_0 tel que q(e 0)0q(e_0)\neq 0, c’est à dire, φ(e 0,e 0)0\varphi(e_0,e_0)\neq 0.

L’application f:{V y φ(e 0,y)f: \left\{ \begin{array}{ccc} V & \to & \mathbb{R}\\ y&\mapsto &\varphi(e_0,y) \end{array}\right. est alors une application linéaire non nulle, puisque f(e 0)=φ(e 0,e 0)0f(e_0)=\varphi(e_0,e_0)\neq 0 et son image est donc ==\mathbb{R}. Par le théorème du rang, dimKer(f)=n+11=n.\dim\mbox{Ker}(f)=n+1-1=n.

Par hypothèse de récurrence, il existe une base (e 1,,e n)(e_1,\ldots,e_n) de Ker(f)\mbox{Ker}(f) qui est orthogonale pour la forme φ:{Ker(f)×Ker(f) (x,y) φ(x,y)\varphi': \left\{ \begin{array}{ccc} \mbox{Ker}(f)\times \mbox{Ker}(f) &\to & \mathbb{R}\\ (x,y) &\mapsto &\varphi(x,y) \end{array}\right.

Montrons que e=(e 0,e 1,,e n){\bf e}=(e_0,e_1,\ldots,e_n) est une base de VV. Puisque dim(V)=n+1\dim(V)=n+1, il suffit de montrer que la famille (e 0,,e n)(e_0,\ldots,e_n) est libre. Soient λ 0,,λ n\lambda_0,\ldots,\lambda_n\in \mathbb{R} tels que λ 0e 0+λ 1e 1++λ ne n=0.\lambda_0 e_0+\lambda_1 e_1+\ldots+\lambda_n e_n=0. En appliquant ff à cette égalité et en utilisant la linéarité, on obtient λ 0f(e 0)+λ 1f(e 1)++λ nf(e n)=0.\lambda_0 f(e_0)+\lambda_1 f(e_1)+\ldots+\lambda_n f(e_n)=0.

Puisque e 1,,e nKer(f)e_1,\ldots,e_n\in\mbox{Ker}(f), on obtient λ 0f(e 0)=0\lambda_0 f(e_0)=0. Comme f(e 0)0f(e_0)\neq 0, on obtient λ 0=0\lambda_0=0. On a donc λ 1e 1++λ ne n=0.\lambda_1 e_1+\ldots+\lambda_n e_n=0. Comme (e 1,,e n)(e_1,\ldots,e_n) est une base de Ker(f)\mbox{Ker}(f), ils sont linéairement indépendants, et on obtient donc λ 1==λ n=0.\lambda_1=\cdots=\lambda_n=0.

Ceci prouve que e est une base de VV. Il reste à vérifier que cette base est φ\varphi-orthogonale.

Par choix des e ie_i, on a φ(e i,e j)=φ(e i,e j)=0pour toutij,1i,jn\varphi(e_i,e_j)=\varphi'(e_i,e_j)=0\ \mbox{pour tout}\ i\neq j,1\leq i,j\leq n et aussi φ(e 0,e j)=f(e j)=0pour toutj>0\varphi(e_0,e_j)=f(e_j)=0\ \mbox{pour tout}\ j&gt;0 parce que e jKer(f)e_j\in \mbox{Ker}(f). On a donc que φ(e i,e j)=0pour tout0ijn.\varphi(e_i,e_j)=0\ \mbox{pour tout}\ 0\leq i\neq j\leq n. Ainsi, (e 0,e 1,,e n)(e_0,e_1,\ldots,e_n) est une base φ\varphi-orthogonale. Ceci achève la récurrence.

Remarque
Le résultat précédent peut être faux si φ\varphi n’est pas bilinéaire symétrique. Par exemple, si φ:V×V\varphi: V\times V\to \mathbb{R} est antisymétrique, c’est-à-dire si on a φ(y,x)=φ(x,y)pour toutx,yV,\varphi(y,x)=-\varphi(x,y)\ \mbox{pour tout}\ x,y\in V, et si φ\varphi est non nulle, alors il n’existe pas de base φ\varphi-orthogonale de VV.

En effet, si φ\varphi est une telle forme, alors on a φ(x,x)=φ(x,x)pour toutxV.\varphi(x,x)=-\varphi(x,x)\ \mbox{pour tout}\ x\in V. On a donc φ(x,x)=0pour toutxV.\varphi(x,x)=0\ \mbox{pour tout}\ x\in V. Supposons maintenant que e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) est une base φ\varphi-orthogonale. On a donc φ(e i,e i)=0pour touti=1,,n.\varphi(e_i,e_i)=0\ \mbox{pour tout}\ i=1,\ldots,n. Comme φ(e i,e j)=0\varphi(e_i,e_j)=0 pour tout iji\neq j puisque e est φ\varphi-orthogonale, on en déduit que si MM est la matrice de φ\varphi dans e{\bf e} alors M=0.M=0.

Le Lemme 2 entraîne alors que l’on a φ(x,y)=0pour toutx,yV,\varphi(x,y)=0\ \mbox{pour tout}\ x,y\in V, ce qui contredit le fait que φ\varphi est non nulle.

Un exemple d’une telle forme bilinéaire φ\varphi est donné par le déterminant de deux vecteurs de 2\mathbb{R}^2, det((x 1 x 2),(y 1 y 2))=x 1y 2x 2y 1.\mbox{det}\left( \left(\begin{array}{c}x_1\\ x_2\end{array}\right), \left(\begin{array}{c}y_1\\ y_2\end{array}\right) \right) = x_1y_2-x_2y_1.

Proposition 8   Soit EE un sous-ensemble d’un espace vectoriel VV, et φ\varphi une forme bilinéaire symétrique sur VV. L’ensemble WW des vecteurs φ\varphi-orthogonaux à tous les él’ements de EE est un sous-espace vectoriel de VV, on le note E E^\perp. On a E =E^\perp=Vect(E) (E)^\perp et si FF est une famille génératrice de Vect(E)(E) alors E =F E^\perp=F^\perp.

Preuve : utiliser la linéarité de φ\varphi par rapport à un de ses arguments.

Pour chercher l’orthogonal d’un ensemble EE (en dimension finie), il suffit donc de trouver une base {e 1,...,e n}}\{ e_1,...,e_n\}\} de Vect(E)(E) et de résoudre le système linéaire φ(v,e j)=0,j=1..n\varphi(v,e_j)=0, j=1..n

Définition 9   Soit VV un espace vectoriel et φ\varphi une forme bilinéaire symétrique sur VV. On appelle noyau de φ\varphi l’orthogonal de l’espace VV tout entier. Ker(φ)=V \mbox{Ker}(\varphi)=V^\perp En dimension finie, si on a une base BB de VV, et si MM est la matrice de φ\varphi, le noyau de φ\varphi est le noyau de l’endomorphisme de matrice MM Ker(φ)=Ker(M)\mbox{Ker}(\varphi)=\mbox{Ker}(M)

En effet, si vv et ww ont pour coordonnées les vecteurs colonnes XX et YY, on a φ(v,w)= tXMY\varphi(v,w)=\, ^tXMY, donc si ww est dans le noyau de l’endomorphisme de matrice MM, alors MY=0MY=0 et φ(v,w)=0\varphi(v,w)=0. Réciproquement, on prend X=MYX=MY.

Exercice : calculer les noyaux des formes des exemples ci-dessus.

Si BB est une base φ\varphi-orthogonale, on voit que le noyau de φ\varphi a pour base l’ensemble des vecteurs e je_j de BB tels que φ(e j,e j)=0\varphi(e_j,e_j)=0, la dimension du noyau de φ\varphi est le nombre de coefficients nuls sur la diagonale de MM (qui est diagonale). Ce nombre ne change donc pas si on prend une autre base φ\varphi-orthogonale.

Définition 10   Soit VV un espace vectoriel de dimension finie et φ\varphi une forme bilinéaire symétrique sur VV. On définit le rang de φ\varphi par rang(φ)=dim(V)dim(Ker(φ))\mbox{rang}(\varphi)=\mbox{dim}(V)-\mbox{dim(Ker}(\varphi)) SI BB est une base de VV, c’est aussi le rang de la matrice MM de φ\varphi dans la base BB.

Le calcul du rang se fait donc comme si MM était une matrice d’application linéaire. Si BB est une base φ\varphi-orthogonale, le rang de MM est le nombre de coefficients non nuls sur la diagonale de MM. Ce nombre ne change donc pas si on prend une autre base φ\varphi-orthogonale.

En fait on a un résultat un peu plus général, qui dit que le nombre de coefficients strictement positifs et le nombre de coefficients strictements négatifs ne dépend pas de la base φ\varphi-orthogonale, c’est le théorème de Sylvester (et la définition de la signature) que nous verrons plus bas.

3.5  Calcul effectif d’une base φ\varphi-orthogonale.

3.5.1  Lien avec la forme quadratique correspondante.

Nous allons calculer une base φ\varphi-orthogonale en exploitant la forme quadratique qq qui lui est associée. Rappelons que la forme bilinéaire symétrique φ\varphi peut être reconstruite de la forme quadratique qq via la formule de polarisation φ(x,y)=12(q(x+y)q(x)q(y)). \varphi(x,y)= \frac{1}{2} (q(x+y)-q(x)-q(y)). Nous disons alors que φ\varphi est la forme polaire de qq, que nous noterons parfois φ q\varphi_q.

Exemples

  1. La norme euclidienne de n\mathbb{R}^n définie par q(x=(x 1 x n))=x 1 2++x n 2q(x=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}) = x_1^2+\ldots+x_n^2 est une forme quadratique, de forme polaire le produit scalaire usuel φ q((x 1 x n),(y 1 y n))=x 1y 1++x ny n.\varphi_q \left( \begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix}, \begin{pmatrix}y_1\\ \vdots \\ y_n\end{pmatrix}\right) = x_1y_1+\ldots+x_ny_n.

    En effet, l’application φ\varphi est bilinéaire symétrique et on a clairement φ(x,x)=q(x)\varphi(x,x)=q(x).
    Vérifions la formule de polarisation. On a que q(x+y)= i=1 n(x i+y i) 2= i=1 nx i 2+2x iy i+y i 2=q(x)+q(y)+2φ(x,y).q(x+y)=\sum_{i=1}^n (x_i+y_i)^2=\sum_{i=1}^n x_i^2+2x_iy_i+y_i^2=q(x)+q(y)+2 \varphi(x,y).

  2. L’application qui a une fonction continue sur [0,1][0,1] à valeurs réelles associe q(f)= 0 1f(t) 2dtq( f)=\int_0^1 f(t)^2\mbox{d}t est une forme quadratique, de forme polaire φ q(f,g)= 0 1f(t)g(t)dt.\varphi_q (f,g)= \int_0^1 f(t)g(t)\mbox{d}t. Vérifions la formule de polarisation. q(f+g) = 0 1(f(t)+g(t)) 2dt = 0 1f(t) 2+2f(t)g(t)+g(t) 2dt = q(f)+q(g)+2 0 1f(t)g(t)dt. \begin{matrix} q(f+g)&=&\int_0^1 (f(t)+g(t))^2\,\mbox{d}t \\ &=&\int_0^1f(t)^2+2f(t)g(t)+g(t)^2\,\mbox{d}t\\ &=&q(f)+q(g)+2\int_0^1 f(t)g(t)\mbox{d}t. \end{matrix}
Définition 1   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e une base de VV. La matrice MM de qq dans la base e est la matrice de la forme polaire φ q\varphi_q dans la base e{\bf e}. C’est une matrice symétrique par le Corollaire 3.

Le rang de qq, noté rg(q)\mbox{rg}(q), est le rang de sa forme polaire.

On dit que e est qq-orthogonale (resp. qq-orthonormée) si elle est φ q\varphi_q-orthogonale (resp. φ q\varphi_q-orthonormée).

L’égalité q(x)=φ q(x,x)q(x)=\varphi_q(x,x) et le Lemme 2 donnent immédiatement:

Lemme 2   Soit VV un espace vectoriel de dimension finie nn et e{\bf e} une base pour VV. Soit xVx\in V, et soit X̲\underline{X} le vecteur coordonnées de xx dans la base e.

Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit MM sa matrice dans la base e{\bf e}. Alors on a q(x)= tX̲MX̲.q(x)={}^t\underline{X} M \underline{X}. En particulier, si e est qq-orthogonale, c’est à dire si MM est diagonale, alors on a q(x)= i=1 nq(e i)x i 2.q(x)=\sum_{i=1}^n q(e_i)x_i^2.

Le lemme suivant nous permet de passer directement de la forme quadratique qq a sa matrice MM sans calculer le forme polaire φ\varphi.

Lemme 3   Soit VV un espace vectoriel de dimension finie nn. Soient x,yVx,y\in V, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base de VV. Alors pour tout a ij,1ijna_{ij}\in \mathbb{R}, 1\leq i\leq j\leq n, l’application définie sur VV par q( i=1 nx ie i)= i=1 na iix i 2+2 1i<jna ijx ix jq(\sum_{i=1}^n x_ie_i) = \sum_{i=1}^n a_{ii}x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j est une forme quadratique, et sa matrice AA dans la base e{\bf e} est donnée par A=(a ij).A=(a_{ij}).

La démonstration est laissée en exercice au lecteur. Attention au facteur 2 !

Exemple :
L’application définie sur 2\mathbb{R}^2 par q((x 1 x 2))=3x 1 2+4x 1x 2+5x 2 2q(\begin{pmatrix} x_1 \\ x_2\end{pmatrix})= 3x_1^2+ 4x_1x_2+5x_2^2 est une forme quadratique, et sa matrice représentative dans la base canonique de 2\mathbb{R}^2 est donnée par (3 2 2 5).\begin{pmatrix}3 & 2 \\ 2 & 5\end{pmatrix}.

Soient maintenant φ\varphi une forme bilinéaire sur un espace VV, qq sa forme polaire, e{\bf e} une base pour VV. Soit xVx\in V un élément arbitraire et X̲=(x 1 x n)\underline{X}=\begin{pmatrix}x_1\\ \vdots \\ x_n\end{pmatrix} son vecteur de coordonnées dans la base e{\bf e}. Alors eestφ-orthogonale {\bf e}\ \mbox{est}\ \varphi\mbox{-orthogonale} \Updownarrow la matrice deφdans la baseeest diagonale \mbox{la matrice de}\ \varphi\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow la matrice deqdans la baseeest diagonale \mbox{la matrice de}\ q\ \mbox{dans la base}\ {\bf e}\ \mbox{est diagonale} \Updownarrow a itels queq(x)= i=1 na ix i 2. \exists a_i\in\mathbb{R} \ \mbox{tels que}\ q(x)=\sum_{i=1}^n a_i x_i^2.

3.5.2  Algorithme de Gauss, signature

Nous allons maintenant décrire un algorithme, dit algorithme de Gauss, qui permet de trouver une base qq-orthogonale.

Soit BB' une base φ\varphi-orthogonale et BB une base quelconque, PP la matrice de passage de BB' à BB. Si un vecteur vv a pour coordonnées tX=(x 1,..,x n)^tX=(x_1,..,x_n) dans la base BB et tX=(x 1,...,x n)^tX'=(x_1',...,x_n') dans la base BB', on a PX=XPX=X' donc : q(v)= i=1 na ix i 2q(v) = \sum_{i=1}^n a_i x_i'^2 q(v)= i=1 na i( j=1 nP ijx j) 2(1) q(v)=\sum_{i=1}^n a_i \left(\sum_{j=1}^n P_{ij} x_j\right)^2 \qquad (1) Pour trouver une base qq-orthogonale, nous allons effectuer le processus inverse, partir de l’expression de q(v)q(v) en fonction des x jx_j et essayer de l’écrire sous la forme (1) de somme/différences de carrés de combinaisons linéaires indépendantes des coordonnées de vv. La matrice de passage de BB à BB' s’obtient alors en inversant PP, la ii-ième colonne de cette matrice P 1P^{-1}, qui est le vecteur colonne des coordonnées du ii-ième vecteur de la base qq-orthogonale, s’obtient en résolvant le système {x 1=0= j=1 nP 1jx j ... x i=1= j=1 nP ijx j ... x n=0= j=1 nP njx j\left\{ \begin{array}{c} x_1'=0 = \sum_{j=1}^n P_{1j} x_j\\ ...\\ x_i'=1=\sum_{j=1}^n P_{ij} x_j\\ ...\\ x_n'=0=\sum_{j=1}^n P_{nj} x_j \end{array} \right.

Algorithme de Gauss

Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit e une base de VV. Soit q:Vq:V\to \mathbb{R} une forme quadratique, et soit M=(a ij) 1i,jnM=(a_{ij})_{1\leq i,j\leq n} sa matrice représentative dans la base e. Si x= i=1 nx ie ix=\sum_{i=1}^n x_i e_i, on a donc q(x)= i=1 na iix i 2+2 1i<jna ijx ix j=P(x 1,,x n).q(x)=\sum_{i=1}^n a_{ii} x_i^2+2\sum_{1\leq i&lt;j\leq n}a_{ij}x_ix_j=P(x_1,\ldots,x_n).

On procède par récurrence sur le nombre de variables. A chaque étape, il y a deux cas.

  1. S’il existe un indice kk tel que a kk0a_{kk}\neq 0, on regroupe tous les termes faisant intervenir la variable x kx_k, et on complète le carré. On écrit P(x 1,,x n)=a kkx k 2+2f kx k+P 0,P(x_1,\ldots,x_n)=a_{kk}x_k^2+2f_k x_k+P_0, f kf_k est une forme linéaire en les variables x i,ikx_i,i\neq k, et P 0P_0 est une forme quadratique en les variables x i,ikx_i,i\neq k.
    On a alors P(x 1,,x n) = a kk(x k 2+2a kkf kx k)+P 0 = a kk((x k+f ka kk) 2f k 2a kk 2)+P 0.\begin{array}{lll}P(x_1,\ldots,x_n)&=&a_{kk}(x_k^2+\frac{2}{a_{kk}}f_k x_k)+P_0\\ &=&a_{kk}((x_k+\frac{f_k}{a_{kk}})^2-\frac{f_k^2}{a_{kk}^2})+P_0\end{array}. On peut donc écrire P(x 1,,x n)=a kk(x k+f ka kk) 2+P 1,P(x_1,\ldots,x_n)=a_{kk}(x_k+\frac{f_k}{a_{kk}})^2+P_1, P 1P_1 est une forme quadratique en les variables x i,ikx_i,i\neq k.
  2. Si a kk=0a_{kk}=0 pour tout kk, mais qu’il existe kk et \ell tels que k<k&lt;\ell et a k0a_{k\ell}\neq 0. C’est le cas délicat.
    On écrit P(x 1,,x n)=2a kx kx +2f kx k+2f x +P 0,P(x_1,\ldots,x_n)=2a_{k\ell}x_k x_\ell+2f_{k}x_{k}+2f_\ell x_\ell+P_0, f kf_k et f f_\ell sont des formes linéaires en les variables x i,(ik,)x_i, (i\neq k,\ell), et P 0P_0 est une forme quadratique en les variables x i,(ik,)x_i, (i\neq k,\ell).
    On a ainsi P(x 1,,x n)=2a k(x k+1a kf )(x +1a kf k)2a kf kf +P 0.P(x_1,\ldots,x_n)=2a_{k\ell }(x_{k}+\frac{1}{a_{k\ell}}f_\ell)(x_{\ell}+\frac{1}{a_{k\ell}}f_k) -\frac{2}{a_{k\ell}}f_kf_\ell+P_0.

    On a donc P(x 1,,x n)=2a kAB+P 1,P(x_1,\ldots,x_n)=2a_{k\ell}AB+P_1, avec A=x k+1a kf ,B=x +1a kf kA=x_{k}+\frac{1}{a_{k\ell}}f_\ell, B= x_{\ell}+\frac{1}{a_{k\ell}}f_k, et P 1P_1 est une forme quadratique en les variables x i,ik,x_i,i\neq k,\ell.

    On a alors P(x 1,,x n)=a k2((A+B) 2(AB) 2)+P 1.P(x_1,\ldots,x_n)=\frac{a_{k\ell}}{2}((A+B)^2-(A-B)^2)+P_1.

Si P 1=0P_1=0, on arrête. Sinon, on recommence le procédé avec P 1P_1.

On peut montrer que l’on obtient alors une écriture de la forme q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2,q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2, où:

  1. chaque α i *\alpha_i\in \mathbb{R}^*
  2. chaque L iL_i est une forme linéaire sur VV
  3. la famille de formes (L 1,,L r)(L_1,\ldots, L_r) est indépendante.

Si qq n’est pas de rang nn (rnr \neq n), on complète par des formes linéaires L r+1,L r+2,,L nL_{r+1}, L_{r+2},\ldots, L_n (on les choisit par exemple parmi les formes coordonnées x 1,...,x nx_1,...,x_n) pour que la famille (L 1,,L n)(L_1, \ldots, L_n) soit libre et on écrit q(x)=α 1(L 1(x)) 2++α r(L r(x)) 2+0(L r+1) 2++0(L n(x))) 2q(x)=\alpha_1(L_1(x))^2+\ldots+\alpha_r (L_r(x))^2+ 0 (L_{r+1})^2+ \ldots + 0(L_n(x)))^2

Calcul de la base qq-orthogonale
On cherche e=(e 1,e 2,,e n){\bf e}'=(e'_1,e'_2,\ldots, e'_n) telle que pour tout vv on ait v= iL i(v)e iv=\sum_i L_i(v)e'_i. Cela revient à

L j(e i)=0L_j(e'_i)=0 si iji\neq j et 1 si i=ji=j.

Les coordonnées de e ie'_i vérifient donc un système dont la matrice MM est obtenue en écrivant en ligne les coefficients des L jL_j, et de second membre la ii-ème colonne de la matrice identité. Il s’agit donc du ii-ième vecteur colonne de M 1M^{-1}.

Exemple 1 :
On considère la forme quadratique qq définie sur 2\mathbb{R}^2 par q(x,y)=x 2+4xyq(x,y)=x^2+4xy On élimine la variable xx en formant un carré contenant tous les termes dépendant de xx (forme canonique d’un polynôme du second degré en xx dépendant de yy vu comme paramètre) q(x,y)=(x+2y) 24y 2=x 24y 2,x=x+2y,y=yq(x,y)=(x+2y)^2-4y^2=x'^2-4y'^2, \quad x'=x+2y, y'=y Pour trouver la base qq-orthogonale, il suffit de chercher son premier vecteur de base x=1,y=0x'=1, y'=0 donc y=0y=0 puis x=1x=1, puis son deuxième vecteur de base x=0,y=1x'=0,y'=1 donc y=1y=1 puis x=2y=2x=-2y=-2. La matrice de passage de la base canonique à la base qq-orthogonale est donc P=(1 2 0 1)P=\begin{pmatrix} 1 & -2 \\ 0 & 1\end{pmatrix} on peut vérifier

Exemple 2 
On considère la forme quadratique qq définie sur 3\mathbb{R}^3 par q(x,y,z)=x 2+2xy+4xz+2yzq(x,y,z)=x^2+2xy+4xz+2yz On élimine la variable xx q(x,y,z)=(x+y+2z) 2(y+2z) 2+2yz=(x+y+2z) 2y 24z 22yzq(x,y,z)= (x+y+2z)^2-(y+2z)^2+2yz=(x+y+2z)^2-y^2-4z^2-2yz Puis on élimine yy dans ce qui reste q(x,y,z)=(x+y+2z) 2(y+z) 23z 2=x 2y 23z 2q(x,y,z)=(x+y+2z)^2-(y+z)^2-3z^2=x'^2-y'^2-3z'^2 Pour trouver la base qq-orthogonale correspondante, on résoud le système {x+y+2z = x y+z = y z = z\left\{ \begin{array}{rcl} x+y+2z&=&x'\\ y+z&=&y'\\ z&=&z' \end{array}\right. pour (x,y,z)=(1,0,0)(x',y',z')=(1,0,0) (premier vecteur de la base qq-orthogonale) puis (x,y,z)=(0,1,0)(x',y',z')=(0,1,0) (deuxième vecteur de la base qq-orthogonale) et (x,y,z)=(0,0,1)(x',y',z')=(0,0,1) (troisième vecteur de la base qq-orthogonale).

Exemple 3 :
Soit q: 4q:\mathbb{R}^4\to \mathbb{R} l’application qui a u=(x y z t){\bf u}=\begin{pmatrix} x\\ y \\ z\\ t\end{pmatrix} associe q(u)=x 2+2xy+2xz+2xt+y 2+6yz2yt+z 2+10zt+t 2.q({\bf u})=x^2+2xy+2xz+2xt+y^2+6yz-2yt+z^2+10zt+t^2. L’application qq est bien une forme quadratique car c’est un polynôme de degré 22 homogène.

Appliquons l’algorithme de Gauss à qq pour trouver une base qq-orthogonale. On a q(u) = x 2+2(y+z+t)x+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2(y+z+t) 2+y 2+6yz2yt+z 2+10zt+t 2 = (x+y+z+t) 2+4yz4yt+8zt.\begin{array}{lll}q({\bf u})&=&x^2+2(y+z+t)x+y^2+6yz-2yt+z^2+10zt+t^2 \\ &=& (x+y+z+t)^2-(y+z+t)^2+y^2+6yz-2yt+z^2+10zt+t^2\\ &=& (x+y+z+t)^2+4yz-4yt+8zt .\end{array}

On a maintenant 4yz4yt+8zt = 4(yz+(t)y+(2t)z) = 4((y+2t)(zt)+2t 2) = 4(y+2t)(zt)+8t 2 = (y+z+t) 2(yz+3t) 2+8t 2.\begin{array}{lll} 4yz-4yt+8zt&=& 4(yz +(-t)y +(2t)z)\\ &=&4((y+2t)(z-t)+2t^2)\\ &=& 4(y+2t)(z-t)+8t^2\\ &=& (y+z+t)^2-(y-z+3t)^2+8t^2\end{array}. Finalement, on obtient q(u)=(x+y+z+t) 2+(y+z+t) 2(yz+3t) 2+8t 2.q({\bf u})=(x+y+z+t)^2 +(y+z+t)^2-(y-z+3t)^2+8t^2. Vérification

On a donc rg(q)=4\mbox{rg}(q)=4. On a {L 1(u) = x+y+z+t L 2(u) = y+z+t L 3(u) = yz+3t L 4(u) = t \left\{ \begin{array}{ccc} L_1(u) & = & x+y+z+t\\ L_2(u) & = & y+z+t \\ L_3(u) & =& y-z+3t \\ L_4(u) & =& t \end{array} \right. Calcul de e 1e'_1 : on a L 1(e 1)=1,L 2(e 1)=L 3(e 1)=L 4(e 1)=0L_1(e'_1)=1, L_2(e'_1)=L_3(e'_1)=L_4(e'_1)=0. Si (x,y,z,t)(x,y,z,t) sont les coordonnées de e 1e'_1 {x +y +z +t = 1 y +z +t = 0 y z +3t = 0 t = 0\left\{ \begin{array}{cccccc} x&+y&+z&+t & = & 1\\ &y&+z&+t &=& 0\\ &y&-z&+3t &=& 0\\ &&&t &=& 0 \end{array} \right. donc x=1x=1, y=z=t=0y=z=t=0. La matrice du système est donnée par M=(1 1 1 1 0 1 1 1 0 1 1 3 0 0 0 1)M=\left(\begin{array}{cccc} 1 & 1 & 1 & 1 \\ 0 & 1 & 1 & 1 \\ 0 & 1 & -1 &3 \\ 0 & 0 & 0 & 1 \end{array}\right) La matrice du système est presque triangulaire supérieure, il y a donc assez peu de manipulation à faire pour résoudre le système. Avec un logiciel ou à la main, on calcule M 1M^{-1}

et on lit e 1e'_1 dans la 1ère colonne de MM, e 2e'_2 dans la deuxième colonne, etc. e 1=(1 0 0 0),e 2=(1 1/2 1/2 0),e 3=(0 1/2 1/2 0),e 4=(0 2 1 1)e_1'=\begin{pmatrix}1\\0\\0\\0\end{pmatrix},\; e_2'=\begin{pmatrix}-1\\1/2\\1/2\\0\end{pmatrix},\; e_3'= \begin{pmatrix}0\\1/2\\-1/2\\0\end{pmatrix},\; e_4'=\begin{pmatrix}0\\-2\\1\\1\end{pmatrix} Ces vecteurs (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4') forment donc une base qq-orthogonale. On vérifie en appliquant la formule de changement de base de la base (e 1,e 2,e 3,e 4)(e_1', e_2',e_3', e_4')qq est diagonale (de coefficients 1, 1, -1 et 8) vers la base canonique.

Il résulte du lemme 3 que la matrice de qq dans la base e{\bf e}' est la matrice M=diag(α 1,α 2,,α r,0,,0)M=\mbox{diag}(\alpha_1,\alpha_2, \ldots, \alpha_r,0,\ldots, 0)

Remarque 4   Si ϕ:V×V\phi:V\times V\to \mathbb{R} est bilinéaire symétrique, alors en appliquant l’algorithme de Gauss à la forme quadratique q b:V,xφ(x,x),q_b:V\to \mathbb{R}, x\mapsto \varphi(x,x), on trouve une base v qui est q φq_\varphi-orthogonale. Mais par définition, v est donc orthogonale pour la forme polaire de q φq_\varphi, qui est φ\varphi.

En particulier, le nombre rr de carrés qui apparaissent dans l’écriture q(x)= i=1 ra iL i(x) 2q(x)=\sum_{i=1}^r a_i L_i(x)^2 est le rang de la forme bilinéaire.

Cet algorithme permet donc de trouver une base φ\varphi-orthogonale pour n’importe quelle forme bilinéaire symétrique φ\varphi, ainsi que son rang. On peut programmer l’algorithme de Gauss sur machine, mais à condition que les coefficients de la forme quadratique soient représentables exactement sur machine, sinon le résultat obtenu peut être invalide en raison des erreurs d’arrondis (toutefois Gauss fonctionne avec des coefficients approchés si r +=nr_+=n ou si r =nr_-=n, cela correspond à la factorisation de Cholesky d’une matrice).

Le théorème qui suit affirme que r +r_+ le nombre de coefficients strictement positifs et r r_- le nombre de coefficients strictement négatifs des carrés L i(x) 2L_i(x)^2 ne dépend pas des choix faits au cours de l’algorithme de réduction de Gauss de la forme quadratique.

Théorème 5 (Théorème d’inertie de Sylvester)   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Soit e{\bf e} une base qq-orthogonale Soit r +=card{i|q(e i)>0},r =card{i|q(e i)<0}.r_+=\mbox{card}\{ i \vert q(e_i)&gt;0\}, \quad r_-=\mbox{card}\{ i \vert q(e_i)&lt;0\}.

Alors le couple (r +,r )(r_+,r_-) ne dépend pas de la base qq-orthogonale choisie. De plus, r ++r =rg(q)r_++r_-=\mbox{rg}(q).

Ce théorème n’est valable que pour des formes réelles.

Preuve : Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base qq-orthogonale. Posons α i=q(e i)=φ q(e i,e i)\alpha_i=q(e_i)=\varphi_q(e_i,e_i) et r=r ++r r=r_++r_-. Changer l’ordre des vecteurs de e{\bf e} ne change pas r +r_+ et r r_-, ni le fait que la base soit qq-orthogonale. On peut donc supposer sans perte de généralité que l’on a q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e_i)&gt;0, i=1,\ldots, r_+, \quad q(e_i)&lt;0, i=r_++1,\ldots, r,\quad q(e_i)=0, i=r+1,\ldots,n.

Puisque e{\bf e} est qq-orthogonale (c’est-à-dire φ q\varphi_q-orthogonale), on obtient que MM, la matrice de qq dans la base e{\bf e}, s’écrit M=(q(e 1) ... 0 0 ... q(e n)).M=\begin{pmatrix}q(e_1) & ...& 0\\ & \ddots & \\ 0 & ... & q(e_n) \end{pmatrix}. Or, seuls les réels q(e 1),,q(e r)q(e_1),\ldots,q(e_r) sont non nuls. Le rang d’une matrice diagonale étant le nombre de termes diagonaux non nuls, on a bien rg(q)=r=r ++r rg(q)=r=r_++r_-.

Soit maintenant e{\bf e'} une autre base qq-orthogonale. Soient (r +,r )(r'_+,r'_-) le couple d’entiers correspondant. Remarquons que l’on a r ++r =rg(q)=rr'_++r'_-=rg(q)=r par le point précédent. Comme précédemment, quitte à changer l’ordre des vecteurs, on peut supposer que q(e i)>0,i=1,,r +,q(e i)<0,i=r ++1,,r,q(e i)=0,i=r+1,,n.q(e'_i)&gt;0, i=1,\ldots, r'_+, \quad q(e_i)&lt;0, i=r'_++1,\ldots, r,\quad q(e'_i)=0,i=r+1,\ldots,n. Montrons que e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont linéairement indépendants. Supposons que l’on ait une relation λ 1e 1++λ r +e r ++λ r ++1e r ++1++λ ne n=0.\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}+\lambda_{r'_++1}e'_{r'_+ +1}+\ldots+\lambda_ne'_n=0. On a donc λ 1e 1++λ r +e r +=(λ r ++1e r ++1+λ ne n).\lambda_1e_1+\ldots+\lambda_{r_+}e_{r_+}=-(\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n). En appliquant qq des deux côtés, et en utilisant le fait que les bases e et e{\bf e'} sont qq-orthogonales, on obtient i=1 r +q(e i)λ i 2= i=r ++1 nq(e i)λ i 2.\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=\sum_{i=r'_++1}^{n}q(e'_i)\lambda_i^2. Par choix de e{\bf e} et de e{\bf e'}, le membre de gauche est 0\geq 0 et le membre de droite est 0\leq 0.

On en déduit que l’on a i=1 r +q(e i)λ i 2=0,\sum_{i=1}^{r_+}q(e_i)\lambda_i^2=0, et puisque q(e i)>0q(e_i)&gt;0 pour i=1,,r +i=1,\ldots,r_+, on en déduit λ 1==λ r +=0.\lambda_1=\ldots=\lambda_{r_+}=0. Mais alors, on a λ r ++1e r ++1+λ ne n=0,\lambda_{r'_++1}e'_{r'_+ +1}+\ldots\lambda_n e'_n=0, et comme e{\bf e'} est une base, on en déduit λ r ++1==λ n=0.\lambda_{r'_++1}=\ldots=\lambda_n=0.

Ainsi, e 1,,e r +,e r ++1,,e ne_1,\ldots,e_{r_+},e'_{r'_+ +1},\ldots,e'_n sont r ++(nr +)r_++(n-r'_+) vecteurs linéairement indépendants dans un espace vectoriel de dimension nn. On a donc r ++(nr +)n,r_++(n-r'_+)\leq n, et donc r +r +r_+\leq r'_+. En échangeant les rôles de e{\bf e} et e{\bf e'}, on a de même r +r +r'_+\leq r_+.

On a donc r +=r +r_+=r'_+, et comme on a rg(q)=r ++r =r ++r \mbox{rg}(q)=r_++r_-=r'_++r'_-, on en déduit r =r r_-=r'_-. Ceci achève la démonstration.

Cela conduit à la définition suivante.

Définition 6   Soit VV un \mathbb{R}-espace vectoriel de dimension finie nn, et soit q:Vq:V\to \mathbb{R} une forme quadratique. Le couple (r +,r )(r_+,r_-) est appelé la signature de qq.
Remarque 7   Pour calculer la signature d’une forme quadratique qq, il suffit d’utiliser l’algorithme de Gauss pour écrire q(x)q(x) sous la forme α 1(u 11x 1++u 1nx n) 2++α r(u r1x 1++u rnx n) 2,\alpha_1(u_{11}x_1+\ldots+u_{1n}x_n)^2+\ldots+\alpha_r (u_{r1}x_1+\ldots+u_{rn}x_n)^2, et de compter le nombre de coefficients α i\alpha_i qui sont strictement plus grand que 00 et strictement plus petit que 00.

En effet, on a vu que si v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est la base qq-orthogonale obtenue à la fin de l’algorithme de Gauss, et MM est la matrice de qq dans cette base, alors M=diag(α 1,,α r,0,,0).M=diag(\alpha_1,\ldots,\alpha_r,0,\ldots,0). Mais les coefficients diagonaux de MM sont exactement les réels q(v i)q(v_i), et on conclut en utilisant la définition de r +r_+ et r r_-.

Exemple
La signature de la forme quadratique qq de l’exemple précédent est (3,1)(3,1).

Chapitre 4  Produits scalaires.

4.1  Rappels dans le plan et l’espace

4.1.1  Dans le plan

Soient u 1(x 1,y 1)u_1(x_1,y_1) et u 2(x 2,y 2)u_2(x_2,y_2) deux vecteurs du plan. On définit le produit scalaire de u 1u_1 et u 2u_2 par u 1|u 2=x 1x 2+y 1y 2\langle u_1|u_2 \rangle =x_1x_2+y_1y_2 Propriétés

Si z 1z_1 est l’affixe de u 1u_1 (le complexe correspondant à u 1u_1) et z 2z_2 celui de u 2u_2, alors en notant \Re la partie réelle : u 1|u 2=x 1x 2+y 1y 2=((x 1iy 1)(x 2+iy 2))=(z 1¯z 2)\langle u_1|u_2 \rangle = x_1x_2+y_1y_2=\Re((x_1-iy_1)(x_2+iy_2))=\Re(\overline{z_1} z_2) Donc le produit scalaire est invariant par rotation1, puisque (e iθz 1¯e iθz 2)=(e iθz 1¯e iθz 2)=(z 1¯z 2)\Re(\overline{e^{i\theta}z_1} e^{i\theta}z_2)=\Re(e^{-i\theta}\overline{z_1} e^{i\theta}z_2) =\Re(\overline{z_1} z_2) On peut aussi le vérifier avec la matrice PP de la rotation d’angle θ\theta : P=(cos(θ) sin(θ) sin(θ) cos(θ))P=\left(\begin{array}{cc} \cos(\theta) & -\sin(\theta) \\ \sin(\theta) & \cos(\theta) \end{array} \right) qui vérifie P tP=I 2P^t P=I_2.

Soit φ\varphi l’angle entre les vecteurs u 1u_1 et u 2u_2. Effectuons la rotation qui met u 1u_1 selon l’axe des xx dans le bon sens, on a alors x 1=u 1,y 1=0x_1=\|u_1\|, y_1=0 donc u 1|u 2=x 1x 2=u 1u 2cos(φ)\langle u_1|u_2 \rangle =x_1x_2=\|u_1\| \|u_2\| \cos(\varphi) En particulier, on a l’inégalité de Cauchy-Schwarz : |u 1|u 2|u 1u 2|\langle u_1|u_2 \rangle | \leq \|u_1\| \|u_2\|

Si u|v=0\langle u|v \rangle =0, on dit que les vecteurs uu et vv sont orthogonaux, on a alors le théorème de Pythagore u+v 2=u 2+v 2\|u+v\|^2=\|u\|^2+\|v\|^2 Lorsqu’une base est composée de vecteurs de norme 1 orthogonaux entre eux, on parle de base orthonormée. Si {u 1,u 2}\{u_1,u_2\} est une telle base, alors on a u=u 1|uu 1+u 2|uu 2u=\langle u_1|u \rangle u_1+\langle u_2|u \rangle u_2

Si on se donne un vecteur uu, on peut construire une base orthonormée dont le premier vecteur est u 1=uuu_1=\frac{u}{\|u\|}. On définit la projection orthogonale sur la droite vectorielle DD engendrée par uu par p(v)=u 1|vu 1p(v)=\langle u_1|v \rangle u_1 on vérifie que vp(v)v-p(v) est orthogonal à u 1u_1 : u 1|vp(v)=u 1|vu 1|p(v)=u 1|vu 1|u 1|vu 1=u 1|vu 1|vu 1|u 1=0\langle u_1|v-p(v) \rangle =\langle u_1|v \rangle -\langle u_1|p(v) \rangle =\langle u_1|v \rangle -\langle u_1| \langle u_1|v \rangle u_1 \rangle =\langle u_1|v \rangle -\langle u_1|v \rangle \langle u_1|u_1 \rangle =0 Le vecteur de DD le plus proche de vv est w=p(v)w=p(v). En effet si dd est un vecteur de DD, on applique le théorème de Pythagore dans le triangle de sommets les extrémités de dd, w=p(v)w=p(v) et vv qui est rectangle (en w=p(v)w=p(v)).

gl_ortho=true;
u:=vecteur(1,1/4); D:=droite(0,u,legend=""); 
v:=vecteur(2,2); w:=projection(D,v); d:=6*u;
triangle(v[1,1],w[1,1],d[1,1],color=red)

onload

4.1.2  Dans l’espace

Si u 1(x 1,y 1,z 1)u_1(x_1,y_1,z_1) et u 2(x 2,y 2,z 2)u_2(x_2,y_2,z_2) sont deux vecteurs de 3\mathbb{R}^3, on définit leur produit scalaire par : u 1|u 2=x 1x 2+y 1y 2+z 1z 2\langle u_1|u_2 \rangle =x_1x_2+y_1y_2+z_1z_2 On vérifie les mêmes propriétés que dans le plan : le produit scalaire se comporte comme un produit (linéarité par rapport à chaque argument), u|u\langle u|u \rangle est positif et ne s’annule que si u=0u=0. Comme c’est le produit scalaire du plan si on se restreint aux plans de coordonnées Oxy,Oxz,OyzOxy, Oxz, Oyz, il est invariant par rotation d’axe les vecteurs de base. On a donc toujours u 1|u 2=u 1u 2cos(u 1,u 2)\langle u_1|u_2 \rangle =\|u_1\| \|u_2\| \cos(u_1,u_2) (en utilisant les angles d’Euler : faire une rotation d’axe OzOz pour que le plan u 1,u 2u_1,u_2 contienne OxOx, puis une rotation selon OxOx pour que le plan u 1,u 2u_1,u_2 soit le plan de coordonnées OxyOxy). Donc l’inégalité de Cauchy-Schwarz est toujours valide. De même que le théorème de Pythagore.

On parle toujours de base orthonormée pour une base de 3 vecteurs de norme 1 orthogonaux entre eux 2 à 2. Les coordonnées d’un vecteur uu dans une base orthonormée {u 1,u 2,u 3}\{u_1,u_2,u_3\} se calculent par la formule : u=u 1|uu 1+u 2|uu 2+u 3|uu 3u=\langle u_1|u \rangle u_1+\langle u_2|u \rangle u_2+\langle u_3|u \rangle u_3

Si on se donne une droite vectorielle DD de vecteur directeur uu, on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|}. La projection orthogonale d’un vecteur vv sur la droite DD est toujours obtenue par p(v)=u 1|vu 1p(v)=\langle u_1|v \rangle u_1 et c’est le vecteur de DD le plus proche de vv.

Si on se donne un plan vectoriel PP engendré par deux vecteurs uu et vv on peut créer une base orthonormale de premier vecteur u 1=uuu_1=\frac{u}{\|u\|} et de deuxième vecteur dans le plan u,vu,v. Pour cela, on modifie vv en un vecteur v˜\tilde{v} orthogonal à uu en retirant à vv la projection orthogonale de vv sur uu : v˜=vu 1|vu 1\tilde{v}=v-\langle u_1|v \rangle u_1 puis on normalise ce qui donne un vecteur u 2u_2 de norme 1 orthogonal à u 1u_1 u 2=v˜v˜u_2=\frac{\tilde{v} }{\| \tilde{v}\|} À ce stade, on peut définir la projection orthogonale sur PP par p(w)=u 1|wu 1+u 2|wu 2p(w)=\langle u_1|w \rangle u_1+\langle u_2|w \rangle u_2 On peut compléter la famille orthonormée {u 1,u 2}\{ u_1,u_2\} avec le produit vectoriel des deux vecteurs u 1u_1 et u 2u_2, mais cette construction est spécifique à la dimension 3. Pour pouvoir généraliser en dimension plus grande, on peut aussi prendre un troisième vecteur ww qui n’appartient pas au plan PP, on le modifie en un vecteur orthogonal à PP en lui retirant sa projection orthogonale sur PP et on le normalise en un vecteur u 3u_3. Le vecteur de PP le plus proche de ww est p(w)p(w), toujours à cause du théorème de Pythagore.

Exemple : soit PP le plan engendré par les vecteurs u=(1,1,0)u=(1,1,0) et v=(1,0,1)v=(1,0,-1). On a u 1=u/2u_1=u/\sqrt{2}. Donc p u(v)=vu 1|vu 1=(1 0 1)12(1 0 1)|(1 1 0)12(1 1 0)=(1 0 1)12(1 1 0)=12(1 1 2)p_u(v)=v-\langle u_1|v \rangle u_1 = \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix} - \langle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix}| \begin{pmatrix}1\\ 1\\ 0\end{pmatrix} \rangle \frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} = \begin{pmatrix}1\\ 0 \\ -1\end{pmatrix} - \frac{1}{2} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} = \frac{1}{2} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} puis u 2=p u(v)p u(v)=(1 1 2)(1 1 2)=16(1 1 2)u_2=\frac{p_u(v)}{\| p_u(v) \|} =\frac{\begin{pmatrix}1\\-1 \\ -2\end{pmatrix}}{ \left\| \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}\right\|} = \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} Pour compléter la base avec un vecteur u 3u_3, en dimension 3 on peut utiliser le produit vectoriel de u 1u_1 et u 2u_2 u 3=12(1 1 0)16(1 1 2)=123(2 2 2)=13(1 1 1)u_3= \frac{1}{\sqrt{2}} \begin{pmatrix} 1\\1\\0\end{pmatrix} \wedge \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} = \frac{1}{2\sqrt{3}} \begin{pmatrix} -2\\ 2\\ -2\end{pmatrix} = \frac{1}{\sqrt{3}} \begin{pmatrix} -1\\ 1\\ -1\end{pmatrix} ou prendre un vecteur ww, par exemple w=(1,0,0)w=(1,0,0) et retrancher la projection orthogonale de ww sur PP u 3˜=wu 1|wu 1u 2|wu 2=(1 0 0)12(1 1 0)|(1 0 0)12(1 1 0)16(1 1 2)|(1 0 0)16(1 1 2)\tilde{u_3}=w-\langle u_1|w \rangle u_1 -\langle u_2|w \rangle u_2 = \begin{pmatrix} 1\\0\\0\end{pmatrix} - \langle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix}| \begin{pmatrix} 1\\0\\0\end{pmatrix} \rangle \frac{1}{\sqrt{2}} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} - \langle \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}| \begin{pmatrix} 1\\0\\0\end{pmatrix} \rangle \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} donc u 3˜=(1 0 0)12(1 1 0)16(1 1 2)=16(631 03+1 2)=13(1 1 1)\tilde{u_3} = \begin{pmatrix} 1\\0\\0\end{pmatrix} - \frac{1}{2} \begin{pmatrix}1\\ 1 \\ 0\end{pmatrix} - \frac{1}{6} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} = \frac{1}{6} \begin{pmatrix} 6-3-1\\ 0-3+1\\ 2\end{pmatrix} = \frac{1}{3} \begin{pmatrix} 1\\ -1\\ 1\end{pmatrix} on retrouve bien un multiple du u 3u_3 précédent.

4.2  Définitions et exemples.

Nous voulons maintenant généraliser la notion de produit scalaire - et donc de longueur, de distance et d’angle - à un espace vectoriel réel arbitraire. Soient x=(x 1 x n),y=(y 1 y n)x=\left(\begin{array}{c}x_1 \\ \vdots \\ x_n\end{array}\right), y=\left(\begin{array}{c}y_1 \\ \vdots \\ y_n\end{array}\right) deux vecteurs de n\mathbb{R}^n, le produit scalaire canonique est défini par : xy= txy= i=1 nx iy ix\cdot y=^tx y=\sum_{i=1}^n x_iy_i L’application (x,y)xy(x,y) \mapsto x \cdot y est une forme bilinéaire symétrique. La longueur d’un vecteur x nx\in\mathbb{R}^n pour n=2n=2 et n=3n=3 peut être calculée par la formule x=xx\| x\|=\sqrt{x\cdot x} De même, nous souhaiterions associer une notion de longueur (on parle plutot de norme pour un vecteur) à une forme bilinéaire φ\varphi en posant x=φ(x,x)\|x\| =\sqrt{\varphi(x,x)}. Malheureusement, il n’est pas sûr que cette quantité soit définie : en effet si φ(x,x)<0\varphi(x,x)&lt;0, la racine carrée n’est pas définie. De plus, on souhaite que la norme d’un vecteur soit strictement positive pour un xx non-nul (or nous ne voulons pas une distance 00 entre deux vecteurs distincts).

Ces considérations amènent les définitions suivantes:

Définition 1   Soit VV un espace vectoriel réel. On dit qu’une forme bilinéaire symétrique φ:V×V\varphi:V\times V\to \mathbb{R} est positive si φ(x,x)0\varphi(x,x)\geq 0 pour tout xVx\in V, et définie positive si φ(x,x)>0\varphi(x,x)&gt;0 pour tout xV,x0x\in V,x\neq 0.

Remarquons que φ\varphi est définie positive si et seulement si

  • φ\varphi est positive et
  • φ(x,x)=0x=0 V.\varphi(x,x)=0\Rightarrow x=0_V.

C’est en général cette reformulation de la définition que l’on utilise en pratique pour vérifier si oui ou non une forme bilinéaire donnée est définie positive.

Définition 2   Soit VV un \mathbb{R}-espace vectoriel (non nécessairement de dimension finie). Un produit scalaire sur VV est une forme bilinéaire symétrique et définie positive sur VV : |:{V×V (x,y) x|y\langle\, | \, \rangle: \left\{ \begin{array}{ccc} V\times V & \to & \mathbb{R}\\ (x,y) & \mapsto & \langle x|y\rangle \end{array} \right. On dit que VV muni du produit scalaire |\langle\, | \, \rangle est un espace préhilbertien réel.
Remarque 3   On expliquera brièvement plus loin l’utilisation du préfixe “pré”-hilbertien, voir la remarque 12. On utilise aussi le terme d’espace euclidien si VV est un \mathbb{R}-espace vectoriel de dimension finie muni d’un produit scalaire. Le terme préhilbertien s’emploie aussi dans le cas de produits scalaires hermitiens définis sur un \mathbb{C}-espace vectoriel, cf. l’appendice D. Dans la suite de ce chapitre, on donne des résultats pour des espaces préhilbertiens dans le cas réel, la plupart des résultats se généralisent aux préhilbertiens complexes.

Exemples

  1. Le produit scalaire usuel sur n\mathbb{R}^n xy= i=1 nx iy ix \cdot y =\sum_{i=1}^n x_iy_i
  2. La forme bilinéaire qui a deux fonctions ff et gg continues de [a,b][a,b] à valeur dans \mathbb{R} associe l’intégrale entre aa et bb de leur produit : |:{C 0([a,b],)×C 0([a,b],) (f,g) f|g= a bf(t)g(t)dt\langle \, | \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b] , \mathbb{R}) &\to & \mathbb{R}\\ (f,g) & \mapsto & \langle f|g\rangle=\int_a^b f(t)g(t)\mbox{d}t \end{array} \right. Montrons que c’est un produit scalaire.
    1. Montrons que |\langle \, | \rangle est symétrique. En effet, pour tout f,gC 0([a,b],)f,g\in C^0([a,b], \mathbb{R}), on a g|f= a bg(t)f(t)dt= a bf(t)g(t)dt=f|g.\langle g|f\rangle=\int_a^b g(t)f(t)\mbox{d}t=\int_a^b f(t)g(t)\mbox{d}t=\langle f|g\rangle.
    2. Montrons que |\langle \, | \rangle est bilinéaire. Pour tout f 1,f 2,f,gC 0([a,b],),λf_1,f_2,f,g\in C^0([a,b], \mathbb{R}),\lambda\in\mathbb{R}, on a f 1+f 2|g = a b(f 1+f 2)(t)g(t)dt = a b(f 1(t)+f 2(t))g(t)dt = a bf 1(t)g(t)dt+ a bf 2(t)g(t)dt = f 1|g+f 2|g\begin{array}{lll}\langle f_1+f_2|g\rangle &=&\int_a^b (f_1+f_2)(t)g(t)\mbox{d}t \\ &=& \int_a^b (f_1(t)+f_2(t))g(t)\mbox{d}t \\ &=& \int_a^b f_1(t)g(t)\mbox{d}t + \int_a^b f_2(t)g(t)\mbox{d}t \\ &=& \langle f_1|g\rangle +\langle f_2|g\rangle \end{array} et : λf|g = a b(λf)(t)g(t)dt = a bλf(t)g(t)dt = λ a bf(t)g(t)dt = λf|g.\begin{array}{lll}\langle \lambda f|g\rangle &=& \int_a^b (\lambda f)(t)g(t)\mbox{d}t \\ &=& \int_a^b \lambda f(t)g(t)\mbox{d}t\\ &=& \lambda\int_a^b f(t)g(t)\mbox{d}t\\ &=& \lambda \langle f|g\rangle\end{array}. Par symétrie, il découle que f|g 1+g 2=f|g 1+f|g 2 et f|λg=λf|g\langle f|g_1+g_2\rangle=\langle f|g_1\rangle+\langle f| g_2\rangle \mbox{ et }\langle f|\lambda g\rangle=\lambda \langle f|g\rangle pour tout f,g,g 1,g 2[X],λf,g,g_1,g_2\in \mathbb{R}[X],\lambda\in\mathbb{R}
      Ainsi, |\langle \, |\rangle est bilinéaire.
    3. Montrons enfin que |\langle | \rangle est définie positive. On va utiliser pour cela la reformulation de la définition 1.

      Pour tout fC 0([a,b],)f\in C^0([a,b], \mathbb{R}), on a f|f= a bf(t) 2dt.\langle f|f\rangle=\int_a^b f(t)^2\mbox{d}t. Or, l’intégrale d’une fonction positive est positive. Comme la fonction f 2(t)f^2(t) est positive, on en déduit que f|f0pour tout fC 0([a,b],).\langle f|f\rangle\geq 0\ \mbox{pour tout }f\in C^0([a,b], \mathbb{R}). Supposons maintenant que l’on a f|f=0,\langle f|f\rangle=0, c’est à dire que a bf(t) 2dt=0.\int_a^b f(t)^2\mbox{d}t=0. Or l’intégrale d’une fonction positive et continue f:[a,b]f:[a,b]\to\mathbb{R} est nulle si et seulement si ff est identiquement nulle. Comme la fonction [a,b],tf(t) 2[a,b]\to \mathbb{R}, t\mapsto f(t)^2 est positive et continue, on en déduit f(t) 2=0pour toutt[a,b],f(t)^2=0\ \mbox{pour tout}\ t\in [a,b], c’est-à-dire f=0f=0 : CQFD.

  3. Pour toute fonction pp continue et strictement positive sur [a,b][a,b], la forme bilinéaire : |:{C 0([a,b],)×C 0([a,b],) (f,g) f|g= a bp(t)f(t)g(t)dt\langle \, | \rangle: \left\{ \begin{array}{ccc} C^0([a,b], \mathbb{R})\times C^0([a,b], \mathbb{R}) & \to &\mathbb{R}\\ (f,g)&\mapsto&\langle f|g\rangle=\int_a^b p(t) f(t)g(t)\mbox{d}t \end{array} \right. est un produit scalaire (exercice)
  4. L’application définie sur les matrices carrées réelles M n()M_n(\mathbb{R}) par (M,N)Tr( tMN)(M,N)\mapsto \mbox{Tr}({}^tMN) est un produit scalaire.
  5. La forme blinéaire définie sur 2\mathbb{R}^2 par : ((x 1 x 2),(y 1 y 2))x 1y 1x 2y 2\left(\left(\begin{array}{c}x_1\\ x_2\end{array}\right),\left(\begin{array}{c}y_1\\ y_2\end{array}\right)\right)\mapsto x_1y_1-x_2y_2 n’est pas un produit scalaire. C’est bien une forme bilinéaire symétrique, mais elle n’est pas positive.
  6. L’application qui associe à deux polynômes le produit de leur valeur en 0 : φ:{[X]×[X] (P,Q) P(0)Q(0)\varphi: \left\{ \begin{array}{ccc} \mathbb{R}[X] \times \mathbb{R}[X] & \to & \mathbb{R}\\ (P,Q) & \mapsto & P(0)Q(0) \end{array} \right. n’est pas un produit scalaire. Elle est bien bilinéaire, symétrique, positive, mais pas définie positive. Par exemple, on a φ(X,X)=0\varphi(X,X)=0, mais XX n’est pas le polynôme nul.

4.3  Géométrie.

Les propriétés du produit scalaire permettent alors, comme dans le cas classique, de définir la “longueur”, ou norme d’un vecteur de VV.

Définition 1   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien Pour tout xVx\in V, on définit la norme de xx, notée x\| x\|, par x=x|x.\| x\|=\sqrt{\langle x|x\rangle}.

Notons que par définition d’un produit scalaire, x0\|x\|\geq 0, et x=0\|x\|=0 si et seulement si x=0x=0.

Définition 2   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V. On définit la distance entre vv et ww par d(v,w)=vw. d(v,w)= \| v-w\|.

Encore une fois, la distance entre vv et ww est positive et n’est 00 que si v=wv=w.

gl_ortho=true;
v:=vecteur(3,1); w:=vecteur(2,3);
v-w; legend(v-w,"v-w"); angle(v,w,"θ");

onload
Nous aurions envie de poser la définition suivante :

Définition 3   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Soient v,wVv,w\in V avec v,w0v,w\neq 0. On définit l’angle entre vv et ww par θ=arccos(v|wv×w). \theta= \arccos\left(\frac{\langle v|w\rangle}{\|v\|\times \|w\|}\right).
Remarque 4   Avec cette définition de θ\theta, l’angle entre vv et ww, nous avons automatiquement θ[0,π]\theta\in [0, \pi]. Par ailleurs, il s’agit d’une angle non-orienté : θ\theta ne dépend pas de l’ordre de vv et ww.

Malheureusement, ce n’est pas évident que cette définition soit bien posée. En effet, la fonction arccos n’est définie que pour des nombres réels xx satisfaisant la condition 1x1-1\leq x\leq 1 ou autrement dit |x|1|x|\leq 1. Nous devons donc vérifier la proposition suivante :

Proposition 5 (Inégalité de Cauchy-Schwarz)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien. Alors pour tout x,yVx,y\in V, on a |x|y|x×y,|\langle x | y\rangle|\leq \| x\|\times \| y\|, et on a égalité dans cette expression si et seulement si la famille x,yx,y est liée sur \mathbb{R}, c’est-à-dire s’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0.

Exemples

Preuve : Le résultat étant immédiat si xx ou yy est égal à 00, on peut supposer x,y0x,y\neq 0 : si x,y0x,y\neq 0 nous avons qu’il existe λ,μ,(λ,μ)(0,0)\lambda,\mu\in\mathbb{R}, (\lambda,\mu)\neq (0,0) tels que λx+μy=0\lambda x+\mu y=0 si et seulement si il existe tt\in \mathbb{R} tel que x+ty=0x+ty=0. Considérons la fonction de tt f(t)=x+ty|x+ty=t 2y 2+2tx|y+x 2.f(t)=\langle x+ ty | x+ty\rangle= t^2 \|y\|^2+2t\langle x|y\rangle + \|x\|^2. Ceci est une fonction quadratique de tt qui ne prend pas de valeurs négatives : elle a donc un discriminant Δ0\Delta\leq 0, c’est à dire Δ=4(x|y) 24x 2y 20. \Delta= 4(\langle x|y\rangle)^2 - 4\|x\|^2\|y\|^2\leq 0. On a donc que (x|y) 2x 2y 2 (\langle x|y\rangle)^2 \leq \|x\|^2\|y\|^2 et |x|y|xy. |\langle x|y\rangle| \leq \|x\|\|y\|. De plus, on a ǵalité dans cette expression si et seulement si Δ=0\Delta =0, c’est-à-dire si et seulement si il existe tt tel que f(t)=0f(t)=0. Par définition de f(t)f(t), nous avons égalité dans cette expression si et seulement si il existe tt tel que x+ty=0x+ty=0. CQFD. L’inégalité de Cauchy-Schwarz est donc valable et notre définition de θ\theta est bien posée.

Un certain nombre de formules de la géométrie dans l’espace sont toujours valables dans ce contexte :

Lemme 6 (Théorème de Pythagore)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in Vavec v,w0 Vv,w \neq 0_V. Soit θ\theta l’angle entre vv et ww. Alors on a vw 2=v 2+w 2θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \theta= \pi/2.
gl_ortho=true;
v:=vecteur(3,1); w:=vecteur(-1,3);
v-w; legend(v-w,"v-w"); angle(v,w,"");

onload
Preuve : On note tout d’abord que par définition θ=π/2\theta=\pi/2 si et seulement si v|w=0\langle v|w \rangle =0. Par définition, vw 2=vw|vw\|v-w\|^2= \langle v-w| v-w\rangle =v|v+w|w2v|w = \langle v|v\rangle + \langle w|w\rangle -2\langle v|w\rangle =v 2+w 22v|w= \|v\|^2+ \|w\|^2- 2 \langle v|w\rangle et donc vw 2=v 2+w 2v|w=0θ=π/2. \|v-w\|^2= \|v\|^2+\|w\|^2\Leftrightarrow \langle v|w \rangle =0 \Leftrightarrow \theta= \pi/2.

Lemme 7 (Identité du parallélogramme)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+w 2+vw 2=2(v 2+w 2). \|v+w\|^2+\|v-w\|^2=2(\|v\|^2+ \|w\|^2).

Preuve : Exercice pour le lecteur.

Lemme 8 (Inégalité triangulaire)   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien et soient v,wVv,w\in V. On a alors v+wv+w. \|v+w\|\leq \|v\|+\|w\|.
gl_ortho=true;
A:=point(0,0):; B:=point(1,-1):; C:=point(2,1):;
v:=vecteur(A,B); w:=vecteur(B,C);
v+w; legend(v+w,"v+w"); 

onload
Preuve : On a que v+w 2=v 2+w 2+2v|w. \| v+w\|^2= \|v\|^2+ \|w\|^2+2\langle v|w \rangle. Par l’inégalité de Cauchy-Schwarz on a que v+w 2v 2+w 2+2v×w=(v+w) 2. \|v+w\|^2\leq \|v\|^2+\|w\|^2+2\|v\|\times \|w\|= (\|v\|+\|w\|)^2. Puisque v+w\|v+w\| et v+w\|v\|+\|w\| sont positifs, on peut prend la racine carrée des deux membres pour déduire que v+wv+w.\| v+w\|\leq \|v\|+\|w\|. Les deux lemmes suivants sont souvent très utiles.

Lemme 9   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V une famille de vecteurs deux à deux orthogonaux. Alors on a x 1++x k 2=x 1 2++x k 2.\| x_1+\ldots+x_k\|^2=\| x_1\|^2+\ldots+\| x_k\|^2.

Preuve : Supposons x 1,,x kVx_1,\ldots,x_k\in V deux à deux orthogonaux. On a donc x i|x j=0pour toutij.\langle x_i|x_j\rangle=0\ \mbox{pour tout}\ i\neq j. Par ailleurs, on a que x 1++x k 2=x 1++x k|x 1++x k= i,j=1 kx i|x j.\| x_1+\ldots+x_k\|^2=\langle x_1+\ldots+x_k|x_1+\ldots+x_k\rangle=\sum_{i,j=1}^k\langle x_i|x_j\rangle. Mais puisque x i|x j=0\langle x_i|x_j\rangle=0 pour tout iji\neq j, on obtient x 1++x k 2= i=1 kx i|x i= i=1 kx i 2,\| x_1+\ldots+x_k\|^2=\sum_{i=1}^k \langle x_i|x_i\rangle=\sum_{i=1}^k \| x_i\|^2, ce que l’on voulait démontrer.
On peut aussi faire une récurrence.

Lemme 10   Soit (V,|)(V,\langle\, | \, \rangle) un espace prehilbertien, et soient x 1,,x kVx_1,\ldots,x_k\in V des vecteurs non nuls deux à deux orthogonaux. Alors (x 1,,x k)(x_1,\ldots,x_k) est une famille libre.

Preuve : Soient λ 1,,λ k\lambda_1,\ldots,\lambda_k\in \mathbb{R} tels que λ 1x 1++λ kx k=0 V.\lambda_1x_1+\ldots+\lambda_k x_k=0_V. Soit j{1,,k}j\in \{1,\ldots, k\}. On a x j|λ 1x 1++λ kx k=x j|0 V=0,\langle x_j | \lambda_1x_1+\ldots+\lambda_k x_k\rangle=\langle x_j | 0_V\rangle=0, et donc i=1 kλ ix j|x i=0.\sum_{i=1}^k\lambda_i \langle x_j | x_i\rangle=0. Puisque les x ix_i sont deux à deux orthogonaux, cela s’écrit λ jx j|x j=0.\lambda_j \langle x_j |x_j\rangle=0. Puisque par hypothèse x j0x_j\neq 0, on a x j|x j>0\langle x_j |x_j\rangle &gt;0, et donc λ j=0\lambda_j=0. Ceci achève la démonstration.

Revenons maintenant à l’existence de bases orthonormées.

Proposition 11   Soit (V,|)(V,\langle \, |\, \rangle) un espace prehilbertien de dimension finie. Alors VV possède une base (v 1,,v n)(v_1,\ldots,v_n) orthonormée pour le produit scalaire.

De plus, si (v 1,,v n)(v_1,\ldots,v_n) est une base orthonormée, alors pour tout xVx\in V, on a x=v 1|xv 1++v n|xv n.x=\langle v_1|x\rangle v_1+\ldots+\langle v_n|x\rangle v_n.

Remarque 12   En dimension infinie, on parle d’espace de Hilbert lorsque les propriétés des bases orthonormées vues ici en dimension finie se généralisent (existence, décomposition de tout vecteur comme une somme infinie, i.e. une série par rapport aux bases orthonormées...). L’étude générale des espaces de Hilbert en dimension infinie dépasse le cadre de ce cours. La série de Fourier d’une fonction périodique de période TT peut être vue comme l’écriture selon une base orthonormée infinie composée par les harmoniques des sinus et cosinus de période TT.

Preuve : Pour montrer l’existence d’une base orthonormée, on peut au choix

Soit maintenant (v 1,,v n)(v_1,\ldots,v_n) une base orthonormée, et soit xVx\in V. Comme v 1,,v nv_1,\ldots,v_n est une base, on peut écrire x=λ 1v 1++λ nv n.x=\lambda_1 v_1+\ldots+\lambda_n v_n. Pour tout jj, on a alors v j|x= i=1 nλ iv j|v i=λ j,\langle v_j|x\rangle=\sum_{i=1}^n \lambda _i \langle v_j|v_i\rangle=\lambda_j, la dernière égalité provenant du fait que v 1,,v nv_1,\ldots,v_n est une base orthonormée. On a donc bien l’égalité annoncée.

Nous avons donc maintenant une notion satisfaisante de la distance entre deux éléments d’un espace vectoriel muni d’un produit scalaire. Rappelons que la question qui a motivé ce travail est la suivante : je veux construire dans un espace vectoriel VV un “bon approximant” ww pour un élément vv sous la contrainte que ww doit être contenu dans un sous-espace WW, on veut construire la projection orthogonale ww de vv sur WW.

gl_ortho=true;
W:=droite(0,[1,2]); v:=vecteur(2,1); w:=projection(W,v); 
affichage(v-w,red);

onload
Nous savons maintenant ce qu’on veut dire exactement par un “bon approximant” : on veut que la distance d(v,w)d(v,w) entre vv et ww soit la plus petite possible. Le lemme suivant nous donne un critère numérique pour que wWw\in W soit le “meilleur approximant” pour vv.

Lemme 13   Soit VV un espace prehilbertien, WW un sous espace de VV et vv un élément de VV. Si wWw\in W a la propriété que vw|w=0\langle v-w|w'\rangle =0 pour tout wWw'\in W alors pour tout wWw'\in W on a que d(v,w)d(v,w)d(v,w)\leq d(v,w'), avec égalité si et seulement si w=ww'=w.

Autrement dit, si la droite qui relie vv à wWw\in W est perpendiculaire à WW alors ww est le point de WW le plus proche de vv. Ce résultat vous est familier lorsque v 2v\in \mathbb{R}^2 et WW est une droite dans 2\mathbb{R}^2, ou lorsque v 3v\in \mathbb{R}^3 et WW est un plan dans 3\mathbb{R}^3.

Preuve : On a que d(v,w)=vw=(vw)+(ww). d(v,w')= \| v-w'\| =\| (v- w) + (w-w')\|. Maintenant, wwWw-w'\in W donc par hypothèse (vw)(ww)(v-w) \perp (w-w') et par le théorème de Pythagore d(v,w) 2=(vw) 2+(ww) 2d(v,w) 2 d(v,w')^2= \|(v-w)\|^2+ \|(w-w')\|^2 \geq d(v,w)^2 avec égalité si et seulement si ww=0\|w-w'\|=0, c’est-à-dire w=ww=w'.

Notre critère est que (vw)(v-w) doit être orthogonal à tous les éléments de WW. Etudions donc l’ensemble constitué de tels éléments.

Définition 14   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien et soit SS un sous-ensemble de VV. L’orthogonal de SS, noté S S^\perp, est le sous-ensemble de VV défini par S ={xVs|x=0pour toutsS}.S^\perp=\{ x\in V \mid \langle s|x\rangle=0 \ \mbox{pour tout}\ s\in S \}.

Exercice. Démontrer que S S^\perp est toujours un sous-espace vectoriel de WW.

Théorème 15   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien et soit WW un sous-espace vectoriel de VV. Alors:
  1. Pour tout wWw\in W et tout wW w'\in W^\perp, on a www\perp w'. De plus, WW ={0 V}W\cap W^\perp=\{0_V\}.
  2. Si WW est de dimension finie, on a V=WW V=W{\oplus} W^\perp. Autrement dit, tout xVx\in V s’écrit de manière unique sous la forme x=w+w,wW,wW .x=w+w', w\in W,w'\in W^\perp. De plus, si (v 1,,v k)(v_1,\ldots, v_k) est une base orthonormée pour WW alors on a w= i=1 kv i|xv iw= \sum_{i=1}^k \langle v_i|x\rangle v_i.

Preuve :

  1. Si wWw\in W et wW w'\in W^\perp, alors on a w|w=0\langle w|w'\rangle=0 par définition de W W^\perp. On a donc www\perp w'. Soit maintenant wWW w\in W\cap W^\perp. Puisque wW w\in W^\perp et wWw\in W on a que w|w=0\langle w|w\rangle=0 et donc w=0w=0 d’après les propriétés du produit scalaire.
    Ainsi, on a WW ={0}W\cap W^\perp=\{ 0 \}, ce qu’il fallait vérifier.
  2. D’après (1)(1), il reste à démontrer que V=W+W V=W+W^\perp, c’est-à-dire que tout vecteur vVv\in V peut s’écrire v=w+wv=w+w' avec wWw\in W et wW w'\in W^\perp.
    Si W={0}W=\{0\}, on a W =VW^\perp=V, et il n’y a rien à faire. On peut donc supposer que WW n’est pas l’espace trivial {0 V}\{ 0_V \}. La restriction à WW du produit scalaire sur VV est encore un produit scalaire. Puisque WW est de dimension finie, WW possède une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) d’après la proposition précédente.
    Soit vVv\in V. On pose w= i=1 kv i|vv i.w=\sum_{i=1}^k \langle v_i| v\rangle v_i. Alors wWw\in W. D’autre part, on a v j|vw = v j|vv j|w = v j|vv j| i=1 nv i,vv i = v j|v i=1 kv i|vv j|v i.\begin{array}{lll}\langle v_j|v-w\rangle &=& \langle v_j|v\rangle-\langle v_j|w\rangle\\ &=& \langle v_j|v\rangle- \langle v_j|\displaystyle\sum_{i=1}^n \langle v_i,v\rangle v_i\rangle \\ &=& \langle v_j|v\rangle-\displaystyle\sum_{i=1}^k \langle v_i|v\rangle \langle v_j|v_i\rangle.\end{array} Puisque v 1,,v kv_1,\ldots,v_k est orthonormée, on en déduit: v j|vw=v j|vv j|v=0,\langle v_j|v-w\rangle=\langle v_j|v\rangle-\langle v_j|v\rangle=0, et ceci pour tout j=1,,kj=1,\ldots,k.
    Soit sWs\in W. Alors on peut écrire s=s 1v 1++s kv ks=s_1v_1+\ldots+s_k v_k, et donc s|vw= i=j ks jv j|vw=0.\langle s| v-w\rangle=\sum_{i=j}^k {s}_j\langle v_j|v-w\rangle=0. Ainsi, vwW v-w\in W^\perp, et donc on a la décomposition voulue en posant w=vww'=v-w. Si maintenant on a deux décompositions v=w 1+w 1=w 2+w 2,w iW,w iW ,v=w_1+w'_1=w_2+w'_2,w_i\in W,w'_i\in W^\perp, on a w 1w 2=w 2w 1WW ,w_1-w_2=w'_2-w'_1\in W\cap W^\perp, car WW et W W^\perp sont des sous-espaces vectoriels de VV. Par le premier point, on en déduit w 1w 2=w 2w 1=0 Vw_1-w_2=w'_2-w'_1=0_V, et donc w 1=w 2,w 1=w 2w_1=w_2, w'_1=w'_2, CQFD.
Remarque 16   Le point (2)(2) est faux sans hypothèse de finitude de la dimension de WW.

D’après le deuxième point du théorème, lorsque WW est de dimension finie, tout xVx\in V se décompose de manière unique sous la forme x=w+w,wW,wW .x=w+w',w\in W,w'\in W^\perp. Cela conduit à la définition suivante:

Définition 17   Soit (V,|)(V,\langle \, | \,\rangle) un espace prehilbertien, et soit WW un sous-espace de VV de dimension finie. Pour tout x=w+wVx=w+w'\in V avec wWw\in W et wW w' \in W^\perp on pose p W(x)=w.p_W(x)=w. Le vecteur p W(x)Wp_W(x)\in W est appelé la projection orthogonale de xx sur WW. Si (v 1,v k)(v_1,\ldots v_k) est une base orthonormée de WW alors on a p W(x)= iv i|xv i, p_W(x)=\sum_i \langle v_i|x\rangle v_i, Le lecteur pourra vérifier à titre d’exercice les propriétés suivantes:
  1. L’application p W:VVp_W:V\to V est linéaire.
  2. Pour tout xVx\in V, on a et p W(x)W,p_W(x)\in W, (xp W(x))W (x-p_W(x))\in W^\perp.

La projection orthogonale a la propriété essentielle suivante :

p W(x)p_W(x) est le point de WW le plus proche de xx

Si on dispose d’une base orthonormée (v 1v n)(v_1\ldots v_n) pour WW, on a une formule explicite pour calculer une projection orthogonale : p W(x)= i=1 kv i|xv i(2) p_W(x)= \sum_{i=1}^k \langle v_i|x\rangle v_i \qquad (2) Exemple : on reprend pour WW l’exemple du plan PP engendré par les vecteurs u=(1,1,0)u=(1,1,0) et v=(1,0,1)v=(1,0,-1). On a vu qu’une base orthonormée de WW est donnée par u 1=12(1 1 0),u 2=16(1 1 2)u_1=\frac{1}{\sqrt{2}} \begin{pmatrix}1\\1 \\ 0\end{pmatrix}, u_2= \frac{1}{\sqrt{6}} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} La projection orthogonale du vecteur vv de composantes (x,y,z)(x,y,z) est donc p W((x y z)) = u 1|vu 1+u 2|vu 2 = 12(1 1 0)|(x y z)(1 1 0)+16(1 1 2)|(x y z)(1 1 2) = x+y2(1 1 0)+xy2z6(1 1 2) = 13(2x+yz x+2y+z x+y+2z) \begin{matrix} p_W(\begin{pmatrix}x\\y \\ z\end{pmatrix}) &=&\langle u_1|v \rangle u_1+\langle u_2|v \rangle u_2 \\ &=& \frac{1}{2} \langle \begin{pmatrix}1\\1 \\ 0\end{pmatrix}|\begin{pmatrix}x\\y \\ z\end{pmatrix} \rangle \begin{pmatrix}1\\1 \\ 0\end{pmatrix} +\frac{1}{6} \langle \begin{pmatrix}1\\-1 \\ -2\end{pmatrix}|\begin{pmatrix}x\\y \\ z\end{pmatrix} \rangle \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} \\ &=& \frac{x+y}{2} \begin{pmatrix}1\\1 \\ 0\end{pmatrix} +\frac{x-y-2z}{6} \begin{pmatrix}1\\-1 \\ -2\end{pmatrix} \\ & = & \frac{1}{3} \begin{pmatrix}2x+y-z\\x+2y+z \\ -x+y+2z\end{pmatrix} \end{matrix}

Reste à construire des bases orthonormées adaptées dans le cas général, c’est l’objet du prochain paragraphe.

4.4  Procédé d’orthonormalisation de Gram-Schmidt.

Soit (V,|)(V,\langle| \rangle) un espace prehilbertien de dimension finie. On suppose donnée une base pour VV, e=(e 1,,e n){\bf e}= (e_1,\ldots, e_n). On présente un algorithme de construction d’une famille orthonormée (v 1,v k)(v_1,\ldots v_k) à partir de e{\bf e} pour k=1k=1, puis k=2k=2, ... puis k=nk=n. Cette famille engendrera le même sous-espace vectoriel que la famille (e 1,e k)(e_1,\ldots e_k).

  1. Initialisation :pour k=1k=1, on pose v 1=e 1e 1v_1= \frac{e_1}{\|e_1\|}. v 1v_1 est alors de norme 1 par construction et l’espace engendré par (v 1)(v_1) est égal à l’espace engendré par (e 1)(e_1).
  2. Début du corps de la boucle
    Pour k>1k&gt;1, on suppose (v 1,,v k1)(v_1,\ldots, v_{k-1}) déjà construits. On va construire v kv_{k}, il doit être orthogonal à l’espace WW engendré par (v 1,...,v k1)(v_1,...,v_{k-1}).
  3. Étape d’orthogonalisation
    On a vu que pour tout vecteur zz, en lui soustrayant p W(z)p_W(z) son projeté orthogonal sur un sous-espace vectoriel WW, on obtient un vecteur zp W(z)z-p_W(z) qui est orthogonal à WW.
    On définit donc un vecteur auxiliaire f kf_{k} en soustrayant de e ke_{k} son projeté orthogonal sur WW, donc en appliquant (2) : f k=e k j=1 k1v j|e kv j. f_{k}= e_{k} -\sum_{j=1}^{k-1} \langle v_j| e_{k}\rangle v_j. Par construction f kf_{k} est orthogonal aux vecteurs v 1,,v k1v_1,\ldots, v_{k-1}. Par contre, il n’est pas forcément de longueur 11.
  4. Étape de normalisation
    On observe que e ke_k n’est pas combinaison linéaire des v jv_j pour jk1j \leq k-1 (en effet la famille (v 1,...,v k1)(v_1,...,v_{k-1}) engendre le même sous-espace que la famille (e 1,...,e k1)(e_1,...,e_{k-1}), or la famille (e 1,...,e k)(e_1,...,e_k) est libre). On a donc f k0f_k \neq 0, on pose : v k=f kf k. v_{k}=\frac{f_{k}}{\| f_{k}\|}.
  5. Nous avons maintenant construit (v 1,,v k)(v_1,\ldots, v_{k}). On voit que la famille (v 1,...,v k)(v_1,...,v_k) engendre bien le même sous-espace vectoriel que (e 1,...,e k)(e_1,...,e_k) Si k<nk&lt;n, on revient au début de la boucle (étape 2) en incrémentant kk de 1.
gl_ortho=true;
W:=droite(y=2x); legende(W,"W=Vect(e1,...,ek-1)",quadrant2);
ek:=vecteur(2,1,color=magenta); projection(W,ek);
affichage(ek-projection(W,ek),red); legende(ek-projection(W,ek),"fk=ek-p(ek)",red)

onload
On a donc :

Proposition 1   Les vecteurs de la famille v{\bf v} construite par le procédé de Gram-Schmidt ci-dessus forment une base orthonormée pour VV et le sous-espace vectoriel engendré par (v 1,,v k)(v_1,\ldots, v_k) est le même que celui engendré par (e 1,,e k)(e_1,\ldots, e_k)

Exemple 1
On considère la base de 3\mathbb{R}^3 e 1=(1 1 0),e 2=(1 0 1),e 3=(0 1 1).e_1=\begin{pmatrix}1\\ 1\\ 0\end{pmatrix},e_2=\begin{pmatrix}1\\ 0\\ 1\end{pmatrix},e_3=\begin{pmatrix}0\\ 1\\ 1\end{pmatrix}. Appliquons le procédé de Gram-Schmidt à cette base afin d’obtenir une base orthonormée pour le produit scalaire.
On pose v 1=e 1e 1=(1/2 1/2 0)v_1=\frac{e_1}{\| e_1\|}= \begin{pmatrix}1/\sqrt{2}\\ 1/\sqrt{2}\\ 0\end{pmatrix} On a f 2=e 2v 1|e 2v 1=(12 12 1).f_2=e_2-\langle v_1|e_{2}\rangle v_1=\begin{pmatrix} \frac{1}{2}\\ -\frac{1}{2}\\ 1 \end{pmatrix}. On pose v 2=f 2f 2=(16 16 26).v_2= \frac{f_2}{\| f_2\|}= \begin{pmatrix}\frac{1} {\sqrt{6}}\\ -\frac{1} {\sqrt{6}}\\ \frac{2} {\sqrt{6}} \end{pmatrix}. Enfin f 3=e 3v 1|e 3v 1v 2|e 3v 2=(2/3 2/3 2/3),f_3=e_3-\langle v_1|e_3\rangle v_1-\langle v_2|e_{3}\rangle v_2= \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}, et donc v 3=f 3f 3=32(2/3 2/3 2/3). v_3= \frac{f_3}{\|f_3\|}= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. On a donc v 1=12(1 1 0),v 2=23(1/2 1/2 1),v 3=32(2/3 2/3 2/3).v_1=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ 1\\ 0 \end{pmatrix},v_2=\sqrt{\frac{2}{3}}\begin{pmatrix}1/2\\ 1/2\\ 1\end{pmatrix},v_3= \frac{\sqrt{3}}{2} \begin{pmatrix}-2/3\\ 2/3\\ 2/3 \end{pmatrix}. Vérification avec Xcas : on utilise la commande gramschmidt avec en argument des vecteurs lignes, le résultat renvoyé est une liste de vecteurs lignes :


ou on appelle la commande qr avec la matrice des vecteurs en colonnes et l’argument optionnel -3, la matrice du milieu (q) est la matrice de passage de la base canonique à la base orthonormale:


Exemple 2
Construisons une base orthonormée pour le plan d’équation x+y+z=0x+y+z=0 dans 3\mathbb{R}^3. Il a une base non orthonormée (e 1,e 2)(e_1, e_2) donnée par e 1=(1 1 0),e 2=(1 0 1).e_1=\begin{pmatrix}1\\-1\\0\end{pmatrix} , e_2= \begin{pmatrix}1\\0\\-1\end{pmatrix}. On pose v 1=e 1e 1=(1/2 1/2 0)v_1= \displaystyle{\frac{e_1}{\| e_1\|}}= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}. On introduit alors f 2=e 2v 1|e 2v 1=e 212v 1=(1/2 1/2 1)f_2= e_2-\langle v_1| e_2\rangle v_1= e_2-\frac{1}{\sqrt2} v_1= \begin{pmatrix}1/2\\ 1/2 \\ -1\end{pmatrix} et on pose v 2=f 2f 2=(1/6 1/6 2/6).v_2= \frac{f_2}{ \| f_2\|}= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}. Ceci nous donne la base (v 1,v 2)(v_1, v_2) avec v 1=(1/2 1/2 0),v 2=(1/6 1/6 2/6). v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1/\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.

Exemple 3
Sur les polynômes de degré au plus 2, on définit le produit scalaire ϕ(P,Q)=P(1)Q(1)+P(0)Q(0)+P(1)Q(1)\phi(P,Q)=P(-1)Q(-1)+P(0)Q(0)+P(1)Q(1) C’est bien un produit scalaire, car ϕ(P,P)=0\phi(P,P)=0 entraine P(1)=P(0)=P(1)=0P(-1)=P(0)=P(1)=0 donc P=0P=0 (3 racines pour degré au plus 2). On peut orthonormaliser la base canonique {1,X,X 2}\{1,X,X^2\}. On normalise le premier vecteur de la base en v 1=1/3v_1=1/\sqrt{3} car ϕ(1,1)=3\phi(1,1)=3. Le 2ième vecteur de la base est orthogonal au premier car ϕ(1,X)=1+0+1=0\phi(1,X)=-1+0+1=0 il suffit de le normaliser en v 2=X/2v_2=X/\sqrt{2} (ϕ(X,X)=(1) 2+0 2+1 2=2\phi(X,X)=(-1)^2+0^2+1^2=2). On projette X 2X^2 sur le plan {v 1,v 2}\{v_1,v_2\} p(X 2)=ϕ(v 1,X 2)v 1+ϕ(v 2,X 2)v 2=13ϕ(1,X 2)+12ϕ(X,X 2)X=23p(X^2)=\phi(v_1,X^2) v_1+\phi(v_2,X^2)v_2 =\frac{1}{3} \phi(1,X^2) + \frac{1}{2} \phi(X,X^2) X = \frac{2}{3} Donc v 3v_3 est X 22/3X^2-2/3 normalisé, soit v 3=(X 22/3)/2/3v_3=(X^2-2/3)/\sqrt{2/3} car ϕ(X 22/3,X 22/3)=(1/3) 2+(2/3) 2+(1/3) 2=2/3\phi(X^2-2/3,X^2-2/3)=(1/3)^2+(-2/3)^2+(1/3)^2 = 2/3 Finalement, la base orthonormée obtenue est {13,X2,X 22323}\{ \frac{1}{\sqrt{3}}, \frac{X}{\sqrt{2}}, \frac{X^2-\frac{2}{3}}{\sqrt{\frac{2}{3}}}\} Vérification

Remarque 2   En calcul exact ou à la main, il peut être plus simple de ne pas normaliser les vecteurs f kf_{k} à chaque étape, donc de construire une base orthogonale : f k=e k j=1 k1f j|e kf j 2f j f_{k}= e_{k} -\sum_{j=1}^{k-1} \frac{\langle f_j| e_{k}\rangle}{\|f_j\|^2} f_j et de normaliser la base seulement à la fin.
\spadesuit En calcul approché, cette méthode de calcul n’est pas adaptée en raison des erreurs d’arrondis. On utilise plutot la factorisation QRQR d’une matrice, qui est la version matricielle de l’orthonomalisation. L’orthonormalisation se fait en utilisant des matrices de symétries (réflexions de Householder) ou de rotations (méthode de Givens).
Remarque 3   Le procédé de Gram-Schmidt permet de calculer la projection orthogonale de tout vecteur xVx\in V sur un sous-espace WW de dimension finie, en calculant une base orthonormée (v 1,,v k)(v_1,\ldots,v_k) de WW à partir d’une base quelconque e 1,,e ke_1,\ldots,e_k de WW (pour le produit scalaire sur WW obtenu par restriction du produit scalaire sur WW). On aura alors p W(x)= j=1 kv j|xv j.p_W(x)=\sum_{j=1}^k \langle v_j|x\rangle v_j. Rappelons que p W(x)p_W(x) est le meilleur approximant de xx dans WW.

4.5  Exemples de problèmes de minimisation.

4.5.1  Projection sur un plan de l’espace.

Utilisons cette méthode pour construire pour tout v 3v\in \mathbb{R}^3 le point le plus proche de vv dans WW, le plan d’équation x+y+z=0x+y+z=0.
Nous avons vu qu’une base orthonormée pour ce plan est donnée par v 1=(1/2 1/2 0),v 2=(1/6 16 2/6)v_1= \begin{pmatrix}1/\sqrt{2}\\-1/\sqrt{2}\\0\end{pmatrix}, v_2= \begin{pmatrix}1/\sqrt{6}\\ 1\sqrt{6} \\ -2/\sqrt{6}\end{pmatrix}.
Soit v=(x y z)v=\begin{pmatrix}x\\y\\z\end{pmatrix} : on a donc p W(v)=v|v 1v 1+v|v 2 p_W(v) =\langle v|v_1\rangle v_1+ \langle v| v_2\rangle =(xy)2v 1+(x+y2z)6v 2 = \frac{(x-y)}{\sqrt{2}}v_1+ \frac{(x+y-2z)}{\sqrt{6}}v_2 =((xy)/2 (x+y)/2 0)+((x+y2z)/6 (x+y2z)/6 2x2y+4z/6)= \begin{pmatrix}(x-y)/2\\ (-x+y)/2\\ 0\end{pmatrix} + \begin{pmatrix} (x+y-2z)/6\\ (x+y-2z)/6\\ -2x-2y+4z/6\end{pmatrix} =((2xyz)/3 (x+2yz)/3 (xy+2z)/3).= \begin{pmatrix} (2x-y-z)/3\\ (-x+2y-z)/3\\ (-x-y+2z)/3\end{pmatrix}. Autre méthode : le vecteur n(1,1,1)n(1,1,1) est un vecteur normal au plan WW, on retire de vv sa projection sur l’orthogonal de WW donc p W(v)=vn,vn 2n=(x y z)x+y+z3(1 1 1)=(2xyz3 x+2yz3 xy+2z3)p_W(v)=v-\frac{\langle n,v \rangle }{\|n\|^2}n = \begin{pmatrix} x\\y\\z\end{pmatrix} - \frac{x+y+z}{3} \begin{pmatrix} 1 \\ 1\\ 1\end{pmatrix} = \begin{pmatrix} \frac{2x-y-z}{3}\\ \frac{-x+2y-z}{3}\\ \frac{-x-y+2z}{3}\end{pmatrix}

4.5.2  Régression linéaire

Considérons le problème suivant. On veut mesurer une donnée yy (pH d’une solution, température) en fonction d’un paramètre xx (concentration d’un ion, temps). Considérons les nn points (avec n2n\geq 2) P 1:=(x 1,y 1),,P n:=(x n,y n)P_1:=(x_1,y_1),\ldots,P_n:=(x_n,y_n) de 2\mathbb{R}^2 représentant par exemple le résultat de nn expérimentations. On suppose que les x ix_is sont deux à deux distincts. Supposons que la théorie nous dise que yy varie de façon affine en fonction de xx. A cause des erreurs de manipulation, de mesure, les nn points P 1,,P nP_1,\ldots,P_n ne sont pas alignés.

Comment trouver la droite de meilleure approximation, c’est-à-dire la droite d’équation y=ax+by=ax+b telle que les points théoriques Q 1:=(x 1,ax 1+b),,Q n:=(x n,ax n+b)Q_1:=(x_1,ax_1+b),\ldots,Q_n:=(x_n,ax_n+b) soient le plus proche possible des points expérimentaux P 1,,P nP_1,\ldots,P_n ?

Plus précisément, comment choisir la droite y=ax+by=ax+b telle que l’erreur quadratique e:=P 1Q 1 2++P nQ n 2e:=P_1Q_1^2+\ldots+P_nQ_n^2 soit minimale?

On veut donc trouver (a,b) 2(a,b)\in\mathbb{R}^2 tels que e:=(y 1(ax 1+b)) 2++(y n(ax n+b)) 2e:=(y_1-(ax_1+b))^2+\ldots+(y_n-(ax_n+b))^2 soit minimale. Posons X̲=(x 1 x n),Y̲=(y 1 y n) et 1̲=(1 1).\underline{X}=\begin{pmatrix}x_1\\\vdots\\ x_n\end{pmatrix},\underline{Y}=\begin{pmatrix}y_1\\\vdots\\ y_n\end{pmatrix}\mbox{ et } \underline{1}=\begin{pmatrix}1\\\vdots\\ 1\end{pmatrix}. On a facilement que Y̲(aX̲+b1̲)=(y 1(ax 1+b) y n(ax n+b)),\underline{Y}-(a\underline{X}+b\underline{1})= \begin{pmatrix}y_1-(ax_1+b)\\\vdots\\ y_n-(ax_n+b)\end{pmatrix}, et donc d=Y̲(aX̲+b1̲) 2,d=\| \underline{Y}-(a\underline{X}+b\underline{1})\|^2, où nous utilisons la norme associée au produit scalaire canonique sur n\mathbb{R}^n. Soit WW le sous-espace vectoriel dans n\mathbb{R}^n formé de tous les vecteurs de la forme aX̲+b1̲a\underline{X}+ b\underline{1} lorsque (a,b)(a,b) décrit 2\mathbb{R}^2. On veut donc minimiser Y̲w\| \underline{Y}-w\|, lorsque ww décrit WW. D’après les propriétés de la projection orthogonale, le minimum est obtenu pour w=p W(Y̲)w=p_W(\underline{Y}).

On doit donc calculer p W(Y̲)p_W(\underline{Y}). Les coefficients aa et bb seront alors donnés par la relation p W(Y̲)=aX̲+b1̲p_W(\underline{Y})=a\underline{X}+b \underline{1} car (X̲,1̲)(\underline{X},\underline{1}) est une base de WW. Posons x¯=x 1++x nn,y¯=y 1++y nn.\overline{x}=\frac{x_1+\ldots+x_n}{n}, \overline{y}=\frac{y_1+\ldots+y_n}{n}.

Appliquons l’algorithme de Gram-Schmidt à la base e 1=1̲,e 2=X̲e_1=\underline{1}, e_2=\underline{X} de WW. On a v 1=1̲/1̲=1n1̲v_1=\underline{1}/\|\underline{1}\|= \frac{1}{\sqrt{n}}\underline{1}. On a aussi f 2=e 2v 1|e 2v 1=X̲x¯1̲f_2=e_2-\langle v_1|e_2\rangle v_1= \underline{X}-\overline{x}\underline{1} et v 2=f 2/f 2v_2= f_2/ \| f_2\|. On a alors p W(Y̲) = v 1|Y̲v 1+v 2|Y̲v 2 = v 1|Y̲v 1+v 2|Y̲y¯1̲v 2car v 2|1̲=0 = y¯1̲+ i=1 n(x ix¯)(y iy¯ i) i=1 n(x ix¯) 2(X̲x¯1̲) = aX̲+(y¯ax¯)1̲\begin{array}{lll} p_W(\underline{Y})&=&\langle v_1|\underline{Y} \rangle v_1+\langle v_2|\underline{Y}\rangle v_2\\ &=& \langle v_1|\underline{Y} \rangle v_1+\langle v_2|\underline{Y}-\overline{y} \underline{1}\rangle v_2 \quad \mbox{car } \langle v_2 | \underline{1}\rangle =0 \\ &=& \overline{y}\underline{1}+ \frac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}_i)} {\sum_{i=1}^n (x_i-\overline{x})^2}(\underline{X}-\overline{x}\underline{1}) \\ &=& a \underline{X} + (\overline{y}-a\overline{x})\underline{1} \end{array} a= i=1 n(x ix¯)(y iy¯ i) i=1 n(x ix¯) 2a=\frac{\sum_{i=1}^n (x_i-\overline{x})(y_i-\overline{y}_i)} {\sum_{i=1}^n (x_i-\overline{x})^2} La droite a donc pour coefficient directeur le rapport entre la covariance des (x i,y i)(x_i,y_i) et la variance des x ix_i et passe par le point de coordonnées moyenne des xx, moyenne des yy.

4.5.3  Résolution au sens des moindres carrés. \spadesuit

On généralise l’exemple précédent, il s’agit de “résoudre” des systèmes linéaires n×mn \times m qui ont plus d’équations (nn) que d’inconnues (mm). Matriciellement, on considère l’équation d’inconnue vv : Av=b,v m,b n,n>mAv=b, \quad v \in \mathbb{R}^m, b \in \mathbb{R}^n, n&gt;m AA est une matrice “mince”, avec moins de colonnes que de lignes.

Par exemple pour la régression linéaire, vv a deux composantes : le coefficient directeur α\alpha de la droite cherchée et son ordonnée à l’origine β\beta. On a donc m=2m=2, on essaie de faire passer une droite par nn points (x 1,y 1),...,(x n,y n)(x_1,y_1),...,(x_n,y_n), Le système s’écrit (x 1 1 x n 1)(α β)=(y 1 y n)\begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} y_1\\ \vdots \\ y_n \end{pmatrix} et n’a en général pas de solutions.

On peut alors chercher vv qui minimise Avb 2\|Av-b\|^2. Soit Im(A)(A), le sous-espace vectoriel parcouru par AvAv pour v nv \in \mathbb{R}^n Le problème revient à chercher la projection orthogonale de bb sur Im(A)(A). Pour cela, on pourrait chercher une base orthonormale de Im(A)(A) comme précédamment. On peut aussi utiliser la propriété du projeté orthogonal AvAv de bb sur Im(A)(A), w,Avb|Aw=0\forall w, \quad \langle Av-b|Aw \rangle =0

gl_ortho=1;
d:=droite(y=2x,affichage=hidden_name); legende(1+2*i,"Im(A)");
b:=vecteur(2,1);
Av:=projection(d,b,affichage=hidden_name); 
legende(3/4+3/2*i,"Av",quadrant2);
couleur(Av-b,red); legende(Av-b,"Av-b",red);
vecteur(1/2,1,legende="Aw",color=magenta);

onload
Notons *{ }^* la transposée d’une matrice (ou sa transconjuguée dans le cas complexe), on a : Avb|Aw=A *(Avb)|w\langle Av-b|Aw \rangle = \langle A^*(Av-b)|w \rangle donc, w,A *(Avb)|w=0\forall w, \quad \langle A^*(Av-b)|w \rangle =0 donc vv est solution de A *(Avb)=0(A *A)v=A *bA^* (A v-b)= 0 \Leftrightarrow (A^*A) v= A^* b qui est un système de mm équations à mm inconnues. Par exemple pour la régression linéaire, on a un système 2,2. (x 1 ... x n 1 ... 1)(x 1 1 x n 1)(α β)=(x 1 ... x n 1 ... 1)(y 1 ... y n)\begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} x_1 & 1\\ \vdots & \vdots \\ x_n & 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} x_1 & ... & x_n \\ 1 & ... & 1 \end{pmatrix} \begin{pmatrix} y_1\\ ...\\ y_n \end{pmatrix} Sur machine, on saisit la matrice AA à partir des données (par exemple issues d’un tableur) en ajoutant une colonne de 1, puis on fait le produit matriciel A *AA^* A, on inverse et on applique à A *bA^*b2

Exemple température moyenne de la Terre de 1981 à 2022 (d’après
https://data.giss.nasa.gov/gistemp/tabledata_v4/GLB.Ts+dSST.txt)

X:=range(81,123);
Y:=14.0 .+[32,14,31,16,12,18,32,39,27,45,40,22,23,31,45,33,46,61,38,39,54,63,62,53,67,63,66,54,65,72,61,65,67,74,90,101,92,84,98,102,85,89]/100;
gl_x=80..125; gl_y=13.9..15.1; 
scatterplot(X,Y);
linear_regression_plot(X[:30],Y[:30]);
linear_regression_plot(X[12:],Y[12:],color=red);

onload




Le coefficient directeur de la droite est donc de environ 0.019 degré par an pour la période complète (0.017 degré par an pour la période 1981-2010 et 0.022 pour 1993-2022).

On peut aussi faire le calcul du produit de matrice formellement : ( i=1 nx i 2 i=1 nx i i=1 nx i i=1 n1)(α β)=( i=1 nx iy i i=1 ny i)\begin{pmatrix} \sum_{i=1}^n x_i^2 & \sum_{i=1}^n x_i \\ \sum_{i=1}^n x_i & \sum_{i=1}^n 1 \end{pmatrix} \begin{pmatrix} \alpha \\ \beta \end{pmatrix} = \begin{pmatrix} \sum_{i=1}^n x_iy_i \\ \sum_{i=1}^n y_i \end{pmatrix} et vérifier qu’on retrouve la solution de la section précédente. En effet, la 2ème équation nous dit que la droite de régression passe par le point de coordonnées les moyennes (x¯=1n ix i,y¯=1n iy i)(\overline{x}=\frac{1}{n} \sum_i x_i,\overline{y}=\frac{1}{n}\sum_i y_i), et l’opération 1nL 1x¯nL 2\frac{1}{n}L_1 - \frac{\overline{x}}{n} L_2 élimine β\beta et permet de trouver le coefficient directeur : (1n ix i 2x¯ 2)α=1n ix iy ix¯y¯(\frac{1}{n}\sum_i x_i^2 - \overline{x}^2) \alpha = \frac{1}{n} \sum_i x_i y_i - \overline{x}\overline{y}

Exercice
Faire de mêne pour une régression avec 3 séries statistiques (donc une série dépendant des deux autres) z n=αx n+βy n+γz_n=\alpha x_n + \beta y_n+ \gamma. Indication de solution : la matrice AA s’obtient en mettant dans la 1ère colonne les x ix_i, dans la 2ième colonne les y iy_i et dans la 3ième colonne des 1.

4.5.4  Approcher une fonction continue par une fonction affine

On peut aussi vouloir approximer une fonction continue f:[a,b]f:[a,b]\to \mathbb{R} par une fonction affine y=αx+βy=\alpha x+\beta. Dans ce cas, la méthode précédente ne marche plus, puisque l’on doit considérer une infinité de points.

L’idée est de considérer un grand nombre de points sur le graphe de ff, dont les abcisses sont régulièrement espacés, P 1=(x 1,f(x 1)),,P n=(x n,f(x n))P_1=(x_1,f(x_1)),\ldots,P_n=(x_n,f(x_n)), avec x i=a+(ba)inx_i= a+\frac{(b-a)i}{n}, et de considérer la droite de meilleure approximation pour ces points. Bien sûr, plus nn est grand, meilleure est l’approximation. L’entier nn étant fixé, on doit donc minimiser d:=(f(x 1)(αx 1+β)) 2++(f(x n)(αx n+β)) 2.d:=(f(x_1)-(\alpha x_1+\beta))^2+\ldots+(f(x_n)-(\alpha x_n+\beta))^2. Ceci revient aussi à minimiser S n:=1n i=1 n(f(x i)(αx i+β)) 2, avec x i=a+(ba)in.S_n:=\frac{1}{n}\sum_{i=1}^n (f(x_i)-(\alpha x_i+\beta))^2, \mbox{ avec }x_i=a+\frac{(b-a)i}{n}. On voit graphiquement (et on peut démontrer rigoureusement) que S nS_n converge vers a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t. En particulier, S nS_n est très proche de cette intégrale lorsque nn est suffisamment grand.

Il est alors naturel de définir la droite de meilleure approximation y=αx+βy=\alpha x+\beta comme celle qui minimise l’intégrale a b(f(t)(αt+β)) 2dt\int_a^b(f(t)-(\alpha t+\beta))^2\mbox{d}t

Ce genre d’intégrale s’interprète souvent comme l’énergie d’un système. Ainsi, le problème de minimisation précédent revient à demander de minimiser cette énergie.

Exemple
Considérons le problème de minimisation suivant: trouver a,ba,b\in\mathbb{R} qui minimise 0 π2(cos(x)abx) 2dx\int_0^{\frac{\pi}{2}}(\cos(x)-a-bx)^2\mbox{d}x

Soit VV l’espace des fonctions continues sur [0,π2][0,\frac{\pi}{2}] avec son produit scalaire f|g= 0 π2f(x)g(x)dx.\langle f|g \rangle = \int_0^{\frac{\pi}{2}}f(x)g(x)\mbox{d}x. On vérifie que |\langle | \, \rangle est un produit scalaire sur VV. Considérons maintenant le sous-espace WW de VV défini par W=Vect(1,x)={f|f:xa+bx,a,b}.W=\mbox{Vect}(1,x)=\{f| f:x\mapsto a+bx, a,b\in\mathbb{R} \}. Le problème de minimisation se reformule alors ainsi:

Trouver gWg\in W tel que cos(x)g(x)|cos(x)g(x)\langle \cos(x)-g(x)|\cos(x)-g(x)\rangle 3 soit minimal.

Autrement dit, on cherche gWg\in W tel que cos(x)g(x)\|\cos(x)-g(x)\| soit minimal. On connait la solution, c’est g=p W(cos(x))g=p_W(\cos(x)). On cherche donc à calculer la projection orthogonale de cos(x)\cos(x) sur W=Vect(1,x)W=\mbox{Vect}(1,x).

Appliquons le procédé de Gram-Schmidt à la base e 1=1,e 2=xe_1=1,e_2=x de WW. v 1=e 1e 1=2πv_1=\frac{e_1}{\| e_1\|}=\sqrt{\frac{2}{\pi}} f 2=e 2v 1|e 2v 1=(xπ4)f_2=e_2-\langle v_1|e_2\rangle v_1=(x-\frac{\pi}{4}) v 2=xπ4xπ4v_2= \frac{x-\frac{\pi}{4}}{\| x-\frac{\pi}{4}\|}

On a alors g=p W(cos(x))=1|cos(x)1|11+xπ4|cos(x)xπ4|xπ4(xπ4)=ax+bg=p_W(\cos(x))=\frac{\langle 1|\cos(x)\rangle}{\langle 1|1\rangle}1+\frac{\langle x-\frac{\pi}{4}|\cos(x)\rangle}{\langle x-\frac{\pi}{4}|x-\frac{\pi}{4}\rangle}(x-\frac{\pi}{4})= ax+b le calcul donne a=(24π 296π 3)a= (\frac{24}{\pi^2}-\frac{96}{\pi^3}) et b=(4π+24π 2)b= (\frac{-4}{\pi}+\frac{24}{\pi^2}) :

4.5.5  Projection sur les polynômes trigonométriques

On peut aussi vouloir approximer une fonction f:[a,b]f:[a,b]\to\mathbb{R} par une fonction autre qu’une droite. Par exemple, on peut vouloir approximer ff par une fonction gg appartenant à un sous-espace vectoriel WW des fonctions continues sur [a,b][a,b], de façon à ce que l’intégrale a b(f(t)g(t)) 2dt\int_a^b(f(t)-g(t))^2\mbox{d}t soit minimale, lorsque gg décrit WW.

Considérons le problème posé dans l’introduction, celui d’approcher une fonction par des sommes trigonométriques. Soit f:[L,L]f:[-L,L]\rightarrow \mathbb{R} une fonction que l’on supposera continue : on veut approximer ff par une somme finie de fonctions trigonométriques S n(f):=a 0+ k=1 na kcos(2kπxL)+b ksin(2kπxL).S_n(f):=a_0+\sum_{k=1}^n a_k\cos(\frac{2 k\pi x}{L})+ b_k\sin(\frac{2 k\pi x}{L}). On veut trouver les coefficients a ka_k et b kb_k tels que l’intégrale L L(f(t)S n(f)(t)) 2dt\int_{-L}^L(f(t)-S_n(f)(t))^2\mbox{d}t soit minimale.

Soit VV l’espace vectoriel des fonctions continues sur [L,L][-L,L] à valeurs rélles C 0([L,L],)C^0([-L,L], \mathbb{R}) et WW le sous-espace vectoriel de VV engendré par 1,cos(2kπxL),sin(2kπxL),k=1,,n.1, \ \cos(\frac{2 k\pi x}{L}),\sin(\frac{2 k\pi x}{L}),k=1,\ldots,n. Autrement dit, WW est l’ensemble de fonctions de la forme g(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL). g(x)=a_0+\sum_{k=1}^n a_k\cos(\frac{k\pi x}{L})+ b_k\sin(\frac{k\pi x}{L}). Considérons le produit scalaire sur VV f|g= L Lf(t)g(t)dt.\langle f|g\rangle=\int_{-L}^Lf(t)g(t)\mbox{d}t. Le raisonnement précédent montre que la meilleure approximation S n(f)S_n(f) est donnée par p W(f)p_W(f). Or, on peut vérifier que 12L,1Lcos(2kπxL),1Lsin(2kπxT),k=1,,n\frac{1}{\sqrt{2L}}, \sqrt{\frac{1}{L}}\cos\left(\frac{2 k\pi x}{L}\right),\sqrt{\frac{1}{L}}\sin\left(\frac{2 k\pi x}{T}\right),k=1,\ldots,n fournit une base orthonormée de WW – nous reviendrons en détail sur ce calcul dans le dernier chapitre.

La formule pour la projection orthogonale p W(f)p_W(f) nous donne alors p W(f)=1|f12L+ k=1 n1Lcos(kπxL)|fcos(kπxL)+1Lsin(kπxL)|fsin(kπxL)p_W(f)=\langle 1|f\rangle\frac{1}{2L}+\sum_{k=1}^n \frac{1}{L}\langle \cos(\frac{k\pi x}{L})|f\rangle \cos(\frac{k\pi x}{L})+ \frac{1}{L}\langle \sin(\frac{ k\pi x}{L})|f\rangle \sin(\frac{ k\pi x}{L})

=12L L Lf(t)dt+1L L Lf(t)cos(kπtL)dtcos(kπxL)+1L L Lf(t)sin(kπtL)dtsin(kπxL).= \frac{1}{2L}\int_{-L}^L f(t)dt+ \frac{1}{L}\int_{-L}^L f(t)\cos(\frac{k\pi t}{L})\mbox{d}t \cos(\frac{k\pi x}{L})+ \frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t \sin(\frac{ k\pi x}{L}). Les choix de coefficients a 0,a k,b ka_0, a_k, b_k qui minimisent cette intégrale sont donc donnés par a 0=12L L Lf(t)dta_0= \frac{1}{2L}\int_{-L}^L f(t)dt a k=1L L Lf(t)cos(kπtL)dt,a_k=\frac{1}{L}\int_{-L}^L f(t)\cos(\frac{ k\pi t}{L})\mbox{d}t, b k=1L L Lf(t)sin(kπtL)dt.b_k=\frac{1}{L}\int_{-L}^L f(t)\sin(\frac{ k\pi t}{L})\mbox{d}t.

4.6  Diagonalisation orthogonale des matrices symétriques.

Nous présentons ici un théorème sur la diagonalisation des matrices symétriques. On commence par un lemme.

Lemme 1   Soit (V,|)(V,\langle|\rangle) un espace prehilbertien de dimension nn, et soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) une base orthonormée. Soit v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) une autre base de VV, et soit PP la matrice de passage correspondante (c’est-à-dire la matrice dont les colonnes sont les vecteurs coordonnées de (v 1,,v n)(v_1,\ldots,v_n) dans la base (e 1,,e n)(e_1,\ldots,e_n)). La base (v 1,,v n)(v_1,\ldots,v_n) est orthornormée si et seulement si tPP=I n{}^tP P=I_n, c’est-à-dire si P 1= tPP^{-1}= {}^tP.

Preuve :

Soient MM et NN les matrices de la forme |\langle| \rangle dans les bases e{\bf e} et v{ \bf v}. On sait que N= tPMPN= {}^tP M P : puisque e{\bf e} est supposée orthonormée nous avons M=I nM=I_n et N= tPPN= {}^tPP. La base v{\bf v} est orthonormée si et seulement si N=I nN=I_n c’est à dire ssi I n= tPP. I_n= {}^tP P. CQFD.

Théorème 2   Soit BM n()B\in \M_n(\mathbb{R}) une matrice symétrique, c’est-à-dire vérifiant tB=B{}^tB=B. Alors il existe une base de n\mathbb{R}^n formée de vecteurs propres de BB qui est orthonormée pour le produit scalaire usuel sur n\mathbb{R}^n.

La démonstration repose sur le critère suivant.

Lemme 3   Soient BB une matrice carrée n×nn\times n. Alors si BB est symétrique on a pour tout X̲,Y̲ n\underline{X},\underline{Y}\in \mathbb{R}^n X̲|BY̲=BX̲|Y̲. \langle \underline{X} | B\underline{Y}\rangle = \langle B\underline{X}|\underline{Y} \rangle. ou |\langle | \rangle est le produit scalaire canonique.

Preuve : On a que X̲|BY̲= tX̲BY̲= t( tBX̲)Y̲= t(BX̲)Y̲=BX̲|Y̲\langle \underline{X}| B\underline{Y}\rangle= {}^t\underline{ X} B\underline{Y}= {}^t(^tB \underline{X}) \underline{Y}= {}^t(B\underline{X})\underline{ Y}= \langle B\underline{X}| \underline{Y}\rangle CQFD.

Remarque 4   Soit X̲\underline{X} un vecteur propre de BB associé à λ\lambda (BX̲=λX̲B\underline{X}= \lambda \underline{X}) et Y̲\underline{Y} est un vecteur propre de BB associé à μ\mu (BY̲=μY̲B\underline{Y}=\mu \underline{Y}). Alors λX̲|Y̲=μX̲|Y̲ \lambda \langle \underline{X}| \underline{Y}\rangle= \mu \langle \underline{X}|\underline{Y}\rangle Donc si λμ\lambda\neq \mu alors X̲\underline{X} et Y̲\underline{Y} doivent être orthgonaux.

Preuve du Théorème 2
Si λ\lambda est valeur propre d’une matrice symétrique réelle, alors λ\lambda est réel. En effet si x0x \neq 0 est vecteur propre associée à λ\lambda, alors x¯\overline{x} est vecteur propre associé à λ¯\overline{\lambda} et λx¯|x=x¯|Mx=Mx¯|x=λ¯x¯|x\lambda\langle \overline{x}|x \rangle =\langle \overline{x}|Mx \rangle =\langle M\overline{x}|x \rangle =\overline{\lambda}\langle \overline{x}|x \rangle donc λ=λ¯\lambda=\overline{\lambda} car x¯|x0\langle \overline{x}|x \rangle \neq 0 puisque c’est la somme des modules des coordonnées de x0x \neq 0.

Soient λ 1,,λ k\lambda_1,\ldots, \lambda_k ses valeurs propres distincts avec E λ iE_{\lambda_i} le sous-espace propre associé à λ i\lambda_i. Nous avons alors n=E λ 1E λ k, \mathbb{R}^n = E_{\lambda_1} \underset{\perp}{\oplus} \ldots \underset{\perp}{\oplus} E_{\lambda_k}, En effet par la remarque 4, E λ iE_{\lambda_i} est orthogonal à E λ jE_{\lambda_j} si iji\neq j on a donc une somme directe orthogonale. Soit E=E λ 1E λ kE=E_{\lambda_1} \underset{\perp}{\oplus} \ldots \underset{\perp}{\oplus} E_{\lambda_k} et FF son orthogonal. Si EE n’est pas n\mathbb{R}^n tout entier, alors FF est de dimension au moins 1, et est stable par MM (en effet si xFx \in F, alors Mx|y==x| tMy=x|My=0\langle Mx|y\rangle= = \langle x|^t\!\!My\rangle =\langle x|My\rangle=0 puisque MyEMy \in E et xF=E x\in F=E^\perp), donc MM est associée à une application linéaire de FF, admet (au moins) une valeur propre et un vecteur propre associé, mais c’est contradictoire avec le fait que FF est l’orthogonal de la somme des sous-espaces propres de MM. Donc E= nE=\mathbb{R}^n.

Pour tout ii soit e i{\bf e_i} une base orthonormée pour E λ iE_{\lambda_i} et soit e{\bf e} la concaténation (e 1,,e k)({\bf e}_1, \ldots, {\bf e}_k). Par le Lemme 5, e{\bf e} est une base orthonormée pour n\mathbb{R}^n composée de vecteurs propres de BB.

Ceci se traduit en termes de formes bilinéaires de la façon suivante:

Théorème 5   Soit (V,|)(V,\langle| \rangle) un espace prehilbertien de dimension finie, et soit φ:V×V\varphi :V\times V\to \mathbb{R} une forme bilinéaire symétrique. Alors il existe une base orthonormée pour |\langle| \rangle qui est aussi φ\varphi-orthogonale.

Preuve :

Soit e=(e 1,,e n){\bf e}=(e_1,\ldots,e_n) orthonormée pour |\langle| \,\rangle, et soit BB sa matrice dans cette base. Alors BB est une matrice symétrique d’après le Lemme 3. D’après le théorème précédent, il existe une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) de n\mathbb{R}^n formée de vecteurs propres de BB qui est orthonormée pour le produit scalaire usuel de n\mathbb{R}^n.

Si V̲ j=(v 1j v nj)\underline{V}_j=\begin{pmatrix} v_{1j}\\\vdots\\ v_{nj}\end{pmatrix}, posons v j= i=1 nv ije i,v_j=\sum_{i=1}^n v_{ij}e_i, de telle façon que V̲ j\underline{V}_j est le vecteur de coordonnées de v jv_j dans la base e{\bf e}. Nous allons montrer que v=(v 1,,v n){\bf v}=(v_1,\ldots,v_n) est une base de VV qui possède les propriétés voulues.

Comme e est orthonormée, on a v i|v j= tV̲ iV̲ j\langle v_i| v_j\rangle={}^t \underline{V}_i \underline{V}_j d’après le Lemme 6. Comme (V̲ 1,,V̲ n)(\underline{V}_1,\ldots, \underline{V}_n) est orthonormée, on en déduit que v i|v j={0siij 1sii=j\langle v_i|v_j\rangle= \left\{ \begin{array}{c} 0\ \mbox{si}\ i\neq j \\ 1\ \mbox{si}\ i=j \end{array} \right.

Il reste à voir que v est φ\varphi-orthogonale. Soit PP la matrice de passage de v à e. La matrice NN qui représente φ\varphi dans la base v{\bf v} est donc tPBP.{}^tP B P. Or v étant orthonormée, on a tPP=I n{}^tP P=I_n. On a ainsi N=P 1BP.N=P^{-1} B P.

Mais v étant formée de vecteurs propres de BB, nous avons que P 1BPP^{-1}BP est diagonale. NN est donc est diagonale, ce qui revient à dire que v est φ\varphi-orthogonale. Cette démonstration nous donne en plus que nous pouvons construire une telle base orthonormée et φ\varphi-orthogonale en prenant des vecteurs propres de BB. vecteur propres de BB.

Méthode pratique pour trouver une base de vecteurs orthonormée et φ\varphi-orthogonale.

  1. Soit MM une matrice symétrique réelle.
    • Pour chaque valeur propre λ\lambda\in\mathbb{R} de MM, on calcule une base de E λE_\lambda. Si λ\lambda est une valeur propre simple, on normalise le vecteur propre de la base, si λ\lambda est une valeur propre multiple, on applique l’algorithme de Gram-Schmidt pour obtenir une base orthonormée de E λE_\lambda.
    • On recolle les bases orthonormées précédentes pour obtenir une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) de n\mathbb{R}^n formée de vecteurs propres de MM, orthonormée pour le produit scalaire usuel sur n\mathbb{R}^n.
  2. Soit φ:V×V\varphi:V\times V\to \mathbb{R} une forme bilinéaire symétrique. On se fixe une base e de VV orthonormée pour |\langle| \, \rangle.
    Soit MM la matrice de φ\varphi dans la base e{\bf e}. MM est une matrice symétrique. On applique la méthode précédente pour obtenir une base (V̲ 1,,V̲ n)(\underline{V}_1,\ldots,\underline{V}_n) orthonormée de n\mathbb{R}^n formée de vecteurs propres de MM. On prend alors v iv_i l’unique vecteur dans VV qui admet pour vecteur coordonnées dans la base e{\bf e} le vecteur V̲ i\underline{V}_i. La base (v 1,,v n)(v_1,\ldots, v_n) est alors la base recherchée.

Exemples

  1. Soit B=(3 4 4 3)B=\begin{pmatrix}3 & 4 \\ 4 & -3\end{pmatrix}.
    On vérifie que les valeurs propres sont 55 et 5-5, et que E 5=Vect{(2 1)},E 5=Vect{(1 2)}.E_5=\mbox{Vect}\{\begin{pmatrix}2\\ 1\end{pmatrix}\}, E_{-5}=\mbox{Vect}\{\begin{pmatrix}1\\ -2\end{pmatrix}\}. Une base orthonormée pour E 5E_5 est donc 15(2 1),\frac{1}{\sqrt{5}}\begin{pmatrix}2\\ 1\end{pmatrix}, et une base orthonormée pour E 5E_{-5} est donc 15(1 2).\frac{1}{\sqrt{5}}\begin{pmatrix}1\\ -2\end{pmatrix}. La base recherchée est donc donnée par (15(2 1),15(1 2).)(\frac{1}{\sqrt{5}}\begin{pmatrix}2\\ 1\end{pmatrix},\frac{1}{\sqrt{5}}\begin{pmatrix}1\\ -2\end{pmatrix}.)
  2. Munissons 3\mathbb{R}^3 de son produit scalaire usuel, et soit φ((x 1 x 3),(y 1 y 3))= i,j3x iy j=(x 1+x 2+x 3)(y 1+y 2+y 3)\varphi\left(\begin{pmatrix}x_1\\\vdots\\ x_3\end{pmatrix},\begin{pmatrix}y_1\\\vdots\\ y_3\end{pmatrix}\right) = \sum_{i,j\leq 3}x_iy_j = (x_1+x_2+x_3)(y_1+y_2+y_3) Soit e la base canonique de 3\mathbb{R}^3. C’est une base orthonormée pour le produit scalaire usuel. La matrice MM de φ\varphi dans la base canonique est alors M=(1 1 1 1 1 1 1 1 1).M=\begin{pmatrix}1&1&1\\1&1&1\\1&1&1\end{pmatrix}. On vérifie que les valeurs propres sont 33 et 00, que E 3E_3 admet comme base la famille ((1 1 1))(\begin{pmatrix}1\\ 1\\ 1\end{pmatrix}) et que E 0E_{0} admet comme base la famille ((1 1 0),(1 0 1)).\left(\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},\begin{pmatrix}1\\ 0\\ -1\end{pmatrix}\right). Une base orthonormée pour E 1E_1 est donc 13(1 1 1).\frac{1}{\sqrt{3}}\begin{pmatrix}1\\ 1\\ 1\end{pmatrix}.

    Pour trouver une base orthonormée de E 0E_0, on applique Gram-Schmidt. On pose v 1=12(1 1 0)v_1=\displaystyle{\frac{1}{\sqrt{2}}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix} Ensuite on pose f 2=(1 0 1)12(1 1 0)=(1/2 1/2 1).f_2=\begin{pmatrix}1\\ 0\\ -1\end{pmatrix}-\frac{1}{2}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix}=\begin{pmatrix}1/2\\ 1/2\\ -1\end{pmatrix}. Enfin on pose v 2=f 2f 2=23(1/2 1/2 1)v_2= \frac{f_2}{\| f_2\|}= \displaystyle{\sqrt{\frac{2}{3}}}\begin{pmatrix}1/2\\ 1/2\\ -1\end{pmatrix} Une base orthonormée pour E 0E_{0} est donc (12(1 1 0),23(12 12 1)).\left(\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},\sqrt{\frac{2}{3}}\begin{pmatrix}\frac{1}{2}\\ \frac{1}{2}\\ -1\end{pmatrix}\right). La base recherchée est donc donnée par v 1=13(1 1 1),v 2=12(1 1 0),v 3=23(12 12 1).v_1=\frac{1}{\sqrt{3}}\begin{pmatrix}1\\ 1\\ 1\end{pmatrix},v_2=\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},v_3=\sqrt{\frac{2}{3}}\begin{pmatrix}\frac{1}{2}\\ \frac{1}{2}\\ -1\end{pmatrix}. Si x=x 1v 1+x 2v 2+x 3v 3x=x'_1v_1+x'_2v_2+x'_3v_3 et y=xy 1v 1+y 2v 2+y 3v 3y=xy'_1v_1+y'_2v_2+y'_3v_3, on a b(x,y)=3x 3y 3.b(x,y)=3x'_3y'_3.

Vérification avec Xcas
Pour vérifier une diagonalisation de matrices avec Xcas, vous pouvez utiliser la commande P,D:=jordan(A) qui renvoie une matrice de passage PP et la matrice diagonale DD semblable à AA. Dans le cas générique où les valeurs propres sont de multiplicité 1, il suffit de normaliser les colonnes de PP pour avoir une matrice orthogonale, sinon il faut appliquer le procédé de gramschmidt. Pour générer la matrice d’une forme quadratique, utilisez la commande q2a.

Exemple
On prend la forme quadratique associée à φ\varphi de l’exemple 2 ci-dessus, on calcule sa matrice :


puis on diagonalise AA


Vérification :


Par rapport au calcul fait à la main, on retrouve le même vecteur propre (éventuellement au signe près) pour les valeurs propres de multiplicité 1 (ici 3), par contre ce n’est en général pas le cas pour les valeurs propres de multiplicité plus grande (ici 0) car il y a une infinité de bases orthonormales du sous-espace propre correspondant.

4.7  Matrices orthogonales.

Soit MM une matrice, on note M *M^* sa transposée si elle est réelle (ou sa transconjuguée, i.e. transposée conjuguée si elle est complexe). Nous avons vu ci-dessus que les matrices réelles MM telles que M *M=I nM^* M =I_n sont très importantes puisqu’elle encodent des changements de la bases orthonormées.

Proposition 1   Soit MM une matrice de taille n×nn\times n. Les conditions suivantes sont équivalentes :
  1. M *M=I nM^* M= I_n ;
  2. pour tous v,wv,w nous avons Mv|Mw=v|w\langle Mv| Mw\rangle= \langle v|w\rangle, où |\langle| \rangle est le produit scalaire canonique.
  3. pour tout vv nous avons Mv=v\| Mv\|= \|v\|, où v\|v\| est la norme de vv pour le produit scalaire canonique. On parle d’isométrie.
On dit qu’une matrice réelle qui satisfait à ces conditions est orthogonale (unitaire pour une matrice complexe, en utilisant le produit scalaire hermitien canonique).

Preuve : Si M *M=I nM^* M= I_n alors Mv|Mw=(Mv) *Mv=v *M *Mw=v *I nw=v *w=v|w.\langle Mv|Mw \rangle = (Mv)^* Mv = v^* M^* M w= v^* I_n w= v^* w= \langle v|w\rangle. Donc (1) implique (2). (2) implique (3) en prenant v=wv=w et (3) implique (2) par la formule de polarisation. Reste à montrer que 2) implique 1). Si Mv|Mw=v|w\langle Mv| Mw\rangle= \langle v|w\rangle alors pour tout v,wv, w nous avons v *M *Mw=v *I nw=v *w=v|w v^* M^* M w= v^* I_n w= v^* w=\langle v|w\rangle et donc M *M=I nM^* M= I_n.

Nous finissons cette section avec une étude des matrices orthogonales de taille 2×22\times 2, i.e. des isométries de 2\mathbb{R}^2. Nous allons démontrer le théorème suivant:

Proposition 2   Soit MM une matrice 2×22\times 2 orthogonale. Alors l’application 2 2\mathbb{R}^2\mapsto \mathbb{R}^2 donnée par vMvv\mapsto Mv est
  1. une rotation autour de l’origine ou
  2. une symétrie par rapport à une droite passant par l’origine.

Soit M=(a b c d)M=\begin{pmatrix} a & b\\ c & d\end{pmatrix} une matrice orthogonale. On a alors M(1 0)=(a c)=1 \| M\begin{pmatrix}1\\0\end{pmatrix}\| = \| \begin{pmatrix}a\\c\end{pmatrix}\| =1 et, en utilisant des coordonnées polaires, il existe un θ\theta tel que (a c)=(cos(θ) sin(θ))\begin{pmatrix}a\\c\end{pmatrix}= \begin{pmatrix}\cos(\theta)\\ \sin(\theta)\end{pmatrix}. De même (b d)=(cos(ϕ) sin(ϕ))\begin{pmatrix}b\\d\end{pmatrix}= \begin{pmatrix}\cos(\phi)\\ \sin(\phi)\end{pmatrix} et on peut écrire M=(cosθ cosϕ sinθ sinϕ). M=\begin{pmatrix} \cos{\theta} & \cos{\phi}\\ \sin{\theta} & \sin{\phi}\end{pmatrix}. On a alors tMM=(cos 2θ+sin 2θ cosθcosϕ+sinθsinϕ cosθcosϕ+sinθsinϕ cos 2ϕ+sin 2ϕ) {}^tM M= \begin{pmatrix} \cos^2{\theta}+\sin^2{\theta} & \cos{\theta}\cos{\phi}+ \sin \theta\sin \phi\\ \cos{\theta}\cos{\phi}+ \sin \theta\sin\phi & \cos^2{\phi}+\sin^2{\phi}\end{pmatrix} =(1 cos(θϕ) cos(θϕ) 1)= \begin{pmatrix} 1& \cos(\theta -\phi)\\ \cos(\theta-\phi)& 1\end{pmatrix} et nous avons donc MM orthogonale si et seulement si cos(θϕ)=0\cos(\theta-\phi)= 0, c’est-à-dire si et seulement si ϕ=θ+π/2ouϕ=θπ/2.\phi= \theta +\pi/2\ \mbox{ou}\ \phi= \theta -\pi/2. Dans le premier cas nous avons M=(cosθ sinθ sinθ cosθ) M=\begin{pmatrix} \cos{\theta} & -\sin\theta \\ \sin\theta & \cos\theta\end{pmatrix} et on reconnait la matrice d’une rotation d’angle θ\theta autour de l’origine. Dans le deuxième cas on a M=(cosθ +sinθ sinθ cosθ). M=\begin{pmatrix} \cos{\theta} & +\sin \theta \\ \sin\theta & -\cos{\theta}\end{pmatrix}. Après calcul le polynôme caractéristique de MM est λ 21\lambda^2-1, qui a pour solutions 11 et 1-1. Après calcul des vecteurs propres, on voit que e 1=(cosθ2 sinθ2),e 2=(sinθ2 cosθ2)e_1= \begin{pmatrix}\cos\frac{\theta}{2}\\ \sin\frac{\theta}{2}\end{pmatrix}, e_2= \begin{pmatrix}-\sin\frac{\theta}{2}\\ \cos\frac{\theta}{2}\end{pmatrix} sont des vecteurs propres de MM de valeur propre 11 et 1-1 respectivement. Autrement dit, on a Me 1=e 1M e_1=e_1 et Me 2=e 2Me_2= -e_2. Puisque e 1|e 2=0\langle e_1| e_2\rangle=0, les vecteurs e 1e_1 et e 2e_2 sont perpendiculaires, MM représente une symétrie par rapport à la droite engendrée par e 1e_1.


1
Le produit scalaire est aussi invariant par symétrie
2
Pour avoir un résultat plus précis pour la résolution de Av=bAv=b au sens des moindres carrés, il vaut mieux calculer la factorisation “thin”-QRQR de la matrice AA ce qui permet de se ramener à un système triangulaire “mieux conditionné” après simplification par une matrice R *R^*
3
En toute rigueur on devrait écrire cosg,cosg\langle \cos-g,\cos-g \rangle pour ne pas confondre fonction et valeur de la fonction en xx. Mais cela peut devenir rapidement lourd pour les fonctions constantes ou plus difficile à suivre pour les fonctions usuelles (cos/sin...)

Chapitre 5  Séries numériques.

Vous avez déjà rencontré au cours de vos études l’équation suivante 1+12+14+18+=2 1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots =2 ou le symbole “\ldots” se comprend comme “et ainsi de suite jusqu’à l’infini”. Quel sens donner à cette équation, et en particulier, quel sens donner à son membre de gauche 1+12+14+18+1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots ? Ca ne peut pas signifer “le résultat qu’on obtient en effectuant une infinité d’additions” puisqu’il est impossible de faire une infinité d’additions.

La somme infinie à gauche doit être comprise comme une limite. En écrivant cette équation, nous disons la chose suivante :

En prenant nn assez grand, nous pouvons rendre la somme finie 1+12+14++12 n1+\frac{1}{2}+ \frac{1}{4}+\ldots+\frac{1}{2^{n}} aussi proche qu’on veut de 22.

La somme infinie 1+12+14+18+,1+\frac{1}{2}+\frac{1}{4}+\frac{1}{8}+\ldots, que l’on écrit aussi n=0 12 n\sum_{n=0}^\infty \frac{1}{2^n}, doit être compris comme la limite de la suite des sommes partielles s k= n=0 k12 ns_k=\sum_{n=0}^k \frac{1}{2^n}.

Représentation graphique des premières sommes partielles

5.1  Convergence des séries

Définition 1   Soit (u n)(u_n) une suite de nombres réels ou complexes. On définit la suite de sommes partielles (s k) k(s_k)_k (également notée ( n0u n)(\sum_{n\geq 0} u_n)) s k=u 0+u 1+u 2+u k= n0 ku n s_k = u_0+u_1+u_2+\ldots u_k = \sum_{n\geq 0}^k u_n Nous appelons cette suite la série de terme général u nu_n.

On peut adapter la définition lorsqu’on commence la somme à un rang m0m \neq 0, par exemple m=1m=1 si u 0u_0 n’est pas défini, ( nmu n)(\sum_{n\geq m} u_n) est la suite des sommes partielles s k=u m+u m+1+u k+ms_k= u_m+u_{m+1}+\ldots u_{k+m}.

Exemples

  1. Si on pose, comme ci-dessus, u n=12 nu_n=\frac{1}{2^n} et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors la somme partielle s k= n=0 ku ns_k= \sum_{n=0}^k u_n est donnée par s k=1+12++12 k=212 k. s_k=1+\frac{1}{2}+\ldots +\frac{1}{2^k}= 2-\frac{1}{2^k}. Si on considère la série ( n3u n)(\sum_{n\geq 3} u_n) alors la somme partielle s k= n=3 k+3u ns_k= \sum_{n=3}^{k+3} u_n est donnée par s k=18+116++12 k+3=1412 k+3. s_k= \frac{1}{8}+\frac{1}{16}+\ldots +\frac{1}{2^{k+3}}= \frac{1}{4}-\frac{1}{2^{k+3}}.
  2. Si on pose u n=1u_n=1 pour tout nn et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données pour tout kk par s k=1+1++1=k+1.s_k=1+1+\ldots +1=k+1.
  3. Si on pose1 u n=(1) nu_n=(-1)^n et on considère la série ( n0u n)(\sum_{n\geq 0} u_n) alors les sommes partielles s k= n=0 ku ns_k=\sum_{n=0}^k u_n sont données par s 0=1 s_0=1 s 1=11=0s_1=1-1=0 s 2=11+1=1s_2= 1-1+1=1 et ainsi de suite, c’est à dire que pour tout kk paire nous avons que s k=1s_{k}=1 et pour tout kk impaire nous avons que s k=0s_{k}=0.
  4. Si on pose u n=1n 2u_n=\frac{1}{n^2} et on considère la série ( n1u n)(\sum_{n\geq 1} u_n) alors la somme partielle s ks_k est le nombre réel s k=1+14+19++1k 2. s_k=1+\frac{1}{4}+\frac{1}{9}+\ldots +\frac{1}{k^2}. Contrairement aux autres cas, nous ne disposons d’aucune formule générale pour cette somme partielle.

Lorsque cette suite de sommes partielles (s k) k0(s_k)_{k\geq 0} est convergente, on dit que sa limite est la valeur de la “somme infinie” n=0 u n=u 0+u 1+u 2+\sum_{n=0}^{\infty} u_n=u_0+u_1+u_2+\ldots

Définition 2   Soit (u n) nm(u_n)_{n\geq m} une suite infinie et considérons la série ( nmu n)(\sum_{n\geq m} u_n). Nous disons que la série ( nmu n)(\sum_{n\geq m} u_n) admet comme limite le nombre fini ll si la suite (s k) k0(s_k)_{k\geq 0} de sommes partielles converge vers ll, lim ks k=l. \lim_{k\rightarrow \infty} s_k=l. Dans ce contexte, nous disons que ll est la somme de la série ( nmu n)(\sum_{n\geq m} u_n) et nous écrivons nm u n=l. \sum_{n\geq m}^\infty u_n=l.

Attention ! Les deux notations ( nmu n) \left(\sum_{n\geq m} u_n \right) et n=m u n, \sum_{n=m}^\infty u_n, qui sont très proches, désignent quand même des choses différentes. Lorsque nous écrivons ( nmu n)(\sum_{n\geq m} u_n ) nous parlons de la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} alors que n=m u n\sum_{n=m}^\infty u_n désigne la limite de cette suite (en supposant, bien sur, qu’elle existe).

Proposition 3   Le terme général d’une série convergente tend vers 0.

En effet, soit ( nmu n)(\sum_{n\geq m} u_n) une série et soit (s k) k0(s_k)_{k\geq 0} ses sommes partielles. Si ( nmu n)(\sum_{n\geq m} u_n) converge vers ll alors on a que s k kl s_k\rightarrow_{k\rightarrow \infty} l s k1 kl s_{k-1}\rightarrow_{k\rightarrow\infty} l donc s ks k1 k0 s_{k}-s_{k-1}\rightarrow_{k\rightarrow \infty } 0 Or s ks k1=u k+ms_k-s_{k-1}=u_{k+m} donc u k k0u_k\rightarrow_{k\rightarrow \infty} 0.

Remarque 4  
  • Par contre-apposition, si le terme général d’une suite ne tend pas vers 0 alors la série diverge. Par exemple n0(1) n\sum_{n\geq 0} (-1)^n diverge parce que son terme général (1) n(-1)^n ne tend pas vers 0. De même une suite géométrique de raison λ\lambda diverge lorsque |λ|1|\lambda|\geq 1.
  • Attention! La réciproque est fausse. Il existe des séries divergentes dont le terme général tend vers 0, par exemple on montre que n>01n\sum_{n&gt;0} \frac{1}{n} diverge alors que son terme général 1n\frac{1}{n} tend vers 0 (cf. proposition 13 plus bas)

Exemples.

  1. Pour la série ( n012 n)(\sum_{n\geq 0} \frac{1}{2^n}) nous avons que la somme partielle s k=212 n k2.s_k=2-\frac{1}{2^n}\rightarrow_{k\rightarrow \infty} 2. On peut donc écrire n=0 12 n=2.\sum_{n=0}^\infty \frac{1}{2^n}=2.
  2. Soit maintenant λ\lambda un nombre réel ou complexe tel que |λ|<1|\lambda|&lt;1, et considérons la série ( n0λ n)(\sum_{n\geq 0} \lambda^n). La somme partielle s k=1+λ++λ ks_k=1+\lambda +\ldots +\lambda^k peut être calculée par l’astuce suivante : (1λ)s k=s kλs k (1-\lambda) s_k= s_k -\lambda s_k (1λ)s k=(1+λ++λ k)(λ+λ 2++λ k+1)(1-\lambda) s_k= (1+\lambda +\ldots +\lambda^k) -(\lambda+\lambda^2+\ldots +\lambda^{k+1}) (1λ)s k=1λ k+1 (1-\lambda) s_k= 1-\lambda^{k+1} s k=1λ k+11λ.s_k=\frac{1-\lambda^{k+1}}{1-\lambda}. Puisque |λ|<1|\lambda|&lt;1 nous avons que λ k k0\lambda^k\rightarrow_{k\rightarrow \infty} 0 donc s k k11λ. s_k\rightarrow_{k\rightarrow \infty}\frac{1}{1-\lambda}. Autrement dit, la série géométrique de raison |λ|<1|\lambda|&lt;1 converge et on a n=0 λ n=11λ. \sum_{n=0}^{\infty}\lambda^{n}=\frac{1}{1-\lambda}.

  3. La série ( n01)(\sum_{n\geq 0}1) a pour sommes partielles s k=k+1s_k=k+1. Cette suite n’est pas convergente : sa limite n’est pas finie. On dit alors que la série ( n01)(\sum_{n\geq 0} 1) est divergente2.
  4. La série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) a pour sommes partielles s k=1 si k paire, s k=0 si k impaire.s_k=1 \mbox{ si }\ k\ \mbox{ paire, }\ s_k=0 \ \mbox{ si }\ k\ \mbox{ impaire}. Cette suite de sommes partielles, bien que bornée (les sommes partielles n’approchent pas \infty) ne converge pas. On dit encore une fois que la série ( n0(1) n)(\sum_{n\geq 0}(-1)^n) est divergente.3
  5. Même si nous ne disposons pas de formule pour les sommes partielles s k= n=1 k1n 2s_k=\sum_{n=1}^k \frac{1}{n^2} il est possible de montrer que cette suite converge vers une limite finie. Nous verrons à la fin du semestre que lim ks k=π 26 \lim_{k\rightarrow \infty} s_k=\frac{\pi^2}{6} que nous pouvons aussi écrire n=1 1n 2=π 26. \sum_{n=1}^\infty \frac{1}{n^2}= \frac{\pi^2}{6}.

La remarque suivante, qui suit des propriétés de linéarité des suites, est souvent utile dans l’étude des séries.

Proposition 5 (Linéarité de la convergence des séries)   Soient ( nmu n)(\sum_{n\geq m} u_n) et ( nmv n)(\sum_{n\geq m} v_n) deux séries convergentes réelles ou complexes, de limites uu et vv respectivement. Alors pour tout λ,μ\lambda, \mu\in \mathbb{C}, la série ( nmλu n+μv n)(\sum_{n\geq m} \lambda u_n+\mu v_n) est convergente, avec limite λu+μv\lambda u+ \mu v.

Le cas des séries réelles à termes positifs est assez simple.

Lemme 6   Soit ( nmu n)(\sum_{n\geq m} u_n) une série réelle dont toutes les termes u nu_n sont positifs. Pour tout kmk\geq m soit s ks_k la somme partielle s k= m k+mu n.s_k=\sum_m^{k+m} u_n. Il y a alors deux possibilités
  1. la suite (s k) k0(s_k)_{k\geq 0} converge vers une limite finie ll. Autrement dit, la série ( nmu n)(\sum_{n\geq m} u_n) est convergente
  2. la suite de sommes partielles (s k) k0(s_k)_{k\geq 0} tend vers ++\infty.

En effet la différence entre deux sommes partielles consécutives est un terme de la suite u nu_n donc est positif (s ks k1=u k+m0s_{k}-s_{k-1}= u_{k+m}\geq 0) donc la suite s ks_k est croissante. Si elle est majorée, elle converge vers une limite finie (toute suite croissante majorée est convergente). Sinon, elle n’est pas majorée et tend donc vers ++\infty.

Pour appliquer ce lemme, il sera utile de se ramener à des séries à termes positifs. On peut d’abord observer que s’il y a un nombre fini de termes négatifs, on peut appliquer ce résultat, car la nature d’une série ne dépend pas de ses premiers termes (mais bien sur la somme en dépend si la série est convergente). S’il y a un nombre infini de termes positifs et négatifs, on peut d’abord regarder la nature de la série des valeurs absolues du terme général.

Définition 7   Soit ( nmu n)(\sum_{n\geq m} u_n) une série. On dit que ( nmu n)(\sum_{n\geq m}u_n) est absolument convergente si la série ( nm|u n|)(\sum_{n\geq m}|u_n|) est convergente.

On a le résultat suivant.

Proposition 8   Toute série absolument convergente est convergente.

Idée de la preuve (hors programme) : cela résulte de l’inégalité triangulaire sur les sommes partielles | n=N Mu n| n=N M|u n||\sum_{n =N}^M u_n| \leq \sum_{n = N}^M |u_n| Comme n|u n|\sum_n |u_n| est convergente, le terme de droite peut être rendu aussi petit que l’on veut pourvu que l’on choisisse NN assez grand. Cela permet d’établir rigoureusement la convergence de la suite des sommes partielles de u nu_n (c’est ce qu’on appelle une suite de Cauchy).

Attention : la réciproque de cette proposition est fausse : il existe des séries réelles convergentes qui ne sont pas absolument convergentes. Leur comportement est parfois surprenant – par exemple, en permutant les termes d’une telle série on peut la rendre divergente, ou la faire converger vers n’importe quel nombre réel. De plus ces séries convergent lentement, il faut calculer des sommes partielles à des rangs d’indice élevé pour avoir une valeur approchée de la somme. Les séries absolument convergentes sont donc plus intéressantes! Mais on n’a pas toujours le choix (par exemple certaines séries de Fourier).

Remarque 9   Le comportement de la série de terme général u n=(1) nu_n=(-1)^n, qui diverge sans tendre vers ++\infty, n’est possible que parce que certains termes de cette série sont negatifs.

Le critère de d’Alembert traite le cas des séries qui se comportent comme des séries géométriques.

Proposition 10   Soit u k\sum u_k une série telle que |u k+1||u k| kλ\frac{|u_{k+1}|}{|u_k|}\rightarrow_{k\rightarrow \infty} \lambda. Si λ<1\lambda &lt;1 alors la série u k\sum u_k est absolument convergente. Si λ>1\lambda &gt;1 alors la série u k\sum u_k diverge.

Preuve :
Si λ>1\lambda&gt;1, le terme général de la série ne tend pas vers 0, donc elle diverge. Si λ<1\lambda&lt;1, on observe que 0λ<λ+12<10\leq \lambda &lt; \frac{\lambda+1}{2} &lt; 1. Comme la suite |u n+1/u n||u_{n+1}/u_n| converge vers λ<λ+12\lambda &lt; \frac{\lambda+1}{2} , il existe un rang ll tel que n>l,|u n+1|/|u n|λ+12\forall n&gt;l, \quad |u_{n+1}|/|u_n|\leq \frac{\lambda+1}{2} Donc pour tout mnm\geq n, on a : |u m|C(λ+12) mn,C=|u n||u_{m}| \leq C\left(\frac{\lambda+1}{2}\right)^{m-n}, \quad C=|u_n| . Comme λ+12<1 \frac{\lambda+1}{2}&lt;1 la série géométrique mC(λ+12) mn=C m(λ+12) mn\sum_m C \left(\frac{\lambda+1}{2}\right)^{m-n}=C \sum_m \left(\frac{\lambda+1}{2}\right)^{m-n} converge. En appliquant le critère de comparaison, comme |u m||u_m| est positive, on en déduit que la série ml|u m|\sum_{m\geq l}|u_m| converge.

Les séries à convergence de type géométrique convergent assez rapidement, ces séries sont très utiles pour calculer des valeurs approchées de fonctions trigonométriques, exponentielles, logarithmes etc. (cf. la section 5.2). Mais toutes les séries ne convergent pas aussi rapidement, par exemple les séries de Fourier qui seront abordées en fin de cours. Pour déterminer leur nature, on commence par utiliser un critère plus fin, le critère des équivalents.

Le lemme 6 entraîne le corollaire suivant.

Corollaire 11   Soient ( nmu n)(\sum_{n\geq m}u_n), ( nmv n)(\sum_{n\geq m}v_n) des séries avec un nombre fini de termes négatifs. Alors :
  1. Si u nv nu_n\leq v_n pour tout nn et ( nmv n)(\sum_{n\geq m} v_n) converge alors ( nmu n)(\sum_{n\geq m} u_n) converge aussi.
  2. Si u n nv nu_n\sim_{n\rightarrow \infty} v_n alors la série ( nmu n)(\sum_{n\geq m} u_n) converge si et seulement si la série ( nmv n)(\sum_{n\geq m} v_n) converge aussi.

Preuve : Quitte à commencer la somme à un indice m>0m&gt;0, on peut supposer que toutes les termes des deux suites sont positifs.

  1. Soit (s k) k0(s_k)_{k\geq 0} la suite de sommes partielles de la série ( nmu n)(\sum_{n\geq m} u_n). Soit (t k) k0(t_k)_{k\geq 0} la suite de sommes partielles de la série ( nmv n)(\sum_{n\geq m} v_n). Puisque ( nmv n)(\sum_{n\geq m} v_n) converge, i.e. la suite (t k) k0(t_k)_{k\geq 0} converge, donc est majorée. Puisque u nv nu_n\leq v_n pour tout nn, s kt ks_k\leq t_k pour tout kk, donc la suite s ks_k est majorée. Par Lemme 6 il suit que la série ( nmu n)(\sum_{n\geq m} u_n) converge.
  2. Puisque u n nv nu_n\sim_{n\rightarrow \infty} v_n et u n,v n>0u_n, v_n&gt;0 il existe des nombres réels strictement positifs α,β\alpha, \beta tels que, pour tout nn, αv nu n. \alpha v_n\geq u_n. βu nv n. \beta u_n\geq v_n. Nous avons donc par (1) que ( nmu n) converge ( nmβu n) converge ( nmv n) converge . (\sum_{n\geq m} u_n )\mbox{ converge } \Rightarrow (\sum_{n\geq m} \beta u_n) \mbox{ converge }\Rightarrow (\sum_{n\geq m} v_n) \mbox{ converge }. De même ( nmv n) converge ( nmαv n) converge ( nmu n) converge . (\sum_{n\geq m} v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} \alpha v_n) \mbox{ converge } \Rightarrow (\sum_{n\geq m} u_n) \mbox{ converge }.

Ceci termine la démonstration du Corollaire 11.

Exercice. Montrer que le Corollaire 11 est toujours valable lorsque : les deux séries sont à termes négatifs,

Remarque 12   Si la suite u nu_n ne comprend qu’un nombre fini de termes negatifs et la suite v nv_n satisfait v nu nv_n\sim u_n alors la suite v nv_n ne comprend qu’un nombre fini de termes negatifs. Il suffit donc de vérifier cette condition sur une seule des deux suites.

Vous avez étudié en 1ère année les developpements limités. Utilisant ces développements, il est très souvent possible de montrer qu’une suite donnée est équivalente à une suite de la forme (1n s) n1(\frac{1}{n^s})_{n\geq 1}.

Exemples

  1. Considérons u n=sin(1n)u_n=\sin(\frac{1}{n}). Nous avons que sin(1n)= n1n+o(1n),\sin\left(\frac{1}{n}\right)=_{n\rightarrow \infty} \frac{1}{n}+o\left(\frac{1}{n}\right), c’est à dire que sin(1n) n1n.\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n}.

  2. Considérons u n=e 1/n1u_n=e^{1/n}-1. Nous avons que e 1/n= n1+1n+o(1n)e^{1/n}=_{n\rightarrow \infty} 1+ \frac{1}{n} +o(\frac{1}{n}) et donc (e 1/n1)= n1n+o(1n)(e^{1/n}-1)=_{n\rightarrow \infty} \frac{1}{n} +o(\frac{1}{n}), c’est à dire e 1/n n1ne^{1/n} \sim_{n\rightarrow \infty} \frac{1}{n}.

  3. Considérons u n=cos(1n)1nu_n=\frac{\cos(\frac{1}{n}) -1}{n}. Nous avons que cos(1n)= n112n 2+o(1n 2)\cos(\frac{1}{n})=_{n\rightarrow \infty} 1-\frac{1}{2n^2}+ o(\frac{1}{n^2}) et donc cos(1n)1 n12n 2\cos(\frac{1}{n})-1\sim_{n\rightarrow \infty} \frac{-1}{2n^2}, d’ou il vient que cos(1n)1n n12n 3. \frac{\cos(\frac{1}{n}) -1}{n}\sim_{n\rightarrow \infty} \frac{-1}{2n^3}.

  4. Considérons u n=cos(1n)1sin(1n) n12n 21n=12n.u_n= \frac{ \cos(\frac{1}{n}) -1}{ \sin(\frac{1}{n})}\sim_{n\rightarrow \infty} \frac{\frac{-1}{2n^2}}{\frac{1}{n}} = \frac{-1}{2n}.

La corollaire 11 sera donc un outil très puissant pour établir la convergence des séries, à condition de savoir quand la série ( n>01n s) \left(\sum_{n&gt;0} \frac{1}{n^s}\right) converge.

Proposition 13 (Critère de Riemann.)   Pour tout nombre réel positif s>0s&gt;0 la suite infinie ( n11n s) \left(\sum_{n\geq 1} \frac{1}{n^s}\right) diverge si s1s\leq 1 et converge si s>1s&gt;1.

Preuve
On doit déterminer quand la suite de sommes partielles s k= n=1 k1n s s_k=\sum_{n=1}^k \frac{1}{n^s} converge. Puisque la suite (u n)(u_n) est à termes positifs il suffit par le lemme 6 de savoir quand la suite s ks_k est majorée. Nous allons faire cela par une téchnique très puissante : comparaison d’une somme avec une intégrale. Il y a en effet un lien fort entre l’intégrale 1 kf(x)dx\int_1^k f(x) dx et la somme n=1 kf(n)\sum_{n=1}^k f(n).

Illustration graphique de la nature identique de la convergence d’une série ou de l’intégrale correspondante pour une fonction décroissante telle que f(x)=1/xf(x)=1/x. En noir la somme des rectangles dont l’aire est une somme partielle de la série (car chaque rectangle a pour dimension horizontale 1 et verticale un des f(n)f(n)). On compare avec l’aire sous la courbe représentative de ff (en rouge), de deux façons, en prenant les rectangles à gauche ou à droite.

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_gauche); 

onload
Si l’aire des rectangles gauches noirs tend vers une limite finie, alors l’aire sous la courbe aussi (puisqu’elle est majorée par l’aire des rectangles).

f(x):=1/x; gl_y=0..1; gl_x=0..12;
plotarea(f(x),x=1..11,10,rectangle_droit); 

onload
Réciproquement, si l’aire sous la courbe tend vers une limite, l’aire des rectangles droits aussi. On calcule ensuite 1 k1t sdt=11(s1)k s1,s1\int_1^k \frac{1}{t^s} \ dt = 1-\frac{1}{(s-1)k^{s-1}}, \quad s\neq 1 et on fait tendre kk vers ++\infty, il y a convergence lorsque s>1s&gt;1. Attention au cas particulier s=1s=1, on a alors un logarithme qui ne tend pas vers une limite finie.

Une autre preuve plus formelle. Puisque s>0s&gt;0 pour tout xx tel que x[n,n+1]x\in [n, n+1] nous avons que 1n s1x s1(n+1) s. \frac{1}{n^s}\geq \frac{1}{x^s}\geq \frac{1}{(n+1)^s}. Il en suit que n n+11n sdx n n+11x sdx n n+11(n+1) sdx. \int_{n}^{n+1} \frac{1}{n^s} dx \geq \int_{n}^{n+1} \frac{1}{x^s} dx \geq \int_{n}^{n+1} \frac{1}{(n+1)^s} dx. cest à dire que pour tout entier positif nn nous avons que 1n s n n+11x sdx1(n+1) s. \frac{1}{n^s} \geq \int_n^{n+1} \frac{1}{x^s} dx \geq \frac{1}{(n+1)^s}. En sommant ces inégalités, nous obtenons que 1+12 s++1n s 1 21x sdx+ 2 31x sdx++ n n+11x sdx12 s+13 s+1(n+1) s. 1+\frac{1}{2^s}+\ldots+\frac{1}{n^s} \geq \int_1^2 \frac{1}{x^s} dx+\int_2^3 \frac{1}{x^s} dx+\ldots+ \int_n^{n+1} \frac{1}{x^s} dx\geq \frac{1}{2^s}+\frac{1}{3^s}+\ldots \frac{1}{(n+1)^s}. Autrement écrit n=1 k1n s 1 k+11x sdx n=2 k+11n s, \sum_{n=1}^k \frac{1}{n^s} \geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq \sum_{n=2}^{k+1}\frac{1}{n^s}, c’est à dire s k 1 k+11x sdxs kkk+1. s_k\geq \int_{1}^{k+1} \frac{1}{x^s}dx\geq s_k-\frac{k}{k+1}. Re-organisant ces équations, nous obtenons que 1 k1x sdxs k 1 k1x sdx+1. \int_1^k \frac{1}{x^s} dx \leq s_k\leq \int_1^k \frac{1}{x^s} dx+1. Nous allons maintenant distinguer 3 cas, selon que ss est plus grand que, égale à ou plus petit que 11.

  1. Cas 1 : s>1s&gt;1. Nous avons alors que 1 kx sdx=[x 1s1s] 1 k=1k 1ss11s1.\int_1^k x^{-s} dx= \left[ \frac{x^{1-s}}{1-s}\right]_1^k =\frac{1-k^{1-s}}{s-1}\leq \frac{1}{s-1}. On a donc que pour tout kk s k1s1+1. s_k\leq \frac{1}{s-1}+1. La suite s ks_k est donc majorée et la série ( n11n s)(\sum_{n\geq 1} \frac{1}{n^s}) converge.
  2. Cas 2 : s=1s=1. Nous avons alors que 1 kx 1dx=[log(x)] 1 k=log(k) k.\int_1^k x^{-1} dx=[ \log (x)]_1^k= \log(k)\rightarrow_{k\rightarrow \infty} \infty. Nous avons donc que s klog(k)s_k\geq \log(k) pour tout kk : la suite s ks_k ne peut donc pas être majorée et par le lemma 6 la suite ( nm1n)(\sum_{n\geq m}\frac{1}{n}) doit diverger.
  3. Cas 3 : s<1s&lt;1. Pour tout entier positif nn nous avons alors que 1n s1n>0\frac{1}{n^s}\geq \frac{1}{n}&gt;0. Comme ( n11n)(\sum_{n\geq 1} \frac{1}{n}) ne converge pas, il résulte du Lemma 6 que ( n11n s) (\sum_{n\geq 1} \frac{1}{n^s}) ne converge pas non plus.

Ceci termine démonstration de la proposition 13

Exemples:
Les exemples qui suivent montrent à quel point l’attelage du Corollaire 11 avec la Proposition 13 est un outil puissant pour déterminer si des séries positives convergent ou divergent.

  1. Soit u n=sin(1n)u_n=\sin(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n1n.u_n\sim_{n\rightarrow \infty} \frac{1}{n}. Puisque la séries ( n11n)(\sum_{n\geq 1} \frac{1}{n}) diverge par la proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) diverge aussi.
  2. Soit u n=1cos(1n)u_n=1-\cos(\frac{1}{n}) pour tout n1n\geq 1. Nous avons vu que u n n12n 2u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2}. Puisque la série ( n11n 2)(\sum_{n\geq 1} \frac{1}{n^2}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  3. Soit u n=1cos(1n)nu_n= \frac{1-\cos(\frac{1}{n})}{\sqrt{n}}. Nous avons que u n n12n 2n=2n 52. u_n\sim_{n\rightarrow \infty} \frac{1}{2n^2\sqrt{n}}= 2n^{-\frac{5}{2}}.

    Puisque la séries ( n11n 5/2)(\sum_{n\geq 1} \frac{1}{n^{5/2}}) converge par la Proposition 13, il résulte de la corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.
  4. Soit u n=sin(1n)(e 1n1)u_n= \sin\left(\frac{1}{n}\right)\left(e^{\frac{1}{\sqrt{n}}}-1\right). Par les developpements limités, on a que sin(1n) n1n\sin(\frac{1}{n})\sim_{n\rightarrow \infty}\frac{1}{n} et e 1n1 nn 1/2.e^{\frac{1}{\sqrt{n}}}-1\sim_{n\rightarrow\infty} n^{-1/2}. Il en suit que u n n1n*n 1/2=n 3/2.u_n\sim_{n\rightarrow \infty} \frac{1}{n*n^{1/2}}= n^{-3/2}.

    Puisque la série ( n11n 3/2)(\sum_{n\geq 1} \frac{1}{n^{3/2}}) converge par la Proposition 13, il résulte du corollaire 11 que ( n1u n)(\sum_{n\geq 1} u_n) converge aussi.

Que se passe-t-il pour les séries qui ont un nombre infini de termes négatifs et positifs ? Si la série converge absolument, on a vu que la série convergeait. Sinon, il se peut que la série converge quand même. On peut montrer par exemple que n(1) nn\sum_n \frac{(-1)^n}{n} converge alors que n1n\sum_n \frac{1}{n} tend vers l’infini. Intuitivement, cela vient du fait qu’il y a des compensations entre les termes positifs et négatifs dans le premier cas et pas dans le second. L’étude de la nature des séries ayant une infinité de termes positifs et négatifs qui ne sont pas absolument convergentes sort du cadre de ce cours. Le lecteur souhaitant aller plus loin peut regarder les articles “Séries alternées” et “transformation d’Abel” de wikipedia. Attention, certaines séries de Fourier qui seront étudiées plus loin ne sont pas absolument convergentes, on admettra donc qu’elles convergent en appliquant le théorème donnant la valeur de leur somme.

5.2  Les séries et le calcul sur machine.

Les séries peuvent être utilisées dans les logiciels de calcul pour calculer des fonctions transcendantes (sinus, cosinus, exponentielle, logarithme...) ou spéciales que vous verrez peut-etre dans vos études (error function, fonctions de Bessel, de Airy, W de Lambert, etc.).

Un processeur est capable de faire des opérations arithmétiques de base4:

  1. addition, soustraction de deux nombres
  2. multiplication, division de deux nombres.

A l’aide de ces opérations, il s’agit de coder des fonctions plus avancées citées ci-dessus. Mais la plupart des fonctions qu’on souhaite calculer - cos, sin, exp, log et ainsi de suite - ne s’expriment pas exactement à l’aide de opérations de base + - * / d’ailleurs. Les seules fonctions qui peuvent ètre calculées exactement utilisant seulement ces opérations sont les fractions de polynomes : P(x)=a 0+a 1x+a 2x 2++a nx n P(x)= a_0+a_1 x+a_2x^2+\ldots +a_n x^n xx est une variable et a 0,,a na_0,\ldots, a_n sont des nombres.

Alors, comment faire pour faire calculer sin(x)\sin(x) (par exemple) à un ordinateur ? Il y a plusieurs méthodes : l’une d’elle utilise les séries de Taylor5. Voilà comment cela se passe dans le cas de la fonction sin(x)\sin(x).

  1. On applique la théorie de la série de Taylor pour écrire sin(x)\sin(x) comme une somme infinie de puissances de xx. En l’occurence, nous savons que sin(x)=xx 33!+x 55!x 77!+= n=0 (1) nx 2n+1(2n+1)!. \sin(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}-\frac{x^7}{7!}+\ldots= \sum_{n=0}^\infty \frac{(-1)^n x^{2n+1}}{(2n+1)!}. (Le lecteur pourra vérifier que la série converge en appliquant le critère de d’Alembert).
  2. Les sommes partielles s k(x)s_k(x) de cette séries de Taylor sont des polynômes et peuvent être calculées en utilisant seulement les opérations d’addition, multiplication, division. Dans le cas de sin(x)\sin(x) nous avons que s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!. s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!}.
  3. Pour kk assez grand le polynôme s k(x)s_k(x) sera une approximation acceptable pour sin(x)\sin(x). Attention : ici le kk “assez grand” dépendra de xx : plus xx sera petit, plus on pourra utiliser une valeur basse pour kk. On le voit sur la représentation graphique ci-dessous de la fonction sinus et des sommes partielles de la série de Taylor en 0.
S(n,x):=sum((-1)^k*x^(2*k+1)/(2*k+1)!,k,0,n);
plot([sin(x),S(1,x),S(2,x),S(3,x)],x,-2,2,color=[black,red,green,blue])

onload

La question plus difficile à laquelle il faudrait répondre est la suivante : si je cherche (par exemple) à calculer sin(2)\sin(2) à 10 310^{-3} près, quelle valeur de kk dois-je utiliser ? Pour minimiser le temps de calcul de la machine, il est souhaitable de prendre kk le plus petit possible.

L’erreur E k(x)E_k(x) que je commets lorsque j’approche sin(x)\sin(x) par s k(x)=xx 33!+x 55!++(1) kx 2k+1(2k+1)!s_k(x)= x-\frac{x^3}{3!}+\frac{x^5}{5!}+\ldots +\frac{(-1)^k x^{2k+1}}{(2k+1)!} est donnée par le formule6 E k(x)=(1) kx 2k+1(2k+1)!+. E_k(x)= \frac{(-1)^k x^{2k+1}}{(2k+1)!}+\ldots. On peut démontrer que des lors que x 2<(2k+2)(2k+3)x^2&lt; (2k+2)(2k+3) nous avons que |E k(x)||x 2k+3|(2k+3)! |E_k(x)|\leq \frac{|x^{2k+3}|}{(2k+3)!} Pour garantir que E k(x)E_k(x) est petit il suffit donc de s’assurer que |x| 2k+3/|(2k+3)!|x|^{2k+3}/|(2k+3)! est petit. Ici, comme on voudrait calculer sin(2)\sin(2) à 10 310^{-3} près, il suffit de trouver kk tel que 2 2k+3/(2k+3)!<10 32^{2k+3}/(2k+3)!&lt;10^{-3}. Des calculs nous donnent que 2 3/3!=4/3 2^3/3!=4/3 2 5/5!=4/15 2^5/5!= 4/15 2 7/7!=8/315 2^7/ 7!= 8/315 2 9/9!=4/2835 2^9/9!= 4/2835 2 11/11!=8/155925<10 3. 2^{11}/11!=8/ 155925&lt;10^{-3}.

Nous savons donc que les deux expressions sin(2),et22 3/3!+2 5/5!2 7/7!+2 9/9! \sin(2), \quad \mbox{et} \quad 2- 2^3/3!+2^5/5!-2^7/7!+2^9/9! diffèrent par moins de 10 310^{-3}.



Dans la pratique, on peut optimiser en utilisant les propriétés de la fonction sinus (périodicité, règles telles que sin(x)=cos(π2x)\sin(x)=\cos(\frac{\pi}{2}-x)) et se ramener à un argument plus proche de 0.


1
c’est à dire u 0=1u_0=1, u 1=1u_1=-1, u 2=1u_2=1, u 3=1u_3=-1 et ainsi de suite.
2
On aurait pu aussi remarquer que u n¬ n0u_n \not\rightarrow_{n\rightarrow \infty} 0 et donc cette série, par Remarque 3, ne converge pas.
3
De même, cette série ne peut pas converger par Remarque 3.
4
Aujourd’hui, les coprocesseurs arithmétiques sont capables de calculer les fonctions sinus, cosinus, exponentielles, etc. en décomposant le calcul en opérations arithmétiques de base
5
Une autre méthode populaire est l’algorithme CORDIC
6
La terme générale de la séries E k(x)E_k(x) a un coefficient 1(2k+1)!\frac{1}{(2k+1)!} qui devient très petit très vite, ce qui fait qu’il est typiquement possible de calculer sin(x)\sin(x) avec relativement peu de termes.

Chapitre 6  Séries de Fourier.

Nous allons maintenant revenir sur la question posée en début de semestre. Rappelons que nous cherchions à résoudre l’équation de la chaleur : Tt=D 2Tx 2 \frac{\partial T}{\partial t}= D\frac{\partial^2 T}{\partial x^2} sur le domaine {(x,t)|x[0,L],t0}\{(x,t)|x\in[0,L], t\geq 0 \} en respectant les conditions initiales T(x,0)=ϕ(x)T(x,0)= \phi(x) (ou ϕ\phi est une fonction donnée) et les conditions aux bords Tx(0,t)=Tx(L,t)=0 \frac{\partial T}{\partial x}(0, t)=\frac{\partial T}{\partial x}(L, t)=0 pour tout t>0t&gt;0. Nous avions remarqué que lorsque la condition initiale ϕ\phi était une somme finie de cosinus ϕ=a 0+ k=1 na kcos(kπxL) \phi=a_0+\sum_{k=1}^n a_k \cos(\frac{k \pi x}{L}) cette équation possède une solution T(x,t)=a 0+ k=1 na kcos(kπxL)e Dk 2π 2x/L 2. T(x,t)= a_0+ \sum_{k=1}^n a_k \cos(\frac{k \pi x}{L}) e^{-Dk^2\pi^2 x/L^2}. Nous allons maintenant chercher à résoudre cette équation pour une condition initiale ϕ\phi quelconque en approchant ϕ\phi par des sommes finies de la forme ϕ=a 0+ k=1 na kcos(kπxL). \phi=a_0+\sum_{k=1}^n a_k \cos(\frac{k \pi x}{L}). Pour l’équation des ondes, on cherche plutot à approcher ϕ\phi par une somme de sinus. On va présenter une méthode pour approcher une fonction quelconque ϕ\phi par une somme trigonométrique - c’est à dire, une fonction gg de la forme g(x)=a 0+ k=1 na kcos(kπxL)+b ksin(kπxL) g(x)= a_0+\sum_{k=1}^n a_k \cos(\frac{k \pi x}{L})+b_k\sin( \frac{k \pi x}{L}) Le cas de l’équation de la chaleur correspond au cas où tous les b kb_k sont nuls, celui de l’équation des ondes au cas où les a ka_k sont nuls.

6.1  Approximants de Fourier, coefficients de Fourier et séries de Fourier : définitions et exemples.

Dans ce paragraphe, nous allons appliquer la méthode de la projection orthogonale pour approcher une fonction par une série trigonométrique.

On se donne une fonction ff, continue, réelle et définie sur une intervalle [L,L][-L, L]. On cherche à approcher f(x)f(x) par une somme de fonctions trigonométriques fondementales 2L2L-périodiques : a 0+ k=1 na kcos(kπLx)+b ksin(kπLx) a_0+\sum_{k=1}^n a_k \cos(k \frac{\pi}{L} x)+ b_k\sin(k \frac{\pi}{L} x) Si ff est une fonction du temps périodique de période TT définie pour t[T/2,T/2]t \in [-T/2,T/2], il faut remplacer xx par tt et LL par T/2T/2. Pour éviter de trainer des notations trop lourdes, on va poser ω=πL=2πT\omega=\frac{\pi}{L} =\frac{2\pi}{T} de sorte que pour une fonction ff périodique dépendant du temps, ω\omega est une pulsation. Pour une fonction périodique dépendant de la position, la longueur d’onde est 2L2L.
Pour se fixer les idées, on pourra dans la suite prendre : L=π,T=2π,ω=1L=\pi, T=2\pi, \quad \omega=1 Pour chaque nn, nous allons chercher la fonction S n (f)S^{\mathbb{R}}_n(f), qui sera le meilleur approximant de ff de la forme S n (f)=a 0+ k=1 na kcos(kωx)+b nsin(kωx)S^{\mathbb{R}}_n(f) =a_0+\sum_{k=1}^n a_k \cos\left(k \omega x\right)+ b_n\sin\left(k \omega x\right) par rapport à la distance définie par le produit scalaire f|g= L Lf(x)g(x)dx. \langle f|g\rangle = \int_{-L}^L f(x)g(x) dx.

Dans ce chapitre nous aurons souvent besoin de travailler avec des fonctions qui ne sont pas continues sur [L,L][-L,L] mais presque, au sens où elles peuvent avoir un nombre fini de “sauts”, par exemple

f(x):=10*(x-floor(x+1/2))^3;
plot(f(x),x,-3,3,xstep=1/256);

onload
Plus formellement :

Définition 1   Soit i0i\geq 0 un entier.
Une fonction
f:[a,b]f:[a,b]\to\mathbb{C} est dite C iC^i par morceaux s’il existe a=a 0<a 1<<a p=ba=a_0&lt;a_1&lt;\ldots&lt;a_p=b tels que
  1. la fonction ff est de classe C iC^i sur chaque intervalle ]a k1,a k[]a_{k-1},a_k[.
  2. Pour tout m=0im=0\ldots i et tout j=0pj=0\ldots p les limites à gauche et à droite lim xa j f (m)(x) \lim_{x\rightarrow a_j^{-}} f^{(m)}(x) et lim xa j f (m)(x)\lim_{x\rightarrow a_j^{-}} f^{(m)}(x) existent et sont finies.
Une fonction f:f:\mathbb{R}\to \mathbb{C} est dite C iC^i par morceaux si elle est C iC^i par morceaux sur [n,n][-n,n] pour tout nn (i.e. les points de discontinuité sont en nombre fini sur un intervalle borné)
Une fonction
f:[a,b]f:[a,b]\rightarrow \mathbb{C} est C C^\infty par morceaux si elle est C iC^i par morceaux pour tout i0i\geq 0. On note l’espace vectoriel de toute les fonctions réelles (resp. complexes) C iC^i par morceaux sur une intervalle [a,b][a,b] par C mor i([a,b],)C^i_{\mbox{mor}}([a,b], \mathbb{R}) (resp. C mor i([a,b],)C^i_{\mbox{mor}}([a,b], \mathbb{C}).)

Remarque
Si f:[a,b]f:[a,b]\to\mathbb{C} est continue par morceaux, alors a bf(x)dx\int_a^b f(x)\mbox{d}x est bien définie. Si a=a 0,a 1,,a p=ba=a_0,a_1,\ldots,a_p=b est la subdivision correspondante alors on a a bf(x)dx= j=0 p1 a j a j+1f(x)dx.\int_a^b f(x)\mbox{d}x=\sum_{j=0}^{p-1}\int_{a_j}^{a_{j+1}} f(x)\mbox{d}x. En particulier, on peut donc définir sur C mor i([a,b],)C^i_{\mbox{mor}}([a,b], \mathbb{R}) le produit scalaire f|g= L Lf(x)g(x)dx\langle f|g\rangle =\int_{-L}^L f(x) g(x) dx

Soit maitenant f:[L,L]f: [-L, L]\rightarrow \mathbb{R} une fonction continue par morceaux. On considére C mor 0([L,L],)C^0_{\mbox{mor}}([-L, L], \mathbb{R}) avec son produit scalaire : f|g= L Lf(x)g(x)dx. \langle f|g\rangle =\int_{-L}^L f(x)g(x)dx. (N.B. c’est un produit scalaire défini si aux points de discontinuité la valeur de ff est comprise entre ses limites à gauche et à droite. Malheureusement cette contrainte ne respecte plus la structure d’espace vectoriel. Pour obtenir une définition de produit scalaire rigoureuse, on pourra dire que deux fonctions sont équivalentes si elles sont égales sauf peut-être en un nombre fini de points, puis faire “le quotient” des fonctions continues par morceaux par cette relation d’équivalence).
Pour tout nn, notons W nW_n l’ensemble des fonctions g(x)g(x) de la forme g(x)=a 0+ k=1 na kcos(kωx)+b ksin(kωx). g(x)= a_0+\sum_{k=1}^n a_k \cos(k \omega x)+ b_k \sin(k \omega x). On vérifie facilement que W nW_n est un sous-espace vectoriel de C mor 0([L,L],)C^0_{\mbox{mor}}([-L, L], \mathbb{R}).

Définition 2   Le nn-ième approximant trigonometrique de Fourier de ff, noté S n (f)S^{\mathbb{R}}_n(f), est alors défini par la projection de ff sur W nW_n S n (f)=p W n(f). S^{\mathbb{R}}_n(f)= p_{W_n}(f).

Autrement dit, S n (f)S^{\mathbb{R}}_n(f) est la fonction dans W nW_n qui minimise la distance euclidienne d(S n (f),f)= L L(S n (f)(x)f(x)) 2dxd(S_n^{\mathbb{R}}(f), f)=\sqrt{\int_{-L}^L (S_n^{\mathbb{R}}(f)(x)-f(x))^2dx} Nous allons maintenant procéder au calcul explicite des approximants de Fourier. Il faut pour cela commencer par identifer une base orthonomée de W nW_n. Par définition de cet espace, B={1,cos(ωx),sin(ωx),cos(2ωx),cos(nωx),sin(nωx)},ω=πL B=\left\{1, \cos(\omega x), \sin(\omega x), \cos(2\omega x)\ldots, \cos(n \omega x), \sin(n \omega x) \right\}, \quad \omega=\frac{\pi}{L} est une famille génératrice de W nW_n.

Lemme 3   La famille BB est orthogonale pour W nW_n par rapport au produit scalaire f|g= L Lf(x)g(x)dx\langle f|g\rangle =\int_{-L}^L f(x)g(x) dx. C’est donc une base orthogonale de W nW_n.

Preuve : Il nous faut démontrer que

  1. L L1sin(kωx)dx= L L1cos(kωx)dx=0\int_{-L}^L 1 \, \sin (k \omega x)dx= \int_{-L}^L 1 \, \cos (k \omega x)dx=0 pour tout k0k\neq 0
  2. L Lcos(jωx)sin(kωx)dx=0\int_{-L}^L \cos({j\omega x}) \sin (k \omega x)dx= 0 pour tout k,j>0k,j&gt;0.
  3. L Lsin(jωx)sin(kωx)dx= L Lcos(jωx)cos(kωx)dx=0\int_{-L}^L \sin({j\omega x}) \sin (k \omega x)dx= \int_{-L}^L \cos({j\omega x}) \cos (k \omega x)dx=0 pour kj>0k\neq j&gt;0.

On a ωL=π\omega L=\pi, donc : L Lsin(kωx)dx=[1kωcos(kωx)] L L=0\int_{-L}^L \sin (k \omega x)dx=\left[ \frac{-1}{k\omega} \cos(k \omega x)\right]_{-L}^L= 0 L Lcos(kωx)dx=[1kωsin(kωx)] L L=0\int_{-L}^L \cos (k \omega x)dx=\left[ \frac{1}{k\omega} \sin(k \omega x)\right]_{-L}^L= 0 donc (1)(1) est vrai. Ensuite, L Lcos(jωx)sin(kωx)dx= L L12(sin((k+j)ωx)+sin((kj)ωx)dx.\int_{-L}^L \cos({j\omega x}) \sin (k \omega x)dx= \int_{-L}^L \frac{1}{2} (\sin({(k+j)\omega x})+ \sin({(k-j)\omega x}) dx. Par (1)(1) cet intégralle est nulle si kjk\neq j. Lorsque k=jk=j on a que L Lcos(kωx)sin(kωx)dx= L L12sin(2kωx)dx=0.\int_{-L}^L \cos({k\omega x}) \sin ({k\omega x})dx= \int_{-L}^L \frac{1}{2}\sin(2k \omega x)dx=0. Dans tous les cas, (2)(2) est vérifié. Enfin, pour kjk\neq j et k,j>0k,j&gt;0 on a que L Lsin(jωx)sin(kωx)dx= L L12(cos((k+j)ωx)+cos((kj)ωx)dx=0\int_{-L}^L \sin({j\omega x}) \sin (k \omega x)dx= \int_{-L}^L \frac{1}{2} (-\cos({(k+j)\omega x})+ \cos({(k-j)\omega x})dx=0 par (1)(1). De même L Lcos(jωx)cos(kωx)dx= L L12(cos((k+j)ωx)+cos((kj)ωx)dx=0\int_{-L}^L \cos({j\omega x}) \cos (k \omega x)dx =\int_{-L}^L \frac{1}{2} (\cos({(k+j)\omega x})+ \cos({(k-j)\omega x})dx=0 par (1)(1). La condition (3)(3) est donc vérifiée. Ceci termine la démonstration de l’orthogonalité de BB.

Pour obtenir une base orthonormée pour W n()W_n(\mathbb{R}) il suffira donc de normaliser la base B=(1,cos(ωx),sin(ωx),cos(2ωx),cos(nωx),sin(nωx))B=( 1, \cos({\omega x}), \sin({\omega x}), \cos({2\omega x})\ldots, \cos({n\omega x}), \sin({n\omega x})) On a : 1= L L1 2dx=2L \| 1 \| =\sqrt{ \int_{-L}^L 1^2 dx}= \sqrt{2L} puis pour les cosinus : cos(kωx)= L Lcos 2(kωx)dx= L L12(1+cos(2kωx))dx=L \| \cos(k \omega x) \| = \sqrt{\int_{-L}^L \cos^2 (k \omega x)dx } =\sqrt{\int_{-L}^L\frac{1}{2}(1+\cos( 2k \omega x))dx }=\sqrt{L} Par un calcul similaire sin(kωx)=L\| \sin(k \omega x)\|= \sqrt{L}. Nous avons donc une base orthonormée B˜\tilde{B} de W nW_n donnée par B˜=(12L,cos(ωx)L,sin(ωx)L,cos(2ωx)L,cos(nωx)L,sin(nωx)L)\tilde{B}=\left(\frac{1}{\sqrt{2L}}, \frac{\cos({\omega x})}{\sqrt{L}}, \frac{\sin({\omega x})}{\sqrt{L}}, \frac{\cos({2\omega x})}{\sqrt{L}}\ldots, \frac{\cos({n\omega x})}{\sqrt{L}}, \frac{\sin({n\omega x})}{\sqrt{L}}\right) Nous pouvons donc calculer l’approximant de Fourier trigonométrique S n (f)S^{\mathbb{R}}_n(f) en utilisant le formule de la projection orthogonale. Cette formule nous dit que : S n (f) = 12L|f12L+ k=1 ncos(kωx)L|fcos(kωx)L+sin(kωx)L|fsin(kωx)L = 12L L Lf(x)dx+ k=1 na k(f)cos(kωx)+b k(f)sin(kωx) \begin{matrix} S^{\mathbb{R}}_n(f)&=& \langle \frac{1}{\sqrt{2L}}|f\rangle \frac{1}{\sqrt{2L}}+ \sum_{k=1}^n \left\langle \frac{\cos(k \omega x)}{\sqrt{L}}| f\right\rangle \frac{\cos(k \omega x)}{\sqrt{L}}+ \left\langle \frac{\sin(k \omega x)}{\sqrt{L}}| f\right\rangle\frac{\sin(k \omega x)}{\sqrt{L}} \\ &=& \frac{1}{2L}\int_{-L}^L f(x) dx+ \sum_{k=1}^n a_k(f) \cos(k \omega x)+ b_k(f) \sin(k \omega x) \end{matrix} ou les coefficients a k(f)a_k(f) et b k(f)b_k(f) sont définis par a k(f)=1L L Lcos(kωx)f(x)dx,b k(f)=1L L Lsin(kωx)f(x)dx a_k(f)= \frac{1}{L}\int_{-L}^L \cos(k \omega x) f(x) dx , \quad b_k(f)= \frac{1}{L}\int_{-L}^L \sin(k \omega x) f(x) dx

Définition 4   Soit ff une fonction réelle ou complexe continue par morceaux définie sur une intervalle [L,L][-L, L] et ω=πL\omega=\frac{\pi}{L}. Les coefficients de Fourier trigonométriques de ff sont les nombres a 0(f)a_0(f), a k(f),b k(f)a_k(f), b_k(f) (k>0)(k&gt;0) définis par a 0(f) = 12L L Lfdx a k(f) = 1L L Lcos(kωx)f(x)dx b k(f) = 1L L Lsin(kωx)f(x)dx \begin{matrix} a_0(f)&=&\frac{1}{2L}\int_{-L}^L f dx \\ a_k(f)&=& \frac{1}{L}\int_{-L}^L \cos(k \omega x) f(x) dx \\ b_k(f)&=&\frac{1}{L}\int_{-L}^L \sin({k\omega x}) f(x) dx \end{matrix} Le nn-ième approximation de Fourier trigonométrique est alors donnée par S n (f)=a 0(f)+ ka k(f)cos(kωx)+b ksin(kωx). S^{\mathbb{R}}_n(f)= a_0(f)+\sum_k a_k(f) \cos(k \omega x)+ b_k \sin(k \omega x).
Remarque 5   Il résulte des formules d’Euler : e ikωx=cos(kωx)+isin(kωx) e^{ik \omega x}= \cos(k \omega x)+i \sin(k \omega x) cos(kωx)=12(e ikωx+e ikωx) \cos(k \omega x)= \frac{1}{2} (e^{ik \omega x}+ e^{-ik \omega x}) sin(kωx)=1i(e ikωxe ikωx) \sin(k \omega x)= \frac{1}{i} (e^{ik \omega x}- e^{-ik \omega x}) qu’approcher ff par une somme de fonctions trigonométriques équivaut à l’approcher par une somme d’exponentielles complexes. Plus précisement, considérons la somme trigonométrique a 0+ k=1 n(a kcos(kωx)+b ksin(kωx)). a_0+\sum_{k=1}^n \left(a_k \cos(k \omega x)+ b_k \sin(k \omega x) \right). Si on pose c 0=a 0c_0=a_0 et pour tout k>0k&gt;0 c k=12(a kib k),c k=12(a k+ib k)c_k= \frac{1}{2}(a_k-ib_k), \;c_{-k}= \frac{1}{2}(a_k+ib_k) alors on a a 0+ k=1 n(a kcos(kωx)+b ksin(kωx))= k=n nc ke ikωx. a_0+\sum_{k=1}^n \left( a_k \cos(k \omega x)+ b_k \sin(k \omega x) \right) =\sum_{k=-n}^n c_k e^{i k \omega x}.

Pour des fonctions complexes, cette version des approximants de Fourier est particulièrement utile.

Définition 6   Soit f:[L,L]f: [-L, L]\rightarrow \mathbb{C} une fonction continue par morceaux. On définit le nn-ième approximant exponentiel de Fourier de ff, noté S n (f)S^{\mathbb{C}}_n(f), par S n (f)= n nc ke ikωx S^{\mathbb{C}}_n(f)=\sum_{-n}^n c_k e^{ik \omega x} ou c kc_k sont les coefficients exponentiels de ff définis par c k=12(a kib k),c k=12(a k+ib k) c_k= \frac{1}{2}(a_k-ib_k), \;c_{-k}= \frac{1}{2}(a_k+ib_k) ou a ka_k et b kb_k sont les coefficients trigonométriques de Fourier de ff.

En utilisant le formule pour les a ka_k et b kb_ks ci-dessus, on obtient la formule suivante.

Définition 7   Soit ff une fonction réelle ou complexe continue par morceaux et définie sur [L,L][-L, L]. Les coefficients de Fourier exponentiels de ff sont les nombres c k(f)c_k(f) définis par c k(f)=12L L Le (ikωx)f(x)dxc_k(f)= \frac{1}{2L} \int_{-L}^L e^{-(ik \omega x)}f(x) dx

Nous avons donc que l’approximant de Fourier trigonométrique est S n (f)=a 0(f)+ k=1 na k(f)cos(kωx)+b k(f)sin(kωx). S^{\mathbb{R}}_n(f)= a_0(f)+ \sum_{k=1}^n a_k(f) \cos(k \omega x) + b_k(f) \sin(k \omega x). et que l’approximant exponentiel est S n (f)= k=n nc k(f)e ikωx. S^{\mathbb{C}}_n(f)= \sum_{k=-n}^n c_k(f) e^{ik \omega x}. On a envie de regrouper tous ces termes dans une somme infinie, i.e. une série, même s’il n’est pas encore très clair qu’on peut donner un sens à cette somme formelle.

Définition 8   Soit ff une fonction continue par morceaux sur une intervalle [L,L][-L,L] et ω=πL\omega=\frac{\pi}{L}. La série de Fourier trigonométrique de ff est alors la somme infinie S (f)=a 0(f)+ k=1 a k(f)cos(kωx)+b k(f)sin(kωx).S^{\mathbb{R}}(f)=a_0(f)+\sum_{k=1}^{\infty}a_k(f)\cos({ k\omega x})+b_k(f)\sin({ k\omega x}). La série de Fourier exponentielle de ff est la somme infinie S (f)= k= c k(f)e ikωx.S^{\mathbb{C}}(f)=\sum_{k=-\infty}^{\infty}c_k(f)e^{i k \omega x}.

Exemples

  1. On considère la fonction f(x)=xf(x)=x sur l’intervalle [π,π][-\pi, \pi]

    Nous avons alors L=π,ω=1L=\pi, \omega=1 et a 0(f)=12π π πxdx=0. a_0(f)= \frac{1}{2\pi}\int_{-\pi}^\pi x dx=0. Ensuite, pour tout k>0k&gt;0, en intégrant par parties, on voit que a k(f) = 1π π πxcos(kx)dx = 1π[xksin(kx)] π π1kπ π πsin(kx)dx = 1kπ π πsin(kx)dx=0. \begin{matrix} a_k(f)&=&\frac{1}{\pi}\int_{-\pi}^\pi x \cos{(kx)} dx\\ &=& \frac{1}{\pi} \left[ \frac{x}{k} \sin (kx)\right]_{-\pi}^\pi -\frac{1}{k\pi}\int _{-\pi}^\pi \sin(kx)dx \\ &=& -\frac{1}{k\pi}\int _{-\pi}^\pi \sin(kx)dx=0. \end{matrix} On pouvait d’ailleurs éviter le calcul en appliquant un argument de symétrie (voir plus bas).

    De même, l’intégration par parties montre que b k(f) = 1π π πxsin(kx)dx = [xkπcos(kx)] π π+1kπ π πcos(kx)dx = 2(1) kk+1kπ π πcos(kx)dx=2(1) k+1k. \begin{matrix} b_k(f)&=&\frac{1}{\pi}\int_{-\pi}^\pi x \sin{(kx)} dx\\ &=& \left[ -\frac{x}{k\pi} \cos (kx)\right]_{-\pi}^\pi +\frac{1}{k\pi}\int _{-\pi}^\pi \cos(kx)dx \\ &=& -\frac{2(-1)^k}{k}+\frac{1}{k\pi}\int _{-\pi}^\pi \cos(kx)dx= \frac{2(-1)^{k+1}}{k}. \end{matrix}

    La série de Fourier trigonométrique de ff est donc la somme infinie S (f)= k=1 2(1) k+1ksin(kx).S^{\mathbb{R}}(f)=\sum_{k=1}^\infty \frac{2(-1)^{k+1}}{k} \sin(kx). (Attention, ce n’est pas une série absolument convergente, par exemple en x=π/2x=\pi/2).

    Représentation graphique de ff et de la somme partielle jusqu’à un l’ordre 5 de sa série de Fourier (vous pouvez modifier 5 en un autre ordre et tester dans la version HTML de ce document)

    Calculons maintenant la série de Fourier exponentielle de ff. L’intégration par parties nous donne que c k(f)=12π π πe ikxxdx=12π[xike ikx] π π+ π π12ikπe ikxdx c_k(f)= \frac{1}{2\pi}\int_{-\pi}^\pi e^{-ik x} x dx= \frac{1}{2\pi} \left[ \frac{x}{-ik} e^{-ikx}\right]_{-\pi}^\pi+\int_{-\pi}^\pi \frac{1}{2ik\pi}e^{-ikx}dx =(1) k2ik=i(1) k2k.= \frac{(-1)^k}{-2ik}= \frac{i (-1)^k}{2k}. Vérification

    La série des Fourier exponentielle de ff est alors la somme infinie S (f)= k= i(1) k2ke ikx.S^{\mathbb{C}}(f)=\sum_{k=-\infty}^{\infty} \frac{i (-1)^k}{2k} {e^{ikx}}.

  2. On considère la fonction ff définie sur [π,π][-\pi, \pi] telle que f(x)=1f(x)=1 pour x0x\geq 0 et f(x)=0f(x)=0 pour x<0x&lt;0.
    On a que a 0(f)=12π π πf(x)dx=12. a_0(f)= \frac{1}{2\pi}\int_{-\pi}^\pi f(x) dx=\frac{1}{2}. Par ailleurs, pour tout k>0k&gt;0, a k(f)=1π π πcos(kx)f(x)dx=1π 0 πcos(kx)dxa_k(f)= \frac{1}{\pi}\int_{-\pi}^\pi \cos(kx) f(x)dx= \frac{1}{\pi}\int_0^\pi \cos(kx)dx =1kπ[sin(kx)] 0 π=0= \frac{1}{k\pi}[ \sin(kx)]_0^{\pi}=0 et b k(f)=1π π πsin(kx)f(x)dx=1π 0 πsin(kx)dx b_k(f)= \frac{1}{\pi}\int_{-\pi}^\pi \sin(kx) f(x)dx= \frac{1}{\pi}\int_0^\pi \sin(kx)dx =1kπ[cos(kx)] 0 π=1(1) kkπ.= \frac{1}{k\pi}[ -\cos(kx)]_0^{\pi}=\frac{1-(-1)^k}{k\pi}. Vérification

    On note que (1(1) k)=2(1-(-1)^k)= 2 si kk est impair et 00 si kk est pair. En écrivant tout kk impair dans la forme k=2l+1k=2l+1, on obtient que la séries de Fourier trigonométrique de ff est S (f)=12+ l=0 +2(2l+1)πsin((2l+1)x). S^{\mathbb{R}}(f)=\frac{1}{2}+ \sum_{l=0}^{+\infty} \frac{2}{(2l+1)\pi} \sin( (2l+1) x). Représentation graphique :

    Calculons maintenant la série de Fourier exponentielle de ff. Pour k0k\neq 0 on a que c k(f)=12π π πe (ikx)f(x)dx=12π 0 πe (ikx)dx c_k(f)= \frac{1}{2\pi} \int_{-\pi}^\pi e^{(-ikx)} f(x)dx = \frac{1}{2\pi}\int_0^\pi e^{(-ikx)} dx =12ikπ[e (ikx)] 0 π=1+(1) k2ikπ.= \frac{1}{-2ik\pi}[ e^{-(ikx)}]_0^{\pi}=\frac{-1+(-1)^k}{-2ik\pi}. Vérification

    Comme nous avons déjà calculé que c 0=a 0=12c_0=a_0=\frac{1}{2}, la série de Fourier exponentielle de ff est alors S (f)=12+ l= i(2l+1)πe i(2l+1)x. S^{\mathbb{C}}(f)=\frac{1}{2} + \sum_{l=-\infty}^\infty \frac{-i}{(2l+1)\pi} e^{i(2l+1) x}.

6.2  Séries en sin et cos.

La séries de Fourier est une séries qui mélange des termes de sin et en cos. Nous montrerons dans cette section comment modifier cette construction pour obtenir des séries en sin ou en cos approchant une fonction ff donnée. Notre point de départ sera la proposition suivante :

Proposition 1   Soit f:[L,L]f: [-L, L]\rightarrow \mathbb{R} une fonction réelle. Alors
  1. si ff est paire alors b k(f)=0b_k(f)=0 pour tout kk.
  2. si ff est impaire alors a k(f)=0a_k(f)=0 pour tout kk.

Preuve : On note que pour toute fonction gg, impaire sur [L,L][-L, L], nous avons que L Lg(x)dx=0.\int_{-L}^L g(x)dx=0. Par ailleurs,

  1. Le produit d’une fonction impaire et une fonction paire est lui-même une fonction impaire.
  2. Pour tout k>0k&gt;0 la fonction cos(kx)\cos(kx) est une fonction paire et la fonction sin(kx)\sin(kx) est une fonction impaire.

Si la fonction f:[L,L]f:[-L, L]\rightarrow \mathbb{R} est une fonction paire alors pour tout kk la fonction f(x)sin(kπx)f(x) \sin({k \pi x}) est une fonction impaire et donc b k(f)=1L L Lf(x)sin(kωx)dx=0 b_k(f)=\frac{1}{L}\int_{-L}^L f(x)\sin(k \omega x) dx=0 Par contre, si la fonction f:[L,L]f:[-L, L]\rightarrow \mathbb{R} est une fonction impaire alors pour tout kk la fonction f(x)cos(kωx)f(x) \cos(k \omega x) est une fonction impaire et donc a k(f)=1L L Lf(x)sin(kωx)dx=0 a_k(f)=\frac{1}{L}\int_{-L}^L f(x)\sin(k \omega x) dx=0 Ceci termine la démonstration de la proposition. Avec cette proposition, nous pourrons construire des sommes de cos (resp. de sin) approchant une fonction donnée. Notre méthode sera la suivante :

  1. Etant donnée une fonction f:[0,L]f:[0,L]\rightarrow \mathbb{R}, on construit une extension gg sur [L,L][-L, L] qui est paire (si on veut construire une séries en cos) ou impaire (si on veut construire une série en sin.)
  2. Nous construisons alors la séries de Fourier de cette nouvelle fonction gg.
  3. Puisque gg est paire (resp. impaire) sa séries de Fourier ne contient que des termes en cos (resp. en sin.) C’est cette série de Fourier qui sera la série en cos (resp. en sin) de ff.
Définition 2   Soit f:[0,L]f: [0,L]\rightarrow \mathbb{R} une fonction continue par morceaux. On définit sur [L,L][-L,L] les extensions impaire et paire de ff par f paire(x) = {f(x) si x0, f(x) si x<0. f impaire(x) = {f(x) si x>0, f(x) si x<0, 0 si x=0. \begin{matrix} f_{\mbox{paire}}(x)&=& \left\{\begin{array}{l} f(x)\ \mbox{ si }\ x\geq 0,\\ f(-x)\ \mbox{ si }\ x&lt;0. \end{array}\right. \\ f_{\mbox{impaire}}(x)&=& \left\{\begin{array}{l} f(x)\ \mbox{ si }\ x&gt; 0, \\ -f(-x)\ \mbox{ si }\ x&lt;0,\\ 0 \ \mbox{ si }\ x=0. \end{array}\right. \end{matrix}

Notons que f pairef_{\mbox{paire}} est paire et f impairef_{\mbox{impaire}} est impaire par construction. il résulte de la proposition 1 que

Nous pouvons maintenant définir les séries en sin et cos de notre fonction ff.

Définition 3   Soit f:[0,L]f:[0,L]\rightarrow \mathbb{R} une fonction continue par morceaux. La série en sin de ff est la série trigonométrique S sin(f)=S (f impaire)= k=1 b k(f impaire)sin(kωx).S^{\mbox{sin}}(f)=S^{\mathbb{R}}(f_{\mbox{impaire}})=\sum_{k=1}^{\infty} b_k(f_{\mbox{impaire}}) \sin(k \omega x). La série en cos de ff est la série trigonométrique S cos(f)=S (f paire)=a 0(f paire)+ k=1 a k(f paire)cos(kωx).S^{\mbox{cos}} (f)= S^{\mathbb{R}}(f_{\mbox{paire}})= a_0(f_{\mbox{paire}})+\sum_{k=1}^\infty a_k(f_{\mbox{paire}}) \cos(k \omega x).

Remarque
Notons que par parité b k(f impaire)=1L L Lf impaire(x)sin(kωx)dx=2L 0 Lf(x)sin(kωx)dx. b_k(f_{\mbox{impaire}})= \frac{1}{L}\int_{-L}^L f_{\mbox{impaire}} (x)\sin (k \omega x)dx=\frac{2}{L} \int_{0}^L f(x) \sin (k \omega x)dx. De même a k(f paire)=1L L Lf paire(x)cos(kωx)dx=2L 0 Lf(x)cos(kωx)dx.a_k(f_{\mbox{paire}})= \frac{1}{L}\int_{-L}^L f_{\mbox{paire}} (x)\cos (k \omega x)dx=\frac{2}{L} \int_{0}^L f(x) \cos (k \omega x)dx. et a 0(f)=1L 0 Lf(x)dx. a_0(f)=\frac{1}{L} \int_0^L f(x) dx.

Exemple
On considère la fonction f(x)=e xf(x)=e^{x} sur l’intervalle [0,π][0,\pi]. Nous cherchons à calculer sa série en sin. Nous avons que S sin(f)= k=1 b ksin(kx) S^{\mbox{sin}}(f)= \sum_{k=1}^\infty b_k \sin (kx) avec b k=2π 0 πe xsin(kx)dx=b_k=\frac{2}{\pi} \int_0^\pi e^x \sin(kx) dx= =2π 0 πe xe ikxe ikx2idx= =\frac{2}{\pi} \int_0^\pi e^x \frac{e^{ikx}-e^{-ikx}}{2i} dx= =1iπ 0 πe x(1+ik)e x(1ik)dx= \frac{ 1}{i\pi}\int_0^\pi e^{x(1+ik)}- e^{x(1-ik)}dx =1iπ[e x(1+ik)1+ike x(1ik)1ik] 0 π =\frac{ 1}{i\pi}\left[\frac{ e^{x(1+ik)}}{1+ik} -\frac{ e^{x(1-ik)}}{1-ik} \right]_0^\pi =1iπ[(1ik)e x(1+ik)(1+ik)e x(1ik)1+k 2] 0 π = \frac{ 1}{i\pi}\left[\frac{ (1-ik)e^{x(1+ik)}-(1+ik)e^{x(1-ik)}}{1+k^2} \right]_0^\pi =1iπ[e x(2ikcos(kx)+2isin(kx))1+k 2] 0 π= \frac{ 1}{i\pi}\left[\frac{e^x(-2ik \cos(kx) +2i \sin(kx))}{1+k^2} \right]_0^\pi =2k(1(1) ke π)(1+k 2)π.= \frac{2k(1-(-1)^ke^\pi)}{(1+k^2)\pi}. Vérification

La série en sin de ff est donc S sin(f)= k>02k(1(1) ke π)(1+k 2)πsin(kx).S^{\mbox{sin}}(f)= \sum_{k&gt;0} \frac{2k(1-(-1)^ke^\pi)}{(1+k^2)\pi} \sin(kx). Représentation graphique de ff et des sommes partielles d’ordre 5 10 et 20.

f(x):=exp(x);
assume(k,integer):;
b:=unapply(2/pi*int(f(x)*sin(k*x),x,0,pi),k);
S(n):=sum(b(k)*sin(k*x),k,1,n);
plot([f(x),S(5),S(10),S(20)],x=0..pi,color=[line_width_2,red,blue,green])

onload

6.3  Convergence des séries de Fourier.

Nous avons donc créé, pour chaque fonction ff continue par morceaux définie sur une intervalle [L,L][-L, L], une suite de fonctions S n (f)S^{\mathbb{R}}_n(f). Chaque élément dans cette suite de fonctions est “plus proche” de la fonction ff que celle qui la prècede. Mais pour nous être utile, il faudrait s’assurer que, quitte à prendre nn très grand, la fonction S n (f)S^{\mathbb{R}}_n(f) est aussi proche que l’on veut de la fonction ff. Cette question sera le sujet de ce paragraphe.

Le théorème suivant, dont la démonstration depasse le cadre de ce cours, nous assure que si la fonction ff est continument dérivable alors en tout point xx la série de Fourier converge vers ff, plus précisément :

Théorème 1 (Dirichlet)   Soit f:[L,L]f:[-L, L]\to\mathbb{C} une fonction C 1C^1 par morceaux. Alors pour tout point x]L,L[x\in ]-L, L[ff est continue, on a : lim nS n (f)(x)f(x) \lim_{n\rightarrow \infty} S^{\mathbb{R}}_n(f)(x)\rightarrow f(x) Pour les valeurs de x]L,L[x\in ]-L, L[ff effectue un saut, on a convergence de la série vers la moyenne des limites à droite et à gauche : lim nS n (f)(x)=12(lim yx +f(y)+lim yx f(y)). \lim_{n\rightarrow \infty} S^{\mathbb{R}}_n(f)(x)= \frac{1}{2}(\lim_{y\rightarrow x^+} f(y)+\lim_{y\rightarrow x^-}f(y)). Ce résultat s’étend aux extrémités : lim nS n (f)(L)=lim nS n (f)(L)=lim xL f(x)+lim xL +f(x)2.\lim_{n\rightarrow \infty}S_n^{\mathbb{R}}(f)(-L)=\lim_{n\rightarrow \infty}S_n^{\mathbb{R}}(f)(L)= \frac{\lim_{x\rightarrow L^-}f(x)+\lim_{x\rightarrow -L^+}f(x)}{2}. En particulier, si ff est continue et C 1C^1 par morceaux, S n (f)S^{\mathbb{R}}_n(f) converge vers ff sur ]L,L[]-L, L[.

Ce résultat est faux si la fonction ff n’est pas supposée dérivable.

Idée de la preuve : on se place pour simplifier en un point xxff est continue. On peut supposer que f(x)=0f(x)=0 en observant que la série de Fourier d’une fonction constante cc est a 0=c,a k=b k=0a_0=c, a_k=b_k=0. Il s’agit donc de montrer que lim na 0+ k=1 na k(f)cos(kωx)+b k(f)sin(kωx)=0\lim_{n\rightarrow \infty} a_0+\sum_{k=1}^n a_k(f) \cos(k\omega x)+b_k(f)\sin(k\omega x)= 0 ou encore avec les coefficients de Fourier exponentiels ; lim n k=n nc k(f)e ikωx=0\lim_{n\rightarrow \infty} \sum_{k=-n}^n c_k(f) e^{ik\omega x}= 0 ou en remplaçant les c kc_k par leur valeur lim n k=n n( L Lf(t)e ikωtdt)e ikωx=0\lim_{n\rightarrow \infty} \sum_{k=-n}^n \left(\int_{-L}^L f(t)e^{-ik\omega t} \ dt\right) e^{ik\omega x}= 0 on peut rentrer e ikωxe^{ik\omega x} dans l’intégrale en tt, on cherche donc la limite lorsque nn tend vers l’infini de k=n n L Lf(t)e ikωte ikωxdt= L Lf(t) k=n ne ikω(xt)dt\sum_{k=-n}^n \int_{-L}^L f(t)e^{-ik\omega t} e^{ik\omega x} \ dt = \int_{-L}^L f(t) \sum_{k=-n}^n e^{ik\omega (x-t)} \ dt Dans l’intervalle ]L,L[]-L,L[, si xtx \neq t alors ρ=e iω(xt)1\rho=e^{i \omega (x-t)} \neq 1 donc la \sum dans l’intégrale est la somme d’une série géométrique de raison différente de 1, elle vaut k=n ne ikω(xt) = k=n nρ k = ρ nρ 2n+11ρ1 = ρ n+1/2ρ n1/2ρ 1/2ρ 1/2 = e i(n+1/2)ω(xt)e i(n+1/2)ω(xt)e i(1/2)ω(xt)e i(1/2)ω(xt) = 2isin((n+1/2)ω(xt))2isin(1/2ω(xt)) = sin((n+1/2)ω(xt))sin(1/2ω(xt)) \begin{matrix} \sum_{k=-n}^n e^{ik\omega (x-t)} &= &\sum_{k=-n}^n \rho^k \\ &=&\rho^{-n} \frac{\rho^{2n+1}-1}{\rho -1} \\ &=& \frac{\rho^{n+1/2}-\rho^{-n-1/2}}{\rho^{1/2}-\rho^{-1/2}} \\ &=& \frac{e^{i(n+1/2)\omega(x-t)}-e^{-i(n+1/2)\omega(x-t)}}{e^{i(1/2)\omega(x-t)}-e^{-i(1/2)\omega(x-t)}}\\ &=& \frac{2i\sin((n+1/2)\omega(x-t))}{2i\sin(1/2\omega(x-t))} \\ &=& \frac{\sin((n+1/2)\omega(x-t))}{\sin(1/2\omega(x-t))} \end{matrix} On observe que cette somme vaut 2n+12n+1 lorsque x=tx=t qui est la limite de l’expression ci-dessus lorsque xx tend vers tt. On est donc amené à montrer que lorsque nn \rightarrow \infty la limite ci-dessous est nulle : lim n L Lf(t)sin((n+12)ω(xt))sin(12ω(xt))dt=0\lim_{n\rightarrow \infty} \int_{-L}^L f(t) \frac{\sin((n+\frac{1}{2})\omega(x-t))}{\sin(\frac{1}{2}\omega(x-t))} \ dt =0 Et ceci vient d’une mise en forme rigoureuse des observations suivantes:

Il y a une autre forme de convergence qui nous sera utile, qui dit que la distance de S n (f)S^{\mathbb{R}}_n(f) à ff tend vers 0

Théorème 2 (Théorème de Parseval.)   Soit ff une fonction réelle continue par morceaux sur une intervalle [L,L][-L,L]. Soit d nd_n la distance de ff à la somme partielle d’ordre nn de sa série de Fourier : d n=d(f,S n (f))= L L(fS n (f)) 2dx d_n= d(f, S^{\mathbb{R}}_n(f))=\sqrt{\int_{-L}^L (f-S^{\mathbb{R}}_n(f))^2dx} entre ff et S n (f)S_n^{\mathbb{R}}(f). Alors d n0d_n\rightarrow 0 quand nn\rightarrow \infty.

À nouveau, la démonstration de ce théorème depasse le cadre de ce cours : on montre que le résultat est vrai lorsque ff est assez régulière en appliquant Dirichlet puis on fait un raisonnement “par densité”, en approchant pour le produit scalaire une fonction continue par morceaux par une fonction régulière.

En appliquant le fait que la somme partielle de la série de Fourier est une projection orthogonale de ff pour la norme g 2= L Lg(t) 2dt\| g\|^2=\int_{-L}^L g(t)^2 \ dt et en appliquant l’inégalité triangulaire, on a 0fS n (f)d nS n (f)f 0 \leq \| f\| -\| S^{\mathbb{R}}_n(f)\|\leq d_n \quad \Rightarrow \quad \| S^{\mathbb{R}}_n(f)\| \rightarrow \| f\| Comme S n (f)S^{\mathbb{R}}_n(f) s’exprime en fonction de (1,cos(ωx),sin(ωx),...)(1,\cos(\omega x),\sin(\omega x),...) qui sont orthogonales pour le produit scalaire, on peut appliquer le théorème de Pythagore à S n (f)=a 0+a 1cos(ωx)+...+a ncos(nωx)+b 1sin(ωx)+...+b nsin(nωx)S^{\mathbb{R}}_n(f)=a_0+a_1 \cos(\omega x)+...+a_n\cos(n\omega x) +b_1\sin(\omega x)+...+b_n\sin(n\omega x) et on obtient S n (f) 2=a 0 21 2+a 1 2cos(ωx) 2+...+a n 2cos(nωx) 2+b 1 2sin(ωx) 2+...+b n 2sin(nωx) 2\| S^{\mathbb{R}}_n(f) \|^2 = a_0^2 \|1\|^2+a_1^2 \|\cos(\omega x)\|^2 +...+a_n^2 \| \cos(n\omega x)\|^2 +b_1^2 \|\sin(\omega x)\|^2 +...+b_n^2 \| \sin(n\omega x)\|^2 En appliquant la définition de la norme au carré f 2= L Lf 2(x)dx\| f\|^2=\int_{-L}^L f^2(x) \ dx et en observant que cosinus et sinus au carré ont une moyenne de 1/2 sur une période, on en déduit :

Corollaire 3 (Egalité de Parseval)   Soit ff une fonction réelle continue par morceaux sur une intervalle [L,L][-L,L]. Alors lim nS n (f)=lim n(2La 0 2+ k=1 nL(a k 2+b k 2))= L Lf(x) 2dx. \lim_{n\rightarrow \infty} \| S_n^{\mathbb{R}}(f)\|= \lim_{n\rightarrow \infty} (2L a_0^2+\sum_{k=1}^n L( a_k^2+b_k^2))= \int_{-L}^L f(x)^2 dx. Autrement dit, 2La 0 2+ k1L(a k 2+b k 2)= L Lf(x) 2dx. 2L a_0^2+\sum_{k\geq 1} L( a_k^2+b_k^2)= \int_{-L}^L f(x)^2 dx.

Exemple
Considérons f(x)=xf(x)= x sur [π,π][-\pi, \pi]. On a vu que pour cette fonction a k=0a_k=0 pour tout kk et b k=2(1) kkb_k= \frac{2 (-1)^k}{k}. Par ailleurs π πx 2dx=2π 33.\int_{-\pi}^\pi x^2 dx= \frac{2 \pi^3}{3}. Il en suit que π k=1 4k 2=2π 33 \pi \sum_{k= 1}^\infty \frac{4}{k^2}= \frac{2 \pi^3}{3} et donc k=1 1k 2=π 26. \sum_{k= 1}^\infty \frac{1}{k^2}= \frac{\pi^2}{6}.

Corollaire 4   Soient f,g:f,g:\mathbb{R}\to\mathbb{C} deux fonctions réelles continues par morceaux et définies sur [L,L][-L, L]. Si a n(f)=a n(g)a_n(f)=a_n(g) et b n(f)=b n(g)b_n(f)= b_n(g) pour tout nn alors pour tout point xxff et gg sont toutes les deux continues f(x)=g(x)f(x)=g(x).

Preuve : L’égalité de Parseval implique que si a n(f)=a n(g)a_n(f)=a_n(g) et b n(f)=b n(g)b_n(f)= b_n(g) pour tout nn alors L L|f(x)g(x)| 2dx=0.\int_{-L}^L\vert f(x)-g(x)\vert^2 \mbox{d}x=0. Ceci n’est possible que si f(x)=g(x)f(x)=g(x) en tout point xxff et gg sont continues.

6.4  Solutions d’équations aux dérivées partielles.

Dans cette section, nous serons amenés à faire quelques manipulations dont nous ne pourrons pas donner une justification complète.

6.4.1  L’équation de la chaleur.

On rappelle qu’il s’agit de déterminer l’évolution au cours du temps de la température T(x,t)T(x,t) d’une barre de longueur LL (x[0,L]x\in[0,L]), isolée à ses deux extrémités. On cherche donc une fonction C C^\infty T:(x,t)[0,L]× +T(x,t)T: (x,t) \in [0,L]\times \mathbb{R}^+\rightarrow T(x,t) \in \mathbb{R} telle que Tt=D 2Tx 2,x[0,L],t>0\frac{\partial T}{\partial t}=D\frac{\partial^2 T}{\partial x^2},x\in [0,L],t&gt;0 avec les conditions aux bords en tout temps Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)= \frac{\partial T}{\partial x}(L,t)=0 et la condition initiale à l’instant t=0t=0, T(x,0)=φ(x) pour tout x[0,L]T(x,0)=\varphi(x)\ \mbox{ pour tout }\ x\in [0,L] Remarquons que puisque nous cherchons une solution TT qui est C C^\infty, la condition initiale φ\varphi doit aussi être C C^\infty sur [0,L][0,L].

On va simplifier le problème en cherchant la série de Fourier de TT, ce qui transformera les dérivées en xx par des multiplications par kωk\omega. Plus précisément on remplace φ(.)\varphi(.) et T(.,t)T(.,t) par leur série en cos sur [0,L][0,L], ce qui permettra de satisfaire à la condition d’isolation au bord puisque la dérivée du cos est un sin qui s’annule aux bords. Posons donc : T(x,t)= k0a k(t)cos(kωx),ω=πLT(x,t)= \sum_{k\geq 0} a_k(t) \cos(k\omega x), \quad \omega=\frac{\pi}{L} On remplace dans l’équation aux dérivées partielles t( k0a k(t)cos(kωx))=D 2x 2( k0a k(t)cos(kωx))\frac{\partial }{\partial t}\left(\sum_{k\geq 0} a_k(t) \cos(k\omega x)\right) = D \frac{\partial^2 }{\partial x^2} \left(\sum_{k\geq 0} a_k(t) \cos(k\omega x)\right) On admet qu’on peut intervertir la dérivation partielle avec la somme, on obtient donc ( k0t(a k(t))cos(kωx))=D( k0a k(t) 2x 2cos(kωx))\left(\sum_{k\geq 0} \frac{\partial }{\partial t} (a_k(t)) \cos(k\omega x)\right) = D \left(\sum_{k\geq 0} a_k(t) \frac{\partial^2 }{\partial x^2} \cos(k\omega x)\right) soit ( k0a k(t)cos(kωx))=D( k0a k(t)(k 2ω 2)cos(kωx))\left(\sum_{k\geq 0} a_k'(t) \cos(k\omega x)\right) = D \left(\sum_{k\geq 0} a_k(t) (-k^2\omega^2) \cos(k\omega x)\right) Deux fonctions régulières ayant le même développement en séries de Fourier sont égales, donc a k(t)=Dk 2ω 2a k(t)a_k'(t)=-Dk^2\omega^2 a_k(t) équation différentielle ordinaire dont la solution est a k(t)=e Dk 2ω 2ta k(0)a_k(t) =e^{-Dk^2\omega^2 t} a_k(0)

À l’instant t=0t=0, on a φ(x)=T(x,0)= k0a k(0)cos(kωx)\varphi(x)=T(x,0)=\sum_{k\geq 0} a_k(0) \cos(k\omega x) donc les a k(0)a_k(0) sont les coefficients de la série en cos de la condition initiale. D’où le :

Théorème 1   L’équation de la chaleur Tt=D 2Tx 2,x[0,L],t0\frac{\partial T}{\partial t}=D\frac{\partial^2 T}{\partial x^2}, \quad x\in [0,L],t\geq 0 admet une unique solution C C^\infty vérifiant les conditions aux bords Tx(0,t)=Tx(L,t)=0\frac{\partial T}{\partial x}(0,t)=\frac{\partial T}{\partial x}(L,t)=0 et la condition initiale à l’instant t=0t=0 T(x,0)=φ(x)x[0,L]T(x,0)=\varphi(x)\ \quad x\in [0,L] φ\varphi est une fonction C C^\infty sur [0,L][0,L] telle que φ(0)=φ(L)=0\varphi'(0)=\varphi'(L)=0.

Si les a ka_k sont les coefficients de la série en cos de φ\varphi, on a : T(x,t)=a 0+ k=1 a kcos(kωx)e k 2ω 2DtT(x,t)=a_0+\sum_{k= 1}^{\infty}a_k\cos\left(k\omega x\right)e^{-k^2 \omega^2 D t} avec ω=πL,a 0=1L 0 Lφ(x)dx,a k=2L 0 Lφ(x)cos(kωx)dx(k>0)\omega=\frac{\pi}{L}, \quad a_0= \frac{1}{L}\int_0^L \varphi(x) \, dx, \quad a_k=\frac{2}{L}\int_0^L\varphi(x)\cos\left(k\omega x\right) \, dx \ (k&gt;0)

Remarque : La démonstration que la fonction TT est bien définie et C C^\infty depasse le cadre de ce cours. La régularité d’une fonction périodique peut se lire sur la décroissance de ses coefficients de Fourier a ka_k et b kb_k lorsque kk tend vers l’infini. Si ff est régulière, on peut intégrer par parties dans le calcul de a ka_k et b kb_k et faire apparaitre autant de puissances de kk négatives que l’on veut, a ka_k et b kb_k tendent vers 0 plus vite que n’importe quelle puissance négative de kk. Réciproquement, les puissances de kk qui apparaissent quand on dérive sous le signe somme ne gèneront pas la convergence de la série. On peut d’ailleurs observer qu’il suffit de prendre la condition initiale C 2C^2 en xx pour obtenir une solution C C^\infty en tout instant non nul grâce à l’exponentielle qui décroit plus vite que toute puissance négative de kk (l’équation de la chaleur régularise la solution pour t>0t&gt;0).

6.4.2  L’équation des ondes.

On rappelle que l’on cherche une fonction T:[0,L]× +T: [0,L]\times \mathbb{R}^+\rightarrow \mathbb{R} telle que 2Tt 2=D 2Tx 2,x[0,L],t>0\frac{\partial^2 T}{\partial t^2}=D\frac{\partial^2 T}{\partial x^2},x\in [0,L],t&gt;0 avec les conditions aux bords T(0,t)=T(L,t)=0T(0,t)= T(L,t)=0 et les conditions initiales, T(x,0)=φ(x) pour tout x[0,L],t=0.T(x,0)=\varphi(x)\ \mbox{ pour tout }\ x\in [0,L],t=0. Tt(x,0)=0 pour tout x[0,L],t=0.\frac{\partial T}{\partial t}(x,0)=0\ \mbox{ pour tout }\ x\in [0,L],t=0.

Remarquons que puisque la solution TT est C C^\infty , la condition initiale φ\varphi doit aussi être C C^\infty sur [0,L][0,L].

Nous allons montrer le théorème suivant:

Théorème 2   Soit φ:[0,L]\varphi:[0,L]\to\mathbb{R} une fonction C C^\infty sur [0,L][0,L] telle que φ(0)=φ(L)=0\varphi(0)=\varphi(L)=0. Alors l’équation des ondes T 2t 2=D 2Tx 2,x[0,L],t00\frac{\partial T^2}{\partial t^2}=D\frac{\partial^2 T}{\partial x^2},x\in [0,L],t\geq 00 admet une unique solution C C^\infty T:[0,L]× +T:[0,L]\times \mathbb{R}^+ \to \mathbb{R} vérifiant les conditions aux bords T(0,t)=T(L,t)=0T(0,t)=T(L,t)=0 et les conditions initiales, T(x,0)=φ(x) pour tout x[0,L],t=0.T(x,0)=\varphi(x)\ \mbox{ pour tout }\ x\in [0,L],t=0. Tt(x,0)=0 pour tout x[0,L],t=0.\frac{\partial T}{\partial t}(x,0)=0\ \mbox{ pour tout }\ x\in [0,L],t=0. Cette solution est donnée par la formule T(x,t)= k=1 b ksin(kωx)cos(kDωt),T(x,t)=\sum_{k=1}^{\infty}b_k\sin\left(k\omega x\right)\cos\left(k\sqrt{D}\omega t\right), où pour tout k>0k&gt;0 on a que b k=2L 0 Lφ(x)sin(kωx)dx. b_k=\frac{2}{L}\int_0^L\varphi(x)\sin\left(k\omega x\right) \,\mbox{d}x.

Puisque φ\varphi est C 1C^1, et φ(0)=φ(L)=0\varphi(0)=\varphi(L)=0, son extension impaire, φ impaire\varphi_{\mbox{impaire}} est C 1C^1. Par le théorème de Dirichelet il suit que sur [L,L][-L, L] nous avons que φ impaire(x)= k=1 b k(φ impaire)sin(kωx). \varphi_{\mbox{impaire}} (x) = \sum_{k=1}^{\infty} b_k(\varphi_{\mbox{impaire}}) \sin(k \omega x). et en particulier pour tout x[0,L]x\in [0,L] φ(x)= k=1 b ksin(kωx). \varphi(x) = \sum_{k=1}^{\infty} b_k \sin(k \omega x). b k=2L 0 Lφ(x)sin(kωx)dxb_k=\frac{2}{L}\int_0^L\varphi(x)\sin(k\omega x) \,\mbox{d}x.

Autrement dit, le théorème de Dirichelet nous dit dans ce cas que φ\varphi est égale à la somme (infinie) de sa série en sin.

Par analogie avec le cas ou φ\varphi est donnée par une somme finie de sinus, nous allons poser T(x,t)= k1b ksin(kωx)cos(kωDt),T(x,t)=\sum_{k\geq 1}b_k\sin\left(k\omega x\right)\cos\left(k \omega \sqrt{D}t\right), et vérifier que TT est solution de l’équation des ondes. Pour tout x[0,L]x\in[0,L], on a T(x,0)= k1b ksin(kωx)=φ(x)T(x,0)=\sum_{k\geq 1}b_k \sin(k\omega x)=\varphi(x) et la première condition initiale est donc vérifiée. De plus, T(0,t)=T(L,T)=0T(0,t)=T(L,T)=0 d’après les propriétés du sinus : les conditions aux bords sont donc vérifiées.

Posons u k(x,t)=b ksin(kωx)cos(kωDt),u_k(x,t)=b_k\sin(k\omega x)\cos(k \omega \sqrt{D}t), de telle façon que T(x,t)= ku k(x,t)T(x,t)=\sum_k u_k(x,t). Comme pour l’équation de la chaleur1, on admettra qu’on peut intervertir la dérivation et le signe \sum, i.e. en posant T(x,t)= ku k(x,t) T(x,t)=\sum_{k} u_k(x,t) on a bien que Tx= k=1 u kx \frac{\partial T}{\partial x} = \sum_{k=1}^{\infty}\frac{\partial u_k}{\partial x} et Tt= k=1 u kt \frac{\partial T}{\partial t} = \sum_{k=1}^{\infty}\frac{\partial u_k}{\partial t} Vérifions maintenant la deuxième condition initiale. Puisque pour tout kk, u kt(x,0)=0\frac{\partial u_k}{\partial t}(x,0)=0, il suit que Tt(x,0)=0 \frac{\partial T}{\partial t} (x,0)=0 pour tout x[0,L]x\in [0,L].

Il reste à vérifier que TT satisfait l’équation 2Tt 2=D 2Tx 2\frac{\partial^2 T}{\partial t^2} = D\frac{\partial^2 T}{\partial x^2}. On a que 2Tt 2= k1b k 2t 2(sin(kωx)cos(kωDt)) \frac{\partial^2 T}{\partial t^2} = \sum_{k\geq 1}b_k\frac{\partial^2 }{\partial t^2}\left(\sin(k\omega x)\cos(k \omega \sqrt{D}t)\right) = k1Dω 2k 2b k(sin(kωx)cos(kωDt)).= \sum_{k\geq 1}-D \omega^2 k^2 b_k\left(\sin(k\omega x)\cos(k \omega \sqrt{D}t)\right). Mais on a aussi 2Tx 2= k1b k 2x 2(sin(kωx)cos(ωkDt) \frac{\partial^2 T}{\partial x^2} = \sum_{k\geq 1}b_k\frac{\partial^2 }{\partial x^2}\left(\sin(k\omega x)\cos(\omega k\sqrt{D} t\right) = k1ω 2k 2b k(sin(kωx)cos(kωDt)).= \sum_{k\geq 1} -\omega^2 k^2 b_k\left(\sin(k\omega x)\cos(k \omega \sqrt{D}t)\right). On a donc bien 2Tt 2=D 2Tx 2 \frac{\partial^2 T}{\partial t^2} = D\frac{\partial^2 T}{\partial x^2} et la fonction donnée est donc une solution de notre équation.

Montrons maintenant que cette solution est unique. Pour cela, supposons que l’on ait deux solutions C C^\infty du problème, disons T 1T_1 et T 2T_2, et posons u=T 1T 2u=T_1-T_2. Il est facile de vérifier que l’on a ut=D 2ux 2,x[0,L],t +,\frac{\partial u}{\partial t}=D\frac{\partial^2 u}{\partial x^2},x\in [0,L],t\in\mathbb{R}^+, et que u(0,t)=u(L,t)=u(x,0)=0 pour tout x[0,L],t +.u(0,t)=u(L,t)=u(x,0)=0\mbox{ pour tout }x\in [0,L],t\in\mathbb{R}^+.

Considérons la fonction b k(t)=12D 0 Lu(x,t)sin(kωx)dxb_k(t)=\frac{1}{2D}\int_0^L u(x,t) \sin( k \omega x) \,\mbox{d}x Autrement dit, b k(t)b_k(t) est le kk-ième coefficient dans la série en sin de la fonction xu(x,t)x\rightarrow u(x,t). Par le corollaire 4 il suffira de montrer que b k(t)b_k(t) est nul pour tout tt. Par les conditions initiales on a que b k(0)=b k,b kt(0)= 0 Lu k(x,0)tsin(kωx)dx=0 b_k(0)= b_k,\; \frac{\partial b_k}{\partial t}(0)=\int_0^L \frac{\partial u_k(x,0)}{\partial t} \sin(k \omega x) \,\mbox{d}x=0 Calculons b k(t)= 0 L 2u(x,t)t 2sin(kωx)dx b''_k(t)= \int_0^L \frac{\partial^2 u(x,t)}{\partial t^2}\sin( k \omega x) \,\mbox{d}x =D 0 L 2u(x,t)x 2sin(kωx)dx=0= D \int_0^L \frac{\partial^2 u(x,t)}{\partial x^2}\sin( k \omega x) \,\mbox{d}x=0 ce qui est égal, après une double intégration par parties et en utilisant les conditions aux bords, à Dk 2π 2L 2 0 L 2u(x,t)x 2sin(kωx)dx=Dk 2ω 2b k(t). -\frac{Dk^2\pi^2}{L^2} \int_0^L \frac{\partial^2 u(x,t)}{\partial x^2}\sin( k \omega x) \,\mbox{d}x=-Dk^2\omega^2 b_k(t). Autrement dit, b k(t)=Dk 2ω 2b k(t). b''_k(t)=-Dk^2\omega^2 b_k(t). Mais la seule solution C C^\infty de cette fonction telle que b k(0)=b k(0)=0b_k(0)= b_k'(0)=0 est la fonction nulle. On a donc b k(t)=0b_k(t)=0 pour tout kk et tout tt, ce qui donne bien que u(x,t)=0u(x,t)=0 pour tout x,tx,t.

6.4.3  Vers la mécanique quantique

L’équation de Schrödinger d’inconnue une fonction ϕ(x,t)\phi(x,t) dépendant de la position et du temps à valeurs dans \mathbb{C} ( 22m 2x 2+V(x))ϕ(x,t)=itϕ(x,t)\left(-\frac{\hbar^2}{2m} \frac{\partial^2}{\partial x^2} +V(x)\right) \phi(x,t) = i\hbar \frac{\partial}{\partial t} \phi(x,t) peut dans certains cas subir un traitement analogue, lorsque l’opérateur de Schrödinger admet une base orthonormée infinie de vecteurs propres (ψ k) k0(\psi_k)_{k\geq 0} pour le produit scalaire f|g=f(x)¯g(x)dx\langle f|g \rangle=\int \overline{f(x)} g(x) \, dx: ( 22m 2x 2+V(x))ψ n=E nψ n\left(-\frac{\hbar^2}{2m} \frac{\partial^2}{\partial x^2} +V(x)\right) \psi_n=E_n \psi_n C’est l’extension sur des \mathbb{C}-espaces vectoriels en dimension infinie de ce qui se passe pour une forme quadratique réelle, ici pour la forme sesquilinéaire Φ(f,g)==f(x)¯( 22m 2x 2+V(x))g(x)dx\Phi(f,g)= = \int \overline{f(x)} \left(-\frac{\hbar^2}{2m} \frac{\partial^2}{\partial x^2} +V(x)\right) g(x) \, dx On remplace les fonctions trigonométriques de l’équation de la chaleur par les fonctions propres ψ k\psi_k, la solution de l’équation de Schrödinger est alors donnée par : ϕ(x,t)= k0a ke iE ntψ k(x),ϕ(x,0)= k0a kψ k(x),a k=ψ k(x)|ϕ(x,0)\phi(x,t)=\sum_{k \geq 0} a_k e^{-i \frac{E_n t}{\hbar}} \psi_k(x) , \quad \phi(x,0)= \sum_{k \geq 0} a_k \psi_k(x), \quad a_k=\langle \psi_k(x) |\phi(x,0)\rangle

6.5  La transformée de Fourier.

La série de Fourier que nous avons étudié ci-dessus s’adapte bien pour des fonctions définies sur une intervalle, c’est à dire, à des phénomènes de physique bornées. Or, en physique, il nous arrive souvent de vouloir analyser une fonction qui n’est pas a priori bornée dans le temps ou l’espace. Ceci nous inspire la question suivante :

Que pourrait être la série de Fourier d’une fonction sur \mathbb{R} ?


Soit f:f: \mathbb{R}\rightarrow \mathbb{R} une fonction : pour plus de simplicité, nous ferons l’hypothèse que l’intégrale |f(x)|dx\int_{\mathbb{R}} |f(x)| dx a une valeur finie. Nous allons essayer de trouver une analogue de la série de Fourier pour ff en regardant ce qui se passe quand on prend, pour LL de plus en plus grand, la série de Fourier de la fonction restreinte f L:[L,L]f_L: [-L,L]\rightarrow \mathbb{R} donnée par f L(x)=f(x)x[L,L]. f_L(x)=f(x) \forall x\in[-L,L]. Il convient d’utiliser la série de Fourier exponentielle, pour ne pas avoir à considérer séparément les termes en cosinus et en sinus.

Le coefficient de e iλxe^{i\lambda x} dans la série de Fourier exponentielle de f Lf_L2 est donnée par c kc_k ou k=Lλπk= \frac{ L \lambda}{\pi}. Autrement dit, le coefficient de e iλxe^{i\lambda x} dans la série de Fourier de f Lf_L est 12L L Lf(x)e iλxdx.\frac{1}{2L} \int_{-L}^L f(x) e^{-i\lambda x}dx. Appelons cette valeur c L(λ)c_L(\lambda). Que se passe-t-il pour des valeurs de LL de plus en plus grande ? Notre premier instinct pourrait être de considérer le comportement de c L(λ)c_L(\lambda) quand LL \rightarrow \infty mais ce n’est pas très intéressant : il converge toujours vers 00. Comment contourner cette difficulté pour arriver à une limite intéressante ?

Observation clé. Lorsque nous essayons de construire une “série de Fourier” pour une fonction sur \mathbb{R}, a priori toutes les fonctions de la forme e iλx e^{i\lambda x} peuvent y apparaître, puisqu’il n’y a plus de conditions aux bords qui pourraient restreindre les valeurs possibles de λ\lambda. Notre “séries de Fourier” devraient donc être une “somme” d’éléments de la forme c(λ)e iλx c(\lambda) e^{i\lambda x} indexé sur tous les nombre réels λ\lambda : je mets le mot somme en guillemets, car c’est mathématiquement impossible de faire une somme sur tous les nombres réels. En mathématiques, qu’est ce qui joue le rôle de “somme” sur les nombres réels ? C’est l’intégrale. On s’attend donc à ce que la “série de Fourier” d’une fonction ff sur \mathbb{R} soit une expression intégrale pour ff de la forme f(x)= c(λ)e iλx. f(x)= \int_{\mathbb{R}} c(\lambda) e^{i\lambda x}. On veut comprendre ce qui devrait être la fonction c(λ)c(\lambda) qui va jouer le rôle des coefficients de Fourier c k(f)c_k(f). Ce raisonnement heuristique nous suggère l’idée suivante :

Si on veut considérer les limites quand LL\rightarrow \infty de la série de Fourier de la fonction f Lf_L, il faudrait commencer par écrire cette série comme une intégrale.

Rappelons que S (f L)= k= c ke ikπx/L S_{\mathbb{C}}(f_L)= \sum_{k=-\infty}^\infty c_{k} e^{ik \pi x/L} que j’écris comme une intégrale de la façon suivante S = k= Lπ kπ/L (k+1)π/Lc ke ikπx/Ldλ. S_{\mathbb{C}}= \sum _{k=-\infty}^\infty \frac{L}{\pi} \int_{k\pi/L}^{(k+1)\pi/L} c_{k} e^{i k \pi x/L} d\lambda. Ici, j’ai écrit la terme c ke ikπx/Lc_k e^{i k \pi x/L} comme l’intégrale par rapport à une variable λ\lambda d’une constante sur une intervalle de longeur πL\frac{\pi}{L}. Appliquant la rélation de Chasles à cette somme d’intégrales, j’obtiens S (f)(x)= Lπc L(λ)e L(λ,x)dλ S_{\mathbb{C}}(f)(x)=\int_{\mathbb{R}} \frac{L}{\pi} c_L(\lambda) e_L(\lambda,x) d\lambda ou ici, c L(λ)c_L(\lambda) est la fonction en escalier telle que pour tout λ[kω,(k+1)πL]\lambda \in \left[k\omega , \frac{(k+1)\pi}{L}\right] c L(λ)= L Le ikπx/Lf(x)dx c_L(\lambda)= \int_{-L}^L e^{-ik\pi x/ L}f(x) dx et e L(λ,x)e_L(\lambda ,x) est la fonction en escalier telle que pour tout λ[kω,(k+1)πL]\lambda \in \left[k\omega , \frac{(k+1)\pi}{L}\right] e L(λ,x)=e kπixL e_L(\lambda,x)= e^{\frac{k\pi i x}{L}} Que se passe-t-il dans cette expression quand LL\rightarrow \infty, pour xx et λ\lambda fixes ? Les intervalles [kω,(k+1)πL[[k\omega ,\frac{(k+1)\pi}{L}[ sont alors de plus en plus petit, et si λ[kω,(k+1)πL[\lambda \in [k\omega ,\frac{(k+1)\pi}{L}[ alors λkω\lambda \sim k\omega . Quand LL\rightarrow \infty

  1. la fonction e L(λ,x)e_L(\lambda, x) est approchée par la fonction e iλxe^{i\lambda x}
  2. la fonction c L(λ)c_L(\lambda) est approchée par la fonction c(λ)= e iλxf(x)dxc(\lambda)= \int_{\mathbb{R}} e^{-i\lambda x}f(x) dx.

Ces considérations inspirent la définition suivante.

Définition 1   Soit ff une fonction continue sur \mathbb{R} telle que |f(x)|dx\int_{-\infty}^\infty |f(x)|dx est finie. Alors on définit la transformée de Fourier de ff, f^(λ)\hat{f}(\lambda) par3 f^:λ e iλxf(x)dx. \hat{f}: \lambda \rightarrow \int_{-\infty}^\infty e^{-i\lambda x} f(x)dx.

Exemples

  1. Soit ff la fonction définie par f(x)=1f(x)=1 si x[a,b]x\in [a,b]; f=0f=0 sinon. Alors f^(λ)= a be iλxdx=e ibλe iaλλ \hat{f}(\lambda)=\int_a^b e^{-i\lambda x}dx = \frac{e^{ib\lambda}- e^{ia \lambda}}{\lambda}
  2. Soit ff la fonction définie par f(e)=e xf(e)= e^{-x} si x0x\geq 0 et f(x)=0f(x)=0 sinon. Alors f^(λ)= 0 e iλxe xdx=11+iλ. \hat{f}(\lambda)=\int_0^\infty e^{-i\lambda x} e^{-x}dx=\frac{1}{1+i\lambda}.

Première propriétés des transformées de Fourier.

Lemme 2   Soient f,gf,g deux fonctions de 𝒞 0(,)\mathcal{C}^0(\mathbb{R},\mathbb{R}) telles que |f(x)|dx\int_{\mathbb{R}} |f(x)| dx et |g(x)|dx\int_{\mathbb{R}} |g(x)|dx soient finies. Alors pour tout scalaire aa nous avons que f+ag^=f^+ag^.\widehat{f+ag}= \hat{f}+a \hat{g}.

Ce lemme est une conséquence immédiate de la linéarité de l’intégrale.

Lemme 3   Soit ff une fonction de 𝒞 0(,)\mathcal{C}^0(\mathbb{R},\mathbb{R}) telle que |f(x)|dx\int_{\mathbb{R}} |f(x)| dx et |fx|dx\int_{\mathbb{R}} | \frac{\partial f} {\partial x}| dx soient finies. On suppose en plus que lim xf(x)=lim xf(x)=0.\lim_{x\rightarrow -\infty} f(x)= \lim_{x\rightarrow \infty} f(x)=0. Alors fx^=iλf^(λ).\widehat{ \frac{\partial f}{\partial x}}= i\lambda \hat{f}(\lambda).

Démonstration.

Par définition fx^(λ)=lim L L Lf(x)e iλxdx. \widehat{ \frac{\partial f}{\partial x}}(\lambda)= \lim_{L\rightarrow \infty} \int_{-L}^L f'(x) e^{-i\lambda x}dx. En faisant une IPP sur cette expression on obtient 12π([f(x)e iλx] L L+ L Lf(x)(iλ)e iλxdx) \frac{1}{2\pi}\left([f(x) e^{-i\lambda x}]_{-L}^L + \int_{-L}^L f(x) (i\lambda) e^{-i\lambda x}dx\right) ce qui compte tenu de l’hypothèse lim xf(x)=lim xf(x)=0\lim_{x\rightarrow -\infty} f(x)= \lim_{x\rightarrow \infty} f(x)=0 nous donne lim L L Liλf(x)e iλxdx\lim_{L\rightarrow \infty} \int_{-L}^L i\lambda f(x) e^{-i\lambda x}dx =iλf^(λ).= i\lambda \hat{f}(\lambda). Notre dernière proposition, dont la démonstration depasse le cadre de ce cours, dit qu’une équivalente du théorème de Dirichelet vaut pour cette transformée de Fourier.

Proposition 4 (Inversion de Fourier.)   Soit ff une fonction réelle et continue sur \mathbb{R}. Supposons que |f(x)|dx\int_{\mathbb{R}}|f(x)| dx et |f^(λ)|dλ\int_{\mathbb{R}} | \hat{f}(\lambda)| d\lambda sont tous deux finis. Alors, nous pouvons reconstruire ff de sa transformée de Fourier par la formule4 f(x)=12π e iλxf^(λ)dλ. f(x)=\frac{1}{2\pi}\int_{-\infty}^\infty e^{i\lambda x} \hat{f}(\lambda)d\lambda.

Ces deux propriétés font de la transformée de Fourier un outil pratique pour la solution d’équations différentielles.

Exemple On considère l’équation différentielle fxf=e |x|. \frac{\partial f}{\partial x} - f= e^{-|x|}. Appliquant la transformée de Fourier on obtient que (iλ1)f^(λ)=21+λ 2 (i\lambda -1) \hat{f}(\lambda)= \frac{2}{1+\lambda^2} Après réorganisation on a que f^=2(1+λ 2)(iλ1) \hat{f}=\frac{2}{(1+\lambda^2)(i\lambda-1)} et en utilisant le formule d’inversion de Fourier on obtient que f(x)= 2e iλx(1+λ 2)(iλ1)dλ. f(x)=\int_{-\infty}^\infty \frac{2e^{i\lambda x}}{(1+\lambda^2)(i\lambda-1)}d\lambda.


1
Mais contrairement à l’équation de la chaleur, on a un facteur en cosinus qui oscille au lieu d’une exponentielle décroissante, il n’y a donc pas de régularisation en temps t>0t&gt;0 pour une condition initiale éventuellement non régulière
2
On fait ici l’hypothèse que le réel Lλ/π{L \lambda/\pi} est un entier, et donc il existe une terme e iλxe^{i\lambda x} dans la série de Fourier de ff
3
Nous avons choisi ici de supprimer la terme 12π\frac{1}{2\pi} conformément aux conventions habituellement utilisées en physique.
4
La terme 12π\frac{1}{2\pi} supprimée dans notre définition de la transformée de Fourier réapparaît ici.

Annexe A  Appendice : espace-temps, bases et forme de Minkowski.

La théorie de la relativité pose que la séparation que nous observons entre l’espace et le temps est une illusion et qu’en réalité les événements sont placés dans un continuum de dimension 4 que l’on appelle l’espace-temps. Cet espace-temps dont les points représentent des événements est de dimension 4, puisque pour préciser un événement il faut donner :

  1. le lieu ou il s’est produit (précisé dans des coordonnées cartesiennes par 3 données numériques) et
  2. l’heure à laquelle il s’est produit (précisée par 1 donnée numérique).

Donc, pour préciser un événement il faut 4 coordonnées.

Contrairement à la physique Newtonienne, il n’est plus possible dans la rélativité restreinte de donner une décomposition de l’espace temps en une partie spatiale plus une partie temps. Plus précisement, la physique Newtonienne, si elle place bien les évenements dans un continuum de dimension 4 (lieu ou l’événement a eu lieu, plus l’heure à laquelle il s’est produit) pose aussi l’existence une décomposition intrinsèque Espace-temps = espace temps.\mbox{Espace-temps }\ =\ \mbox{ espace }\ \oplus\ \mbox{ temps.} Deux observateurs Newtoniens, même en mouvement, seront toujours d’accord pour dire que deux événements ont lieu au même moment (c’est à dire, que le vecteur qui les sépare dans l’espace-temps est contenu dans le sous-espace “espace”) ou qu’ils ont lieu au même endroit (c’est à dire, que le vecteur qui les sépare dans l’espace-temps est contenu dans le sous-espace “temps”).

Ceci n’est plus vrai dans la rélativité restreinte : selon les observateurs la décomposition de l’espace temps en espace et temps va varier. Lorsqu’un observateur OO, non-soumis à une accéleration, observe une événement, il va le mesurer utilisant son référentiel, et le résultat de ce mesure sera un quadrivecteur (T O,X O,Y O,Z O)(T_O, X_O, Y_O, Z_O)

Ces mesures n’ont plus rien d’absolu ; ils varieront selon l’observateur.

Qu’est ce que c’est un référentiel ? C’est la donnée d’un origine AA dans l’espace-temps1 et d’une base de l’espace temps. Après avoir fixé une origine AA, l’observateur OO mesure l’espace temps utilisant une base qui lui est propre (t O,x O,y O,z O)(t_O, x_O, y_O, z_O). Si vv est un élément de l’espace-temps (que l’on considère comme un espace vectoriel avec origine AA), les coordonnées de vv dans la base (t O,x O,y O,z O)(t_O, x_O, y_O, z_O) sont précisement les coefficients du quadri-vecteur (T O,X O,Y O,Z O)(T_O, X_O, Y_O, Z_O).

Attention : si tous les référentiels ont des bases, seulement certaines bases spéciales peuvent être utilisées dans des référentiels.

Comment parler des événements ? On peut, bien sur, choisir un observateur et identifier un événemment avec son quadrivecteur dans le referentiel de cet observateur. Cette solution est peu satisfaisante, puisqu’elle nous oblige à choisir un référentiel spécial auquel nous donnons une signification particulière, alors que le principe fondamental de la relativité restreinte est que toutes les référentiels se valent. Mais il est aussi possible avec les éléments ci-dessus de donner une déscription de la relativité restreinte sans référentiel distingué.

Recapitulons :

  1. L’espace-temps, est un espace affine2 de 4 dimensions dont les points représentent des événements. Il existe indépendemment de la choix du référentiel et du système de coordonnées. Nous l’appelerons ETET.
  2. Chaque observateur, OO, mesure l’espace temps utilisant son propre référentiel, consistant en une choix d’une origine AA et une base de ETET, (t O,x O,y O,z O)(t_O, x_O,y_O,z_O). (ETET est un espace vectoriel après choix de AA.)
  3. Soit vETv\in ET un événement et soient (T O,X O,Y O,Z O)(T_O,X_O,Y_O,Z_O) les coordonnées de vv dans la base (t O,x O,y O,z O)(t_O,x_O,y_O,z_O). L’observateur OO verra l’événement vv en un temps T OT_O et une position (X O,Y O,Z O)(X_O, Y_O, Z_O). Le temps et la position d’un événement dans le référentiel de OO sont simplement ses coordonnées dans cette base particulière.

Une question naturelle se pose :

Question : y a-t-il des propriétés d’un vecteur vETv\in ET qui ne dépendent pas du choix d’observateur ?

Si vv est un vecteur de ETET – pensons-le comme la séparation entre deux événements, AA et BB – alors ni le temps ni la distance répresenté par vv n’est indépendent de l’observateur. Mais il y une notion intrinsèque, au moins pour les vecteurs de type temporels, c’est celui du temps propre.

Définition 5   Soit v=ABv= \stackrel{\rightarrow}{AB} un vecteur de ETET. Le temps propre de vv est le temps vécu par un observateur qui voyage de A et B sans accéleration.

De nombreuses expériences ont établie comme donnée expérimentale la relation suivante entre le temps propre TP(v)TP(v) d’un vecteur temporel et ses coordonnées (T O,X O,Y O,Z O)(T_O, X_O, Y_O, Z_O) mesurés par un observateur OO : TP(v) 2=T O 2X O 2Y O 2Z O 2. TP(v)^2= T_O^2- X_O^2 -Y_O^2 -Z_O^2. On reconnaît dans le membre de droite la forme quadratique associée à une forme bilinéaire, auxquelles nous donnons le nom de “produit scalaire de Minkowski”.

Définition 6   Soit v,vETv,v'\in ET, soit OO un observateur, soit le référentiel de OO donné par (t O,x O,y O,z O)(t_O, x_O, y_O, z_O). Soient (T O,X O,Y O,Z O)(T_O, X_O, Y_O, Z_O) et (T O,X O,Y O,Z O)(T'_O, X'_O, Y'_O, Z'_O) les quadrivecteurs de vv et ww mesurés par OO. Le produit scalaire de Minkowski est la forme bilinéaire sur ETET donnée par M(v,v)=T OT OX OX OY OY OZ OZ O. M(v,v')= T_O T'_O - X_O X'_O -Y_OY'_O-Z_OZ'_O. Sa forme quadratique associée q M(v)=M(v,v)q_M(v)= M(v,v) a le propriété que pour tout vv temporel q M(v)=(temps propre de v) 2. q_M(v)=(\mbox{temps propre de }v)^2.

Attention : il y ici un abus de notation. Puisqu’il existe des vecteurs pour lesquels q M(v)<0q_M(v)&lt;0, la forme de Minkowski n’est pas un produit scalaire au sens des mathématiciens.

Plusieurs notions de la relativité restreinte admettent une interpretation en termes de la forme de Minkowski.

  1. Un vecteur vETv\in ET est temporel si q M(v)>0q_M(v)&gt;0, luminaire si q M(v)=0q_M(v)=0 et spatial si q M(v)<0q_M(v)&lt;0.
  2. Les transformations de Lorentz sont des matrices PP de changement de base (ou de changement de référentiel en gardant le même origine) qui laissent invariant la forme de Minkowski.

1
Ce qui permet de considèrer l’espace temps comme un espace vectoriel, en identifiant un point PP avec le vecteur AP\stackrel{\rightarrow}{AP}
2
c’est à dire, un espace qui devient un espace vectoriel après choix d’une origine.

Annexe B  Appendice : le tenseur d’inertie d’un corps rigide.

Dans cette appendice, pour rester plus proche des notations utilisées en physique, nous dénoterons les quantités vectorielles dans 3\mathbb{R}^3 par des lettres en gras.

Soit CC un corps rigide massif dans l’espace 3\mathbb{R}^3. Nous voudrions comprendre le moment d’inertie de ce corps, c’est à dire, la resistence qu’elle oppose à être mise en rotation.

Pour plus de simplicité nous nou plaçons dans un referentiel inertiel1 dont l’origine est le centre de gravité GG du corps CC, et considérons une rotation du corps CC autour de son centre de gravité GG qui resterait fixe. Supposons que le corps CC possède une vitesse angulaire ω{\bf \omega}.2 Quel serait le moment angulaire produit par cette rotation autour d’un autre axe ν{\bf \nu} ?

Dans un premier temps, considérons un réseau rigid de points massifs P iP_i, ou chaque P iP_i a masse m im_i. En un temps tt, soit r i{\bf r_i} le vecteur de position du point massif P iP_i (c’est à dire qu’on a r i=GP i{\bf r_i}= \stackrel{\longrightarrow}{GP_i}) Soit v i{\bf v}_i la vitesse (normale) du point P iP_i. Le moment angulaire du point massif P iP_i autour de l’axe ν{\bf \nu} est donc m iν(r iv i). m_i{\bf \nu}\cdot({\bf r}_i\wedge {\bf v}_i). Mais on sait par ailleurs par la définition de la vitesse angulaire que v i=ωr i {\bf v}_i= {\bf \omega}\wedge {\bf r}_i ou ω\omega est la vitesse angulaire. Lorsque P iP_i tourne avec une vitesse angulaire ω\omega autour de son centre de gravité, le moment angulaire autour de l’axe ν\nu du point massif P iP_i est donné par l’expression m iν(r i(ωr i)).m_i{\bf \nu}\cdot({\bf r}_i\wedge({\bf \omega}\wedge {\bf r}_i)). Le moment total de ce réseau de points est alors donné par la somme im iν(r i(ωr i)\sum_i m_i {\bf \nu}\cdot({\bf r}_i\wedge({\bf \omega}\wedge {\bf r}_i) Approchons maintenant CC par un maillage de point massifs P iP_i, chacun de masse m im_i, en une position r i{\bf r}_i. Le moment angulaire de CC autour de l’axe ν\nu est alors approché par la quantité im iν(r i(ωr i)\sum_i m_i {\bf \nu}\cdot({\bf r}_i\wedge({\bf \omega}\wedge {\bf r}_i) ou ω\omega est la vitesse angulaire du corps CC.

Pour un maillage assez fini de CC, la masse m im_i du point massif P iP_i est très proche de ρdV\rho dV, ou ρ\rho est la densité locale de CC au point P iP_i et dVdV est l’élément de volume autour de P iP_i. On obtient, en approchant CC par un maillage toujours plus fin de points P iP_i que le moment angulaire de CC autour de ν\nu est donné par Cρν(r i(ωr i)dV\int_C \rho {\bf \nu}\cdot({\bf r}_i\wedge({\bf \omega}\wedge {\bf r}_i) dV =ν Cρ((r(rω))dV ={\bf \nu} \cdot \int_C \rho (({\bf r}\wedge({\bf r}\wedge{\bf \omega})) dV =ν Cρ(ωr 2r(ωr))dV={\bf\nu}\cdot \int_C\rho ({\bf \omega}\cdot \| {\bf r}^2\| - {\bf r}({\bf \omega}\cdot {\bf r}))dV =νω( Cρr 2dV) C(νr)(ωr).={\bf \nu}\cdot {\bf \omega} \left(\int_C\rho \|{\bf r}\|^2dV\right)-\int_C ({\bf \nu}\cdot {\bf r}) ({\bf \omega}\cdot {\bf r}). ou ω\omega est la vitesse angulaire du corps CC.

Pour résumer, nous avons la proposition suivante.

Proposition 7   Soit I CI_C la fonction de deux vecteurs dans 3\mathbb{R}^3, ω{\bf \omega} et ν{\bf \nu}, telle que I C(ω,ν)I_C({\bf \omega}, {\bf \nu}) le moment d’inertie du corps rigid CC autour de l’axe ν{\bf \nu} lorsque CC tourne autour de GG avec vitesse angulaire ω{\bf \omega}.

Alors nous avons que
I C(ω,ν)=νω( Cρr 2dV) C(νr)(ωr). I_C({\bf \omega}, {\bf \nu})= {\bf \nu}\cdot {\bf \omega} \left(\int_C\rho \|{\bf r}\|^2dV\right)-\int_C ({\bf \nu}\cdot {\bf r}) ({\bf \omega}\cdot {\bf r}).

L’exercice suivant est laissé au lecteur.

Exercice L’application I CI_C est une forme bilinéaire symétrique.

Définition 8   Soit CC un corps rigide massif dans l’espace. La forme bilinéaire symétrique I CI_C s’appelle le tenseur d’inertie du corps CC.
Remarque 9   L’expression du tenseur d’inertie dans une base inertielle dépende de l’orientation de CC dans l’espace. En particulier, lorsque l’orientation de CC varie dans le temps3 l’expression de I CI_C dans une base inertielle ne sera pas constante.
Remarque 10   Le théorème sur la diagonalisation orthonormée des formes bilinéaires symétrique nous garantit l’existence d’une base orthonormée pour 3\mathbb{R}^3, i,j,k{\bf i}, {\bf j}, {\bf k}, qui est une base orthogonale pour le tenseur de l’inertie.
Définition 11   Les éléments i,j,k{\bf i}, {\bf j}, {\bf k} de la base qui est orthonormée pour 3\mathbb{R}^3 et orthogonale pour I CI_C s’appellent les axes principaux d’inertie du corps CC.
Remarque 12   Ces axes principaux dépendent, bien sur, de l’orientation du corps CC.

Calculons maintenant le moment total de CC, μ C\mu_C.4 il résulte immédiatement de notre formule pour I C(ω,ν)I_C(\omega, \nu) que μ C\mu_C est donné par le formule μ C=ω( Cρr 2dV) Cρr(ωr)dV. {\bf \mu}_C= {\bf \omega} \left(\int_C\rho \|{\bf r}\|^2dV\right) -\int_C \rho {\bf r}({\bf \omega}\cdot {\bf r})dV.

B.1  Application : rotation libre d’un objet avec symmétrie rotationelle.

Nous savons qu’il existe une base une base i{\bf i}, j{\bf j}, k{\bf k} telle que à tout moment, i{\bf i}, j{\bf j}, k{\bf k} est la base orthonormée de 3\mathbb{R}^3 qui est aussi orthogonale pour I CI_C. Cette base est variable dans le temps - elle n’est pas un referentielle inertielle - mais elle est constante du point de vue du corps rigid et en particulier, si CC est en rotation autour de son centre de gravité avec vitesse angulaire ω\omega alors on a que i=iωj=jωk=kω. {\bf i}'= {\bf i}\wedge \omega \, {\bf j}'={\bf j}\wedge \omega \, {\bf k}'={\bf k}\wedge \omega. Ici, pour toute quantité vectorielle a{\bf a} nous notons a{\bf a}' sa derivée dans une base inertielle. Par ailleurs, nous notons at\frac{\partial {\bf a}}{\partial t'} sa dérivée dans la base i{\bf i}, j{\bf j}, k{\bf k}. Nous avons alors que at+aω=a. \frac{\partial {\bf a}}{\partial t'}+ {\bf a}\wedge \omega={\bf a}'. Dans le referentiel (i({\bf i}, j{\bf j}, k){\bf k}) la matrice de I CI_C est constante et diagonale. Considérons le cas ou CC a une symmétrie rotationelle autour de l’axe i{\bf i} : la matrice de I CI_C dans la base i,j,k{\bf i}, {\bf j}, {\bf k} est alors de la forme (a 0 0 0 b 0 0 0 b).\begin{pmatrix}a&0&0\\0&b&0\\0&0&b\end{pmatrix}. Supposons maintenant que le corps CC tourne librement, sans torque extérieure. On sait alors que son moment d’inertie μ C\mu_C satisfait l’équation μ C=0 {\bf \mu}_C'=0 En passant dans le repère i{\bf i}, j{\bf j}, k{\bf k} on obtient μ Ct=μ Cω \frac{\partial {\bf \mu}_C}{\partial t'}= -\mu_C\wedge\omega ce qui, en utilisant le fait que μ C=I C(ω)\mu_C= I_C(\omega) nous donne I Cωt=I Cωω. I_C\frac{\partial {\bf \omega}} {\partial t'}= - I_C{\omega}\wedge\omega. Ecrivant ω=xi+yj+zk\omega= x{\bf i}+y{\bf j}+z{\bf k} on voit que ax=0 ax'= 0 by=(ab)xz by'= (a-b)xz bz=(ba)xy bz'=(b-a) xy La valeur xx est donc une constante. Posons (ba)xb=C\frac{(b-a)x}{b}=C, nous avons alors les équations y=Czy'= -Cz z=Cyz'= Cy qui a pour solution générale y=λcosCt+θ y= \lambda\cos{Ct+\theta} z=λsinCt+θ.z=\lambda \sin{Ct+\theta}. L’axe de rotation ω\omega n’est donc pas constante dans le referentiel corporel. Il tourne autour de l’axe de symétrie rotationnelle i{\bf i} avec une vitesse qui dépende de

  1. l’angle entre ω{\bf \omega} et i{\bf i}
  2. le rapport entre aa et bb.

1
c’est à dire la donnée d’une origine dans l’espace et une base de 3\mathbb{R}^3 ne variant pas avec le temps.
2
La vitesse angulaire d’un corps en rotation dont le centre de gravité est fixe est une quantité vectorielle ω{\bf \omega} telle que la vitesse d’un point PCP\in C est donnée par ωGP{\bf \omega}\wedge \stackrel{\rightarrow}{GP}. La direction de ω{\bf \omega} donne l’axe de rotation et sa longueur donne la vitesse.
3
Notamment, lorsque CC est en rotation.
4
Ce moment total d’un corps en rotation est une quantité vectorielle μ C{\bf \mu}_C qui a le propriété que pour tout axe ν{\bf \nu} le moment de CC autour de ν{\bf \nu} est donné par le produit scalaire νμ C{\bf \nu}\cdot {\bf \mu}_C.

Annexe C  Appendice : les coniques et quadriques.

On va maintenant appliquer les résultats précédents à l’étude des coniques et des quadriques.

Jusqu’à la fin de ce paragraphe, on se place dans l’espace affine 2\mathbb{R}^2 ou 3\mathbb{R}^3, muni de son repère orthonormé usuel.

Définition 1   Une conique est le lieu géométrique de 2\mathbb{R}^2 défini par une équation de la forme ax 2+by 2+2cxy+dx+ey+f=0,ax^2+by^2+2cxy+dx+ey+f=0,

où au moins un des termes quadratiques est non nul.

Une quadrique est le lieu géométrique de 3\mathbb{R}^3 défini par une équation de la forme ax 2+by 2+cz 2+2dxy+2exz+2fyz+αx+βy+γz+δ=0,ax^2+by^2+cz^2+2dxy+2exz+2fyz+\alpha x+\beta y+\gamma z+ \delta=0, où au moins un des termes quadratiques est non nul.

On veut classer les différents types de coniques et quadriques. Puisque l’on veut conserver le lieu géométrique, on ne s’autorise qu’à faire des changements de variables qui remplacent le repère canonique par un autre repère orthonormée (pour les produit scalaire canonique), donc des translations ou des isométries (i.e. qui conservent les distances et les angles non orientés).

Ceci est nécessaire: en effet, l’équation x 29+y 24=1\frac{x^2}{9}+\frac{y^2}{4}=1 représente une ellipse de centre OO, alors que le changement de variables x=x3x'=\frac{x}{3} et y=y2y'=\frac{y}{2} donne l’équation x 2+y 2=1x'^2+y'^2=1 représente le cercle unité, qui n’est pas le même lieu géométrique.

Cas des coniques.

Considérons la conique ax 2+by 2+2cxy+dx+ey+f=0,ax^2+by^2+2cxy+dx+ey+f=0, et soit q: 2,(x,y)ax 2+by 2+2cxy.q:\mathbb{R}^2 \to \mathbb{R}, (x,y)\mapsto ax^2+by^2+2cxy.

D’après le théorème 4.32, il existe une base orthornormée (v 1,v 2)(v_1,v_2) qui est ϕ q\phi_q-orthogonale, donc qq-orthogonale.

Dans le nouveau repère (O,v 1,v 2)(O,v_1,v_2), l’équation de la conique s’écrit ax 2+cy 2+dx+ey+f=0.a'x'^2+c'y'^2+d'x+e'y+f'=0.

On se débarasse ensuite d’un ou deux termes linéaires en complètant les carrés et en effectuant une translation d’origine.

Après éventuellement permutation des nouvelles variables et/ou changements du type XXX\leftrightarrow -X ou YYY\leftrightarrow -Y on obtient une équation d’un des types suivants, selon la signature de qq, pour des réels U,V>0U,V &gt;0

(1)(1) Signature (2,0)(2,0) ou (0,2)(0,2):

  1. X 2U 2+Y 2V 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}=1: c’est une ellipse (ou un cercle si U=VU=V).
  2. X 2U 2+Y 2V 2=0\frac{X^2}{U^2}+\frac{Y^2}{V^2}=0 : c’est le point (X,Y)=(0,0)(X,Y)=(0,0).
  3. X 2U 2+Y 2V 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}=-1 : c’est l’ensemble vide.

(2)(2) Signature (1,1)(1,1):

  1. X 2U 2Y 2V 2=1\frac{X^2}{U^2}-\frac{Y^2}{V^2}=1: c’est une hyperbole.
  2. X 2U 2Y 2V 2=0\frac{X^2}{U^2}-\frac{Y^2}{V^2}=0: c’est la réunion des deux droites d’équation X/U=Y/VX/U=Y/V et X/U=Y/VX/U=-Y/V.

(3)(3) Signature (1,0)(1,0) ou (0,1)(0,1): Y 2=2λXY^2=2\lambda X: c’est une parabole.

Exemple 2   Considérons la conique d’équation 3x 23y 2+8xy+65x+25y+5=0.3x^2-3y^2+8xy+6\sqrt{5}x+2\sqrt{5}y+5=0.

Soit q: 2,(x y)3x 23y 2+8xyq:\mathbb{R}^2\to\mathbb{R}, \begin{pmatrix}x\\ y\end{pmatrix}\mapsto 3x^2-3y^2+8xy.

Sa matrice représentative dans la base canonique est (3 4 4 3).\begin{pmatrix}3 & 4\\ 4 & -3\end{pmatrix}.

D’après un exemple précédent, une base orthonormée qui est aussi qq-orthogonale est donnée par

15(2 1),15(1 2),\frac{1}{\sqrt{5}}\begin{pmatrix}2\\ 1\end{pmatrix},\frac{1}{\sqrt{5}}\begin{pmatrix}1\\ -2\end{pmatrix}, les vecteurs étant respectivement des vecteurs propres pour 55 et 5-5.

Soient x,yx',y' les coordonnées dans cette nouvelle base. On a donc

(x y)=15(2 1 1 2)(x y)=15(2x+y x2y).\begin{pmatrix}x\\ y\end{pmatrix}=\frac{1}{\sqrt{5}}\begin{pmatrix}2& 1\\ 1& -2\end{pmatrix}\begin{pmatrix}x'\\ y'\end{pmatrix}=\frac{1}{\sqrt{5}}\begin{pmatrix}2x'+y'\\ x'-2y'\end{pmatrix}.

Par construction de cette base, la forme qq dans cette base s’écrit 5x 25y 2.5x^{'2}-5y^{'2}. Elle est donc de signature (1,1)(1,1), et on a donc une hyperbole (sauf cas dégénéré).

On a alors 5x 25y 2+10x+10y+5=0,5x^{'2}-5y^{'2}+10x'+10y'+5=0, soit x 2y 2+2x+2y+1=0.x^{'2}-y^{'2}+2x'+2y'+1=0. On a donc (x+1) 2(y1) 2+1=0.(x'+1)^2-(y'-1)^2+1=0. En posant X=x1,Y=y1X=x'-1,Y=y'-1, on obtient X 2Y 2=1.X^2-Y^2=-1. En posant X=YX'=Y et Y=XY'=X, on obtient finalement l’équation réduite de l’hyperbole X 2Y 2=1.X^{'2}-Y^{'2}=1.

Cas des quadriques.

Comme précédemment, on se ramène au cas d’une équation sans termes croisés, et on se débarasse d’un ou plusieurs termes linéaires.

Après éventuellement permutation des nouvelles variables et/ou changements du type XXX\leftrightarrow -X, YYY\leftrightarrow -Y, ZZZ\leftrightarrow -Z, et éventuellement une nouvelle translation/rotation,

on obtient la classification suivante :

(1)(1) Signature (3,0)(3,0) ou (0,3)(0,3). On obtient 3 cas :

(a)(a) X 2U 2+Y 2V 2+Z 2W 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}+\frac{Z^2}{W^2}=1: c’est un ellipsoïde.

(b)(b) X 2U 2+Y 2V 2+Z 2W 2=0\frac{X^2}{U^2}+\frac{Y^2}{V^2}+\frac{Z^2}{W^2}=0: c’est le point (X,Y,Z)=(0,0,0)(X,Y,Z)=(0,0,0)

(c)(c) X 2U 2+Y 2V 2+Z 2W 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}+\frac{Z^2}{W^2}=-1: c’est l’ensemble vide.

(2)(2) Signature (2,1)(2,1) ou (1,2)(1,2). On obtient 3 cas:

(a)(a) X 2U 2+Y 2V 2Z 2W 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}-\frac{Z^2}{W^2}=-1: c’est un hyperboloïde à deux nappes

(b)(b) X 2U 2+Y 2V 2Z 2W 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}-\frac{Z^2}{W^2}=1: c’est un hyperboloïde à une nappe

(c)(c) X 2U 2+Y 2V 2=Z 2W 2\frac{X^2}{U^2}+\frac{Y^2}{V^2}=\frac{Z^2}{W^2}: c’est un cône.

(3)(3) Signature (2,0)(2,0) ou (0,2)(0,2). On obtient quatre cas :

(a)(a) X 2U 2+Y 2V 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}=1: c’est un cyclindre elliptique

(b)(b) X 2U 2+Y 2V 2=0\frac{X^2}{U^2}+\frac{Y^2}{V^2}=0: c’est la droite X=Y=0X=Y=0.

(c)(c) X 2U 2+Y 2V 2=1\frac{X^2}{U^2}+\frac{Y^2}{V^2}=-1: c’est l’ensemble vide.

(d)(d) X 2U 2+Y 2V 2=ZW\frac{X^2}{U^2}+\frac{Y^2}{V^2}=\frac{Z}{W}: c’est un paraboloïde elliptique.

(4)(4) Signature (1,1)(1,1):

(a)(a) X 2U 2Y 2V 2=1\frac{X^2}{U^2}-\frac{Y^2}{V^2}=1: c’est un cyclindre hyperbolique.

(b)(b) X 2U 2Y 2V 2=0\frac{X^2}{U^2}-\frac{Y^2}{V^2}=0: c’est la réunion des deux plans d’équation X/UY/V=0X/U-Y/V=0 et X/U+Y/V=0X/U+Y/V=0

(c)(c) X 2U 2Y 2V 2=1\frac{X^2}{U^2}-\frac{Y^2}{V^2}=-1: c’est l’ensemble vide.

(d)(d) X 2U 2Y 2V 2=ZW\frac{X^2}{U^2}-\frac{Y^2}{V^2}=\frac{Z}{W}: c’est un paraboloïde hyperbolique.

Signature (1,0)(1,0) ou (0,1)(0,1):

(a)(a) X 2=2pYX^2=2pY: cylindre parabolique.

(b)(b) X 2/U 2=1X^2/U^2=1: réunion de deux plans parallèles d’équation X=1X=1 et X=1X=-1.

(c)(c) X 2/U 2=0X^2/U^2=0: plan X=0X=0

(d)(d) X 2/U 2=1X^2/U^2=-1: ensemble vide.

Exemple 3  

Soit la quadrique x 2+y 2+z 2+2xy+2xz+2yz+3x+3y+2=0.x^2+y^2+z^2+2xy+2xz+2yz+ \sqrt{3}x+\sqrt{3}y+2=0.

Soit q: 3,(x y)x 2+y 2+z 2+2xy+2xz+2yzq:\mathbb{R}^3\to\mathbb{R}, \begin{pmatrix}x\\ y\end{pmatrix}\mapsto x^2+y^2+z^2+2xy+2xz+2yz.

Sa matrice représentative dans la base canonique est (1 1 1 1 1 1 1 1 1).\begin{pmatrix}1 & 1 & 1\\ 1 & 1 & 1\\ 1&1&1\end{pmatrix}.

D’après un exemple précédent, une base orthonormée qui est aussi qq-orthogonale est donnée par 13(1 1 1),12(1 1 0),23(12 12 1),\frac{1}{\sqrt{3}}\begin{pmatrix}1\\ 1\\ 1\end{pmatrix},\frac{1}{\sqrt{2}}\begin{pmatrix}1\\ -1\\ 0\end{pmatrix},\sqrt{\frac{2}{3}}\begin{pmatrix}\frac{1}{2}\\ \frac{1}{2}\\ -1\end{pmatrix}, ces vecteurs étant respectivement des vecteurs propres pour 1,01,0 et 00.

Soient x,y,zx',y',z' les coordonnées dans cette nouvelle base.

Par construction de cette base, la forme qq dans cette base s’écrit 3x 2.3x^{'2}. Elle est donc de signature (1,0)(1,0), et on a donc un cyclindre parabolique, un ensemble vide, un plan ou une réunion de deux plans.

On vérife que l’équation de cette quadrique dans cette base est

3x 2+2x+2z+2=0,3x^{'2}+2x'+\sqrt{2}z' +2=0, soit 3(x+13) 2+2z+53=0.3(x'+\frac{1}{3})^2+\sqrt{2}z'+\frac{5}{3}=0. Si on pose X=x+13,Y=z+532,Z=y X=x'+\frac{1}{3}, Y=z'+\frac{5}{3\sqrt{2}}, Z=y', on obtient X 2=2Y.X^2=-\sqrt{2}Y.

Annexe D  Appendice : Formes hermitiennes.

Dans beaucoup d’applications en physique - notamment en mécanique quantique, mais pas exclusivement - nous avons besoin d’utiliser des espaces complexes. Par exemple, la fonction d’onde qui représente un particule dans la représentation de Schrödinger, est un élément de C 0( 3,)C^0(\mathbb{R}^3, \mathbb{C}), c’est-‘a-dire , une fonction complexe sur l’espace 3\mathbb{R}^3.

Mais si on essaie de définir une notion de longueur sur un espace complexe VV utilisant des formes bilinéaires complexes on se rend rapidement compte que c’est impossible. En effet, aucune forme bilinéaire complexe φ\varphi ne peut avoir une forme quadratique associée qui est réelle positive partout, puisque si φ(v,v)>0 \varphi(v,v)&gt;0 alors on a φ(iv,iv)=i 2φ(v,v)=φ(v,v)<0 \varphi(iv,iv)= i^2 \varphi (v,v)= -\varphi (v,v)&lt;0 Par contre, on sait que la fonctionf(z)=z¯zf(z)=\overline{z}z est partout réelle et positive sur \mathbb{C} : d’ailleurs, la distance euclidienne sur \mathbb{C}, vu comme un \mathbb{R}-espace vectoriel, est donnée par d(z 1,z 2)=(z 1z 2¯)(z 1z 2). d(z_1, z_2) =\sqrt{(\overline{z_1-z_2}) (z_1-z_2)}. Nous allons donc essayer de définir des distances sur des espaces complexes en utilisant des formes hermitiennes, c’est-à-dire, des functions de deux variables se comportant comme la fonction (z 1,z 2)z 1¯z 2. (z_1, z_2)\mapsto \overline{z_1}z_2.

Définition 4   Soit VV un espace vectoriel complexe. Une fonction h:V×Vh:V\times V\rightarrow \mathbb{C} est une forme hermitienne si et seulement si
  1. h(x+y,z)=h(x,z)+h(y,z)h(x+y,z)=h(x,z)+h(y,z)
  2. h(x,λy)=λh(x,y)h(x,\lambda y)= \lambda h(x,y)
  3. h(x,y)=h(y,x)¯h(x,y)=\overline{h(y,x)}.

Notez qu’il résulte de (3) que h(x,x)h(x,x) est réel pour tout xx. Nous avons, parailleurs, que h(λx,y)=λ¯h(x,y)h(\lambda x,y)=\overline{\lambda}h(x,y).

Exemples 5  
  1. La forme hh définie sur n× n\mathbb{C}^n\times \mathbb{C}^n par h((x 1 x 2 x n),(y 1 y 2 y n))=x i¯y ih\left(\begin{pmatrix}x_1\\x_2\\\vdots\\x_n\end{pmatrix} , \begin{pmatrix}y_1\\y_2\\\vdots\\y_n\end{pmatrix}\right) =\sum \overline{x_i}y_i est une forme hermitienne. Celle-ci s’appelle la forme hermitienne canonique sur n\mathbb{C}^n.
  2. La forme hh définie sur C 0([a,b],)×C 0([a,b],)C^0([a, b], \mathbb{C})\times C^0([a, b], \mathbb{C}) par h(f,g)= a bf¯(x)g(x)dx h(f,g)=\int_a^b \overline{f}(x) g(x) dx est une forme hermitienne sur C 0([1,1],)C^0([-1, 1], \mathbb{C}).
  3. La forme hh définie sur M n()×M n()M_n(\mathbb{C})\times M_n(\mathbb{C}) par h(M,N)=Tr( tM¯N) h(M,N)= \mbox{Tr}({}^t\overline{M} N) est une forme hermitienne.

On dit qu’une forme hermitienne hh est définie positive si pour tout xV0 Vx\in V\setminus {0_V} nous avons que h(x,x)>0. h(x,x)&gt;0.

Définition 6   Un espace hermitien (V,h)(V,h) est la donnée d’un espace vectoriel complexe VV et d’une forme hermitienne hh, définie positive sur EE.

Bien sûr, tout ce que nous avons fait pour les formes bilinéaires symétriques peut aussi se faire pour les formes hermitiennes.

Proposition 7   Soit EE un espace vectoriel complexe et soit hh une forme hermitienne sur EE. Soit e=(e 1e n){\bf e}= (e_1\ldots e_n) une base pour EE et soit MM la matrice définie par M i,j=h(e i,e j)M_{i,j}=h(e_i,e_j). La matrice MM est appellée la matrice de hh dans la base e{\bf e}. Soient x,yEx,y\in E et soient X̲,Y̲\underline{X}, \underline{Y} leurs vecteurs de coordonnées dans la base e{\bf e}. Alors nous avons h(x,y)= tX̲¯MY̲ h(x,y)= {}^t \overline{\underline{X}}M \underline{Y}
Proposition 8 (Règles de changement de la base)   Soit EE un espace vectoriel complexe et soit hh une forme hermitienne sur EE. Soient e=(e 1e n){\bf e}= (e_1\ldots e_n) et f=(f 1f n){\bf f}=(f_1\ldots f_n) deux bases pour EE. Soit MM la matrice de hh dans la base e{\bf e} et soit NN la matrice de hh dans la base f{\bf f}. Soit PP la matrice de passage de e{\bf e} vers f{\bf f}. Alors N= tP¯MP. N={}^t\overline{P}MP.

Nous notons que condition (3) de la définition des formes hermitiennes implique la proposition suivante.

Proposition 9   Soit hh une forme hermitienne sur un espace complexe, VV. Soit MM la matrice de hh dans une base e{\bf e}. Alors tM¯=M{}^t\overline{M}=M

Cette proposition inspire la définition suivante.

Définition 10   Soit MM une matrice complexe. L’adjointe M *M^* de MM est la matrice définie par tM¯=M *.{}^t\overline{M}=M^*.
Définition 11   Une matrice complexe MM de taille n×nn\times n est dite hermitienne (ou auto-adjointe) si et seulement si M *= tM¯=M.M^*={}^t\overline{M}=M.

Nous pouvons définir le longueur d’un vecteur et la distance entre deux éléments dans un espace hermitien comme pour un espace prehilbertien réel.

Définition 12   Soit (V,h)(V,h) un espace hermitien et soient v,wVv,w\in V. On définit la longueur de vv par v=h(v,v), \| v \| =\sqrt{h(v,v)}, et la distance entre vv et ww par d(v,w)=vwd(v,w)= \|v-w\|.

Avec cette notion de distance et de longueur, une version du procédé de Gram-Schmidt et la projection orthogonale sont valables aussi sur des espaces hermitiens.

Proposition 13 (Projection orthogonale dans les espaces hermitiens.)   Soit (V,h)(V,h) un espace hermitien et soit WEW\in E un sous-espace vectoriel de dimension finie. Soit (v 1,,v n)(v_1,\ldots, v_n) une base orthonormée pour WW. Alors pour tout vVv\in V on définit la projection orthogonale de vv sur WW par p W(v)= i=1 nh(v i,v)v i. p_W(v)= \sum_{i=1}^n h(v_i, v) v_i. La projection p W(v)p_W(v) est alors l’élément de WW qui minimise la distance d(v,w)d(v,w) lorsque ww parcourt WW.

La démonstration est identique à celle donnée dans le cas des espaces prehilbertiens réels.

Proposition 14   Soit (V,h)(V,h) un espace hermitien de dimension finie et soit e=(e 1,,e n){\bf e}=(e_1, \ldots, e_n) une base. On construit une nouvelle base (v 1,,v n)(v_1,\ldots, v_n) récursivement par l’algorithme suivant :
  1. On pose v 1=e 1e 1v_1=\frac{e_1}{\|e_1\|}.
  2. La famille (v 1,,v k)(v_1,\ldots,v_k) étant construite, nous posons f k+1=e k+1 i=1 kh(v i,e k+1)v i.f_{k+1} = e_{k+1} -\sum_{i=1}^k h(v_i, e_{k+1}) v_i.
  3. On pose v k+1=f k+1f k+1v_{k+1} =\frac{ f_{k+1}}{\| f_{k+1}\|}.
  4. On a maintenant construit (v 1,,v k+1)(v_1,\ldots, v_{k+1}) et on revient à l’étape (2) pour construire v k+1v_{k+1}.
La base de (V,h)(V,h) ainsi construite est orthonormée.

La démonstration est identique à celle donnée dans le cas des espaces prehilbertiens réels.

Remarque: notation bra-ket
C’est une notation qui permet de retrouver plus facilement certaines résultats lorsqu’on travaille avec des produits scalaires hermitiens et est particulièrement adaptée aux calculs en mécanique quantique.

Si on note <v|w>&lt;v|w&gt; le produit scalaire canonique de deux vecteurs vv et ww dans n\mathbb{C}^n, on note |w>|w&gt; le vecteur colonne des coordonnées de ww et <v|=|v> *&lt;v|=|v&gt;^* le vecteur ligne obtenu par transposition et conjugaison, alors on peut en quelque sorte séparer la notation du produit scalaire en son milieu : <v|w>=<v||w>&lt;v|w&gt;=&lt;v| |w&gt; Si (e 1,...,e n)(e_1,...,e_n) est une base orthonormée, alors la relation : v= i<e i,v>e iv=\sum_i &lt;e_i,v&gt; e_i s’écrit : |v>= i=1 n<e i|v>|e i>= i=1 n|e i><e i|v>=( i=1 n|e i><e i|)|v>|v&gt; = \sum_{i=1}^n &lt;e_i|v&gt; |e_i&gt; = \sum_{i=1}^n |e_i&gt; &lt;e_i|v&gt;= (\sum_{i=1}^n |e_i&gt;&lt;e_i|) |v&gt; autrement dit le calcul des coordonnées dans une base orthonormale s’écrit comme la décomposition de l’application identité de n\mathbb{C}^n 1 n= i=1 n|e i><e i|{\bf 1}_n = \sum_{i=1}^n |e_i&gt;&lt;e_i| On ne peut pas se tromper de sens ci-dessus car <e i||e i>=1&lt;e_i| |e_i&gt;=1 est un scalaire. La projection pp sur un sous-espace vectoriel de base orthonormée (f 1,...,f k)(f_1,...,f_k) s’écrit de manière analogue : p= i=1 k|f i><f i|p = \sum_{i=1}^k |f_i&gt;&lt;f_i| le calcul de p(v)p(v) est alors obtenu par p|v>=( i=1 k|f i><f i|)|v>= i=1 k|f i><f i|v>p|v&gt;=(\sum_{i=1}^k |f_i&gt;&lt;f_i|)|v&gt;=\sum_{i=1}^k |f_i&gt;&lt;f_i|v&gt; Gram-Schmidt s’écrit : |v 1>=|e 1>e 1,|f k+1>=(1 n i=1 k|v i><v i|)|e k+1>,|v k+1>=f k+1f k+1|v_1&gt;=\frac{|e_1&gt;}{\|e_1\|}, \quad |f_{k+1}&gt;=({\bf 1}_n-\sum_{i=1}^k |v_i&gt;&lt;v_i|)|e_{k+1}&gt;, \quad |v_{k+1}&gt;=\frac{f_{k+1}}{\|f_{k+1}\|} Si AA est une matrice hermitienne, alors on peut placer AA au milieu du produit scalaire et on peut l’appliquer indifféramment à vv ou ww : <v|Aw>=<Av|w>=<v|A|w>&lt;v|Aw&gt;=&lt;Av|w&gt;=&lt;v|A|w&gt; La généralisation de cette notation aux espaces hilbertiens complexes de dimension infinie est populaire en mécanique quantique où on manipule constamment des espaces de Hilbert et des matrices hermitiennes (les observables). Une notation qui intègre les propriétés des objets manipulés permet de simplifier le travail!

Annexe E  Utilisation de la calculatrice

On présente ici un résumé des commandes utiles dans ce module pour les calculatrices empruntables au DLST (Casio Graph 90+e). Pour les étudiants souhaitant acheter leur propre calculatrice parmi les modèles compatibles, la Casio Graph 35eii est la moins chère en monochrome (moins de 65 euros), la Casio Graph 90+e et la Numworks (N0110 d’occasion non verrouillée) sont les moins chères en couleurs (80 euros), la HP Prime (120 euros ou plus) est la plus performante... Le meilleur rapport qualité prix est à mon avis la Graph 90.

Aucun logiciel de calcul formel n’est exempt de bugs, surtout s’il n’a pas été beaucoup testé (cas des calculatrices couleurs récentes). Cela peut se traduire par un calcul qui n’en finit pas ou un plantage de la calculatrice. Localisez l’emplacement du bouton Reset qui permet de réinitialiser votre calculatrice : Casio Graph 90+e/35eii/Numworks activable avec une pointe de stylo, HP Prime, activable avec une pointe de trombone ou une épingle.

Sur les Casio, en cas de crash de KhiCAS, vous pouvez en général taper sur la touche MENU et activer n’importe quelle autre application puis relancer KhiCAS. Si le problème persiste, ouvrez l’application Mémoire, puis F2 (mémoire de stockage) et effacez le fichier session.xw.

E.1  Casio Graph 90+e/35eii

Si vous ne voyez pas l’icone de Xcas depuis MENU, installez χ\chiCAS Le lien précédent explique plus en détails comment utiliser Xcas sur cette calculatrice, on en donne ici un petit résumé.

E.1.1  Généralités

Pour saisir une commande, cherchez-la depuis le catalogue, touche F4. Tapez sur F6 pour avoir une aide rapide sur la commande, tapez sur F2 ou F3 pour recopier un exemple en ligne de commande (on peut ensuite le modifier) ou sur F1 pour entrer le nom de commande.

Exemple : taper F4 puis 2 Algebre puis 3 factor puis F2 (Exemple 1) puis EXE. Taper EXIT pour quitter l’affichage 2d du résultat et revenir à l’historique.

Vous pouvez recopier une entrée précédente de l’historique en utilisant le pavé directionnel, sélectionnez la ligne à recopier puis EXE.

Pour taper une majuscule, taper d’abord sur la touche rouge ALPHA puis sur la touche correspondant à la légende en rouge (par exemple 2 pour V).

Pour bloquer le clavier en minuscules, taper F5. Un autre appui sur F5 bascule entre majuscules et minuscules. Taper ALPHA pour quitter le mode alphabétique.

L’unité d’angle par défaut est le radian, on peut le vérifier dans la ligne d’état (RAD). Si ce n’est pas le cas, faire shift, SETUP, 3, EXIT. Vérifiez aussi que vous êtes en mode Xcas : si Python apparait dans la ligne d’état, faire shift, SETUP, 2, EXIT.

Pour obtenir une approximation numérique d’une expression, on peut utiliser la commande approx(, raccourci clavier touche SDS\leftrightarrow D 2.

Pour visualiser la liste des variables définies, taper sur la touche VARS.

E.1.2  Interrompre/effacer.

Pour interrompre un calcul trop long, commencez par taper sur AC/ON. Si cela n’a pas d’effet, enfoncez un stylo dans le trou du bouton RESTART à l’arrière de la calculatrice.

Pour effacer l’historique, tapez sur AC/ON et confirmez. Si un bug d’affichage apparait (avec des caractères bizzares), effacer l’historique devrait résoudre le problème. Dans certains cas, il faut effacer les données de session de Xcas, pour cela taper sur la touche MENU, puis Memoire, puis F2 (Memoire de stockage), effacer les fichiers lastvar.py et session.xw.

La touche VARS permet de saisir la commande purge pour supprimer une variable, et la commande restart pour effacer toutes les variables.

E.1.3  Algèbre (bi-)linéaire

Pour saisir une matrice, vous pouvez l’entrer directement comme une liste de listes en ligne de commande par exemple
m=[[1,2],[3,4]]
Vous pouvez aussi utiliser le menu F6, 11 Editer matrice ou le raccourci shift-Mat, 1 matrix, donner le nom de variable de la matrice, puis le nombre de lignes et colonnes et remplir la matrice, terminer en tapant EXE. La matrice est visible dans la liste des variables (VARS).

Les opérations usuelles (+ - * /) s’appliquent aux matrices. On peut calculer l’inverse d’une matrice avec ^-1 (touche shift )). On peut calculer la transconjuguée d’une matrice (donc la transposée pour une matrice réelle) avec ^*

Le menu F4 puis 3 Algebre (bi)lineaire et 17 Matrices, et le menu rapide shift-2 (Mat) contiennent des commandes pour faire

La commande pour faire le pivot de Gauss s’appelle rref et peut être saisie au clavier (F5 puis rref) ou depuis le menu F4 Tout puis rr. Exemples

E.1.4  Coefficients de Fourier

Les commandes se trouvent dans le menu F4 puis 4 Analyse.

Par exemple pour avoir les coefficients de Fourier a n,n0a_n, n \neq 0 de la fonction f(x)=x 2f(x)=x^2 sur [π,π][-\pi,\pi], faire fourier_an(x^2,n). Pour avoir a 0a_0 faire fourier_an(x^2,0).

Si la période n’est pas [π,π][-\pi,\pi] il faut donner 5 arguments, par exemple sur [1,1][-1,1] avec comme période T=2T=2, fourier_an(x^2,x,2,n,-1)

Si la fonction est définie par morceaux, commencer par la définir avec la commande piecewise, par exemple
piecewise(x>0,exp(x),-exp(-x))
pour e xe^x si x>0x&gt;0 et e x-e^{-x} sinon (complétion par imparité de l’exponentielle pour calculer sa série en sinus). Pour saisir piecewise, taper F5 puis piecewise, ou depuis l menu F4 taper 1 (Tout) puis taper sur les touches p et i, puis EXE pour sélectionner piecewise.

Pour vérifier le théorème de Dirichlet ou l’identité de Parseval de manière approchée, on utilise la fonction sum (menu F1), par exemple pour Parseval






Si vous avez un résultat exact dans l’éditeur d’expression (par exemple parce que vous avez saisi pi^2/6 au lieu de pi^2/6.0), vous pouvez obtenir une valeur approchée de la sélection en surbrillance en tapant shift F6 (evalf). Vous pouvez changer la sélection avec les touches du curseur, en tapant plusieurs fois sur la flèche vers le haut vous pouvez sélectionner toute l’expression et en obtenir une valeur numérique avec shift F6.

E.1.5  Courbes

Pour tracer la représentation graphique d’une courbe, on peut utiliser l’application intégrée de Casio (cf. le manuel du constructeur), mais il n’est alors pas possible d’effectuer des calculs analytiques en même temps. On conseille donc de rester dans χ\chiCAS et d’utiliser la commande plot. Cette commande se trouve dans le sous-menu Graphiques : touches F4 puis 7 ou shift-touche de fractions, sélectionner la commande avec le curseur haut ou bas. Taper ensuite F2 pour recopier un exemple en ligne de commande, vous pouvez ensuite modifier cet exemple et l’exécuter.

La touche X,θ,tX,\theta,t permet de saisir tt ou xx selon le réglage du menu shift-SETUP.

Par exemple X:=x^2; plot(x,x=-pi..pi) Pour saisir X, taper ALPHA puis la touche + (X en rouge) ; pour saisir :=, taper shift-PRGM 2 =, , etc. Pour définir une variable, on peut omettre le :, i.e. écrire = à la place de :=

Utilisez les touches de déplacement du Pad pour bouger le graphique, les touches + et - pour faire un zoom in ou out et EXIT pour quitter.

Pour faire les calculs nécessaires à l’étude de la courbe, vous pouvez utiliser les fonctions de calcul formel (factor, simplify, solve, diff, limit, int, etc.) qui se trouvent dans les menus rapides F1/F2 ou par le menu complet (F4, puis Algebre ou Analyse ou Resoudre) ou via des raccourcis claviers (\rightarrow* pour factoriser, \rightarrow+ pour développer). Par exemple X1:=diff(X,t) (F2, 2) calcule la dérivée de XX par rapport à tt. X1=>* factorise la dérivée (touche \rightarrow pour saisir =>), solve(X1=0,t) cherche les zéros de la dérivée, etc.

Les calculs d’intégrales (F4 Analyse integrate) se font par défaut en cherchant une primitive ce qui peut être long ou/et ne pas aboutir, vous pouvez forcer le calcul approché d’une intégrale définie en mettant une des bornes sous forme d’un nombre approché par exemple 1.0 au lieu de 1.

E.1.6  Équations différentielles

Pour résoudre une équation ou un système différentiel linéaire, ouvrez le catalogue F4 puis Resoudre puis la commande desolve(, puis ses arguments, par exemple desolve(Y'=x*Y-x,x,Y) ou avec condition initiale desolve([Y'=x*Y-x,Y(0)=2],x,Y). Pour saisir le caractère prime de dérivation, taper F2 1.

  

Retour à la page principale de Giac/Xcas.
Ce document a été traduit de LATEX par HEVEA