La similarité essentielle dans les données matricielles de biologie et de finance

Physique, chimie, biologie, informatique, économie, finance, sociologie, psychologie… Tous les domaines passent aujourd'hui par des modèles mathématiques. Ces outils rigoureux permettent de rendre compte de phénomènes contre-intuitifs, ou bien de la validation quantitative de grandeurs. Ainsi, il n'est pas étonnant de retrouver des similarités entre deux modèles, venant chacun d'un domaine distinct…

Mathématiques

Biologie

page de dossier

• 3 Min

1/11

Quand biologie et finance se rencontrent grâce aux mathématiques

2/11

L'importance des mathématiques dans le monde

3/11

Modélisations mathématiques : quel lien entre biologie et finance ?

4/11

Mathématiques de données : des phénomènes identiques dans les données

5/11

Présentation de données matricielles : HiC et autocorrélation

6/11

Analyse de données : avant-goût de décomposition matricielle

7/11

La similarité essentielle dans les données matricielles de biologie et de finance

8/11

Présentation de quelques réseaux, et lien avec les matrices

9/11

Applications de l'équation (2) à la théorie des réseaux

10/11

Les compartiments nucléaires : comment les voir dans les données ?

11/11

Cas particulier de matrices : les séries temporelles

au sommaire

Nous verrons ici que la composante la plus forte montre des propriétés mathématiques identiques dans les données de la biologie et de la finance. Ainsi, le premier vecteur propre V₁ et le vecteur degrés Me sont très proches.

Étant donné la forte similarité des données, il convient d'exploiter la composante la plus conséquente de la matrice. En fait, elle a un comportement similaire dans les données de biologie et de finance.

Plus spécifiquement, que ce soit en biologie ou en finance, on observe que la valeur propre λ₁ est très, très grande par rapport à λ₂, pouvant être 1.000 voire 10.000 fois plus élevée ! Ce comportement implique en fait que les composantes du premier vecteur propre V₁ sont très proches des composantes du vecteur degrés Me, on dira que V₁ est très proche de Me, à un facteur de renormalisation des composantes de Me près, que l'on note 1/ llMell. Ainsi, on peut écrire la formule d'égalité des vecteurs suivante :

V₁ = Me/ llMell + E (2)

où E est appelé vecteur erreur. La théorie de l'algèbre linéaire permet d'estimer les composantes du vecteur E, et de démontrer qu'elles sont très petites devant les composantes du vecteur degrés renormalisées Me/ llMell. Cette caractérisation des petites composantes du vecteur E donne un sens au fait que λ₁ soit très élevé par rapport à λ₂, puisque, ainsi :

V₁ ≈ Me/ llMell

Figure 6 - En haut, il est représenté une carte de contact, suivi du graphique V<sub>1</sub> versus Me/ llMell. En bas, nous voyons la matrice des rendements du CAC 40, puis la matrice de corrélation, avec le graphique V<sub>1</sub> versus Me/ llMell. Dans les deux cas, les droites sont quasiment parfaites, comme en témoignent les coefficients de régression linéaire très proches de 1. © Julien Riposo - Tous droits réservés

Figure 6 - En haut, il est représenté une carte de contact, suivi du graphique V₁ versus Me/ llMell. En bas, nous voyons la matrice des rendements du CAC 40, puis la matrice de corrélation, avec le graphique V₁ versus Me/ llMell. Dans les deux cas, les droites sont quasiment parfaites, comme en témoignent les coefficients de régression linéaire très proches de 1. © Julien Riposo - Tous droits réservés

Concernant les cartes de contact en biologie, la somme de toutes les lignes de la j^e colonne donne le nombre de contact(s) physique(s) que la partie numéro j de l'ADNADN a avec l'ensemble des autres parties. On peut prouver que si la valeur propre λ₁ est aussi élevée, c'est parce qu'il y a un certain nombre de contacts très corrélés entre eux : la structure tridimensionnelle locale de l'ADN dans le noyau est corrélée à toute autre structure d'une autre localisation, révélant une longue portée spatiale de corrélation. Par ailleurs, si un scientifique de données (ou data scientist) voulait effectuer une analyse des vecteurs propres, il lui serait déconseillé de tenir compte du premier vecteur propre V₁ qui est redondant avec la matrice M elle-même, puisqu'il se rapproche du vecteur degrés Me que l'on obtient facilement à partir de la matrice M comme expliqué plus haut.

En finance, cette notion de corrélation fait tout autant surface : si la « valeur de marché » (c'est ainsi que l'on nomme λ₁ en finance) est aussi grande, c'est parce que les produits financiers constituant la matrice sont globalement très corrélés. Par exemple, si l'on forme une matrice d'autocorrélation avec des actifs d'un même indice boursierindice boursier (comme les actifs du CAC 40, du DAX ou ceux du S&P 500), qui sont tous très corrélés entre eux, la valeur de marche sera très élevée. Par ailleurs, l'établissement d'une méthode statistique de gestion de portefeuille à l'aide, entre autres, de l'équation (2) fait l'objet de recherches actuelles.

Nous voyons ici une tentative d'illustration de mathématiques de données : il aurait peut-être été impossible d'établir de façon rigoureuse un rapprochement entre les vecteurs V₁ et Me sans l'avoir déjà vu dans des données. Ce rapprochement a permis d'interpréter des données de domaines bien distincts que sont la biologie et la finance, bien que les mathématiques soient les mêmes. Mais il y a bien d'autres domaines encore que ce résultat peut intéresser, comme l'analyse spectrale d'un cliché de paysage, ou encore l'étude des corrélations des nœudsnœuds d'un réseau.

2/11

L'importance des mathématiques dans le monde

Page suivante