Filtrul Kalman: Ghid Tehnic pentru Finanțe și Lead Scoring

Autore: Francesco Zinghinì | Data: 16 Gennaio 2026

Filtrul Kalman este una dintre pietrele de temelie ale teoriei controlului și ingineriei sistemelor. Dezvoltat inițial de Rudolf E. Kalman în 1960 și devenit celebru prin utilizarea sa în computerul de ghidare al misiunilor Apollo, acest algoritm recursiv este standardul de facto pentru estimarea stării în sisteme zgomotoase, de la navigația GPS la robotică. Cu toate acestea, în 2026, aplicarea sa a depășit hardware-ul pentru a intra cu forță în lumea business intelligence și a finanțelor cantitative.

În acest articol tehnic, vom abandona metaforele superficiale pentru a ne concentra pe ingineria pură aplicată datelor de afaceri. Vom vedea cum să configurăm un filtru Kalman pentru două scopuri critice: curățarea semnalului în tendințele ratelor dobânzii (eliminând zgomotul de piață de înaltă frecvență) și estimarea dinamică a calității lead-urilor (Lead Scoring) în timp real. Spre deosebire de modelele de Machine Learning de tip “black box”, filtrul Kalman oferă transparență matematică și o latență aproape nulă, făcându-l ideal pentru sistemele decizionale automatizate.

Fundamente Teoretice: De ce Filtrul Kalman?

Problema fundamentală pe care o rezolvă filtrul este estimarea stării ascunse a unui sistem ($x$) bazându-se pe măsurători observabile ($z$) care sunt afectate de zgomot. Într-un context de business:

Starea ($x$): Este “adevărul” pe care vrem să-l cunoaștem. Exemplu: interesul real al unui client (Lead Score) sau tendința structurală a unui curs de schimb.
Măsurătoarea ($z$): Este ceea ce vedem. Exemplu: un click pe un e-mail (care ar putea fi accidental) sau prețul de închidere zilnic (afectat de volatilitatea speculativă).

Filtrul operează într-un ciclu în două faze: Predicție (Time Update) și Corecție (Measurement Update). Puterea sa rezidă în capacitatea de a pondera fiabilitatea predicției noastre matematice față de fiabilitatea noii măsurători, printr-o variabilă calculată dinamic numită Câștigul Kalman ($K$).

Configurarea Matematică a Matricelor

Pentru a implementa filtrul, trebuie să definim ecuațiile de stare. Presupunem un sistem liniar discret:

$$x_k = F_k x_{k-1} + B_k u_k + w_k$$

$$z_k = H_k x_k + v_k$$

Unde:

$F$ (Matricea de Tranziție a Stării): Cum evoluează starea de una singură în timp.
$H$ (Matricea de Observare): Cum este mapată starea în măsurătoare.
$Q$ (Covarianța Zgomotului de Proces): Cât de mult deviază sistemul real de la modelul ideal ($w_k$).
$R$ (Covarianța Zgomotului de Măsurare): Cât de nesiguri sunt senzorii/datele noastre ($v_k$).
$P$ (Covarianța Erorii de Estimare): Incertitudinea noastră actuală cu privire la estimarea stării.

Secretul stă în Q și R

“Magia” inginerească stă în reglarea lui $Q$ și $R$. Dacă setăm un $R$ ridicat, îi spunem filtrului: “Nu te încrede prea mult în măsurători, sunt zgomotoase; încrede-te mai mult în predicția istorică”. Dacă setăm un $Q$ ridicat, spunem: “Sistemul este foarte volatil, își schimbă direcția rapid”.

Cazul de Utilizare 1: Predicția și Curățarea Ratelor Dobânzii

Piețele financiare sunt zgomotoase. O medie mobilă (Moving Average) introduce o întârziere (lag) inacceptabilă pentru tranzacționarea de înaltă frecvență. Filtrul Kalman, în schimb, estimează starea curentă minimizând eroarea pătratică medie, oferind un semnal “curat” cu o întârziere minimă.

Configurarea Modelului

Să ne imaginăm că urmărim EUR/USD. Considerăm starea $x$ ca o pereche [Preț, Viteză].

Matricea $F$: Modelează fizica prețului. Dacă presupunem viteză constantă:
$$F = begin{bmatrix} 1 & Delta t 0 & 1 end{bmatrix}$$
Matricea $H$: Observăm doar prețul, nu viteza direct.
$$H = begin{bmatrix} 1 & 0 end{bmatrix}$$
Matricea $R$: Calculată pe baza varianței istorice a zgomotului intraday.

Aplicând acest filtru, obținem o curbă care ignoră vârfurile speculative (zgomot $v_k$) dar reacționează prompt la schimbările de tendință structurale (dinamica sistemului), permițând identificarea inversiunilor de piață înaintea unei medii mobile exponențiale (EMA).

Cazul de Utilizare 2: Lead Scoring Dinamic în Funnel

În marketingul B2B, Lead Scoring-ul tradițional este static (ex. “A descărcat ebook-ul = +5 puncte”). Această abordare ignoră scăderea interesului în timp și incertitudinea acțiunilor utilizatorului. Putem modela interesul unui utilizator ca o stare fizică ce se deplasează în spațiu.

Modelarea Intenției Utilizatorului

Definim starea $x$ ca o valoare scalară continuă de la 0 la 100 (Nivel de Interes).

Dinamica Procesului ($F$): Interesul scade natural în timp dacă nu este alimentat. Putem seta $F = 0.95$ (scădere exponențială zilnică).
Input de Control ($B cdot u$): Acțiunile de marketing (ex. trimiterea unui e-mail) sunt forțe externe care împing starea în sus.
Măsurători ($z$): Interacțiunile utilizatorului (click-uri, vizite pe site).
Zgomot de Măsurare ($R$): Aici stă genialitatea. Nu toate click-urile sunt egale.
- Click pe “Pagina de Prețuri”: $R$ scăzut (încredere ridicată, semnal puternic).
- Click pe “Articol Blog generic”: $R$ ridicat (încredere scăzută, mult zgomot).

Filtrul va actualiza scorul lead-ului în mod probabilistic. Dacă un utilizator vizitează pagina de prețuri (măsurătoare puternică), filtrul va ridica drastic estimarea și va reduce matricea de covarianță $P$ (certitudine mai mare). Dacă utilizatorul dispare timp de două săptămâni, dinamica $F$ va face ca scorul să scadă, iar $P$ va crește (suntem mai puțin siguri de starea sa).

Implementare Practică în Python

Iată un exemplu simplificat utilizând biblioteca numpy pentru a implementa un filtru monodimensional pentru Lead Scoring.

import numpy as np

class KalmanFilter:
    def __init__(self, F, B, H, Q, R, P, x):
        self.F = F  # Tranziție de stare
        self.B = B  # Matrice de control
        self.H = H  # Matrice de observare
        self.Q = Q  # Zgomot de proces
        self.R = R  # Zgomot de măsurare
        self.P = P  # Covarianță eroare
        self.x = x  # Stare inițială

    def predict(self, u=0):
        # Predicția stării
        self.x = self.F * self.x + self.B * u
        # Predicția covarianței
        self.P = self.F * self.P * self.F + self.Q
        return self.x

    def update(self, z):
        # Calculul reziduului de măsurare
        y = z - self.H * self.x
        # Calculul câștigului Kalman (K)
        S = self.H * self.P * self.H + self.R
        K = self.P * self.H / S
        
        # Actualizare stare și covarianță
        self.x = self.x + K * y
        self.P = (1 - K * self.H) * self.P
        return self.x

# Configurare pentru Lead Scoring
# Stare inițială: 50/100, Incertitudine P ridicată
kf = KalmanFilter(F=0.98, B=5, H=1, Q=0.1, R=10, P=100, x=50)

# Ziua 1: Nicio acțiune (Scădere)
print(f"Ziua 1 (Nicio acțiune): {kf.predict(u=0):.2f}")

# Ziua 2: Utilizatorul vizitează Prețuri (Măsurare z=90, R scăzut dinamic)
kf.R = 2 # Încredere ridicată
kf.predict(u=0)
print(f"Ziua 2 (Vizită Prețuri): {kf.update(z=90):.2f}")

Kalman vs Machine Learning: De ce să-l alegi pe primul?

În era Inteligenței Artificiale generative și a rețelelor neuronale profunde, de ce să ne întoarcem la un algoritm din 1960? Răspunsul rezidă în eficiență și explicabilitate.

Date necesare: Rețelele neuronale necesită terabytes de date istorice pentru antrenare. Filtrul Kalman necesită doar starea anterioară și măsurătoarea actuală. Este operațional din “Ziua 1”.
Cost Computațional: Filtrul Kalman este constituit din operații matriceale simple. Poate rula pe microcontrolere sau servere supraîncărcate cu latență neglijabilă.
Transparență: Dacă modelul greșește, putem inspecta matricea $P$ sau câștigul $K$ pentru a înțelege exact de ce. Nu este o “Black Box”.

Concluzii

Aplicarea filtrului Kalman în afara ingineriei electronice necesită o schimbare de paradigmă: trebuie să încetăm să vedem datele de business ca simple numere și să începem să le vedem ca semnale emise de un sistem dinamic. Fie că este vorba de prezicerea traiectoriei unei rachete sau a propensiunii de cumpărare a unui client, matematica estimării stării rămâne aceeași. Pentru companiile care caută avantaje competitive în timp real, stăpânirea acestor instrumente de control oferă un avantaj strategic net față de concurenții care se bazează încă pe medii statice sau pe modele ML opace și lente.

Întrebări frecvente

La ce servește filtrul Kalman în Business Intelligence?

Acest algoritm recursiv este utilizat pentru a estima starea reală a unui sistem pornind de la date afectate de zgomot. În domeniul afacerilor, permite curățarea semnalelor în tendințele financiare sau evaluarea calității lead-urilor în timp real, depășind limitele analizelor statice și tratând metricile ca variabile dinamice care evoluează în timp.

Care sunt diferențele dintre filtrul Kalman și Machine Learning?

Diferența principală rezidă în eficiență și transparență. În timp ce Machine Learning necesită cantități enorme de date istorice și este adesea o cutie neagră, filtrul Kalman funcționează cu o latență aproape nulă, necesită puține resurse computaționale și este explicabil matematic, făcându-l ideal pentru decizii automatizate imediate fără antrenare masivă.

De ce este filtrul Kalman mai bun decât mediile mobile în trading?

Mediile mobile tradiționale introduc o întârziere care poate fi costisitoare în tranzacționarea de înaltă frecvență. Filtrul Kalman, în schimb, minimizează întârzierea de estimare în timp real, separând zgomotul de piață speculativ de tendințele structurale. Acest lucru permite identificarea inversiunilor de piață mult mai rapid comparativ cu indicatorii clasici precum EMA.

Cum funcționează Lead Scoring-ul dinamic cu acest algoritm?

În loc să atribuie puncte statice, modelul consideră interesul potențialului client ca o valoare care scade natural în timp dacă nu este stimulată. În plus, ponderează diferit acțiunile efectuate prin matricea de covarianță, atribuind o certitudine mai mare semnalelor puternice, cum ar fi vizita pe pagina de prețuri, comparativ cu interacțiunile generice.

Ce indică matricele Q și R în configurarea modelului?

Aceste matrice reglează sensibilitatea calculului. Q reprezintă volatilitatea sistemului real, în timp ce R indică cât de zgomotoase sau nesigure sunt măsurătorile. Echilibrând acești doi parametri, se instruiește filtrul cu privire la cât de mult să se încreadă în predicția matematică față de noile date observate, optimizând estimarea finală.