Come accennato nel paragrafo precedente, lo standard AdLib utilizzava la sintesi a modulazione di frequenza (FM), molto in voga negli anni '80. Questa tecnica, sviluppata all'inizio degli anni '70 dal dottor John Chowning dell'Università di Stanford, si basa sulla generazione di un'onda sinusoidale (portante) e di una seconda onda modulata, il modulatore. Nel momento in cui i due operatori hanno approssimativamente la stessa frequenza, si creano forme d'onda complesse e armoniche che si avvicinano molto a quelle degli strumenti acustici. In effetti, è così che funzionano i sintetizzatori FM.
La tecnologia FM offre possibilità quasi illimitate di generare suoni elettronici, quella di molti strumenti FM si rivela tuttavia troppo artificiale e scarna per stupire il discepolo multimediale più esigente. La sintesi WaveTable, però, è arrivata in soccorso.
Questa tecnologia non cercava più di generare sinteticamente lo spettro acustico degli strumenti: memorizzava lo spettro sonoro di uno strumento e le forme d'onda corrispondenti in una memoria ROM che veniva saldata direttamente alla scheda audio o poteva essere montata a posteriori come modulo plug-in opzionale.
Con le schede audio WaveTable si è dipendenti dai suoni esistenti in un formato dati o hardware corrispondente, il risultato è legato alla qualità delle forme d'onda, alle dimensioni della memoria e al numero di campioni per strumento. Gli strumenti acustici si contraddistinguono tuttavia anche per altre specifiche caratteristiche: suonando piano il pianoforte, ad esempio, la percussione del martelletto sulla corda e impercettibile. Suonando ad alto volume, non solo saranno udibili i rumori dovuti alla meccanica ma si verificano anche altri piccoli cambiamenti nel suono (come il coinvolgimento delle corde vicine che iniziano così a vibrare). In breve: una buona qualità richiede memoria e potenza di calcolo ed è questa la tecnologia che i campionatori e molte tastiere utilizzano per generare il suono.
Queste interfacce aprono la strada ai segnali audio che entrano ed escono dal computer: si possono immaginare come guardiani della transizione tra il mondo musicale esterno e il semplice schermo digitale di un computer.
Il convertitore A/D (analogico-digitale) dell'interfaccia audio deve incanalare i segnali analogici nel dominio 0 (zero) e 1 (uno): il livello del segnale presente viene misurato a intervalli molto brevi (ad esempio, a una frequenza di campionamento di 48 kHz esattamente 48.000 volte al secondo) e assegnato al valore digitale più vicino e comprensibile dal computer. A differenza dell'“infinito analogico”, questo non presenta transizioni uniformi ma solo un numero limitato di valori fissi (rappresentati dal numero di bit con cui lavorano i convertitori). La curva di livello continuo del segnale analogico viene quindi scomposta in piccolissimi frammenti temporali per formare una colonna continua di numeri. Solo con questo flusso di dati digitali il computer è in grado di operare.
Per la riproduzione è necessario il processo inverso: il convertitore D/A (da digitale ad analogico) dell'interfaccia audio deve ricreare una forma d'onda continua dalla sequenza di numeri provenienti dal computer, che deve corrispondere il più esattamente possibile alla sequenza analogica originale.
In entrambi i casi si parla di (ri)conversione: i circuiti elettronici vengono perciò chiamati convertitori (si sono affermate anche le abbreviazioni inglesi “ADC” per convertitore analogico-digitale e “DAC” per convertitore digitale-analogico). La qualità di questi componenti è in gran parte - ma non esclusivamente - responsabile della qualità dell'intera interfaccia audio. La sola frequenza di campionamento massima non consente tuttavia di trarre conclusioni sulla qualità del suono dell'interfaccia: ne esistono oggi di molto economiche, in grado di raggiungere 96 kHz o più, ma che non suonano ancora particolarmente bene.
Il segnale in ingresso viene misurato nel convertitore A/D a piccoli intervalli e ad esso viene assegnato un valore digitale.
Il segnale digitale può quindi essere elaborato come informazione binaria comprensibile al computer.
La digitalizzazione trasforma l'onda sinusoidale “tonda” in un segnale graduale, il cui suono si percepisce attraverso armoniche aggiuntive poi nuovamente rimosse, durante la conversione D/A, dal cosiddetto filtro di ricostruzione. Anche la qualità di quest’ultimo influisce sul suono complessivo del convertitore.
Un altro aspetto che gioca un ruolo importante nella qualità del segnale audio è la precisione del clock, che determina l’inizio del campione successivo. Nessun clock al mondo può essere infinitamente preciso, le piccole alterazioni del tempo di campionamento sono purtroppo inevitabili: con 48.000 campioni al secondo anche una minima variazione può far sì che il campione abbia un valore diverso da quello che dovrebbe avere in realtà. Le lievi variazioni del clock sono note come jitter: a seconda della fascia di prezzo dell'interfaccia, il produttore potrebbe aver investito molto tempo e denaro nello sviluppo di un clock a basso jitter.
Grazie ai collegamenti digitali (come S/PDIF o ADAT), l'interfaccia audio assicura principalmente che il computer “capisca” il rispettivo formato di dati e possa elaborarlo ulteriormente. Poiché i dati audio sono già disponibili in formato digitale, la conversione in senso proprio non è più necessaria.
Se diversi dispositivi audio fossero collegati tra loro tramite un'interfaccia digitale, sarebbe importante che funzionassero tutti secondo lo stesso clock. Se così non fosse, potrebbe accadere che un dispositivo invii un campione mentre l'altro non se lo aspetta affatto, o viceversa. Nella pratica, questo si manifesta come un suono gracchiante.