arduino-audio-tools/_codec_d_s_f_8h_source.html

#pragma once

// #pragma GCC optimize("Ofast")

#pragma GCC optimize("O3")


#include "AudioTools/AudioCodecs/AudioCodecsBase.h"

#include "AudioTools/CoreAudio/AudioFilter/Filter.h"

#include "AudioTools/CoreAudio/Buffers.h"


#define DSD_BUFFER_SIZE 1024 * 2


namespace audio_tools {


struct DSFMetadata : public AudioInfo {

  DSFMetadata() = default;

  DSFMetadata(int rate) { sample_rate = rate; }

  uint32_t dsd_sample_rate =

      0;

  uint64_t dsd_data_bytes = 0;

  uint8_t dsd_bits = 1;

  uint64_t pcm_frames = 0;

  float duration_sec = 0;

  uint32_t dsd_buffer_size =

      DSD_BUFFER_SIZE;

  float filter_q = 0.5f; //1.41f;

  float filter_cutoff = 0.4f;

  int output_buffer_size = 1024;

};


struct __attribute__((packed)) DSDPrefix {

  char id[4];               // "DSD "

  uint64_t chunkSize;       // 28

  uint64_t fileSize;        // total file size

  uint64_t metadataOffset;  // offset to "ID3 " chunk (0 if none)

};


struct __attribute__((packed)) DSFFormat {

  char id[4];                    // "fmt "

  uint64_t chunkSize;            // 52

  uint32_t formatVersion;        // 1

  uint32_t formatID;             // 0

  uint32_t channelType;          // e.g., 2 for stereo

  uint32_t channelNum;           // number of channels

  uint32_t samplingFrequency;    // e.g., 2822400

  uint32_t bitsPerSample;        // 1

  uint64_t sampleCount;          // total samples per channel

  uint32_t blockSizePerChannel;  // e.g., 4096

  uint32_t reserved;             // 0

};


struct __attribute__((packed)) DSFDataHeader {

  char id[4];          // "data"

  uint64_t chunkSize;  // size of DSD data

  // followed by: uint8_t rawData[chunkSize];

};


class DSFDecoder : public AudioDecoder {

 public:

  DSFDecoder() = default;

  DSFDecoder(DSFMetadata metaData) { setMetaData(metaData); };


  AudioInfo audioInfo() override { return meta; }


  void setAudioInfo(AudioInfo from) override {

    TRACED();

    AudioDecoder::setAudioInfo(from);

    meta.copyFrom(from);

    if (isHeaderAvailable()){

      // Ensure PCM buffer is allocated based on the new audio info

      int buffer_size = getOutputBufferSize();

      pcmBuffer.resize(buffer_size);

      channelAccum.resize(meta.channels);

      channelIntegrator.resize(meta.channels);


      setupTargetPCMRate();

      setupDecimationStep();

    }

  }


  bool begin() {

    TRACED();

    dsdBuffer.resize(meta.dsd_buffer_size);

    dsdBuffer.reset();

    headerParsed = false;

    headerSize = 0;

    dataSize = 0;

    filePos = 0;

    decimationStep = 64;

    max_value = 0;


    // update decimaten step & filter parameters

    isActive = true;


    return true;

  }


  void end() override { isActive = false; }


  const DSFMetadata getMetadata() { return meta; }


  void setMetaData(DSFMetadata metaData) {

    meta = metaData;

    AudioDecoder::setAudioInfo(meta);

  }


  bool isHeaderAvailable() { return headerParsed; }


  operator bool() { return isActive; }


  size_t write(const uint8_t* data, size_t len) {

    LOGD("write: %u", (unsigned)len);

    size_t i = 0;


    // Phase 1: Parse DSF header to extract format information

    i += processHeader(data, len, i);


    // Phase 2: Process audio data (buffer DSD + convert to PCM)

    if (headerParsed && i < len) {

      i += processDSDData(data, len, i);

    }


    return len;  // Always report full consumption for streaming compatibility

  }


 protected:

  // Header parsing state

  size_t headerSize;

  bool headerParsed = false;

  bool isActive = false;

  uint64_t dataSize;

  size_t filePos;


  // Processing buffers and state

  SingleBuffer<uint8_t> pcmBuffer{0};

  Vector<float> channelAccum;

  Vector<LowPassFilter<float>>

      channelFilters;

  RingBuffer<uint8_t> dsdBuffer{0};

  uint32_t decimationStep;

  Vector<float> channelIntegrator;


  // Metadata

  DSFMetadata meta;

  float max_value = 0.0f;


  int getOutputBufferSize() {

    int frame_size = meta.bits_per_sample / 8 * meta.channels;

    if (meta.bits_per_sample == 24) frame_size = 4 * meta.channels;

    int buffer_size = frame_size;

    if (meta.output_buffer_size > buffer_size)

      buffer_size = meta.output_buffer_size;

    return buffer_size;

  }


  size_t processHeader(const uint8_t* data, size_t len, size_t startPos) {

    if (headerParsed) return 0;

    LOGI("processHeader: %u (%u)", (unsigned)len, (unsigned)startPos);


    // Check for DSD header magic

    if (memcmp(data, "DSD ", 4) != 0) {

      LOGE("Invalid DSF header magic");

      return 0;

    }


    int dataPos = findTag("data", data, len);

    int fmtPos = findTag("fmt ", data, len);

    if (dataPos < 0 || fmtPos < 0) {

      LOGE("DSF header not found in data (fmt: %d, data: %d)", fmtPos, dataPos);

      return 0;  // No valid header found

    }

    // parse the data

    parseFMT(data + fmtPos, len - fmtPos);

    parseData(data + dataPos, len - dataPos);

    headerParsed = true;


    // update audio info and initialize filters

    setAudioInfo(meta);


    return dataPos + sizeof(DSFDataHeader);

  }


  size_t processDSDData(const uint8_t* data, size_t len, size_t startPos) {

    LOGD("processDSDData: %u (%u)", (unsigned)len, (unsigned)startPos);

    size_t bytesProcessed = 0;


    // Buffer as much DSD data as possible

    bytesProcessed += bufferDSDData(data, len, startPos);


    // Convert buffered DSD data to PCM output

    convertDSDToPCM();


    return bytesProcessed;

  }


  size_t bufferDSDData(const uint8_t* data, size_t len, size_t startPos) {

    int write_len = len - startPos;

    if (write_len > dsdBuffer.availableForWrite()) {

      write_len = dsdBuffer.availableForWrite();

    }

    dsdBuffer.writeArray(data + startPos, write_len);

    filePos += write_len;


    return write_len;

  }


  void convertDSDToPCM() {

    while (hasEnoughData()) {

      // Initialize accumulators

      for (int ch = 0; ch < meta.channels; ch++) {

        channelAccum[ch] = 0.0f;

      }

      // Initialize integrator states

      for (int ch = 0; ch < meta.channels; ch++) {

        channelIntegrator[ch] = 0.0f;

      }


      // Accumulate DSD samples over decimation period

      // DSF uses byte interleaving: bytes alternate between channels

      int bytesPerDecimationStep = decimationStep / 8;

      int samplesProcessed = 0;


      for (int i = 0; i < bytesPerDecimationStep && !dsdBuffer.isEmpty(); i++) {

        for (int ch = 0; ch < meta.channels && !dsdBuffer.isEmpty(); ch++) {

          uint8_t dsdByte;

          if (dsdBuffer.read(dsdByte)) {

            // Each byte contains 8 DSD samples for the current channel

            // Use integrator-based approach for better DSD conversion

            for (int bit = 0; bit < 8; bit++) {

              int channelBit = (dsdByte >> (7 - bit)) & 1;  // MSB first in DSF


              // Delta-sigma integration: accumulate the difference

              channelIntegrator[ch] += channelBit ? 1.0f : -1.0f;


              // Apply decay to prevent DC buildup

              channelIntegrator[ch] *= 0.9999f;

            }


            // Add integrated value to channel accumulator

            channelAccum[ch] += channelIntegrator[ch];

            samplesProcessed += 8;

          }

        }

      }


      float samplesPerChannel = samplesProcessed / meta.channels;


      if (samplesPerChannel > 0) {

        for (int ch = 0; ch < meta.channels; ch++) {

          // Normalize by sample count and apply scaling factor

          channelAccum[ch] = channelAccum[ch] / samplesPerChannel * 0.8f;

          if (meta.filter_cutoff > 0.0f &&

              meta.filter_q > 0.0f) {  // Only apply filter if configured

            // Apply low-pass filter to remove high-frequency noise

            channelAccum[ch] = channelFilters[ch].process(channelAccum[ch]);

          }

          //Serial.print(channelAccum[ch]);

          //Serial.print(" ");


          // Convert to PCM sample and store in buffer

          writePCMSample(clip(channelAccum[ch]));

        }

      }


      //Serial.println();


      // Output the PCM samples for all channels

      if (pcmBuffer.isFull()) {

        size_t frameSize = pcmBuffer.available();

        size_t written =

            getOutput()->write((uint8_t*)pcmBuffer.data(), frameSize);

        if (written != frameSize) {

          LOGE(

              "Failed to write PCM samples: expected %zu bytes, wrote %zu "

              "bytes",

              frameSize, written);

        }

        pcmBuffer.reset();

      }

    }

  }


  float clip(float value) {

    if (value > 1.0f) return 1.0f;

    if (value < -1.0f) return -1.0f;

    return value;

  }


  void setupTargetPCMRate() {

    TRACEI();


    // Initialize filters for the correct number of channels

    if (meta.sample_rate > 0 && meta.channels > 0) {

      float cutoffFreq =

          meta.sample_rate * meta.filter_cutoff;  // 40% of Nyquist frequency

      channelFilters.resize(meta.channels);

      for (int i = 0; i < meta.channels; i++) {

        channelFilters[i].begin(cutoffFreq, meta.sample_rate, meta.filter_q);

      }

    }

  }


  void setupDecimationStep() {

    TRACEI();

    if (meta.sample_rate == 0 || meta.dsd_sample_rate == 0) {

      LOGE("Invalid sample rates: DSD=%u, PCM=%u",

           (unsigned)meta.dsd_sample_rate, (unsigned)meta.sample_rate);

      return;

    }


    decimationStep = meta.dsd_sample_rate / meta.sample_rate;

    if (decimationStep < 64) {

      LOGW("Decimation step %u too low, setting to 64",

           (unsigned)decimationStep);

      decimationStep = 64;

    }

    if (decimationStep > 512) {

      LOGW("Decimation step %u too high, setting to 512",

           (unsigned)decimationStep);

      decimationStep = 512;

    }


    // Ensure decimation step is multiple of 8 for clean byte processing

    decimationStep = (decimationStep / 8) * 8;

    if (decimationStep < 64) decimationStep = 64;


    LOGI("Decimation step set to %u for DSD rate %u and target PCM rate %u",

         (unsigned)decimationStep, (unsigned)meta.dsd_sample_rate,

         (unsigned)meta.sample_rate);

  }


  bool hasEnoughData() {

    // DSF uses byte interleaving: each decimation step needs enough bytes

    // to cover all channels. Each byte contains 8 DSD samples for one

    // channel.

    int bytesPerDecimationStep = (decimationStep / 8) * meta.channels;

    if (bytesPerDecimationStep < meta.channels)

      bytesPerDecimationStep = meta.channels;


    return dsdBuffer.available() >= bytesPerDecimationStep;

  }


  void writePCMSample(float filteredValue) {

    switch (meta.bits_per_sample) {

      case 8: {

        int8_t buffer8 = static_cast<int8_t>(filteredValue * 127.0f);

        pcmBuffer.write(buffer8);

        break;

      }

      case 16: {

        int16_t buffer16 = static_cast<int16_t>(filteredValue * 32767.0f);

        pcmBuffer.writeArray((uint8_t*)&buffer16, sizeof(int16_t));

        break;

      }

      case 24: {

        int24_t buffer24 =

            static_cast<int24_t>(filteredValue * 8388607.0f);  // 2^23 - 1

        pcmBuffer.writeArray((uint8_t*)&buffer24, sizeof(int24_t));

        break;

      }

      case 32: {

        int32_t buffer32 =

            static_cast<int32_t>(filteredValue * 2147483647.0f);  // 2^31 -

        pcmBuffer.writeArray((uint8_t*)&buffer32, sizeof(int32_t));

        break;

      }

      default:

        LOGE("Unsupported bits per sample: %d", meta.bits_per_sample);

        break;

    }

  }


  int findTag(const char* tag, const uint8_t* data, size_t len) {

    int taglen = strlen(tag);

    uint32_t* pt;

    for (int j = 0; j < len - taglen; j++) {

      if (memcmp(tag, data + j, taglen) == 0) {

        return j;  // Found the tag at position j

      }

    }

    return -1;

  }


  bool parseFMT(const uint8_t* data, size_t len) {

    TRACEI();

    if (len < sizeof(DSFFormat)) {

      LOGE("FMT section too short to parse DSF format header");

      return false;  // Not enough data to parse

    }

    DSFFormat* fmt = (DSFFormat*)data;

    meta.channels = fmt->channelNum;

    // Fallback to channel type if channels is 0

    if (meta.channels == 0) meta.channels = fmt->channelType;

    meta.dsd_sample_rate = fmt->samplingFrequency;


    // Validate channel count

    if (meta.channels == 0 || meta.channels > 8) {

      LOGE("Invalid channel count: %u (must be 1-8)", (unsigned)meta.channels);

      return false;

    }


    LOGI("channels: %u, DSD sample rate: %u", (unsigned)meta.channels,

         (unsigned)meta.dsd_sample_rate);

    return true;

  }


  bool parseData(const uint8_t* data, size_t len) {

    TRACEI();

    if (len < sizeof(DSFDataHeader)) {

      LOGE("Data section too short to parse DSF data header");

      return false;  // Not enough data to parse

    }

    DSFDataHeader* header = (DSFDataHeader*)data;

    dataSize = header->chunkSize;

    meta.dsd_data_bytes = dataSize;


    uint64_t totalBits = dataSize * 8;

    uint64_t totalDSDSamples = totalBits / meta.channels;

    uint64_t totalPCMFrames =

        totalDSDSamples / (meta.dsd_sample_rate / meta.sample_rate);

    meta.pcm_frames = totalPCMFrames;

    meta.duration_sec = (float)totalPCMFrames / meta.sample_rate;

    return true;

  }


};


}  // namespace audio_tools

DSD_BUFFER_SIZE
#define DSD_BUFFER_SIZE
Buffer size for DSD data processing - must accommodate decimation step.
Definition CodecDSF.h:36

audio_tools::AudioDecoder
Decoding of encoded audio into PCM data.
Definition AudioCodecsBase.h:18

audio_tools::AudioDecoder::setAudioInfo
void setAudioInfo(AudioInfo from) override
for most decoders this is not needed
Definition AudioCodecsBase.h:28

audio_tools::BaseBuffer::writeArray
virtual int writeArray(const T data[], int len)
Fills the buffer data.
Definition Buffers.h:55

audio_tools::DSFDecoder
DSF (DSD Stream File) format decoder.
Definition CodecDSF.h:125

audio_tools::DSFDecoder::isHeaderAvailable
bool isHeaderAvailable()
Check if decoder is ready.
Definition CodecDSF.h:199

audio_tools::DSFDecoder::headerParsed
bool headerParsed
Flag indicating if header parsing is complete.
Definition CodecDSF.h:235

audio_tools::DSFDecoder::meta
DSFMetadata meta
Extracted DSF file metadata.
Definition CodecDSF.h:253

audio_tools::DSFDecoder::convertDSDToPCM
void convertDSDToPCM()
Convert buffered DSD data to PCM samples and output them.
Definition CodecDSF.h:366

audio_tools::DSFDecoder::getOutputBufferSize
int getOutputBufferSize()
The buffer size is defined in the metadata: it must be at least 1 frame.
Definition CodecDSF.h:257

audio_tools::DSFDecoder::headerSize
size_t headerSize
Current size of accumulated header data.
Definition CodecDSF.h:234

audio_tools::DSFDecoder::channelIntegrator
Vector< float > channelIntegrator
Definition CodecDSF.h:249

audio_tools::DSFDecoder::setAudioInfo
void setAudioInfo(AudioInfo from) override
Definition CodecDSF.h:134

audio_tools::DSFDecoder::begin
bool begin()
Initialize the decoder.
Definition CodecDSF.h:159

audio_tools::DSFDecoder::setupTargetPCMRate
void setupTargetPCMRate()
Set up low-pass filters for all channels.
Definition CodecDSF.h:464

audio_tools::DSFDecoder::processDSDData
size_t processDSDData(const uint8_t *data, size_t len, size_t startPos)
Process DSD audio data: buffer it and convert to PCM when possible.
Definition CodecDSF.h:314

audio_tools::DSFDecoder::getMetadata
const DSFMetadata getMetadata()
Get DSF file metadata.
Definition CodecDSF.h:185

audio_tools::DSFDecoder::channelAccum
Vector< float > channelAccum
Definition CodecDSF.h:243

audio_tools::DSFDecoder::clip
float clip(float value)
Clips audio values to valid range.
Definition CodecDSF.h:450

audio_tools::DSFDecoder::setupDecimationStep
void setupDecimationStep()
Calculate optimal decimation step for DSD to PCM conversion.
Definition CodecDSF.h:486

audio_tools::DSFDecoder::pcmBuffer
SingleBuffer< uint8_t > pcmBuffer
Definition CodecDSF.h:241

audio_tools::DSFDecoder::isActive
bool isActive
Flag indicating if decoder is active and ready.
Definition CodecDSF.h:236

audio_tools::DSFDecoder::parseData
bool parseData(const uint8_t *data, size_t len)
Parse DSF data chunk to extract audio data information.
Definition CodecDSF.h:634

audio_tools::DSFDecoder::dataSize
uint64_t dataSize
Size of audio data section in bytes.
Definition CodecDSF.h:237

audio_tools::DSFDecoder::findTag
int findTag(const char *tag, const uint8_t *data, size_t len)
Find a specific tag within binary data.
Definition CodecDSF.h:580

audio_tools::DSFDecoder::filePos
size_t filePos
Current position in DSF file.
Definition CodecDSF.h:238

audio_tools::DSFDecoder::decimationStep
uint32_t decimationStep
Decimation factor for DSD to PCM conversion.
Definition CodecDSF.h:248

audio_tools::DSFDecoder::dsdBuffer
RingBuffer< uint8_t > dsdBuffer
Ring buffer for DSD data.
Definition CodecDSF.h:247

audio_tools::DSFDecoder::channelFilters
Vector< LowPassFilter< float > > channelFilters
Anti-aliasing filters for each channel.
Definition CodecDSF.h:246

audio_tools::DSFDecoder::bufferDSDData
size_t bufferDSDData(const uint8_t *data, size_t len, size_t startPos)
Buffer incoming DSD data into ring buffer.
Definition CodecDSF.h:337

audio_tools::DSFDecoder::processHeader
size_t processHeader(const uint8_t *data, size_t len, size_t startPos)
Process header data until header is complete or data is exhausted.
Definition CodecDSF.h:277

audio_tools::DSFDecoder::writePCMSample
void writePCMSample(float filteredValue)
Convert filtered DSD value to PCM sample in the buffer.
Definition CodecDSF.h:540

audio_tools::DSFDecoder::parseFMT
bool parseFMT(const uint8_t *data, size_t len)
Parse DSF format chunk to extract audio parameters.
Definition CodecDSF.h:601

audio_tools::DSFDecoder::audioInfo
AudioInfo audioInfo() override
provides the actual input AudioInfo
Definition CodecDSF.h:130

audio_tools::DSFDecoder::hasEnoughData
bool hasEnoughData()
Check if sufficient DSD data is available for conversion.
Definition CodecDSF.h:524

audio_tools::DSFDecoder::write
size_t write(const uint8_t *data, size_t len)
Main entry point for processing incoming DSF data.
Definition CodecDSF.h:217

audio_tools::RingBuffer
Implements a typed Ringbuffer.
Definition Buffers.h:341

audio_tools::RingBuffer::read
bool read(T &result) override
reads a single value
Definition Buffers.h:348

audio_tools::RingBuffer::availableForWrite
virtual int availableForWrite() override
provides the number of entries that are available to write
Definition Buffers.h:413

audio_tools::RingBuffer::reset
virtual void reset() override
clears the buffer
Definition Buffers.h:403

audio_tools::RingBuffer::resize
virtual bool resize(int len)
Resizes the buffer if supported: returns false if not supported.
Definition Buffers.h:418

audio_tools::RingBuffer::available
virtual int available() override
provides the number of entries that are available to read
Definition Buffers.h:410

audio_tools::SingleBuffer
A simple Buffer implementation which just uses a (dynamically sized) array.
Definition Buffers.h:172

audio_tools::SingleBuffer::write
bool write(T sample) override
write add an entry to the buffer
Definition Buffers.h:206

audio_tools::SingleBuffer::available
int available() override
provides the number of entries that are available to read
Definition Buffers.h:233

audio_tools::SingleBuffer::isFull
bool isFull() override
checks if the buffer is full
Definition Buffers.h:240

audio_tools::SingleBuffer::resize
bool resize(int size)
Resizes the buffer if supported: returns false if not supported.
Definition Buffers.h:305

audio_tools::SingleBuffer::writeArray
int writeArray(const T data[], int len) override
Fills the buffer data.
Definition Buffers.h:201

audio_tools::SingleBuffer::data
T * data()
Provides address of actual data.
Definition Buffers.h:284

audio_tools::SingleBuffer::reset
void reset() override
clears the buffer
Definition Buffers.h:286

audio_tools::Vector
Vector implementation which provides the most important methods as defined by std::vector....
Definition Vector.h:21

audio_tools::int24_4bytes_t
24bit integer which is used for I2S sound processing. The values are represented as int32_t,...
Definition Int24_4bytes_t.h:16

audio_tools
Generic Implementation of sound input and output for desktop environments using portaudio.
Definition AudioCodecsBase.h:10

audio_tools::AudioInfo
Basic Audio information which drives e.g. I2S.
Definition AudioTypes.h:55

audio_tools::AudioInfo::copyFrom
void copyFrom(AudioInfo info)
Same as set.
Definition AudioTypes.h:105

audio_tools::AudioInfo::sample_rate
sample_rate_t sample_rate
Sample Rate: e.g 44100.
Definition AudioTypes.h:57

audio_tools::AudioInfo::channels
uint16_t channels
Number of channels: 2=stereo, 1=mono.
Definition AudioTypes.h:59

audio_tools::AudioInfo::bits_per_sample
uint8_t bits_per_sample
Number of bits per sample (int16_t = 16 bits)
Definition AudioTypes.h:61

audio_tools::DSFMetadata
Metadata structure for DSF (DSD Stream File) format.
Definition CodecDSF.h:49

audio_tools::DSFMetadata::dsd_data_bytes
uint64_t dsd_data_bytes
Size of DSD bitstream data in bytes.
Definition CodecDSF.h:54

audio_tools::DSFMetadata::dsd_bits
uint8_t dsd_bits
BitSize always 1!
Definition CodecDSF.h:55

audio_tools::DSFMetadata::dsd_sample_rate
uint32_t dsd_sample_rate
DSD sample rate (e.g. 2822400 Hz for DSD64)
Definition CodecDSF.h:52

audio_tools::DSFMetadata::dsd_buffer_size
uint32_t dsd_buffer_size
Internal buffer size for DSD processing.
Definition CodecDSF.h:58

audio_tools::DSFMetadata::pcm_frames
uint64_t pcm_frames
Estimated number of PCM frames after conversion.
Definition CodecDSF.h:56

audio_tools::DSFMetadata::filter_cutoff
float filter_cutoff
Cutoff frequency as fraction of Nyquist.
Definition CodecDSF.h:61

audio_tools::DSFMetadata::duration_sec
float duration_sec
Approximate audio duration in seconds.
Definition CodecDSF.h:57