Hello-Transcription - OpenAI Realtime API Transcription Demo

🎯 Project Overview

Hello-Transcription demonstrates the transcription-only mode of OpenAI's Realtime API. Unlike the conversational mode, this implementation focuses purely on speech-to-text conversion without generating AI responses, making it ideal for subtitles, live captions, meeting transcriptions, and other transcription-focused use cases.

Created: September 2, 2025
Platform: Val Town
API: OpenAI Realtime API (Transcription Mode)
Key Feature: Real-time streaming transcription with multiple model support

🏗️ Technical Stack

Runtime: Deno (Val Town platform)
Framework: Hono (lightweight web framework)
Transcription: OpenAI Realtime API in transcription mode
Connection: WebRTC with data channel for events
Frontend: Vanilla JavaScript with split-view interface
Models: GPT-4o Transcribe, GPT-4o Mini Transcribe, Whisper-1

📁 Project Structure

hello-transcription/
├── frontend/
│   └── index.html       # Split-view transcription interface
├── routes/
│   ├── rtc.ts          # WebRTC session setup for transcription
│   ├── observer.ts     # WebSocket observer for transcription events
│   └── utils.ts        # Transcription session configuration
├── main.tsx            # Main entry point
├── deno.json          # Deno configuration
├── README.md          # User documentation
└── CLAUDE.md          # This file - technical documentation

🔑 Core Concepts

Transcription vs Conversation Mode

The Realtime API supports two distinct modes:

Conversation Mode (type: "realtime"):
- Two-way interaction with AI
- User speaks → AI responds
- Used in hello-realtime and hello-mcp
Transcription Mode (type: "transcription"):
- One-way speech-to-text only
- User speaks → Text output
- No AI responses generated
- Lower latency, lower cost
- This demo uses transcription mode

Transcription Session Object

{
  type: "transcription",
  input_audio_format: "pcm16",
  input_audio_transcription: {
    model: "gpt-4o-transcribe",  // or "gpt-4o-mini-transcribe", "whisper-1"
    prompt: "",                   // Optional context hint
    language: "en"                // ISO-639-1 language code
  },
  turn_detection: {
    type: "server_vad",
    threshold: 0.5,
    prefix_padding_ms: 300,
    silence_duration_ms: 500
  },
  input_audio_noise_reduction: {
    type: "near_field"            // or "far_field", null
  },
  include: ["item.input_audio_transcription.logprobs"]  // Optional
}

🛠️ Key Components

1. Utils Configuration (`/routes/utils.ts`)

Handles transcription session configuration with sensible defaults:

export function makeTranscriptionSession(config: TranscriptionConfig = {}) {
  const {
    model = "gpt-4o-transcribe",
    language = "en",
    prompt = "",
    enableVAD = true,
    noiseReduction = "near_field",
    includeLogprobs = false
  } = config;
  
  // Build session object...
}

Key Configuration Options:

model: Transcription model selection
language: Primary language for better accuracy
prompt: Context hints (e.g., "Expect medical terminology")
enableVAD: Automatic voice activity detection
noiseReduction: Audio preprocessing type
includeLogprobs: Confidence scores for words

2. RTC Route Handler (`/routes/rtc.ts`)

Creates WebRTC sessions specifically for transcription:

// Get config from query params
const model = c.req.query("model") || "gpt-4o-transcribe";
const language = c.req.query("language") || "en";
const vad = c.req.query("vad") !== "false";
const logprobs = c.req.query("logprobs") === "true";

// Create transcription session
const sessionConfig = makeTranscriptionSession({
  model,
  language,
  enableVAD: vad,
  includeLogprobs: logprobs
});

Important: Uses type: "transcription" not type: "realtime"

3. Observer WebSocket (`/routes/observer.ts`)

Monitors transcription events via server-side WebSocket:

ws.onmessage = (event) => {
  const data = JSON.parse(event.data);
  
  if (data.type === "conversation.item.input_audio_transcription.delta") {
    // Streaming partial transcription
    console.log(`📝 Transcription delta: "${data.delta}"`);
  } else if (data.type === "conversation.item.input_audio_transcription.completed") {
    // Final transcription for segment
    console.log(`✅ Transcription completed: "${data.transcript}"`);
  }
};

4. Frontend Interface (`/frontend/index.html`)

Split-view interface with real-time transcription display:

Left Panel - Transcriptions

Shows live transcription stream
Partial transcriptions update in real-time
Final transcriptions marked with green border
Each segment timestamped

Right Panel - Event Logs

Technical event stream
Debug information
Connection status

Data Channel Handling

dataChannel.onmessage = (event) => {
  const data = JSON.parse(event.data);
  
  if (data.type === "conversation.item.input_audio_transcription.delta") {
    // Update partial transcription
    addTranscript(data.item_id, data.delta, false);
  } else if (data.type === "conversation.item.input_audio_transcription.completed") {
    // Mark transcription as final
    addTranscript(data.item_id, data.transcript, true);
  }
};

📊 Model Comparison

GPT-4o Transcribe

Streaming: Yes - incremental updates via delta events
Latency: Low
Accuracy: High
Use Case: Live subtitles, real-time captions

GPT-4o Mini Transcribe

Streaming: Yes - incremental updates
Latency: Very low
Accuracy: Good
Use Case: Quick transcriptions, lower cost

Whisper-1

Streaming: No - complete segments only
Latency: Higher (waits for complete utterance)
Accuracy: Very high
Use Case: High-accuracy transcriptions, post-processing

🔄 Event Flow

Transcription Event Sequence

Audio Input

User speaks → Microphone → WebRTC → OpenAI

VAD Processing (if enabled)

Voice detected → Buffer audio → Silence detected → Commit buffer

Transcription Events

input_audio_buffer.committed
↓
conversation.item.input_audio_transcription.delta (streaming models)
↓
conversation.item.input_audio_transcription.completed

Event Types

Delta Event (Streaming)

{
  "type": "conversation.item.input_audio_transcription.delta",
  "item_id": "item_003",
  "content_index": 0,
  "delta": "Hello, how"
}

Completed Event

{
  "type": "conversation.item.input_audio_transcription.completed",
  "item_id": "item_003",
  "content_index": 0,
  "transcript": "Hello, how are you today?"
}

⚙️ Configuration Details

Voice Activity Detection (VAD)

VAD automatically detects speech segments:

turn_detection: {
  type: "server_vad",
  threshold: 0.5,              // Sensitivity (0-1)
  prefix_padding_ms: 300,       // Audio before speech
  silence_duration_ms: 500      // Silence to end segment
}

VAD Disabled:

turn_detection: null  // Manual control required

Noise Reduction

Three noise reduction modes:

near_field: Optimized for close microphones (default)
far_field: For distant microphones/speakers
null: No noise reduction

Language Configuration

ISO-639-1 language codes improve accuracy:

"en" - English
"es" - Spanish
"fr" - French
"de" - German
"zh" - Chinese
"ja" - Japanese

Logprobs (Confidence Scores)

When enabled, provides word-level confidence:

include: ["item.input_audio_transcription.logprobs"]

Returns probability scores for each transcribed word, useful for:

Highlighting uncertain words
Quality assessment
Post-processing decisions

🧪 Testing Guide

Local Development

Setup Environment

# Create .env file
echo "OPENAI_API_KEY=sk-..." > .env

# Install Deno
curl -fsSL https://deno.land/install.sh | sh

Run Development Server

# With auto-reload
deno run --watch --allow-all main.tsx

# Or standard
deno run --allow-all main.tsx

Test Transcription
- Open http://localhost:8000
- Select model and language
- Click "Start"
- Speak clearly
- Watch transcriptions appear

Testing Different Models

Test Streaming (GPT-4o)
- Select "GPT-4o Transcribe"
- Speak continuously
- Notice incremental updates
Test Non-Streaming (Whisper-1)
- Select "Whisper-1"
- Speak, then pause
- Notice complete segments only
Test VAD
- Enable VAD
- Speak with pauses
- Notice automatic segmentation
Test Without VAD
- Disable VAD
- Requires manual commit (not implemented in this demo)

🐛 Common Issues & Solutions

Issue: No transcriptions appearing

Solutions:

Check microphone permissions
Verify OPENAI_API_KEY is set
Check browser console for errors
Ensure WebRTC connection established

Issue: Transcriptions cut off mid-sentence

Solutions:

Adjust VAD silence_duration_ms (longer = fewer cuts)
Try different VAD threshold
Consider using different model

Issue: Poor transcription accuracy

Solutions:

Set correct language parameter
Use appropriate noise reduction setting
Provide context via prompt parameter
Try higher accuracy model (Whisper-1)

Issue: High latency

Solutions:

Use GPT-4o Mini for lower latency
Check network connection
Consider disabling logprobs

📈 Performance Characteristics

Latency Comparison

GPT-4o Mini: ~100-200ms first token
GPT-4o: ~150-250ms first token
Whisper-1: ~500-1000ms (full segment)

Throughput

Handles real-time audio (16kHz PCM16)
Multiple concurrent sessions supported
No buffering required for streaming models

Cost Optimization

Transcription-only mode is cheaper than conversation mode
No AI inference costs
GPT-4o Mini most cost-effective
Whisper-1 for batch/accuracy needs

🔒 Security Considerations

Current Implementation

API key stored in environment variable
No authentication on endpoints
No rate limiting
Single-tenant design

Production Recommendations

Authentication: Add user authentication
Rate Limiting: Implement per-user limits
CORS: Configure appropriate origins
Monitoring: Track usage and errors
Encryption: Ensure HTTPS only
Token Security: Use short-lived tokens

🚀 Deployment

Val Town Deployment

Create/Remix Val

vt remix emcho/hello-transcription my-transcription

Set Environment
- Add OPENAI_API_KEY in Val Town secrets
Deploy
```
vt push
```
Access
- URL: https://[your-val-name].val.run

Environment Variables

OPENAI_API_KEY - Required for OpenAI API access

📝 Future Enhancements

Potential Features

Recording & Export
- Save transcriptions to file
- Export as SRT/VTT subtitles
- Download audio recordings
Advanced Controls
- Manual VAD control
- Custom VAD parameters UI
- Prompt templates
Multi-Stream
- Multiple speaker support
- Speaker diarization
- Parallel transcriptions
Post-Processing
- Punctuation enhancement
- Grammar correction
- Translation
Visualization
- Audio waveform display
- VAD activity indicator
- Confidence heat map
Integration
- Webhook support
- Real-time API streaming
- Database storage

🔗 References

Documentation

hello-realtime - Conversation mode demo
hello-mcp - MCP tool execution demo

Key Differences from Conversation Mode

Session type: transcription vs realtime
No AI responses generated
Different event types
Lower latency and cost
Focused on speech-to-text only

💡 Implementation Notes

Critical Discoveries

Session Type: Must use type: "transcription" not type: "realtime"
Event Names: Different from conversation mode events
Model Behavior: Whisper doesn't stream, GPT-4o models do
VAD Impact: Significantly affects transcription segmentation
Language Setting: Dramatically improves accuracy for non-English

Best Practices

Always specify language for non-English content
Use near_field noise reduction for headset mics
Enable VAD for natural speech segmentation
Choose model based on latency vs accuracy needs
Monitor item_id for proper segment ordering

🎯 Summary

Hello-Transcription successfully demonstrates the transcription-only capabilities of OpenAI's Realtime API. Key achievements:

Pure Transcription: No AI responses, focused solely on speech-to-text
Model Flexibility: Support for three different transcription models
Real-time Streaming: Live transcription updates for supported models
Configuration Options: VAD, noise reduction, language, logprobs
Clean Interface: Split-view design for transcriptions and logs

This implementation serves as a foundation for building transcription-focused applications like live captioning, meeting transcription, subtitle generation, and accessibility tools.

Hello-Transcription - OpenAI Realtime API Transcription Demo

🎯 Project Overview

🏗️ Technical Stack

📁 Project Structure

🔑 Core Concepts

Transcription vs Conversation Mode

Transcription Session Object

🛠️ Key Components

1. Utils Configuration (/routes/utils.ts)

2. RTC Route Handler (/routes/rtc.ts)

3. Observer WebSocket (/routes/observer.ts)

4. Frontend Interface (/frontend/index.html)

Left Panel - Transcriptions

Right Panel - Event Logs

Data Channel Handling

📊 Model Comparison

GPT-4o Transcribe

GPT-4o Mini Transcribe

Whisper-1

🔄 Event Flow

Transcription Event Sequence

Event Types

Delta Event (Streaming)

Completed Event

⚙️ Configuration Details

Voice Activity Detection (VAD)

Noise Reduction

Language Configuration

Logprobs (Confidence Scores)

🧪 Testing Guide

Local Development

Testing Different Models

🐛 Common Issues & Solutions

Issue: No transcriptions appearing

Issue: Transcriptions cut off mid-sentence

Issue: Poor transcription accuracy

Issue: High latency

📈 Performance Characteristics

Latency Comparison

Throughput

Cost Optimization

🔒 Security Considerations

Current Implementation

Production Recommendations

🚀 Deployment

Val Town Deployment

Environment Variables

📝 Future Enhancements

Potential Features

🔗 References

Documentation

Related Projects

Key Differences from Conversation Mode

💡 Implementation Notes

Critical Discoveries

Best Practices

🎯 Summary

1. Utils Configuration (`/routes/utils.ts`)

2. RTC Route Handler (`/routes/rtc.ts`)

3. Observer WebSocket (`/routes/observer.ts`)

4. Frontend Interface (`/frontend/index.html`)