Models Overview

Alactic AGI uses specialized AI models optimized for document intelligence and web content extraction. This guide explains the models, their capabilities, and how they were trained.

Available Models

Alactic GPT-4o

Full-featured model for complex document analysis

Base Model: OpenAI GPT-4o (June 2024 release)
Training Dataset: 1 billion+ tokens of document-specific content
Context Window: 128,000 tokens
Availability: Pro, Pro+, Enterprise plans

Optimizations:

Fine-tuned on structured document extraction
Enhanced table and chart understanding
Improved multi-page context retention
Better handling of technical terminology
Specialized prompting for information extraction

Best For:

Complex technical documents
Multi-page contracts and agreements
Financial reports with tables
Academic papers with citations
Legal documents requiring precision
Medical records and clinical notes

Performance:

Accuracy: 95%+ on standard document benchmarks
Speed: 50-100 tokens/second generation
Cost: $2.50 per 1M input tokens, $10.00 per 1M output tokens

Alactic GPT-4o mini

Cost-effective model for routine document processing

Base Model: OpenAI GPT-4o mini
Training Dataset: 1 billion+ tokens of document-specific content
Context Window: 128,000 tokens
Availability: All plans (Free, Pro, Pro+, Enterprise)

Optimizations:

Fine-tuned on common document patterns
Efficient extraction of key-value pairs
Fast summarization capabilities
Optimized for web page content
Lower latency than full GPT-4o

Best For:

News articles and blog posts
Product descriptions
FAQ extraction
Simple forms and invoices
Email content analysis
Basic PDF text extraction

Performance:

Accuracy: 90%+ on standard document benchmarks
Speed: 100-150 tokens/second generation
Cost: $0.150 per 1M input tokens, $0.600 per 1M output tokens

Alactic Embedding Model

Vector embedding for semantic search

Base Model: text-embedding-3-large
Dimensions: 3,072
Availability: All plans

Use Cases:

Semantic document search
Similarity detection
Content clustering
Duplicate identification
Related document suggestions

Performance:

Speed: Sub-second embedding generation
Cost: $0.130 per 1M tokens

Model Training Methodology

Training Dataset

Alactic models are fine-tuned on a proprietary dataset exceeding 1 billion tokens, carefully curated for document intelligence tasks.

Dataset Composition:

Public Documents: 300M tokens
- Wikipedia articles
- ArXiv research papers
- GitHub documentation
- Government public records
- Open-access journals
Licensed Content: 400M tokens
- Financial reports (10-K, 10-Q filings)
- Legal contracts and agreements
- Medical literature and case studies
- Technical manuals and specifications
- Academic textbooks
Synthetic Data: 300M tokens
- Generated structured documents
- Table and chart variations
- Multi-format conversions
- Edge case scenarios
- Adversarial examples

Data Quality:

Manual verification of 10% sample
Automated quality checks
De-duplication at document level
Balanced representation across domains
Regular updates with new content

Fine-Tuning Process

Stage 1: Domain Adaptation (GPT-4o base)

Continued pre-training on document corpus
Learning document-specific patterns
Vocabulary expansion for technical terms
Duration: 100,000 training steps

Stage 2: Instruction Tuning

Task-specific instruction datasets
Extract, summarize, analyze, compare tasks
Multi-turn conversation examples
Duration: 50,000 training steps

Stage 3: Reinforcement Learning from Human Feedback (RLHF)

Human evaluation of model outputs
Preference ranking of responses
Reward model training
Policy optimization
Duration: 20,000 training steps

Total Training: 170,000 steps over 4 weeks on Azure ML infrastructure

Evaluation Benchmarks

Models are evaluated against industry-standard benchmarks:

Document Understanding:

DocVQA (Document Visual Question Answering): 92.3% accuracy
InfoVQA (Infographic Question Answering): 89.7% accuracy
TabFact (Table Fact Verification): 94.1% accuracy

Information Extraction:

FUNSD (Form Understanding): 91.5% F1 score
CORD (Consolidated Receipt Dataset): 96.2% F1 score
SROIE (Scanned Receipt OCR): 97.8% F1 score

Summarization:

CNN/DailyMail: 45.2 ROUGE-L score
XSum: 48.7 ROUGE-L score
PubMed: 43.9 ROUGE-L score

Web Scraping:

Common Crawl extraction: 93.4% precision
News article parsing: 96.1% precision
E-commerce product data: 94.8% precision

Model Capabilities Comparison

Capability	GPT-4o	GPT-4o mini
Text Extraction	Excellent	Excellent
Table Extraction	Excellent	Good
Chart Understanding	Excellent	Fair
Multi-page Context	Excellent	Good
Technical Terms	Excellent	Good
Summarization Quality	Excellent	Good
Reasoning Depth	Deep	Moderate
Speed	Fast	Faster
Cost	Higher	Lower

When to Use Which Model

Use GPT-4o for:

Complex Documents
- Multi-page contracts
- Financial statements
- Research papers
- Technical manuals
High Accuracy Requirements
- Legal document review
- Medical record analysis
- Compliance checking
- Audit trails
Deep Analysis
- Comparative analysis
- Trend identification
- Risk assessment
- Strategic insights
Multi-step Reasoning
- Chain-of-thought processing
- Multi-document synthesis
- Causal relationship detection

Use GPT-4o mini for:

Simple Documents
- News articles
- Blog posts
- Product descriptions
- Email content
High-Volume Processing
- Batch document processing
- Real-time scraping
- Routine data extraction
- Classification tasks
Cost Optimization
- Large document sets
- Frequent processing
- Development and testing
- Non-critical applications
Speed-Critical Applications
- Real-time analysis
- Interactive applications
- Low-latency requirements

Model Selection in Application

Automatic Selection

Alactic AGI automatically selects the appropriate model based on:

Your plan tier
Document complexity
Processing volume
Cost optimization settings

Free Plan: Always uses GPT-4o mini
Pro/Pro+/Enterprise: User can choose or use auto-selection

Manual Override

Users on Pro+ and Enterprise plans can force specific model usage:

{
  "document": "complex-contract.pdf",
  "model": "gpt-4o",
  "force": true
}

Smart Routing (Enterprise Only)

Enterprise deployments can enable smart routing:

Simple documents → GPT-4o mini automatically
Complex documents → GPT-4o automatically
Based on machine learning classifier
Reduces costs by 40-60% typically

Token Usage and Costs

Input Token Calculation

Documents:

Text-only PDF: ~250 tokens per page
PDF with tables: ~400 tokens per page
Scanned PDF (OCR): ~300 tokens per page

Web Pages:

News article: 500-1,500 tokens
Blog post: 800-2,000 tokens
Product page: 300-800 tokens
Documentation page: 1,000-3,000 tokens

Output Token Calculation

Typical Outputs:

Summary: 150-300 tokens
Key points extraction: 100-200 tokens
Full analysis: 500-1,000 tokens
Structured data: 200-400 tokens

Cost Examples

Processing 100 PDFs (10 pages each) with GPT-4o:

Input: 100 docs × 10 pages × 400 tokens = 400,000 tokens = 0.4M tokens
Output: 100 docs × 300 tokens = 30,000 tokens = 0.03M tokens

Cost: (0.4M × $2.50) + (0.03M × $10.00) = $1.00 + $0.30 = $1.30

Processing 100 PDFs (10 pages each) with GPT-4o mini:

Input: 400,000 tokens = 0.4M tokens
Output: 30,000 tokens = 0.03M tokens

Cost: (0.4M × $0.150) + (0.03M × $0.600) = $0.06 + $0.018 = $0.078

Savings: 94% cost reduction using GPT-4o mini for suitable documents

Model Performance Optimization

Prompt Engineering

Alactic AGI uses optimized prompts for each task:

Extraction prompts include examples
Summarization prompts specify format
Analysis prompts provide context
Structured output uses JSON mode

Context Management

Automatic chunking for large documents
Overlapping context windows
Smart section selection
Page reference preservation

Caching Strategy

Common prompts are cached
Reduces redundant token usage
Up to 50% token savings
Automatic cache invalidation

Batch Processing

Documents processed in optimal batches
Parallel API calls when possible
Rate limit management
Error handling and retries

Model Updates and Versioning

Version Numbering

Format: alactic-{model}-{version}

Examples:

alactic-gpt4o-v1.0: Initial release
alactic-gpt4o-v1.1: Bug fixes and improvements
alactic-gpt4o-v2.0: Major update with new training

Update Frequency

Minor updates: Monthly (bug fixes, optimizations)
Major updates: Quarterly (new training data, capabilities)
Hotfixes: As needed (critical issues)

Backwards Compatibility

API contracts remain stable
Output format consistency maintained
Gradual deprecation of old versions (6-month notice)

Staying Updated

Release notes published at /docs/release-notes
Email notifications for Enterprise customers
Optional auto-update (default: enabled)
Pinning specific versions available

Future Model Roadmap

Q1 2026

Multimodal Support: Direct image and chart analysis
Longer Context: 200K token context window
Faster Processing: 2x speed improvement

Q2 2026

Custom Model Training: Upload your own training data
Domain-Specific Models: Legal, medical, financial variants
Real-time Streaming: Token-by-token output

Q3 2026

Multilingual Support: 50+ languages
Audio Transcription: Built-in speech-to-text
Video Analysis: Extract text and insights from videos

Q4 2026

AGI Features: Multi-agent workflows
Reasoning Models: Enhanced logical reasoning
Tool Use: Models can call external APIs

Available Models​

Alactic GPT-4o​

Alactic GPT-4o mini​

Alactic Embedding Model​

Model Training Methodology​

Training Dataset​

Fine-Tuning Process​

Evaluation Benchmarks​

Model Capabilities Comparison​

When to Use Which Model​

Use GPT-4o for:​

Use GPT-4o mini for:​

Model Selection in Application​

Automatic Selection​

Manual Override​

Smart Routing (Enterprise Only)​

Token Usage and Costs​

Input Token Calculation​

Output Token Calculation​

Cost Examples​

Model Performance Optimization​

Prompt Engineering​

Context Management​

Caching Strategy​

Batch Processing​

Model Updates and Versioning​

Version Numbering​

Update Frequency​

Backwards Compatibility​

Staying Updated​

Future Model Roadmap​

Q1 2026​

Q2 2026​

Q3 2026​

Q4 2026​

Related Topics​

Available Models

Alactic GPT-4o

Alactic GPT-4o mini

Alactic Embedding Model

Model Training Methodology

Training Dataset

Fine-Tuning Process

Evaluation Benchmarks

Model Capabilities Comparison

When to Use Which Model

Use GPT-4o for:

Use GPT-4o mini for:

Model Selection in Application

Automatic Selection

Manual Override

Smart Routing (Enterprise Only)

Token Usage and Costs

Input Token Calculation

Output Token Calculation

Cost Examples

Model Performance Optimization

Prompt Engineering

Context Management

Caching Strategy

Batch Processing

Model Updates and Versioning

Version Numbering

Update Frequency

Backwards Compatibility

Staying Updated

Future Model Roadmap

Q1 2026

Q2 2026

Q3 2026

Q4 2026

Related Topics