bakery-ia

Files

Claude 799e7dbaeb Fix training job concurrent database session conflicts

Root Cause:
- Multiple parallel training tasks (3 at a time) were sharing the same database session
- This caused SQLAlchemy session state conflicts: "Session is already flushing" and "rollback() is already in progress"
- Additionally, duplicate model records were being created by both trainer and training_service

Fixes:
1. Separated model training from database writes:
   - Training happens in parallel (CPU-intensive)
   - Database writes happen sequentially after training completes
   - This eliminates concurrent session access

2. Removed duplicate database writes:
   - Trainer now writes all model records sequentially after parallel training
   - Training service now retrieves models instead of creating duplicates
   - Performance metrics are also created by trainer (no duplicates)

3. Added proper data flow:
   - _train_single_product: Only trains models, stores results
   - _write_training_results_to_database: Sequential DB writes after training
   - _store_trained_models: Changed to retrieve existing models
   - _create_performance_metrics: Changed to verify existing metrics

Benefits:
- Eliminates database session conflicts
- Prevents duplicate model records
- Maintains parallel training performance
- Ensures data consistency

Files Modified:
- services/training/app/ml/trainer.py
- services/training/app/services/training_service.py

Resolves: Onboarding training job database session conflicts

2025-11-05 12:41:42 +00:00

__init__.py

REFACTOR external service and improve websocket training

2025-10-09 14:11:02 +02:00

calendar_features.py

Improve the frontend 5

2025-11-02 20:24:44 +01:00

data_processor.py

Improve AI logic

2025-11-05 13:34:56 +01:00

enhanced_features.py

Improve AI logic

2025-11-05 13:34:56 +01:00

event_feature_generator.py

Improve AI logic

2025-11-05 13:34:56 +01:00

hybrid_trainer.py

Improve AI logic

2025-11-05 13:34:56 +01:00

model_selector.py

Improve AI logic

2025-11-05 13:34:56 +01:00

product_categorizer.py

Improve AI logic

2025-11-05 13:34:56 +01:00

prophet_manager.py

Improve AI logic

2025-11-05 13:34:56 +01:00

traffic_forecaster.py

Improve AI logic

2025-11-05 13:34:56 +01:00

trainer.py

Fix training job concurrent database session conflicts

2025-11-05 12:41:42 +00:00