diff --git a/dags/OSV.py b/dags/OSV.py index c49a536..1953be3 100644 --- a/dags/OSV.py +++ b/dags/OSV.py @@ -139,27 +139,22 @@ def read_data_1C(**kwargs): print(f" Данные перед удалением дубликатов (первые 10 строк):") print(f" Всего строк: {len(df)}") - print(f" Дата с дубликатами: {date}") print(f" Ключевые колонки для проверки дубликатов: {conflict_columns}") # Выводим первые 10 строк с ключевыми полями if not df.empty: display_columns = conflict_columns + ['summa_oborot', 'nomer'] # Добавляем еще пару полей для информации - available_columns = [col for col in display_columns if col in df.columns] - - print(f" Первые 10 строк (только ключевые поля):") - print(df[available_columns].head(10).to_string(index=False)) - + available_columns = [col for col in display_columns if col in df.columns] # Проверяем наличие дубликатов duplicates = df.duplicated(subset=conflict_columns, keep=False) if duplicates.any(): duplicate_count = duplicates.sum() print(f" Найдено дубликатов: {duplicate_count}") + print(f" Дата с дубликатами: {date}") print(f" Пример дублирующихся строк:") - duplicate_samples = df[duplicates][available_columns].head(5) + duplicate_samples = df[duplicates][available_columns].head(10) print(duplicate_samples.to_string(index=False)) - else: - print(f" Дубликатов не найдено") + with engine.begin() as conn: if not df.empty: