add dataset

This commit is contained in:
podiukov.iv
2026-04-28 06:06:43 +05:00
parent 7f56c0f10f
commit 23fe47644f
4 changed files with 20 additions and 18 deletions

17
main.py
View File

@@ -1,5 +1,6 @@
# Точка входа программы
import csv
from modules.NER import NER
from modules.paraGenerator import ParaphraseGenerator
from modules.validator import validator
@@ -7,14 +8,22 @@ from modules.validator import validator
ner = NER()
pg = ParaphraseGenerator()
srcText = 'Добрый день, я, Сидоров Иван Иванович. Прошу перевести сто тысяч рублей Якову Петру Игнатьевичу в Москву.'
datasetPath = 'rupaws/rupaws_wiki_test.csv'
srcTexts = []
with open(datasetPath, 'r') as f:
reader = csv.reader(f, delimiter=';')
for row in reader:
srcTexts.append(row[1])
def main(srcText):
srcEntities = ner.extract_entities(srcText) # поиск сущностей
print(f'ИСХОДНЫЕ СУЩНОСТИ ~> {srcEntities}')
paraphrase = pg.generate(srcText, srcEntities) # генерация парафраза
paraEntities = ner.extract_entities(paraphrase) # поиск сущностей в парафразе
return validator(srcText, paraphrase, srcEntities, paraEntities) # валидация
result = main(srcText)
print(f'ИСХОДНЫЙ ТЕКСТ: {srcText}')
print(f'СГЕНЕРИРОВАННЫЙ ТЕКСТ: {result}')
for i in range(10): # проверим 10 текстов
text = srcTexts[i]
print(f'ИСХОДНЫЙ ТЕКСТ ~> {text}')
print(f'ПАРАФРАЗИРОВАННЫЙ ТЕКСТ ~> {main(text)}\n')