Please can any one help? i was ask to write a program in
Java to convert .xml, .dat, .html, add., and .txt (they are all compress files in different folders)format to XML format.
Requirements to output specification
Format XML, which want to convert
<Patent number="номер патента" kind="номер редакции патента" country="страна" date="дата принятия патента в формате YYYYMMDD" lang="язык патента"AppNumber="номер заявки" AppKind="номер редакции заявки" DisclaimerDate="Дата отказа заявке">
<classificationipcmain section ="Буква секции" class = "номер класса" subclass = "буква сабкласса" main-group = "номер главной группы" subgroup = "номер подгруппы"/>
<classificationipcadditional
<classificationipc section ="Буква секции" class = "номер класса" subclass = "буква сабкласса" main-group = "номер главной группы" subgroup = "номер подгруппы"/>
<classificationipc section ="Буква секции" class = "номер класса" subclass = "буква сабкласса" main-group = "номер главной группы" subgroup = "номер подгруппы"/>
..............
</classificationipcadditional>
<classificationUSmain class = "номер класса" subclass = "буква сабкласса"/>
<classificationUSadditional>
<classificationUS class = "номер класса" subclass = "буква сабкласса"/>
<classificationUS class = "номер класса" subclass = "буква сабкласса"/>
...........
</classificationUSadditional>
<Title>Название патента</Title>
<TitleEng>Название патента на английском</TitleEng>
<RelatesPatents>//поле UREF в .txt файлах
<RelatedPatent number="номер патента" kind="вид патента" country="страна патента" class="класс патента" date="дата публикации патента">
<RelatedPatent number="номер патента" kind="вид патента" country="страна патента" class="класс патента" date="дата публикации патента">
<RelatedPatent number="номер патента" kind="вид патента" country="страна патента" class="класс патента" date="дата публикации патента">
</RelatesPatents>
<RelatesForeignPatents> //поле FREF в .txt файлах
<RelatedForeignPatent number="номер патента" country="страна патента" class="класс патента" date="дата публикации патента">
<RelatedForeignPatent number="номер патента" country="страна патента" class="класс патента" date="дата публикации патента">
<RelatedForeignPatent number="номер патента" country="страна патента" class="класс патента" date="дата публикации патента">
</RelatesForeignPatents>
<Authors>
<Author Name="ФИО автора патента" ></Author>
<Author>ФИО автора патента</Author>
<Author>ФИО автора патента</Author>
</Authors>
<Company>Название компании владельца патента</Company>
<Description>Реферат патента без html мусора. Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n". Чистый текст из предложений</Description> //поле DETD в .txt файлах
<DescriptionShort>Краткий Реферат патента без html мусора. Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n". Чистый текст из предложений</DescriptionShort> //поле BSUM в .txt файлах
<Abstract>Аннотация патента без html мусора. Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n". Чистый текст из предложений</Abstract>
<AbstractEng>Аннотация патента на английском языке без html мусора. Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n". Чистый текст из предложений</AbstractEng>
<Claims>
<Claim>Пункт формулы патента без html мусора. Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n" Чистый текст из предложений</Claim>
<Claim>Пункт формулы патента без html мусора .Учтите, что все html теги надо удалять, кроме тена <p>. Его надо заменять на "\n". Чистый текст из предложений</Claim>
</Claims>
<Drawings>//поле DRWD в .txt файлах
<Drawing>Название рисунка<Drawing>
<Drawing>Название рисунка<Drawing>
<Drawing>Название рисунка<Drawing>
</Drawings>
</Patent>
Note
After conversion - each patent must be in a separate . Xml file. Files must be placed in folders that correspond to the names of files. After converting another archive - archive the resulting file folder , leave the archive and delete the folder itself . If you will not do that - then you eventually get 600 gigabytes . When archiving , use the "-mx = 9" for 7z for maximum compression .
After the write converter - convert time to vote the entire array, as well as the total amount of the resulting file (in compressed form). Total there are about 10 million patents
please i would appreciate it if any one can provide me with assistance