Untitled

From Silly Treeshrew, 4 Years ago, written in Plain Text.

Embed

Download Paste or View Raw
Hits: 144

# coding=utf-8

import json

import io

import re

## Black -> White -> ❶ -> (1) (see hon)

# words to test: are, suru, naru

def process_kanji (dfn):

# gets string and returns list of ■一■-level dfns processed

#re_obj = re.split(ur"■[一二三四五六七八九十]■", dfn)

re_obj = re.split(r'\n■[一二三四五六七八九]■', dfn, re.UNICODE)

if(len(re_obj) > 2):

common = re_obj.pop(0) + "\n"

re_obj = map (lambda x: common + x, re_obj)

return re_obj

def process_white (dfn_lst):

# gets lst of dfns and returns (possibly bigger) final lst of dfns

final_lst = []

for s in dfn_lst:

re_obj = re.split(r'\n□[一二三四五六七八九]□', s, re.UNICODE)

if (len(re_obj) > 2):

common = re_obj.pop(0) + "\n"

re_obj = map( lambda x: common + x, re_obj)

final_lst.extend(re_obj)

return final_lst

def process_black_ball (dfn_lst):

# gets lst of dfns and returns (possibly bigger) final lst of dfns

final_lst = []

for s in dfn_lst:

re_obj = re.split(r'\n[❶❷❸❹❺❻❼❽❾❿⓫⓬⓭⓮⓯⓰⓱⓲⓳⓴]', s, re.UNICODE)

if (len(re_obj) > 2):

common = re_obj.pop(0) + "\n"

re_obj = map( lambda x: common + x, re_obj)

final_lst.extend(re_obj)

return final_lst

def process_numbers (dfn_lst):

# gets lst of dfns and returns (possibly bigger) final lst of dfns

final_lst = []

for s in dfn_lst:

re_obj = re.split(r'\n（[１２３４５６７８９０]+）', s, re.UNICODE)

if (len(re_obj) > 2):

common = re_obj.pop(0) + "\n"

re_obj = map( lambda x: common + x, re_obj)

final_lst.extend(re_obj)

return final_lst

def process_dfn (dfn):

# receives raw string and returns LIST of strings (one for each definition)

#dfn = dfn.replace('{（１）}','-- (1) --')

#dfn = dfn.replace('〔（１）','〔 (1) ')

# process "■一■" and similar

dfn = process_kanji (dfn) # returns list of strings

dfn = process_white (dfn) # returns list of strings

dfn = process_black_ball(dfn) # returns list of strings

# process "（１）" and similar

lst = process_numbers (dfn)

return lst

number = 1

names = []

for number in range(1,34):

name = 'term_bank_' + str(number) + '.json'

names.append(name)

for file_name in names:

print(file_name)

glob = []

with open(file_name) as json_file:

data = json.load(json_file)

for elem in data:

lst = elem[5]

lst_dfn = []

for raw_dfn in lst:

lst_dfn.extend(process_dfn(raw_dfn))

for dfn in lst_dfn:

current_elem = []

current_elem.append( elem[0] )

current_elem.append( elem[1] )

current_elem.append( elem[2] )

current_elem.append( elem[3] )

current_elem.append( elem[4] )

current_elem.append( [dfn] )

current_elem.append( elem[6] )

current_elem.append( elem[7] )

glob.append( current_elem )

with io.open(str(file_name), 'w', encoding='utf-8') as f:

json.dump(glob, f, ensure_ascii=False)

Author

Title

Language

Your paste - Paste your paste here

# coding=utf-8
import json
import io
import re

## Black -&gt; White -&gt; ❶ -&gt; (1) (see hon)

# words to test: are, suru, naru

def process_kanji (dfn):
    # gets string and returns list of ■一■-level dfns processed
    #re_obj = re.split(ur&quot;■[一二三四五六七八九十]■&quot;, dfn)
    re_obj = re.split(r'\n■[一二三四五六七八九]■', dfn, re.UNICODE)
    if(len(re_obj) &gt; 2):
        common = re_obj.pop(0) + &quot;\n&quot;
        re_obj = map (lambda x: common + x, re_obj)

return re_obj

def process_white (dfn_lst):
    # gets lst of dfns and returns (possibly bigger) final lst of dfns
    final_lst = []
    for s in dfn_lst:
        re_obj = re.split(r'\n□[一二三四五六七八九]□', s, re.UNICODE)
        if (len(re_obj) &gt; 2):
            common = re_obj.pop(0) + &quot;\n&quot;
            re_obj = map( lambda x: common + x, re_obj)
        final_lst.extend(re_obj)
    return final_lst

def process_black_ball (dfn_lst):
    # gets lst of dfns and returns (possibly bigger) final lst of dfns
    final_lst = []
    for s in dfn_lst:
        re_obj = re.split(r'\n[❶❷❸❹❺❻❼❽❾❿⓫⓬⓭⓮⓯⓰⓱⓲⓳⓴]', s, re.UNICODE)
        if (len(re_obj) &gt; 2):
            common = re_obj.pop(0) + &quot;\n&quot;
            re_obj = map( lambda x: common + x, re_obj)
        final_lst.extend(re_obj)
    return final_lst

def process_numbers (dfn_lst):
    # gets lst of dfns and returns (possibly bigger) final lst of dfns
    final_lst = []
    for s in dfn_lst:
        re_obj = re.split(r'\n（[１２３４５６７８９０]+）', s, re.UNICODE)
        if (len(re_obj) &gt; 2):
            common = re_obj.pop(0) + &quot;\n&quot;
            re_obj = map( lambda x: common + x, re_obj)
        final_lst.extend(re_obj)
    return final_lst

def process_dfn (dfn):
    # receives raw string and returns LIST of strings (one for each definition)
    #dfn = dfn.replace('{（１）}','-- (1) --')
    #dfn = dfn.replace('〔（１）','〔 (1) ')

# process &quot;■一■&quot; and similar
    dfn = process_kanji (dfn) # returns list of strings

dfn = process_white (dfn) # returns list of strings

dfn = process_black_ball(dfn) # returns list of strings
   
    # process &quot;（１）&quot; and similar
    lst = process_numbers (dfn)

return lst

number = 1

names = []

for number in range(1,34):
        name = 'term_bank_' + str(number) + '.json'
        names.append(name)

for file_name in names: 
    print(file_name)

glob = []

with open(file_name) as json_file:
        data = json.load(json_file)

for elem in data:
        lst = elem[5]

lst_dfn = []

for raw_dfn in lst:
            lst_dfn.extend(process_dfn(raw_dfn))

for dfn in lst_dfn:
            current_elem = []

current_elem.append( elem[0] )
            current_elem.append( elem[1] )
            current_elem.append( elem[2] )
            current_elem.append( elem[3] )
            current_elem.append( elem[4] )
            current_elem.append( [dfn] )
            current_elem.append( elem[6] )
            current_elem.append( elem[7] )

glob.append( current_elem )

with io.open(str(file_name), 'w', encoding='utf-8') as f:
        json.dump(glob, f, ensure_ascii=False)

Private - Private paste aren't shown in recent listings.

Delete After - When should we delete your paste?

Spam protection -

{"html5":"htmlmixed","css":"css","javascript":"javascript","php":"php","python":"python","ruby":"ruby","lua":"text\/x-lua","bash":"text\/x-sh","go":"go","c":"text\/x-csrc","cpp":"text\/x-c++src","diff":"diff","latex":"stex","sql":"sql","xml":"xml","apl":"apl","asterisk":"asterisk","c_loadrunner":"text\/x-csrc","c_mac":"text\/x-csrc","coffeescript":"text\/x-coffeescript","csharp":"text\/x-csharp","d":"d","ecmascript":"javascript","erlang":"erlang","groovy":"text\/x-groovy","haskell":"text\/x-haskell","haxe":"text\/x-haxe","html4strict":"htmlmixed","java":"text\/x-java","java5":"text\/x-java","jquery":"javascript","mirc":"mirc","mysql":"sql","ocaml":"text\/x-ocaml","pascal":"text\/x-pascal","perl":"perl","perl6":"perl","plsql":"sql","properties":"text\/x-properties","q":"text\/x-q","scala":"scala","scheme":"text\/x-scheme","tcl":"text\/x-tcl","vb":"text\/x-vb","verilog":"text\/x-verilog","yaml":"text\/x-yaml","z80":"text\/x-z80"}

Reply to "Untitled"