制作UrbanDictionary词典工具及文件夹说明 关于MDict格式、Windows下的词典软件及生成工具MdxBuilder可以到这里下载:http://www.octopus-studio.com/download.cn.htm --------------0.运行环境----------------- # 环境:Python 3.4.3, BeautifulSoup 4.4, Requests 2.7 --------------1.文件夹说明----------------- wordlists : 运行 UD_wordlists_gen.py 抓取的词条列表文件自动存放在此文件夹 MDXs : 运行 UD_make_mdx.py, 根据wordlists目录下的词条列表去抓取解释和例句后整理成符合MDICT词典源文件的格式存放在这里 Failed :运行 UD_make_mdx.py 过程中抓取失败的词条会写入此文件夹下的文件,待wordlists文件夹下的词条抓取完成后,手动清空wordlists文件夹, 然后手动移动此文件夹下的文件到wordlists文件夹下,重新运行 UD_make_mdx.py 处理上次抓取失败的词条 Abandon :运行 UD_make_mdx.py 过程中会将解释例句全部不合格的词条和解释页面为'no_results'的词条写入此文件夹下,便于统计。 Progress :运行 UD_statics.py 后统计当前的抓取进度写入此文件夹下的文件,断电或死机后重新抓取会读取上次进度继续抓取 output : 存放已制作好的词典文件,按制作日期存放,可以直接下载使用 Icons :存放词典的图标文件,可以根据喜好选一个,名字改为与词典文件相同(如:UrbanDictionary.jpg),和词典文件放在一起 data : 存放排版所用CSS样式文件 --------------2.文件说明----------------- UD_wordlists_gen.py :生成词条列表文件 UD_make_mdx.py :根据词条列表文件抓取解释和例句,排版处理生成用于MdxBuilder制作的多个源文件(html) UD_statics.py : 统计词条列表文件和抓取词条解释和例句过程中的词条个数信息、断电后重新运行UD_make_mdx.py前计算写入进度信息 mergeAllMDXs.bat :合并UD_make_mdx.py生成的多个mdx(html格式)源文件为一个UrbanDictionary.txt Changes.txt :程序和数据更新说明 --------------3.工具使用方法----------------- 0. 确保以上运行环境 1. 运行 UD_wordlists_gen.py 生成词条列表文件 2. 运行 UD_make_mdx.py 生成用于MdxBuilder制作的多个源文件(html) 3. 运行 UD_statics.py 可在任何时候查看统计信息,在断电或死机后重新运行UD_make_mdx.py前请运行一次此文件以计算写入发生异常前的进度信息 4. 运行 mergeAllMDXs.bat 合并‘2.’中的多个文件为一个 5. 运行 MdxBuilder : Source 选 ‘4.’中生成的UrbanDictionary.txt的路径; Target 选择 ‘output’ 文件夹下自己指定的文件名(推荐名称UrbanDictionary.mdx); Data 选 前面存放排版样式的‘data’文件夹; OriginalFormat选MDict(Html),Encoding选UTF-8(Unicode),Title填UrbanDictionary,Description随便填(可参考DictInformation.txt); 点击Start按钮,等待处理结束 6. 在支持MDict格式词典的软件中添加生成的UrbanDictionary.mdx和UrbanDictionary.mdd ========================= 作者: firefly(dance.of.firefly@gmail.com) 2015-07-20