Julius is an open-source, high-performance large vocabulary continuous speech recognition (LVCSR) engine for speech-related researchs and developments. With HMM acoustic model and language model, you can construct your own speech recognition system.
Moved to github: https://github.com/julius-speech/julius
======================================================================
Large Vocabulary Continuous Speech
Recognition Engine
Julius
(Rev 1.0 1998/02/20)
(Rev 2.0 1999/02/20)
(Rev 3.0 2000/02/14)
(Rev 3.1 2000/05/11)
(Rev 3.2 2001/06/18)
(Rev 3.3 2002/09/12)
(Rev 3.4 2003/10/01)
(Rev 3.4.1 2004/02/25)
(Rev 3.4.2 2004/04/30)
(Rev 3.5 2005/11/11)
(Rev 3.5.1 2006/03/31)
Copyright (c) 1991-2006 Kawahara Lab., Kyoto University
Copyright (c) 1997-2000 Information-technology Promotion Agency, Japan
Copyright (c) 2000-2005 Shikano Lab., Nara Institute of Science and Technology
Copyright (c) 2005-2006 Julius project team, Nagoya Institute of Technology
All rights reserved
======================================================================
What's New in Julius-3.5.1 ?
=============================
Julius/Julian rev.3.5.1 enhances MFCC parameter extraction function to
enable direct speech recognition on various kinds of acoustic model.
It also improves direct microphone / network input recognition by
MAP-CMN. Bugs on module mode, large N-gram, multi-path version are
fixed.
Summary of changes in 3.5.1:
o Wider MFCC support to enable direct speech recognition on various AM:
- Added extraction of acceleration coefficients (_A).
- Support all MFCC qualifier conbination.
- Added options to specify detailed analysis parameters.
o Improved microphone / network recognition by MAP-CMN:
- Cepstral mean of last 5 second input is used as an initial mean
for each input. You can inhibit updating of the initial mean
and keep the value loaded by "-cmnload" by option "-cmnnoupdate".
o Module mode:
- Julius will output "<STARTPROC/>" when recognition starts, and
"<STOPPROC/>" after recognition stopped by module command.
It may help some server-client synchronization problem.
o Bug fixes:
- Sometimes segfault on pause/resume command on module mode.
- Can not read N-gram whose tuples > 2^24 (enbuged on 3.5).
- Can not read HMM with 3-state (1 output state) model on multi-path.
- Sometimes omit the last line in DFA file.
- Sometimes fails to compile gramtools on MacOSX.
All the changes are listed in "Release.txt".
Contents of Julius-3.5.1
=========================
(Documents with suffix "ja" are written in Japanese)
00readme.txt ReadMe (This file)
LICENSE.txt Terms and conditions of use
Release.txt Release note / ChangeLog
configure configure script
configure.in
Sample.jconf Sample configuration file for Julius-3.5.1
Sample-julian.jconf Sample configuration file for Julian-3.5.1
julius/ Julius/Julian 3.5.1 sources
libsent/ Julius/Julian 3.5.1 library sources
adinrec/ Record one sentence utterance to a file
adintool/ Record/split/send/receive speech data
gramtools/ Tools to build and test recognition grammar
jcontrol/ A sample network client module
mkbingram/ Convert N-gram to binary format
mkbinhmm/ Convert ascii hmmdefs to binary format
mkgshmm/ Model conversion for Gaussian Mixture Selection
mkss/ Estimate noise spectrum from mic input
support/ some tools to compile julius/julian from source
olddoc/ ChangeLogs before 3.2
From rev.3.4, a grammar-based recognizer called "Julian" is also
included. the Julian can be compiled from Julius sources by
specifying configure option "--enable-julian". The grammar format
Julian uses is original one based on BNF. A grammar compiler that
converts the written BNF to finite state grammar, and several test
tools are included in this archive.
About Documentation
====================
- Documents
The overall document that contains installation procedure,
tutorial, model formats and more, are available at:
http://julius.sourceforge.jp/en/Julius-3.2-book-e.pdf
It is basically based on rev.3.2, but will be also helpful for
recent versions.
The most up-to-date documentations and references can be available
on the Julius Web site.
http://julius.sourceforge.jp/en/
Please refer to other documents in Japanese at:
http://julius.sourceforge.jp/
- Recent changes
Changes between releases are fully listed in "Release.txt".
- Online reference manuals
for Julius, adintool, and other tools can be obtained in each
source directory, in both Unix man format and plain text.
For more information, see the URL below:
http://julius.sourceforge.jp/ (Japanese)
http://julius.sourceforge.jp/en/ (English)
Some documents are available only in Japanese. We are sorry for the
inconvenience.
LICENSE
========
Julius is an open-source software distributed as is, and available for
free. For more information about its license, please refer to
"LICENSE.txt" in this archive.
======================================================================
Large Vocabulary Continuous Speech
Recognition Engine
Julius
(Rev 1.0 1998/02/20)
(Rev 2.0 1999/02/20)
(Rev 3.0 2000/02/14)
(Rev 3.1 2000/05/11)
(Rev 3.2 2001/06/18)
(Rev 3.3 2002/09/12)
(Rev 3.4 2003/10/01)
(Rev 3.4.1 2004/02/25)
(Rev 3.4.2 2004/04/30)
(Rev 3.5 2005/11/11)
(Rev 3.5.1 2006/03/31)
Copyright (c) 1991-2006 京都大学 河原研究室
Copyright (c) 1997-2000 情報処理振興事業協会(IPA)
Copyright (c) 2000-2005 奈良先端科学技術大学院大学 鹿野研究室
Copyright (c) 2005-2006 名古屋工業大学 Julius開発チーム
All rights reserved
======================================================================
Julius-3.5.1
=============
Julius-3.5.1 では,さまざまな音響モデルで音声入力を認識するための
特徴量抽出の拡張,マイク音声認識のための MAP-CMN 導入,および
バグ修正が行われました.変更点を以下にまとめます.
- 特徴量(MFCC)抽出の拡張
- 二次差分係数(Accel: _A)に対応
- 任意の型指定の組み合わせに対応(_0, _E, _N, _D, _A, _N)
- 任意の次元数に対応
- 細かい特徴量抽出パラメータの指定に対応
- フレームごとの DC offset 除去 (HTK互換)
- MAP-CMN をマイク・ネットワーク入力に実装
- 最初の発話,話者交代時の認識精度の向上
- モジュールモードの安定化
- pause/resume による認識の停止・再開時に "<STARTPROC/>" "<STOPPROC/>"を出力
- バグ修正
- モジュールモードで音声入力途中のコマンド処理を安定化
- 巨大なN-gramの扱いを修正
- マルチパス版で一部の音響モデルが読み込めないバグを修正
- 文法入れ替え時に最後の状態がカウントされないバグを修正
- MacOSX 対応
すべての変更点は Release-ja.txt にまとめられていますので,ご覧下さい.
なお認識精度と速度は前バージョンから変化していません.
ファイルの構成
===============
00readme-ja.txt 最初に読む文書(このファイル)
LICENSE.txt ライセンス条項
Release-ja.txt リリースノート/変更履歴
configure configureスクリプト
configure.in
Sample.jconf.ja Julius用jconfファイルサンプル
Sample-julian.jconf.ja Julian用jconfファイルサンプル
julius/ Julius/Julian 3.5.1 本体ソース
libsent/ Julius/Julian 3.5.1 ライブラリソース
adinrec/ 録音ツール adinrec
adintool/ 音声録音/送受信ツール adintool
gramtools/ 文法作成ツール群
jcontrol/ サンプルネットワーククライアント jcontrol
mkbingram/ バイナリN-gram作成ツール mkbingram
mkbinhmm/ バイナリHMM作成ツール mkbinhmm
mkgshmm/ GMS用音響モデル変換ツール mkgshmm
mkss/ ノイズ平均スペクトル算出ツール mkss
support/ コンパイル用スクリプト
olddoc/ 3.2以前の変更履歴
ドキュメントについて
=====================
・ドキュメント
すべての関連ドキュメントはJulius の Web ページ上で公開しています.
チュートリアルから,様々な使用方法,各機能の紹介,制限事項など
に関する文書がありますので,そちらをご一読下さい.
ホームページ:http://julius.sourceforge.jp/
・最新版について
Release-ja.txt に以前のバージョンからの変更点がまとめられてい
ます.変更点の詳細については Release-ja.txt をご覧下さい.
・オンラインマニュアル
Julius,Julian および関連ツールのオンラインマニュアルは,
ソースからコンパイルする際に自動的にシステムにインストールされます.
また,それぞれのソースディレクトリにテキスト形式のマニュアルが
置いてありますので,そちらもご覧ください.
00readme-ja.txt:テキスト形式
*.man.ja: MAN形式
・ライセンス
Julius/Julian はフリーのオープンソースソフトウェアです.
私的用途・学術用途・商用を含め,利用に関して特に制限はありません.
許諾については同梱の文書 "LICENSE.txt" をご参照下さい.
ホームページについて
=====================
Julius/Julian の最新版の公開やドキュメントの整備,掲示板・ユーザML等に
関する情報は,以下のサイトにまとめられています.ご活用ください.
http://julius.sourceforge.jp/
以上
3.5.1 (2006.03.31)
===================
o Wider MFCC types support:
- Added extraction of acceleration coefficients (_A). Now you
can recognize waveform or microphone input with AM trained with _A.
- Support all MFCC qualifiers (_0, _E, _N, _D, _A, _N, _Z) and their
combination
- Support for any vector lenth (will be guessed from AM header)
- New option: "-accwin"
- New option "-zmeanframe": frame-wise DC offset removal, like HTK
- New options to specify detailed analysis parameters (see manual):
-preemph, -fbank, -ceplif, -rawe / -norawe,
-enormal / -noenormal, -escale, -silfloor
o Improved microphone / network recognition by MAP-CMN:
- New option "-cmnmapweight" to change MAP weight
- Option "-cmnload" can be used to specify the initial cepstral
mean at startup
- Cepstral mean of last 5 second input is used as an initial mean
for each input. You can inhibit updating of the initial mean
and keep the value loaded by "-cmnload" by option "-cmnnoupdate".
o Module issue:
- Julius now outputs "<STARTPROC/>" when recognition starts, and
"<STOPPROC/>" after recognition stopped by module command.
Use this for safer server-client synchronization.
- now can specify grammar name from client by specifying a name
after a command like "ADDGRAM name" or "CHANGEGRAM name".
o Bug fixes:
- Sometimes segfault on pause/resume command on module mode while input.
- Can not read N-gram with tuples > 2^24.
- Can not read HMM with 3-state (1 output state) model on multi-path.
- Sometimes omit the last transition definition in DFA file.
- Sometimes fails to compile the gramtools on MacOSX.
3.5.1 (2006.03.31)
===================
- 特徴量(MFCC)抽出の拡張
- 二次差分係数(Accel: _A)に対応.
- _A を用いる音響モデルで音声入力を直接認識できるようになった
- 新オプション "-accwin"
- 任意の型指定の組み合わせに対応(_0, _E, _N, _D, _A, _N)
- 任意の次元数に対応
- 抽出される特徴量のタイプおよび次元数は,音響モデルのヘッダから自動判断
- 細かい特徴量抽出のパラメータを指定可能になった:
-preemph, -fbank, -ceplif, -rawe / -norawe,
-enormal / -noenormal, -escale, -silfloor
- 新オプション "-zmeanframe": フレームごとの DC offset 除去 (HTK互換)
- MAP-CMN を導入
- マイク・ネットワーク入力で有効
- 新オプション"-cmnmapweight":重み係数を変更(デフォルト 100.0)
- オプション "-cmnload" で最初の発話の初期ケプストラムを指定可能
- 2発話目以降の初期ケプストラムは過去の5秒の平均を用いる.
新オプション "-cmnnoupdate" で初期ケプストラムを更新しないようにできる.
- モジュールモードの安定化
- 認識の停止・再開時に "<STARTPROC/>" "<STOPPROC/>" を新たに出力する
ようになった
- "ADDGRAM 文法名" "CHANGEGRAM 文法名" で文法に名前をつけられるよう
になった
- バグ修正
- モジュールモードのPAUSE/RESUMEタイミングに関するバグを複数修正
- 要素数が24bitに収まらない巨大なN-gramを扱えないバグを修正
- マルチパス版で3状態(出力1状態)の音響モデルが読み込めないバグを修正
- 文法の最後の状態がカウントされないことがあるバグを修正
- gramtools の一部が MacOSX でうまくコンパイルできないバグを修正