bbstring.cpp 12 KB

123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616263646566676869707172737475767778798081828384858687888990919293949596979899100101102103104105106107108109110111112113114115116117118119120121122123124125126127128129130131132133134135136137138139140141142143144145146147148149150151152153154155156157158159160161162163164165166167168169170171172173174175176177178179180181182183184185186187188189190191192193194195196197198199200201202203204205206207208209210211212213214215216217218219220221222223224225226227228229230231232233234235236237238239240241242243244245246247248249250251252253254255256257258259260261262263264265266267268269270271272273274275276277278279280281282283284285286287288289290291292293294295296297298299300301302303304305306307308309310311312313314315316317318319320321322323324325326327328329330331332333334335336337338339340341342343344345346347348349350351352353354355356357358359360361362363364365366367368369370371372373374375376377378379380381382383384385386387388389390391392393394395396397398399400401402403404405406407408409410411412413414415416417418419420421422423424425426427428429430431432433434435436437438439440441442443444445446447448449450451452453454455456457458459460461462463464465466467468469470471472473474475476477478479480481482483484485486487488489490491492493494495496497498499500501502503504505506507508509510511512513514515516517518519520521522523524525526527528529530531532533534535536537538539540541542543544545546547548549550551552553554555556557558559560561562563564565566567568569570571572573574575576577578579580581582583584585586587588589590591592593594595596597598599600601602603604605606607608
  1. #include "bbstring.h"
  2. #include "bbarray.h"
  3. bbString::Rep bbString::_nullRep;
  4. namespace{
  5. template<class C> int t_memcmp( const C *p1,const C *p2,int count ){
  6. return memcmp( p1,p2,count*sizeof(C) );
  7. }
  8. //returns END of dst!
  9. template<class C> C *t_memcpy( C *dst,const C *src,int count ){
  10. return (C*)memcpy( dst,src,count*sizeof(C) )+count;
  11. }
  12. int countUtf8Chars( const char *p,int sz ){
  13. const char *e=p+sz;
  14. int n=0;
  15. while( p!=e ){
  16. int c=*p++;
  17. if( c & 0x80 ){
  18. if( (c & 0xe0)==0xc0 ){
  19. if( p==e || (p[0] & 0xc0)!=0x80 ) return -1;
  20. p+=1;
  21. }else if( (c & 0xf0)==0xe0 ){
  22. if( p==e || p+1==e || (p[0] & 0xc0)!=0x80 || (p[1] & 0xc0)!=0x80 ) return -1;
  23. p+=2;
  24. }else{
  25. return -1;
  26. }
  27. }
  28. n+=1;
  29. }
  30. return n;
  31. }
  32. int countNullTerminatedUtf8Chars( const char *p,int sz ){
  33. const char *e=p+sz;
  34. int n=0;
  35. while( p!=e && *p ){
  36. int c=*p++;
  37. if( c & 0x80 ){
  38. if( (c & 0xe0)==0xc0 ){
  39. if( p==e || (p[0] & 0xc0)!=0x80 ) return -1;
  40. p+=1;
  41. }else if( (c & 0xf0)==0xe0 ){
  42. if( p==e || p+1==e || (p[0] & 0xc0)!=0x80 || (p[1] & 0xc0)!=0x80 ) return -1;
  43. p+=2;
  44. }else{
  45. return -1;
  46. }
  47. }
  48. n+=1;
  49. }
  50. return n;
  51. }
  52. void charsToUtf8( const bbChar *p,int n,char *dst,int size ){
  53. char *end=dst+size;
  54. const bbChar *e=p+n;
  55. while( p<e && dst<end ){
  56. bbChar c=*p++;
  57. if( c<0x80 ){
  58. *dst++=c;
  59. }else if( c<0x800 ){
  60. if( dst+2>end ) break;
  61. *dst++=0xc0 | (c>>6);
  62. *dst++=0x80 | (c & 0x3f);
  63. }else{
  64. if( dst+3>end ) break;
  65. *dst++=0xe0 | (c>>12);
  66. *dst++=0x80 | ((c>>6) & 0x3f);
  67. *dst++=0x80 | (c & 0x3f);
  68. }
  69. }
  70. if( dst<end ) *dst++=0;
  71. }
  72. void utf8ToChars( const char *p,bbChar *dst,int n ){
  73. while( n-- ){
  74. int c=*p++;
  75. if( c & 0x80 ){
  76. if( (c & 0xe0)==0xc0 ){
  77. c=((c & 0x1f)<<6) | (p[0] & 0x3f);
  78. p+=1;
  79. }else if( (c & 0xf0)==0xe0 ){
  80. c=((c & 0x0f)<<12) | ((p[0] & 0x3f)<<6) | (p[1] & 0x3f);
  81. p+=2;
  82. }
  83. }
  84. *dst++=c;
  85. }
  86. }
  87. }
  88. // ***** bbString::Rep *****
  89. bbString::Rep *bbString::Rep::alloc( int length ){
  90. if( !length ) return &_nullRep;
  91. Rep *rep=(Rep*)bbGC::malloc( sizeof(Rep)+length*sizeof(bbChar) );
  92. rep->refs=1;
  93. rep->length=length;
  94. return rep;
  95. }
  96. // ***** bbString *****
  97. bbString::bbString( const void *p ){
  98. const char *cp=(const char*)p;
  99. if( !cp ){
  100. _rep=&_nullRep;
  101. return;
  102. }
  103. int sz=strlen( cp );
  104. int n=countNullTerminatedUtf8Chars( cp,sz );
  105. if( n==-1 || n==sz ){
  106. _rep=Rep::create( cp,sz );
  107. return;
  108. }
  109. _rep=Rep::alloc( n );
  110. utf8ToChars( cp,_rep->data,n );
  111. }
  112. bbString::bbString( const void *p,int sz ){
  113. const char *cp=(const char*)p;
  114. if( !cp ){
  115. _rep=&_nullRep;
  116. return;
  117. }
  118. int n=countUtf8Chars( cp,sz );
  119. if( n==-1 || n==sz ){
  120. _rep=Rep::create( cp,sz );
  121. return;
  122. }
  123. _rep=Rep::alloc( n );
  124. utf8ToChars( cp,_rep->data,n );
  125. }
  126. bbString::bbString( const bbChar *data ):_rep( Rep::create( data ) ){
  127. }
  128. bbString::bbString( const bbChar *data,int length ):_rep( Rep::create( data,length ) ){
  129. }
  130. bbString::bbString( const wchar_t *data ):_rep( Rep::create( data ) ){
  131. }
  132. bbString::bbString( const wchar_t *data,int length ):_rep( Rep::create( data,length ) ){
  133. }
  134. #if __OBJC__
  135. bbString::bbString( NSString *str ):_rep( Rep::create( str.UTF8String ) ){
  136. }
  137. #endif
  138. int bbString::utf8Length()const{
  139. const bbChar *p=data();
  140. const bbChar *e=p+length();
  141. int n=0;
  142. while( p<e ){
  143. bbChar c=*p++;
  144. if( c<0x80 ){
  145. n+=1;
  146. }else if( c<0x800 ){
  147. n+=2;
  148. }else{
  149. n+=3;
  150. }
  151. }
  152. return n;
  153. }
  154. bbString::bbString( int n ){
  155. char data[64];
  156. sprintf( data,"%d",n );
  157. _rep=Rep::create( data );
  158. }
  159. bbString::bbString( unsigned int n ){
  160. char data[64];
  161. sprintf( data,"%u",n );
  162. _rep=Rep::create( data );
  163. }
  164. bbString::bbString( long n ){
  165. char data[64];
  166. sprintf( data,"%ld",n );
  167. _rep=Rep::create( data );
  168. }
  169. bbString::bbString( unsigned long n ){
  170. char data[64];
  171. sprintf( data,"%lu",n );
  172. _rep=Rep::create( data );
  173. }
  174. bbString::bbString( long long n ){
  175. char data[64];
  176. sprintf( data,"%lld",n );
  177. _rep=Rep::create( data );
  178. }
  179. bbString::bbString( unsigned long long n ){
  180. char data[64];
  181. sprintf( data,"%llu",n );
  182. _rep=Rep::create( data );
  183. }
  184. bbString::bbString( float n ){
  185. char data[64];
  186. sprintf( data,"%.9g",n );
  187. _rep=Rep::create( data );
  188. }
  189. bbString::bbString( double n ){
  190. char data[64];
  191. sprintf( data,"%.17g",n );
  192. _rep=Rep::create( data );
  193. }
  194. void bbString::toCString( void *buf,int size )const{
  195. charsToUtf8( _rep->data,_rep->length,(char*)buf,size );
  196. }
  197. void bbString::toWString( void *buf,int size )const{
  198. size=size/sizeof(wchar_t);
  199. if( size<=0 ) return;
  200. int sz=length();
  201. if( sz>size ) sz=size;
  202. for( int i=0;i<sz;++i ) ((wchar_t*)buf)[i]=data()[i];
  203. if( sz<size ) ((wchar_t*)buf)[sz]=0;
  204. }
  205. const char *bbString::c_str()const{
  206. static int _sz;
  207. static char *_tmp;
  208. int sz=utf8Length()+1;
  209. if( sz>_sz ){
  210. ::free( _tmp );
  211. _tmp=(char*)::malloc( _sz=sz );
  212. }
  213. toCString( _tmp,sz );
  214. return _tmp;
  215. }
  216. bool bbString::startsWith( const bbString &str )const{
  217. if( str.length()>length() ) return false;
  218. return t_memcmp( data(),str.data(),str.length() )==0;
  219. }
  220. bool bbString::endsWith( const bbString &str )const{
  221. if( str.length()>length() ) return false;
  222. return t_memcmp( data()+(length()-str.length()),str.data(),str.length() )==0;
  223. }
  224. bbString bbString::fromChar( int chr ){
  225. wchar_t chrs[]={ wchar_t(chr) };
  226. return bbString( chrs,1 );
  227. }
  228. bbArray<bbString> bbString::split( bbString sep )const{
  229. if( !sep.length() ){
  230. bbArray<bbString> bits=bbArray<bbString>( length() );
  231. for( int i=0;i<length();++i ){
  232. bits[i]=bbString( &data()[i],1 );
  233. }
  234. return bits;
  235. }
  236. int i=0,i2,n=1;
  237. while( (i2=find( sep,i ))!=-1 ){
  238. ++n;
  239. i=i2+sep.length();
  240. }
  241. bbArray<bbString> bits=bbArray<bbString>( n );
  242. if( n==1 ){
  243. bits[0]=*this;
  244. return bits;
  245. }
  246. i=0;n=0;
  247. while( (i2=find( sep,i ))!=-1 ){
  248. bits[n++]=slice( i,i2 );
  249. i=i2+sep.length();
  250. }
  251. bits[n]=slice( i );
  252. return bits;
  253. }
  254. bbString bbString::join( bbArray<bbString> bits )const{
  255. if( bits.length()==0 ) return bbString();
  256. if( bits.length()==1 ) return bits[0];
  257. int len=length() * (bits.length()-1);
  258. for( int i=0;i<bits.length();++i ) len+=bits[i].length();
  259. Rep *rep=Rep::alloc( len );
  260. bbChar *p=rep->data;
  261. p=t_memcpy( p,bits[0].data(),bits[0].length() );
  262. for( int i=1;i<bits.length();++i ){
  263. p=t_memcpy( p,data(),length() );
  264. p=t_memcpy( p,bits[i].data(),bits[i].length() );
  265. }
  266. return rep;
  267. }
  268. bbString bbString::fromChars( bbArray<int> chrs ){
  269. return Rep::create( chrs.data(),chrs.length() );
  270. }
  271. bbString bbString::operator-()const{
  272. Rep *rep=Rep::alloc( length() );
  273. const bbChar *p=data()+length();
  274. for( int i=0;i<rep->length;++i ) rep->data[i]=*--p;
  275. return rep;
  276. }
  277. bbString bbString::operator+( const bbString &str )const{
  278. if( !length() ) return str;
  279. if( !str.length() ) return *this;
  280. Rep *rep=Rep::alloc( length()+str.length() );
  281. t_memcpy( rep->data,data(),length() );
  282. t_memcpy( rep->data+length(),str.data(),str.length() );
  283. return rep;
  284. }
  285. bbString bbString::operator*( int n )const{
  286. Rep *rep=Rep::alloc( length()*n );
  287. bbChar *p=rep->data;
  288. for( int j=0;j<n;++j ){
  289. for( int i=0;i<_rep->length;++i ) *p++=data()[i];
  290. }
  291. return rep;
  292. }
  293. int bbString::find( bbString str,int from )const{
  294. if( from<0 ) from=0;
  295. for( int i=from;i<=length()-str.length();++i ){
  296. if( !t_memcmp( data()+i,str.data(),str.length() ) ) return i;
  297. }
  298. return -1;
  299. }
  300. int bbString::findLast( const bbString &str,int from )const{
  301. if( from<0 ) from=0;
  302. for( int i=length()-str.length();i>=from;--i ){
  303. if( !t_memcmp( data()+i,str.data(),str.length() ) ) return i;
  304. }
  305. return -1;
  306. }
  307. bbString bbString::slice( int from )const{
  308. int length=this->length();
  309. if( from<0 ){
  310. from+=length;
  311. if( from<0 ) from=0;
  312. }else if( from>length ){
  313. from=length;
  314. }
  315. if( !from ) return *this;
  316. return bbString( data()+from,length-from );
  317. }
  318. bbString bbString::slice( int from,int term )const{
  319. int length=this->length();
  320. if( from<0 ){
  321. from+=length;
  322. if( from<0 ) from=0;
  323. }else if( from>length ){
  324. from=length;
  325. }
  326. if( term<0 ){
  327. term+=length;
  328. if( term<from ) term=from;
  329. }else if( term<from ){
  330. term=from;
  331. }else if( term>length ){
  332. term=length;
  333. }
  334. if( !from && term==length ) return *this;
  335. return bbString( data()+from,term-from );
  336. }
  337. bbString bbString::toUpper()const{
  338. Rep *rep=Rep::alloc( length() );
  339. for( int i=0;i<length();++i ) rep->data[i]=std::toupper( data()[i] );
  340. return rep;
  341. }
  342. bbString bbString::toLower()const{
  343. Rep *rep=Rep::alloc( length() );
  344. for( int i=0;i<length();++i ) rep->data[i]=std::tolower( data()[i] );
  345. return rep;
  346. }
  347. bbString bbString::capitalize()const{
  348. if( !length() ) return &_nullRep;
  349. Rep *rep=Rep::alloc( length() );
  350. rep->data[0]=std::toupper( data()[0] );
  351. for( int i=1;i<length();++i ) rep->data[i]=data()[i];
  352. return rep;
  353. }
  354. bbString bbString::trim()const{
  355. const bbChar *beg=data();
  356. const bbChar *end=data()+length();
  357. while( beg!=end && *beg<=32 ) ++beg;
  358. while( beg!=end && *(end-1)<=32 ) --end;
  359. if( end-beg==length() ) return *this;
  360. return bbString( beg,end-beg );
  361. }
  362. bbString bbString::trimStart()const{
  363. const bbChar *beg=data();
  364. const bbChar *end=data()+length();
  365. while( beg!=end && *beg<=32 ) ++beg;
  366. if( end-beg==length() ) return *this;
  367. return bbString( beg,end-beg );
  368. }
  369. bbString bbString::trimEnd()const{
  370. const bbChar *beg=data();
  371. const bbChar *end=data()+length();
  372. while( beg!=end && *(end-1)<=32 ) --end;
  373. if( end-beg==length() ) return *this;
  374. return bbString( beg,end-beg );
  375. }
  376. bbString bbString::dup( int n )const{
  377. Rep *rep=Rep::alloc( length()*n );
  378. bbChar *p=rep->data;
  379. for( int j=0;j<n;++j ){
  380. for( int i=0;i<_rep->length;++i ) *p++=data()[i];
  381. }
  382. return rep;
  383. }
  384. bbString bbString::replace( const bbString &str,const bbString &repl )const{
  385. int n=0;
  386. for( int i=0;; ){
  387. i=find( str,i );
  388. if( i==-1 ) break;
  389. i+=str.length();
  390. ++n;
  391. }
  392. if( !n ) return *this;
  393. Rep *rep=Rep::alloc( length()+n*(repl.length()-str.length()) );
  394. bbChar *dst=rep->data;
  395. for( int i=0;; ){
  396. int i2=find( str,i );
  397. if( i2==-1 ){
  398. t_memcpy( dst,data()+i,(length()-i) );
  399. break;
  400. }
  401. t_memcpy( dst,data()+i,(i2-i) );
  402. dst+=(i2-i);
  403. t_memcpy( dst,repl.data(),repl.length() );
  404. dst+=repl.length();
  405. i=i2+str.length();
  406. }
  407. return rep;
  408. }
  409. int bbString::compare( const bbString &t )const{
  410. int len=length()<t.length() ? length() : t.length();
  411. for( int i=0;i<len;++i ){
  412. if( int n=data()[i]-t.data()[i] ) return n;
  413. }
  414. return length()-t.length();
  415. }
  416. bbString::operator bbInt()const{
  417. return std::atoi( c_str() );
  418. }
  419. bbString::operator bbByte()const{
  420. return operator bbInt() & 0xff;
  421. }
  422. bbString::operator bbUByte()const{
  423. return operator bbInt() & 0xffu;
  424. }
  425. bbString::operator bbShort()const{
  426. return operator bbInt() & 0xffff;
  427. }
  428. bbString::operator bbUShort()const{
  429. return operator bbInt() & 0xffffu;
  430. }
  431. bbString::operator bbUInt()const{
  432. bbUInt n=0;
  433. sscanf( c_str(),"%u",&n );
  434. return n;
  435. }
  436. bbString::operator bbLong()const{
  437. bbLong n=0;
  438. sscanf( c_str(),"%lld",&n );
  439. return n;
  440. }
  441. bbString::operator bbULong()const{
  442. bbULong n=0;
  443. sscanf( c_str(),"%llu",&n );
  444. return n;
  445. }
  446. bbString::operator float()const{
  447. return std::atof( c_str() );
  448. }
  449. bbString::operator double()const{
  450. return std::atof( c_str() );
  451. }
  452. // ***** CString *****
  453. bbCString::bbCString( const bbString &str ){
  454. int size=str.utf8Length()+1;
  455. _data=(char*)bbGC::malloc( size );
  456. str.toCString( _data,size );
  457. }
  458. bbCString::~bbCString(){
  459. bbGC::free( _data );
  460. }
  461. bbCString::operator char*()const{
  462. return _data;
  463. }
  464. bbCString::operator signed char*()const{
  465. return (signed char*)_data;
  466. }
  467. bbCString::operator unsigned char*()const{
  468. return (unsigned char*)_data;
  469. }
  470. // ***** WString *****
  471. bbWString::bbWString( const bbString &str ){
  472. int size=(str.length()+1)*sizeof(wchar_t);
  473. _data=(wchar_t*)bbGC::malloc( size );
  474. str.toWString( _data,size );
  475. }
  476. bbWString::~bbWString(){
  477. bbGC::free( _data );
  478. }
  479. bbWString::operator wchar_t*()const{
  480. return _data;
  481. }